سی‌پی‌یو (CPU) چیست + تاریخچه سی‌پی‌یو

سی‌پی‌یو (به انگلیسی: Central Processing Unit یا CPU) یا پردازنده (به انگلیسی: Processor)، یکی از اجزاء رایانه می‌باشد که فرامین و اطلاعات را مورد پردازش قرار می‌دهد. واحدهای پردازش مرکزی ویژگی پایه‌ای قابل برنامه‌ریزی شدن را در رایانه‌های دیجیتال فراهم می‌کنند، و یکی از مهم‌ترین اجزاء رایانه‌ها هستند. یک پردازندهٔ مرکزی، مداری یکپارچه می‌باشد که معمولاً به عنوان ریزپردازنده شناخته می‌شود. امروزه عبارت CPU معمولاً برای ریزپردازنده‌ها به کار می‌رود.

عبارت «Central Processor Unit» (واحد پردازندهٔ مرکزی) یک ردهٔ خاص از ماشین را معرفی می‌کند که می‌تواند برنامه‌های رایانه را اجرا کند. این عبارت گسترده را می‌توان به راحتی به بسیاری از رایانه‌هایی که بسیار قبل‌تر از عبارت "CPU" بوجود آمده بودند نیز تعمیم داد. به هر حال این عبارت و شروع استفاده از آن در صنعت رایانه، از اوایل سال ۱۹۶۰ رایج شد. شکل، طراحی و پیاده‌سازی پردازنده‌ها نسبت به طراحی اولیه آنها تغییر کرده‌است ولی عملگرهای بنیادی آنها همچنان به همان شکل باقی‌مانده‌است.
پردازنده‌های اولیه به عنوان یک بخش از سامانه‌ای بزرگ‌تر که معمولاً یک نوع رایانه‌است، دارای طراحی سفارشی بودند. این روش گران‌قیمت طراحی سفارشی پردازنده‌ها برای یک بخش خاص، به شکل قابل توجهی، مسیر تولید انبوه آنرا که برای اهداف زیادی قابل استفاده بود فراهم نمود. این استانداردسازی روند قابل ملاحظه‌ای را در عصر مجزای ابر رایانه‌های ترانزیستوری و ریز کامپیوترها آغاز نمود و راه عمومی نمودن مدارات مجتمع(IC یا Integrated Circuit) را سرعت فراوانی بخشید. یک مدار مجتمع، امکان افزایش پیچیدگی‌ها برای طراحی پردازنده‌ها و ساختن آنها در مقیاس کوچک را (در حد میلیمتر) امکان‌پذیر می‌سازد. هر دو فرایند (کوچک سازی و استانداردسازی پردازنده‌ها)، حضور این تجهیزات رقمی را در زندگی مدرن گسترش داد و آن را به فراتر از یک دستگاه خاص مانند رایانه تبدیل کرد. ریزپردازنده‌های جدید را در هر چیزی از خودروها گرفته تا تلفن‌های همراه و حتی اسباب بازی‌های کودکان می‌توان یافت.

مدت زمان انجام یک کار به‌وسیله رایانه، به عوامل متعددی بستگی دارد که اولین آنها، سرعت پردازشگر رایانه‌است. پردازشگر یک تراشه الکترونیکی کوچک در قلب کامپیوتر است و سرعت آن بر حسب مگاهرتز یا گیگاهرتز سنجیده می‌شود. هر چه مقدار این پارامتر بیشتر باشد، پردازشگر سریعتر خواهد بود و در نتیجه قادر خواهد بود، محاسبات بیشتری را در هر ثانیه انجام دهد. سرعت پردازشگر به عنوان یکی از مشخصه‌های یک کامپیوتر به قدری در تعیین کارایی آن اهمیت دارد که معمولاً به عنوان یکی از اجزای تشکیل دهنده نام کامپیوتر از آن یاد می‌شود. تراشه پردازشگر و اجزای الکترونیکی که آن را پشتیبانی می‌کنند، مجموعاً به عنوان واحد پردازش مرکزی یا CPU شناخته شده هست

واحد پردازش مرکزی واحد محاسباتی (ALU) و کنترلی (CU) رایانه‌است که دستورالعمل‌ها را تفسیر و اجرا می‌کند. رایانه‌های بزرگ و ریزرایانه‌های قدیمی بردهایی پر از مدارهای مجتمع داشته‌اند که عمل پردازش را انجام می‌داده‌اند. تراشه‌هایی که ریز پردازنده نامیده می‌شوند، امکان ساخت رایانه‌های شخصی و ایستگاه‌های کاری (Work Station) را میسر ساخته‌اند.

در اصطلاح عامیانه CPU به عنوان مغز رایانه شناخته می‌شود.

تاریخچه

رله‌ها و لامپ‌های خلأ که عموماً به عنوان عناصر سوئیچینگ مورد استفاده قرار می‌گرفتند. یک کامپیوتر مفید به هزاران یا صدها هزار از این المان‌های سوئیچینگ نیاز دارد و سرعت کلی سیستم به سرعت این سوئیچ‌ها وابسته است. کامپیوترهای لامپ خلأ نزیر EDVAC تقریباً ۸ ساعت بدون خرابی کار می‌کردند در حالی که کامپیوترهای رله‌ای مانند طراحی هاروارد خیلی زودتر با مشکل مواجه می‌شدند. در نهایت CPUهای بر پایه لامپ خلأ به دلیل سرعت قابل توجه و قابلیت اطمینان بیشتر برهم نوعان خود پیروز شدند. اغلب CPUهای سنکرون نسبت به CPUهای مدرن با فرکانس کلاک کمتری در حد ۱۰۰Hz تا ۴ MHz کار می‌کردند که این محدودیت به دلیل سرعت کم المان‌های سوئیچ بود. سخت‌افزار - واحد پردازش مرکزی - CPU (قسمت اول) vida - جمعه، ۲۰ مهر ماه، ۱۳۸۶ ۲۳:۴۲:۴۳ موضوع: واحد پردازش مرکزی - CPU (قسمت اول) CPU و اجزای داخلی آن: CPU یا واحد پردازش مرکزی (Central Process Unit)، بخشی از سیستم‌های پردازشی و رایانه‌ها است که وظیفهٔ آن پردازش اطلاعات، با توجه به برنامهٔ در نظر گرفته شده برای آن است. یک CPU از یک چیپ که متشکل از تعداد زیادی ترانزیستور است (بین چند هزار تا چند میلیون که بستگی به مشخصات CPU دارد) تشکیل شده‌است. بلوک دیاگرام داخلی یک CPU به‌طور خلاصه در شکل زیر نشان داده شده‌است: ALU واحد محاسبات و منطق (Arithmetic Logic Unit) است که وظیفهٔ آن انجام عملیات منطقی نظیر جمع، تفریق و … و همچنین عملیاتی نظیر AND , OR و … بر روی داده‌ها است. یک ALU را به‌طور خلاصه می‌توان یک جمع‌کننده کامل در نظر گرفت؛ البته با پیچیدگی‌های خاص خود. Registerها وظیفهٔ نگهداری اطلاعات را به صورت موقت در داخل CPU بر عهده دارند که این اطلاعات می‌تواند اطلاعات دریافتی از درگاه‌های ورودی باشد (پورتها) یا اطلاعات حاصل از انجام عملیات منطقی. البته معمولاً یک رجیستر مخصوص که به آن انباره یا آکامالاتور نیز گفته می‌شود وجود دارد که در اکثر عملیات منطقی شرکت می‌کند. واحد Memory Interface وظیفهٔ ایجاد ارتباط با حافظهٔ جانبی را بر عهده دارد که عمل خواندن یا نوشتن از حافظه و انتقال اطلاعات بین CPU و حافظه نیز از وظایف مربوط به این بخش است. واحد Instruction Fetcher اطلاعات مربوط به دستور العمل‌های اجرایی را از واحد حافظه دریافت و به واحد رمز گشایی (Instruction Decoder) تحویل می‌دهد. به عبارت دیگر وظیفهٔ بخش Instruction Fetcher، واکشی کدهای دستور از حافظه با کمک بخش Memory Interface و اعمال آن به بخش رمزگشایی است. واحد رمزگشایی نیز پس از دریافت کد مربوط به دستور مورد نظر، آن را رمز گشایی و عمل مربوط به آن را انجام می‌دهد. فاکتورهای مهم در یک CPU: هر CPU با یک سری از خصوصیات و فاکتورهایی در ساختار طراحی و تولید خود شناخته می‌شود که مهمترین فاکتورها عبارتند از: - پهنای گذرگاه داده: این خصوصیات به مشخصات ALU و رجیسترهای مرتبط با آن بستگی دارد و بیانگر این است که اطلاعات پردازش شده توسط CPU چند بیتی است. به عنوان نمونه یک CPU که گذرگاه دادهٔ آن ۱۶ بیتی است، توانایی پردازش اطلاعات و دستورها را به صورت ۱۶ بیتی دارد و به همین دلیل به آن پردازندهٔ ۱۶ بیتی اطلاق می‌شود. - پهنای گذرگاه آدرس: همان‌طور که در شکل نیز نشان داده شد، اطلاعات و همچنین دستورالعمل‌های اجرایی در واحدهای خارجی از CPU نگهداری می‌شوند. توسط گذرگاه آدرس می‌توان حافظه‌ها و پورت‌های خروجی را آدرس دهی کرد تا به این وسیله بتوان به آنها نظم بخشید و با آنها ارتباط برقرار کرد. پهنای گذرگاه آدرس، نشان دهندهٔ توانایی CPU در آدرس دهی حافظه‌ها یا پورت‌های خارجی می‌باشد. به عنوان نمونه یک CPU با گذرگاه ۱۶ بیتی، توانایی آدرس دهی ۶۵۵۳۶ خانه از حافظهٔ خارجی را دارد. - فرکانس کاری: فرکانس کاری یک CPU بیانگر سرعت کاری آن است و هر میزان بالاتر باشد، CPU سریعتر عمل می‌کند و اطلاعات را پردازش می‌کند. در حال حاضر CPUهای ساخته شده تا محدودهٔ سرعت چند میلیون دستور در ثانیه به پردازش اطلاعات می‌پردازند. - شرکت سازنده: که بیانگر این است که CPU توسط کدام کمپانی ساخته شده‌است و به کدام خانواده از CPUها تعلق دارد که معروف‌ترین آنها عبارتند از Intel ,IBM , AMD , Syrex , Motorola, IDT, NIC , IIT. البته طراحی و خصوصیات یک CPU به شرایطی که قرار است در ان به کار گرفته شود بستگی دارد و سرعت و … با توجه به این موضوع تعیین می‌شود. به عنوان مثال CPUهایی که باید در ابر کامپیوترها به کار گرفته می‌شوند با CPUهایی که در سیستم‌های کنترلی کوچک به کار گرفته می‌شوند دارای تفاوت‌های بسیار در سطح قدرت پردازش هستند، اما هر کدام با توجه به شرایط کاری خود طراحی شده‌اند. بر همین اساس در سیستم‌های پردازشی کوچک به جای پردازنده‌ها، از ریز پردازنده‌ها استفاده می‌شود که دارای سرعت، حجم و امکانات کمتری نسبت به پردازنده‌های معمول هستند، اما با این حال به خوبی از عهدهٔ کنترل سیستمهای کوچک بر می ایند و در ساخت اینگونه سیستم‌ها به کار گیری آنها بسیار با صرفه تر و آسانتر از به کار گیری پردازنده‌ها است. نمونه ای از این ریز پردازنده‌ها، Z80 و ۸۰۸۶ هستند که از نظر ساختاری بسیار منطبق با مطالب گفته شده هستند. به‌طور مثال بلوک دیاگرام داخلی ریز پردازندهٔ Z80 در شکل زیر نشان داده شده‌است: نکته: موارد گفته شده تنها بررسی یک CPU به صورت کلی بود، اما در مواردی ممکن است که اجزای داخلی CPU، بیش از موارد گفته شده باشد که بستگی به نوع و طراحی CPU دارد. حافظهٔ کش یکی از این موارد است که امروزه در اکثر CPUها که برای اعمال پردازشی نسبتاً سنگین طراحی شده‌اند، در حجم‌های مختلف قرار داده شده‌است.

ترانزیستورهای گسسته و مدارات مجتمع (واحد پردازش مرکزی)

پیچیدگی طراحی پردازنده‌ها هم‌زمان با افزایش سریع فناوری‌های متنوع که ساختارهای کوچک‌تر و قابل اطمینان تری را در وسایل الکترونیک باعث می‌شد، افزایش یافت. اولین موفقیت با ظهور اولین ترانزیستورها حاصل شد. پردازنده‌های ‍‍ترانزیستوری در طول دهه‌های ۵۰ و ۶۰ میلادی زمان زیادی نبود که اختراع شده بود و این در حالی بود که آنها بسیار حجیم، غیرقابل اعتماد و دارای المانهای سوئیچینگ شکننده مانند لامپ‌های خلأ و رله‌های الکتریکی بودند. با چنین پیشرفتی پردازنده‌هایی با پیچیدگی و قابلیت اعتماد بیشتری بر روی یک یا چندین برد مدار چاپی که شامل قسمت‌های تفکیک شده بودند ساخته شدند.

ریزپردازنده‌ها

پیدایش ریز پردازنده‌ها در سال ۱۹۷۰ به‌طور قابل توجهی در طراحی و پیاده‌سازی پردازنده‌ها تأثیر گذار بود. از زمان ابداع اولین ریزپردازنده (اینتل۴۰۰۴)در سال ۱۹۷۰ و اولین بهره‌برداری گسترده از ریزپردازنده اینتل ۸۰۸۰ در سال ۱۹۷۴، این روند رو به رشد ریزپردازنده‌ها از دیگر روشهای پیاده‌سازی واحدهای پردازش مرکزی (CPU) پیشی گرفت، کارخانجات تولید ابر کامپیوترها و کامپیوترهای شخصی در آن زمان اقدام به تولید مدارات مجتمع با برنامه‌ریزی پیشرفته نمودند تا بتوانند معماری قدیمی کامپیوترهای خود را ارتقا دهند و در نهایت ریز پردازنده‌ای سازگار با مجموعه دستورالعمل‌ها ی خود تولید کردند که با سخت‌افزار و نرم‌افزارهای قدیمی نیز سازگار بودند. با دستیابی به چنین موفقیت بزرگی امروزه در تمامی کامپیوترهای شخصی CPUها منحصراً از ریز پردازنده‌ها استفاده می‌کنند.

عملکرد ریزپردازنده‌ها

کارکرد بنیادی بیشتر ریزپردازنده‌ها علی‌رغم شکل فیزیکی که دارند، اجرای ترتیبی برنامه‌های ذخیره شده را موجب می‌شود. بحث در این مقوله نتیجه پیروی از قانون رایج نیومن را به همراه خواهد داشت. برنامه توسط یک سری از اعداد که در بخشی از حافظه ذخیره شده‌اند نمایش داده می‌شود. چهار مرحله که تقریباً تمامی ریزپردازنده‌هایی که از قانون فون نیومن در ساختارشان استفاده می‌کنند از آن پیروی می‌کنند عبارت‌اند از: فراخوانی، رمزگشایی، اجرا و بازگشت برای نوشتن مجدد.

طراحی و اجرا

مفهوم اساسی یک سی پی یو به صورت زیر است: در طراحی یک سی پی یو یک لیست از عملیات بنام مجموعهٔ دستوری بصورت ذاتی وجود دارد که سی پی یو آن‌ها را انجام می‌دهد. چنین عملیاتی ممکن است شامل جمع کردن یا تفریق کردن دو عدد، مقایسهٔ اعداد یا پرش به بخشی دیگر از یک برنامه باشد. هرکدام از این عملیات پایه‌ای توسط توالی خاصی از بیت‌ها نمایش داده می‌شود که این توالی برای چنین عملیات خاصی اپکد نام دارد. فرستادن یک اپکد خاص به یک سی پی یو باعث می‌شود تا سی پی یو عملی را که توسط اپکد مذکور نمایش داده می‌شود انجام دهد. برای اجرای یک دستور در یک برنامهٔ کامپیوتری، سی پی یو از اپکد دستور مذکور و نیز نشانوندهای آن (برای مثال، در مورد یک عمل جمع، دو عددی که قرار است با هم جمع شوند) استفاده می‌کند. عمل ریاضی واقعی برای هر دستور توسط یک زیرواحد از سی پی یو به نام واحد محاسبه و منطق (ALU)انجام می‌گیرد. یک سی پی یو علاوه بر اینکه از ALU خودش برای انجام اعمال استفاده می‌کند، اعمال دیگری نظیر: خواندن دستور بعدی از حافظه، خواندن اطلاعات مشخص شده بصورت نشانوند از حافظه و نوشتن یافته‌های حاصل در حافظه را نیز به عهده دارد. در بسیاری از طراحی‌های سی پی یو، یک مجموعهٔ دستوری مشخصا بین اعمالی که اطلاعات را از حافظه بارگیری می‌کنند و اعمال ریاضی افتراق می‌دهد. در این مورد اطلاعات بارگیری شده از حافظه در رجیستریها ذخیره می‌شود و یک عمل ریاضیاتی هیچ گونه نشانوندی نمی‌گیرد بلکه بسادگی عمل محاسباتی مذکور را روی اطلاعات موجود در رجیستریها انجام داده و آن را در یک رجیستر جدید می‌نویسد.

دامنه صحیح

روشی که یک پردازنده از طریق آن اعداد را نمایش می‌دهد یک روش انتخابی در طراحی است که البته در بسیاری از راه‌های اصولی اثر گذار است. در برخی از کامپیوترهای دیجیتالی اخیر از یک مدل الکترونیکی بر پایه سیستم شمارش دسیمال (مبنای ده) برای نمایش اعداد استفاده شده‌است. برخی دیگر از کامپیوترها از یک سیستم نامتعارف شمارشی مانند سیستم سه تایی (مبنای سه) استفاده می‌کنند. در حال حاضر تمامی پردازنده‌های پیشرفته اعداد را به صورت دودویی (مبنای دو) نمایش می‌دهند که در آن هر عدد به وسیله چندین کمیت فیزیکی دو ارزشی مانند ولتاژ بالا و پایین نمایش داده می‌شوند.

علت نمایش دهی از طریق اعداد حجم کم و دقت بالا در اعدادی است که پردازشگر می‌تواند نمایش دهد. در حالت دودویی پردازنده‌ها، یک بیت به یک مکان مشخص در پردازنده اطلاق می‌شود که پردازنده با آن به صورت مستقیم در ارتباط است. ارزش بیت (مکانهای شمارشی) یک پردازنده که برای نمایش اعداد بکار برده می‌شود «بزرگی کلمه»، «پهنای بیت»، «پهنای گذرگاه اطلاعات» یا «رقم صحیح» نامیده می‌شود؛ که البته این اعداد گاهی در بین بخش‌های مختلف پردازنده‌های کاملاً یکسان نیز متفاوت است. برای مثال یک پردازنده ۸ بیتی به محدوده‌ای از اعداد دسترسی دارد که می‌تواند با هشت رقم دودویی (هر رقم دو مقدار می‌تواند داشته باشد) ۲ یا ۲۵۶ عدد گسسته نمایش داده شود. نتیجاتا مقدار صحیح اعداد باعث می‌شود که سخت‌افزار در محدوده‌ای از اعداد صحیح که قابل اجرا برای نرم‌افزار باشد محدود شود و بدین وسیله توسط پردازنده مورد بهره‌برداری قرار گیرد.

پالس ساعت

اکثر پردازنده‌ها و در حقیقت اکثر دستگاه‌هایی که با منطق پالسی و تناوبی کار می‌کنند به صورت طبیعی باید سنکرون یا هم‌زمان باشند. این بدان معناست که آنها به منظور هم‌زمان سازی سیگنالها طراحی و ساخته شده‌اند. این سیگنالها به عنوان سیگنال ساعت (پالس ساعت) شناخته می‌شوند و معمولاً به صورت یک موج مربعی پریودیک (متناوب) می‌باشند. برای محاسبه بیشترین زمانی که سیگنال قادر به حرکت از قسمت‌های مختلف مداری پردازنده‌است، طراحان یک دوره تناوب مناسب برای پالس ساعت انتخاب می‌کنند. این دوره تناوب باید از مقدار زمانی که برای حرکت سیگنال یا انتشار سیگنال در بدترین شرایط ممکن صرف می‌شود بیشتر باشد. برای تنظیم دوره تناوب باید پردازنده‌ها باید مطابق حساسیت به لبه‌های پایین رونده یا بالا رونده حرکت سیگنال در بدترین شرایط تأخیر طراحی و ساخته شوند. در واقع این حالت هم از چشم‌انداز طراحی و هم از نظر میزان اجزای تشکیل دهنده یک مزیت ویژه در ساده‌سازی پردازنده‌ها محسوب می‌شود. اگرچه معایبی نیز دارد، از جمله اینکه پردازنده باید منتظر المانهای کندتر بماند، حتی اگر قسمت‌هایی از آن سریع عمل کنند. این محدودیت به مقدار زیادی توسط روشهای گوناگون افزایش قدرت موازی سازی (انجام کارها به صورت هم‌زمان) پردازنده‌ها قابل جبران است. پالش ساعت شامل یک لبه بالا روند و یک لبه پایین رونده است که این تغییر حالت با تغییر ولتاژ صورت می‌پذیرد.

موازی گرایی (پاراللیسم)

توصیفی که از عملکرد پایه‌ای یک سی پی یو در بخش قبلی شد، ساده‌ترین فرمی است که یک سی پی یو می‌تواند داشته باشد. این نوع از سی پی یو که معمولاً آن را ساب اسکیلر می‌نامند، یک دستور را روی یک یا دو جزو اطلاعاتی، در یک زمان اجرا می‌کند. این فرایند موجب یک ناکارآمدی ذاتی در سی پی یوهای ساب اسکیلر می‌شود. از آنجایی که فقط یک دستور در یک زمان اجرا می‌شود، کل سی پی یو باید منتظر بماند تا آن دستور کامل شود تا بتواند به دستور بعدی برود. در نتیجه سی پی یوهای ساب اسکیلر در موارد دستوری که بیش از یک پالس ساعت (چرخهٔ ساعتی) برای اجرا شدن کامل طول می‌کشند، معلق می‌ماند. حتی اضافه کردن یک واحد اجرایی دیگر بهبود زیادی روی عملکرد ندارد، و در این حالت به جای اینکه یک مسیر معلق باشد، دو مسیر معلق می‌ماند و تعداد ترانزیستورهای بلااستفاده افزایش می‌یابد. این طراحی، که در آن منابع اجرایی سی پی یو می‌تواند فقط یک دستور در یک زمان اجرا کند، قادر خواهد بود تا فقط احتمالاً به عملکردی در حد اسکیلر (یک دستور در یک clock) برسد. با این وجود عملکرد آن تقریباً همیشه ساب اسکیلر (کمتر از یک دستور در یک چرخه) است.

تلاش برای رسیدن به عملکردی در حد اسکیلر یا بهتر از آن منجر به طیفی از روش‌های طراحی شد که باعث می‌شود تا سی پی یو کمتر بصورت خطی و بیشتر به صورت موازی عمل کند. در هنگام استفاده از ترم پاراللیسم برای سی پی یوها، دو اصطلاح بطور کلی برای طبقه‌بندی این تکنیک‌های طراحی استفاده می‌شود. پاراللیسم در سطح دستوری (ILP) که هدف آن افزایش سرعت اجرای دستورها در داخل یک سی پی یو است (یا به عبارتی افزایش استفاده از منابع اجرایی روی همان چیپ (on-die))، و پاراللیسم در سطح thread که هدف آن افزایش تعداد threadهایی است (بطور مؤثر برنامه‌های جداگانه) که یک سی پی یو می‌تواند بطور همزمان اجرا کند. هر روش با روش دیگر از نظر نحوهٔ اجرا و نیز تأثیر نسبی آنها در افزایش عملکرد سی پی یو برای یک برنامه متفاوت است.

پاراللیسم در سطح دستوری

یکی از ساده‌ترین شیوه‌های مورد استفاده برای انجام افزایش پاراللیسم این است که اولین مراحل fetching و decoding دستوری را پیش از اینکه اجرای دستور قبلی تمام شود، شروع کنیم. این روش ساده‌ترین فرم یک تکنیک بنام instruction pipelining است و در تقریباً تمام سی پی یوهای عمومی جدید استفاده می‌شود. پایپ لاینینگ، با شکستن مسیر دستوری و تبدیل ان به مراحل جداگانه، باعث می‌شود تا در هر زمان بیش از یک دستور اجرا شود. این جدا کردن را می‌توان با خط مونتاژ مقایسه کرد که در آن یک دستور در هر مرحله کاملتر می‌شود تا اینکه کامل شود.

با این وجود pipelining ممکن است موقعیتی را بوجود آورد که در آن یافته‌های عمل قبلی برای کامل کردن عمل بعدی لازم است. این وضعیت را معمولاً آشفتگی ناشی از وابستگی می‌نامند. برای جلوگیری از این وضعیت، باید توجه بیشتری شود تا در صورت رخ دادن این شرایط بخشی از خط تولید دستوری را به تأخیر اندازیم. بطور طبیعی برآورده کردن این شرایط نیازمند مدارهایی اضافه‌است، بنابراین پردازنده‌های pipelined پیچیده‌تر از انواع ساب اسکیلر هستند (البته نه خیلی چشمگیر). یک پردازندهٔ pipelined می‌تواند بسیار نزدیک به حد اسکیلر شود، در این شرایط تنها مانع موجود stallها (دستوری که بیش از یک چرخهٔ ساعتی در یک مرحله طول می‌کشد) هستند. ارتقاء بیشتر در مورد ایدهٔ instruction pipelining منجر به ایجاد روشی شده‌است که زمان خالی اجزای سی پی یو را حتی به میزان بیشتری کاهش می‌دهد. طراحی‌هایی که گفته می‌شود سوپراسکیلر هستند شامل یک خط ایجاد(pipeline) دستور طولانی و واحدهای اجرایی مشابه متعدد هستند. در یک خط ایجاد سوپرسکیلر دستورهای متعددی خوانده شده و به dispatcher (توزیع گر) می‌روند، توزیع گر تصمیم می‌گیرد که آیا دستورها مذکور می‌توانند بطور موازی (همزمان) اجرا شوند یا نه. در صورتی که پاسخ مثبت باشد، دستورها مذکور به واحدهای اجرایی موجود ارسال (dispatch) می‌شوند. این کار باعث می‌شود تا چندین دستور به‌طور همزمان اجرا شوند. به‌طور کلی هرقدر یک سی پی یوی سوپرسکیلر بتواند دستورها بیشتری را بطور همزمان به واحدهای اجرایی در حال انتظار ارسال (dispatch) کند، دستورها بیشتری در یک سیکل مشخص اجرا می‌شوند.

بیشترین دشواری در طراحی یک معماری سوپرسکیلر سی پی یو مربوط به ساخت یک dispatcher مؤثر است. دیسپچر باید قادر باشد تا به سرعت و بدون اشتباه مشخص کند که آیا دستورها می‌توانند بطور موازی اجرا شوند و آنها را به شیوه‌ای ارسال (dispatch) کند تا بیشترین واحدهای اجرایی ممکن را از بیکاری خارج کند. این امر نیازمند این است که خط ایجاد دستوری حداکثر اوقات ممکن پر باشد و معماری‌های سوپرسکیلر را نیازمند مقادیر چشمگیری از کش سی پی یو(cache) می‌کند. همچنین در این شرایط تکنیک‌های پیشگیری از خطری نظیر پیش بینی شاخه‌ای (branch prediction)، اجرای حدسی (speculative execution) و اجرای خارج از نوبت (out of order execution) برای حفظ سطوح بالای عملکرد ضروری هستند. با تلاش برای پیش بینی اینکه یک دستور شرطی کدام شاخه (یا مسیر) را انتخاب می‌کند، سی پی یو می‌تواند تعداد زمان‌هایی را که تمام خط تولید (pipeline) باید منتظر بماند تا یک دستور شرطی کامل شود به حداقل برساند. اجرای حدسی با اجرای بخش‌هایی از کد که ممکن است بعد از کامل شدن یک عمل شرطی نیاز نباشند، معمولاً موجب افزایش متوسط عملکرد می‌شود. اجرای خارج از نوبت ترتیبی را که دستورها اجرا می‌شوند تا حدی دوباره چینی می‌کند تا تأخیر ناشی از وابستگی اطلاعات را کاهش دهد. همچنین در موارد یک دستور -چند دیتا (Single Instructions Multiple Data) - زمانیکه اطلاعات زیادی از یک نوع باید پردازش شود، پردازنده‌های جدید می‌توانند بخش‌هایی از خط ایجاد مذکور را غیرفعال کنند، در این حالت زمانیکه یک دستور چند بار اجرا می‌شود، سی پی یو می‌تواند از فازهای fetch و decode صرفه نظر کند و بنابراین در موقعیت‌های خاصی (خصوصاً در موتورهای برنامه‌ای بسیار مونوتون نظیر نرم‌افزار ایجاد ویدئو و پردازش عکس) به میزان زیادی عملکرد افزایش می‌یابد.

در مواردی که فقط بخشی از سی پی یو سوپرسکیلر است، بخشی که سوپرسکیلر نیست دچار جبران عملکردی ناشی از وقفه‌های زمانبندی می‌شود. Intel P5 Pentium (اینتل پنتیوم ۵)دو تا واحد محاسبه و منطق (ALU) سوپرسکیلر داشت که می‌توانست یک دستور را به ازای یک clock بپذیرد اما FPUی آن نمی‌توانست یک دستور را به ازای یک clock بپذیرد؛ بنابراین P۵ سوپرسکیلر از نوع integer است اما از نوع floating point (ممیز شناور) نیست. جانشین اینتل برای معماری P۵، نوع P۶ بود که قابلیت‌های سوپرسکیلر را به ویژگی‌های floating point آن اضافه می‌کرد و بنابراین موجب افزایش چشمگیری در عملکرد دستوری floating point می‌شد.

هم طراحی pipeline ساده و هم طراحی سوپر سکیلر موجب می‌شوند تا یک پردازندهٔ منفرد با سرعتی بیش از یک دستور به ازای یک چرخه (IPC) دستورها را اجرا کند و بدین وسیله ILP ی سی پی یو را افزایش می‌دهند. بیشتر طراحی‌های جدید سی پی یو حداقل تا حدی سوپرسکیلر هستند و تقریباً تمام سی پی یوهای عمومی که در دههٔ اخیر طراحی شده‌اند سوپرسکیلر هستند. در سال‌های اخیر بخشی از تأکید در طراحی کامپیوترهای ILP بالا از حوزهٔ سخت‌افزاری سی پی یو خارج شده و در اینترفیس نرم‌افزاری، یا همان ISA متمرکز شده‌است. استراتژی کلمهٔ دستوری خیلی بلند (VLIW) موجب می‌شود تا بخشی از ILP بطور مستقیم توسط نرم‌افزار درگیر شود و بدین وسیله میزان کاری را که سی پی یو باید انجام دهد تا ILP را افزایش دهد (بوست کند) و پیچیدگی طراحی مذکور را کاهش دهد، کم می‌کند.

پاراللیسم در سطح thread

رویکرد دیگر برای دستیابی به عملکرد، اجرای چندین برنامه یا thread به صورت موازی است. در تقسیم‌بندی Flynn این رویکرد چندین دستور روی چندین دیتا (MIMD) نام دارد.

یک تکنولوژی که برای این هدف استفاده شد، تکنولوژی چند پردازشی (MP) نام دارد. چاشنی ابتدایی این نوع تکنولوژی چند پردازشی قرینه(SMP) نام داردکه در آن تعداد محدودی از سی پی یوها یک نمای منسجم از سیستم حافظهٔ خودشان را به اشتراک می‌گذارند. در این طرح‌ریزی هر سی پی یو سخت‌افزاری اضافی برای حفظ یک نمای دائماً بروز شده از حافظه دارد. با اجتناب از نماهای کهنه و مانده از سی پی یو، سی پی یوهای مذکور می‌توانند روی یک برنامه همکاری کنند و برنامه‌ها می‌توانند از یک سی پی یو به دیگری مهاجرت کنند. طرح‌ریزی‌هایی نظیر دستیابی غیر همشکل به حافظه (NUMA) و پروتکل‌های وابستهٔ مبتنی بر دایرکتوری در دههٔ ۱۹۹۰ ارائه شدند. سیستم‌های SMP به تعداد کمی از سی پی یوها محدود می‌شوند در حالیکه سیستم‌های NUMA با هزاران پردازنده موجود هستند. در ابتدای امر، چند پردازشی با استفاده از چندین سی پی یو و صفحهٔ مجزا برای برقراری ارتباط بین پردازنده‌ها ساخته شد. هنگامیکه پردازنده‌ها و ارتباط‌های بین آنها تماماً روی یک تراشهٔ سیلیکون منفرد سوار شدند، تکنولوژی مذکور ریزپردازندهٔ چند هسته‌ای نام گرفت.

بعدها مشخص شد که fine-grain parallelism با یک برنامهٔ منفرد ایجاد شد. یک برنامهٔ منفرد ممکن است چندین thread (یا رشته دستورالعمل) داشته باشد که می‌توانند بطور جداگانه یا موازی اجرا شوند. برخی از نمونه‌های ابتدایی این تکنولوژی، پردازش ورودی/خروجی نظیر دسترسی مستقیم به حافظه را بعنوان یک thread جداگانه از thread محاسبه بکار گرفتند. یک رویکرد عمومی تر به این تکنولوژی در دههٔ ۱۹۷۰ ارائه شد. در آن زمان سیستم‌ها طوری طراحی شدند تا چندین thread محاسبه‌ای را بطور موازی اجرا کنند. این تکنولوژی (MT)multithreading نام دارد. این رویکرد در مقایسه با چند پردازشی به صرفه تر است زیرا فقط تعداد کمی از اجزا در داخل یک سی پی یو به منظور پشتیبانی از MT تکرار می‌شوند در حالیکه در MP تمام سی پی یو تکرار می‌شود. در MT، واحدهای اجرایی و سیستم حافظه من‌جمله کش‌ها در بین جندین thread به اشتراک گذارده می‌شوند. عیب MT این است که سخت‌افزاری که از مولتی ثردینگ پشتیبانی می‌کند در مقایسه با سخت‌افزاری که از MP پشتیبانی می‌کند برای نرم‌افزار قابل دیدن تر است و بنابراین نرم‌افزارهای ناظر نظیر سیستم‌های عامل برای پشتیبانی از MT باید متحمل تغییرات بیشتری شوند. یک نوع از MT که بکار گرفته شد block multithreading نام دارد که در آن اجرای یک thread آغاز می‌شود و زمانیکه برای بازگشت اطلاعات از حافظهٔ خارجی باید منتظر بماند، دچار توقف عملکرد می‌شود. در این حالت سی پی یو بلافاصله به thread دیگر که آمادهٔ اجرا است سوویچ می‌کند. این سوویچ معمولاً در یک چرخهٔ کلاک از سی پی یو انجام می‌گیرد. اولترااسپارک (UltraSPARC) نمونه‌ای از این تکنولوژی است. نوع دیگری از MT مولتی ثردینگ همزمان (simultaneous multithreading) نام دارد که در آن دستورها چندین thread بطور موازی در طی یک چرخهٔ کلاک از سی پی یو اجرا می‌شوند.

بمدت چندین دهه از ۱۹۷۰ تا ۲۰۰۰، در طراحی سی پی یوهای عمومی دارای عملکرد بالا به میزان زیادی روی دستیابی به ILP بالا از طریق تکنولوژی‌هایی مثل piplining، کش‌ها، اجرای سوپراسکیلر، اجرای خارج از نوبت و… تأکید می‌شد. این رویه منجر به طراحی سی پی یوهای بزرگ و پر مصرفی نظیر اینتل پنتیوم ۴ شد. در دههٔ ۲۰۰۰، نابرابری روزافزون بین فرکانس‌های عامل سی پی یو و فرکانس‌های عامل حافظهٔ اصلی و نیز جدی تر شدن مسئلهٔ محو تدریجی پاور سی پی یو (power) بعلت تکنیک‌های ILP خیلی نامعمول تر موجب شد تا طراحان سی پی یو دیگر بدنبال افزایش عملکرد با استفاده از تکنیک‌های ILP نباشند. پس از آن، طراحان سی پی یو ایده‌هایی را از بازارهای کامپیوتری تجاری نظیر پردازش دادوستدی که در آن مجموع عملکرد چندین برنامه (پردازش مربوط به کار انجام شده در یک بازهٔ زمانی) مهمتر از عملکرد یک thread یا برنامه‌است، به عاریه گرفتند. این تغییر رویکرد می‌توان در تکثیر طراحی‌های CMP چند هسته‌ای (چند پردازشی در سطح تراشه) و بطور قابل ذکر طراحی‌های جدیدتر اینتل که مشابه معماری کمتر سوپرسکیلر P۶ بودند، مشاهده کرد. طراحی‌های بعدی در چندین خانوادهٔ پردازنده، CMP را نشان دادند، از جمله x86-64 Opteron و Athlon 64 X2, SPARC UltraSPARC T۱، IBM POWER۴ و POWER۵ و چندین سی پی یو ی کنسول بازی ویدئویی مشابه طراحی powerpc سه هسته‌ای ایکس باکس ۳۶۰ و ریزپردازنده‌های سلولی ۷ هسته‌ای ۷-core)) پلی استیشن ۳.

موازی گرایی (پاراللیسم) اطلاعات

یک الگوی غیر معمول اما بطور فزاینده‌ای مهم از سی پی یوها (و در حقیقت، بطور کلی پردازش) مربوط به موازی گرایی اطلاعات است. پردازنده‌هایی که قبلاً بحث شدند، تماماً انواعی از ابزارهای اسکیلر نامیده می‌شوند. همچنان که از نام آن پیداست، پردازنده‌های برداری (vector processors) با چندین قطعه از اطلاعات در زمینهٔ یک دستور سروکار دارند که با پردازنده‌های اسکیلر که با یک قطعه از اطلاعات برای هر دستور سروکار دارد، متفاوت است. در طبقه‌بندی Flynn، این دو نوع مواجه با اطلاعات بطور کلی و بترتیب SIMD (یک دستور برای چندین داده) و SISD (یک دستور برای یک داده) نامیده می‌شود. استفادهٔ مهم در ایجاد سی پی یوهایی که با بردارهایی از اطلاعات سرو کار دارند، در بهینه‌سازی اعمالی است که در آنها یک عمل (برای مثال یک جمع یا dot product)باید روی مجموعهٔ بزرگی از اطلاعات صورت گیرد. برخی از مثال‌های کلاسیک این نوع از اعمال کاربردهای مولتی مدیا (تصاویر، ویدئو و صدا) و نیز بسیاری از انواع اعمال علمی و مهندسی هستند. در حالیکه یک سی پی یو ی اسکیلر باید تمام فرایند fetching، دکودینگ و اجرا ی هر دستور و مقدار را برای مجموعه‌ای از اطلاعات انجام دهد، یک سی پی یو ی برداری می‌تواند یک عمل را روی مجموعهٔ نسبتاً بزرگی از اطلاعات با یک دستور انجام دهد. البته این امر تنها زمانی امکان‌پذیر است که کاربر مذکور نیازمند مراحل بسیاری است که یک عمل را روی مجموعهٔ بزرگی از داده‌ها اجرا می‌کند.

اکثر سی پی یوهای وکتور ابتدایی، نظیر Cray-۱ فقط مربوط به تحقیقات علمی و کاربردهای کریپتوگرافی بودند. با این وجود، هنگامیکه مولتی مدیاها به میزان زیادی به Media دیجیتال تغییر پیدا کردند، نیاز به برخی از اشکال SIMD در سی پی یوهای کاربرد-عمومی نیز برجسته شد. مدت کوتاهی بعد ازاینکه لحاظ شدن واحدهای اجرایی نقطهٔ شناور در سی پی یوهای کاربرد-عمومی شروع به معمول شدن کرد، اختصاصی شدن و بکارگیری واحدهای اجرایی SIMD نیز در سی پی یوهای کاربرد-عمومی شروع به ظهور کرد. برخی از این اختصاص‌های SIMD ابتدایی نظیر Multimedia Acceleration eXtensions مربوط به HP و MMX اینتل فقط اینتیجر بودند.

*image : Intel 4004, the first CPU

A central processing unit (CPU) is the electronic circuitry within a computer that carries out the instructions of a computer program by performing the basic arithmetic, logical, control and input/output (I/O) operations specified by the instructions. The computer industry has used the term "central processing unit" at least since the early 1960s. Traditionally, the term "CPU" refers to a processor, more specifically to its processing unit and control unit (CU), distinguishing these core elements of a computer from external components such as main memory and I/O circuitry.

The form, design, and implementation of CPUs have changed over the course of their history, but their fundamental operation remains almost unchanged. Principal components of a CPU include the arithmetic logic unit (ALU) that performs arithmetic and logic operations, processor registers that supply operands to the ALU and store the results of ALU operations, and a control unit that orchestrates the fetching (from memory) and execution of instructions by directing the coordinated operations of the ALU, registers and other components.

Most modern CPUs are microprocessors, meaning they are contained on a single integrated circuit (IC) chip. An IC that contains a CPU may also contain memory, peripheral interfaces, and other components of a computer; such integrated devices are variously called microcontrollers or systems on a chip (SoC). Some computers employ a multi-core processor, which is a single chip containing two or more CPUs called "cores"; in that context, one can speak of such single chips as "sockets". Array processors or vector processors have multiple processors that operate in parallel, with no unit considered central. There also exists the concept of virtual CPUs which are an abstraction of dynamical aggregated computational resources.

EDVAC, one of the first stored-program computers

History

Early computers such as the ENIAC had to be physically rewired to perform different tasks, which caused these machines to be called "fixed-program computers". Since the term "CPU" is generally defined as a device for software (computer program) execution, the earliest devices that could rightly be called CPUs came with the advent of the stored-program computer.

The idea of a stored-program computer was already present in the design of J. Presper Eckert and John William Mauchly"s ENIAC, but was initially omitted so that it could be finished sooner. On June 30, 1945, before ENIAC was made, mathematician John von Neumann distributed the paper entitled First Draft of a Report on the EDVAC. It was the outline of a stored-program computer that would eventually be completed in August 1949. EDVAC was designed to perform a certain number of instructions (or operations) of various types. Significantly, the programs written for EDVAC were to be stored in high-speed computer memory rather than specified by the physical wiring of the computer. This overcame a severe limitation of ENIAC, which was the considerable time and effort required to reconfigure the computer to perform a new task. With von Neumann"s design, the program that EDVAC ran could be changed simply by changing the contents of the memory. EDVAC, however, was not the first stored-program computer; the Manchester Small-Scale Experimental Machine, a small prototype stored-program computer, ran its first program on 21 June 1948 and the Manchester Mark 1 ran its first program during the night of 16–17 June 1949.

Early CPUs were custom designs used as part of a larger and sometimes distinctive computer. However, this method of designing custom CPUs for a particular application has largely given way to the development of multi-purpose processors produced in large quantities. This standardization began in the era of discrete transistor mainframes and minicomputers and has rapidly accelerated with the popularization of the integrated circuit (IC). The IC has allowed increasingly complex CPUs to be designed and manufactured to tolerances on the order of nanometers. Both the miniaturization and standardization of CPUs have increased the presence of digital devices in modern life far beyond the limited application of dedicated computing machines. Modern microprocessors appear in electronic devices ranging from automobiles to cellphones, and sometimes even in toys.

While von Neumann is most often credited with the design of the stored-program computer because of his design of EDVAC, and the design became known as the von Neumann architecture, others before him, such as Konrad Zuse, had suggested and implemented similar ideas. The so-called Harvard architecture of the Harvard Mark I, which was completed before EDVAC, also utilized a stored-program design using punched paper tape rather than electronic memory. The key difference between the von Neumann and Harvard architectures is that the latter separates the storage and treatment of CPU instructions and data, while the former uses the same memory space for both. Most modern CPUs are primarily von Neumann in design, but CPUs with the Harvard architecture are seen as well, especially in embedded applications; for instance, the Atmel AVR microcontrollers are Harvard architecture processors.

Relays and vacuum tubes (thermionic tubes) were commonly used as switching elements; a useful computer requires thousands or tens of thousands of switching devices. The overall speed of a system is dependent on the speed of the switches. Tube computers like EDVAC tended to average eight hours between failures, whereas relay computers like the (slower, but earlier) Harvard Mark I failed very rarely. In the end, tube-based CPUs became dominant because the significant speed advantages afforded generally outweighed the reliability problems. Most of these early synchronous CPUs ran at low clock rates compared to modern microelectronic designs. Clock signal frequencies ranging from 100 kHz to 4 MHz were very common at this time, limited largely by the speed of the switching devices they were built with.