INTEL CPU全系列架構發展史及深度測試!
轉自http://hi.baidu.com/miracleconf/item/bf8f0a0fc84b47c6905718da (peakflys注:此鏈接也為轉帖,原帖地址未知)

壯士斷腕,Conroe臨危受命
在很久很久以前的286時代,英特爾還只是一個小公司,它負責給IBM提供IBM PC中的微處理器。那會兒,IBM PC銷量很大,兼容機還沒出現。為了能保證微處理器供貨充足,上帝般的IBM強迫英特爾將微處理器技術無償授權給另一家公司。看IBM臉色吃飯的英特爾雖然老大不愿意但也沒辦法,最后選擇了AMD作為微處理器技術無償提供對象(一不小心養虎成患,現在英特爾估計后悔到死)。為了制約AMD,英特爾又將微處理器技術無償授權給了Cyrix。

1982年2月1日,英特爾推出80286微處理器 在當時來說,英特爾除了產能占優外,在技術上是沒有任何優勢的,三家公司的微處理器架構基本一致。但是這時候,IBM公司內部倒產生了巨大的分歧:許多人反對快速轉換到286計算機的生產和銷售,因為這會對IBM的小型機與之前的PC XT銷售造成影響,他們希望過渡的步伐能慢一些。
但英特爾并不能等,80286處理器已經批量生產了,不可能堆在倉庫里等IBM慢慢消化。此時康柏公司就鉆了空子——快速推出286的IBM PC兼容機,并一舉打敗IBM成為PC市場的新霸主。隨著IBM PC兼容機的大量涌現,英特爾處理器也賣得越來越多,名氣越來越大,實力與日俱增,也就不用再唯IBM馬首是瞻了。
1993年3月22日,英特爾發布新一代P5架構586微處理器,這款歷史性的產品被英特爾命名為Pentium(奔騰),并不再對AMD和Cyrix授權。

1993.3.22 英特爾推出里程碑式的Pentium處理器 而AMD也非昔日可比了,它具有很強的研發能力,并很快發布了K6處理器迎戰,更逐漸衍生出K6-2和K6-3處理器。K6-2處理器憑借架構上的優勢令英特爾感到了巨大的壓力。為此1995年英特爾又推出新的P6架構取代奔騰/奔騰MMX的P5架構,以求在性能上保持領先地位。

1995.11.1 英特爾推出采用P6架構的Pentium Pro 最早采用P6架構的微處理器是高能奔騰(Pentium Pro)。P6架構與奔騰的P5架構最大的不同在于,過去集成在主板上的二級緩存被整合到處理器內,從而大大地加快了數據讀取時間和提高命中率。另外,P6架構是一個純32位的微處理器架構。

1997.4.7 英特爾推出Pentium II 為了將P6架構平價化,以對抗AMD等競爭對手,英特爾采用了將二級緩存從CPU核心移出,改用外置于集成CPU核心的PCB板上的做法, 這“萌生”了1997年推出的奔騰II處理器。奔騰II處理器的二級緩存外置于CPU核心以外,只能以處理器工作主頻一半的速度運行,而不像奔騰Pro的二級緩存那樣以全速運行。隨著0.25微米工藝的成熟,英特爾才嘗試重新將二級緩存集成在核心內。
為了進一步鞏固自己的領導地位,英特爾1999年1月推出了PentiumIII。
1999.1 英特爾推出PentiumIII 在PentiumIII時代之前,AMD和Cyrix一直是英特爾的追隨者,但是AMD Athlon推出之后,歷史發生了微妙的變化:在AMD推出Athlon 650MHz的時候,英特爾處理器的最高主頻才550MHz,這也是英特爾第一次被競爭對手超過!為了保住自己顏面,英特爾匆匆推出了采用0.18微米工藝,代號"Coppermine"的奔騰III處理器,主頻有500MHz至700MHz幾個型號。 這時候英特爾與AMD主頻之爭的激烈程度前所未有,我們熟悉的頻率“攀比”戰開始了。 最先達到1GHz主頻的是AMD的Athlon處理器,同頻的奔騰III處理器在落后不到一個月面世,但這足以讓AMD自豪了。由于1GHz的Athlon性能不敵1GHz奔騰III,AMD決定開發核心整合二級緩存的Athlon XP。 隨后英特爾霸王硬上弓,搶先推出1.13GHz的奔騰III,在性能上領先倒是領先了,但當時的0.18微米工藝生產1.13GHz的奔騰III實在是勉為其難。后果就是全面回收幾乎不能正常運行的奔騰III 1.13GHz處理器。而此時,AMD推出了1.1GHz Athlon XP處理器。◆ 飽受責難的NetBurst架構奔騰4
2000.11.20 英特爾推出Pentium4 英特爾在AMD強大的壓力下,開始鼓吹“唯主頻論”。在奔騰III及以前的微處理器時代,是一個處理器性能與主頻緊密結合的時代。那個時候無論是英特爾還是AMD,他們的處理器產品在主頻提升的同時,同樣也會帶來相應的性能提升。到了奔騰4,英特爾的“唯主頻論”顛覆了“性能等于主頻”的傳統觀念。
2000年11月20日,英特爾正式發布了NetBurst架構的奔騰4。這不僅僅是一款新產品的發布,它還標志著一個處理器新時代的開始。奔騰4 1.4 GHz/1.5 GHz的出現,吸引了全世界的眼光。然而有專業媒體質疑:為何奔騰4的主頻這么高,但是實際測試項目很多都不如P6架構的1GHz奔騰III呢?英特爾回答:奔騰4是一種全新的架構,它的性能不能再用傳統的觀點去評判。
奔騰4能夠在同樣的0.18微米工藝下輕松達到2GHz,而奔騰III 去到1.13GHz就已經到了極限,這是因為奔騰4的運算流水管線多達20級甚至31級,而奔騰III只有11級。運算流水管線越長,就越容易在同樣制造工藝下達到更高的工作主頻。Athlon在同樣制造工藝下可以達到奔騰III難以達到的高主頻,就是因為Athlon的運算流水管線比奔騰III略長。但是運算流水管線過長也會帶來負面影響,管線越長,單位主頻下的處理器執行效率就越低,性能的發揮就會受到影響。 第二代Northwood核心的奔騰4采用了0.13微米工藝制造,較好地解決了發熱與功耗的問題,迅速成為市場主流。此后隨著800MHz FSB、超線程等新技術的引入,Pentium 4 NetBurst架構的威力的以充分發揮,所以從性能/功耗上來講,這個時候的奔騰4達到了巔峰。 隨著主頻的不斷攀升,NetBurst架構的弊端越來越明顯。第三代Prescott奔騰4流水線達到31級,晶體管達到了125百萬個(Northwood只有55百萬個),以至于它每個時鐘周期比Northwood多產生大約60%的熱量,同時功率消耗也增加大約10%!3.2GHz的Prescott TDP達到了觸目驚心的103W!人們開始戲稱Pentium 4為烤爐,高主頻帶來的高功耗使得英特爾的忠實支持者要為奔騰的芯付出更多的電費,同時更要忍受高性能處理器風扇所帶來的巨大噪音…… 
64歲的英特爾總裁貝瑞特面對著6500人驚天一跪:“請原諒我們”(2004.10) 奔騰4最終止步于3.8GHz,原計劃推出的4GHz奔騰4處理器也被胎死腹中。英特爾意識到處理器研發道路上走入了“唯主頻論”的誤區,2004年10月,英特爾總裁貝瑞特驚天一跪,面對著6500人說道:“請原諒我們”,真心地對公司的失誤表示懺悔。
英特爾終于承認自己錯了。不要忘記當初英特爾發布奔騰4時吹噓說奔騰4是為10GHz的運算速度設計的,這是到目前為止英特爾歷史上最重要的或許也是最廣為人知的工程失敗事件。
◆ 臨危受命的Core微架構 實際上,英特爾除了擁有NetBurst研發小組外,還有一支位于以色列海法的研發團隊。該以色列團隊早在2003年就因為設計出兼具高性能與低功耗的Banias移動處理器而聞名天下,Core微架構是他們最新的杰作,由于NetBurst架構的失敗,Core微架構一下就成了英特爾的救命符。 2006年3月英特爾在春季IDF大會宣布下一代處理器將采用的Core微架構。英特爾指出未來處理器的技術發展重點將是“每瓦特性能”(Performance per Watt)。而這屆IDF的主題更加明確:功耗最優化平臺(Power-Optimized Platforms)。根據英特爾的說法,采用Core微架構的處理器將在性能方面得到極大的飛躍,肯定將超過競爭對手AMD的產品。 更好的消息Core在功耗方面將比前任大幅下降。
Core微架構將一統江湖 Core微架構被英特爾推上前臺,被賦予了取代NetBurst微架構、一統桌面、移動與服務器平臺的歷史使命。針對筆記本、桌面級用戶和服務器,Core均有不同的產品。
Conroe是基于Core微架構的桌面平臺級產品(我們常說的“扣肉”),由于“Core”和“Conroe”兩個單詞在結構上頗為類似,因此有不少消費者往往便認為“Core”和“Conroe”指得是同樣一種產品。實際上,我們通常把“Core”直接音譯為“酷睿”,它是Intel新一代處理器產品統一采用的微架構,而Conroe(扣肉)只是對基于Core(酷睿)微架構的桌面平臺級產品。
除桌面的Conroe處理器之外,Core微架構還包括代號為“Merom”的移動平臺處理器和代號為“Woodcrest”的服務器平臺處理器。

由于上一代采用Yonah微架構的處理器產品被命名為Intel Core Duo,因此為了便于與前代雙核處理器區分,Conroe以及Merom都將采用相同的命名方式——Core 2 Duo。另外,Intel最高性能的桌面服務器芯片Woodcrest將命名為Core 2 Extreme,以區分于普通桌面/筆記本處理器產品。
Conroe處理器沿用了L1 Cache設計,L1數據Cache和L1指令Cache分別為32KB,兩個核心共享4MB或2MB的L2 Cache,它結合了Pentium M高效率和NetBurst動態執行性能優越兩方面的優點。Conroe處理器的數據流水線長度從Prescott的31級大幅度縮短至目前的14級。其算術邏輯運算單元ALU數量由上代NetBurst微構架的2組提升至3組,同時在Cache構架上也經過了大幅度的改良,整體運算性能大大增加。

Core微架構與Yonah微架構 目前比較普遍的看法是,Core微架構是Pentium Pro架構,或者說是P6微架構的延續。Core微架構中只有預取機制是從NetBurst微架構獲得的靈感,所有其它的設計都是從Yonah微架構(Core Duo處理器)演變而來,而Yonah微架構是從Banias處理器和Dothan處理器演變而來的。所有Banias、Dothan、Yonah和采用Core微架構的處理器都繼承了NetBurst處理器的前端總線設計,但除此之外,它們毫無疑問都是曾經獲得巨大成功的P6微架構的后代。
英特爾P6微架構的總工程師之一Robert Colwell在其回憶錄中表示他之所以離開英特爾,主要就是因為他并不認同英特爾在NetBurst微架構中所選擇的設計路線,因為他相信“The future is mobile”,如何在維持省電與最長電池續航能力的前提下,達到足夠的運算效能,才是處理器技術發展的未來方向。NetBurst微架構的失敗,與P6微架構的復興,恰恰證明了英特爾之前策略的失敗和他的遠見。
不過這并不意味著只是把Yonah處理器的一些功能單元和解碼器重新包裝一下然后換了個名字就推出來。英特爾Core開發人員稱,Woodcrest、Conroe和Merom處理器都是基于Yonah處理器的,但是幾乎80%的架構和電路設計需要重新進行。
2006.7.27 英特爾Conroe全球同步上海發布會 2006年7月27日,英特爾全球同步發布基于其Core微架構的Conroe桌面平臺處理器,承接6月發布的服務器處理器Woodcrest,以及8月登場的筆記本處理器Merom,英特爾處理器全面從上一代NetBurst微架構轉向新的Core微架構。
◆ 解讀Core微架構
英特爾對Core微架構的要求非常高,需要有很好的跨平臺性,又要兼顧到功耗,最重要的是能提供更高的性能。其中特別引人注意的就是英特爾在Core設計中導入的全新的每瓦特效率的設計概念,因為這個概念的出現將真正影響未來英特爾處理器架構的發展,而這也對產業發展產生了重大的影響。
Core微架構的目標就是構建一個高效的雙核心架構,因此采取共享式二級緩存設計,2個核心共享二級緩存。內核采用高效的14級有效流水線設計,每個核心內建4組指令解碼單元,支持微指令融合與宏指令融合技術,每個時鐘周期最多可以解碼5條X86指令,并擁有改進的分支預測功能。每個核心內建5個執行單元,執行資源龐大。采用新的內存相關性預測技術。支持增強的電源管理功能。支持硬件虛擬化技術和硬件防病毒功能。內建數字溫度傳感器。還可提供功率報告和溫度報告等,配合系統實現動態的功耗控制和散熱控制。
重要的一點是,Core微架構加入了對EM64T指令集的支持,隨著Windows Vista的到來以及Intel、AMD全面更換到64bit處理器,64bit計算的普及只是時間問題。
·14級指令執行流水線設計

流水線深度一直是影響處理器效率的重要因素,流水線深度的增加可以讓處理器時鐘頻率進一步提高,但帶來的反面影響就是處理器的單周期執行效率降低、發熱量上升,同時容易產生分支預測等問題,Prescott核心的P4達到了31級流水線長度,要比當年的Pentium III和Athlon處理器高出許多,也讓Prescott最終走上失敗之路。
在Core架構中,其指令流水線深度達到14級,這個深度是要高于Pentium M的12級,但是卻比AMD的K8處理器架構的17級要低上3級。目前的Core架構是兼顧執行效率和降低功耗的折中設計。
流水線的“條數”與“級數”是完全不同的概念。能夠完整執行各種指令的一系列功能單元組成“一條”流水線。而關于流水線級數,可以這樣簡單理解:一條流水線所包含的功能單元一般可以被劃分為多個部分,它可以被劃分成幾個部分,就稱這條流水線是“幾級”的。 Core微架構的14級有效流水線與Prescott核心的31級有效流水線的對比,也只有參考意義。那些僅僅根據這個數字的對比就斷言Core微架構只能達到很低的頻率的說法是不具有足夠的說服力的。Conroe XE 3.33GHz處理器的存在已經讓很多相信這個說法的人大吃一驚。而實際上,已經有很多玩家在風冷下將Conroe處理器超頻達到4GHz以上的頻率。 除此之外,Core微架構加入了五大重要創新,其中包括寬區動態執行(Intel Wide Dynamic Execution)、高級智能高速緩存(Intel Adcanced Smart Cache)、智能內存訪問(Intel Smart Memory Acess)及高級數字媒體增強技術(Intel Adcanced Digital Media Boost)、智能功率能力(Intel Intelligent Power Capability),這里我們就只是對這五大重要創新作個簡單介紹: ·寬區動態執行(intel Wide Dynamic Execution)
寬區動態執行(Intel Wide Dynamic Execution)技術就是通過提升每個時鐘周期完成的指令數,從而顯著改進執行能力。通俗的說就是,每個內核將變得更加“寬闊”,這樣每個內核就可以同時處理更多的指令。

毫無疑問,Core微架構是一個比NetBurst或Yonah微架構更寬的設計。Core微架構擁有4組解碼單元,每周期可以生成7條微指令;Yonah 微架構擁有3組,每周期可以生成6條微指令;而NetBurst微架構由于解碼方式不同,不容易比較解碼單元的數目,但是NetBurst微架構每周期只能生成3條微指令。
Core微架構把解碼單元增加到4組,這個變化可以說是Core微架構最大的特色之一。X86指令集的指令長度、格式與定址模式都相當混亂,導致X86指令解碼器的設計是非常困難的。增加解碼單元,特別是復雜解碼單元,固然會大大增強處理器的解碼能力,但是解碼單元復雜的電路也必然會提高內核的復雜度和處理器的功耗。權衡利弊,英特爾最終選擇了增加1組簡單解碼單元的折衷方案。
此外,Core架構的每個核心都擁有3個算術邏輯單元(ALU),而之前的NetBurst僅有2個ALU,P6架構的處理器僅為1個,這樣的設計使得Core架構擁有比較高的處理能力。
酷睿微體系結構在提升每個時鐘周期的指令數方面做了很多努力,例如新加入宏融合(Macro-Fusion)技術,它可以讓處理器在解碼的同時,將同類的指令融合為單一的指令,這樣可以減少處理的指令總數,讓處理器在更短的時間內處理更多的指令。酷睿架構也改良了ALU以支持宏融合技術。
·高級智能高速緩存(Intel Advanced Smart Cache)

以往的多核心處理器,其每個核心的L2緩存是各自獨立的,這就造成了L2緩存不能夠被充分利用,并且兩個核心之間的數據交換路線也更為冗長,影響了處理器工作效率。如果采用L2緩存共享設計,那么只需要數據被載入到L2緩存中,數據可以被兩個核心同時使用。 這樣做的另一個好處是每個內核之間都共享著更大的L2緩存,其緩存可以被任何一個核心所獨占,這樣理論上每個核心都有可能獲得100%的L2緩存掌控權,特別是對于一些單核心優化的程序,由于不需要使用到第二個核心,這種時候,第二個核心自動關閉降低功耗,而第一個核心可以共享雙倍于單核L2緩存容量的空間來存放數據,要知道高速L2緩存的容量越大,可以使得總體效率也有響應提升。 ·智能內存訪問(Intel Smart Memory Access)

智能內存訪問是另一個能夠提高系統性能的特性,通過縮短內存延遲來優化內存數據訪問。智能內存訪問能夠預測系統的需要,從而提前載入或預取數據,反映到用戶的直接使用體驗上,就是大幅提高了執行程序的效率。 以前我們要從內存中讀取數據,就需要等待處理器完成前面的所以指令后才可以進行,這樣的效率顯然是低下的。而Core架構中可以智能地預測和裝載下一條指令所需要的數據,從而優化內存子系統對可用數據帶寬的使用,并隱藏內存訪問的延遲。該目標是為了確保能夠盡快地使用數據,并使該數據可能地用于需要的地方,以將延遲最小化,最終提高效率和速度。 智能內存訪問包含一項重要的被稱作內存消歧(Memory DisaMBIguATIon)的新能力,該能力提高了亂序處理的效率,因為它可以為執行內核提供內建的智能,以幫助其在執行完所有預先存儲的指令前,預測性地載入指令即將需要執行的數據。除內存消歧外,英特爾智能內存訪問還包含增強的預取器。預取器負責“預取”內存內容,并將其放入高速緩存中,以備讀取。增加從高速緩存而非內存的裝載量將縮短內存延遲并提高性能。 總之,改進的預取器和內存消歧通過最大化可用系統總線帶寬和隱藏內存子系統延遲,提高了執行吞吐率。 ·高級數字媒體增強技術(Intel Advanced Digital Media Boost)

性能=頻率×每個時鐘周期的指令數,英特爾高級數字媒體增強是為了提高每個時鐘周期的指令數而誕生。它是一項可以顯著提高執行SIMD流指令擴展(SSE)指令性能的特性。128位SIMD整數算法和128位SIMD雙精度浮點操作減少了執行特定程序任務所需的全部指令數,將能夠促使整體性能的增高。
Core微架構的上一代Yonah具有一個比較明顯的缺點,只具有64bit的SIMD運算架構,在涉及到128位SIMD運算的時候,需要兩個時鐘周期才能完成,效率非常低下,Yonah也因此難以實現64bit運算,而Core微架構經過改良之后,可以單個周期就能完成同樣的操作,效率提高達一倍。Intel配合這個改進,并結合新的SSE3指令集,并稱為Intel Advanced Digital Media Boost。
·智能功率能力(Intel Intelligent Power Capability)


NetBurst架構、Prescott核心處理器的耗電/功耗表現向來被競爭對手和用戶詬病,因此新一代Core架構在功耗上進行改進也就十分重要,并被稱為Intel Intelligent Power Capability,包括采用了先進的65nm Strained Silicon應變硅技術、Low-K介質等技術,還對各個運算部件都單獨加入了電源控制功能,僅在需要的時候才開啟相應工作電路。先進的能源管理技術讓Core架構的處理器的功耗表現很出色,這也是Conroe處理器迅速被用戶接受的一個重要因素。◆ Intel Core2處理器技術一覽 EIST、ClE、TM2、VT、XDEIST技術 EIST全稱為Enhanced Intel SpeedStep Technology,是Intel專門為移動平臺和服務器平臺處理器開發的一種節電技術,它能夠根據不同的系統工作量自動調節處理器的電壓和頻率,以減少耗電量和發熱量。到后來,從Pentium 4 6xx系列開始Intel把這項技術也移植到桌面處理器上。
ClE技術 ClE全稱為C1E enhanced halt stat,它首次出現是在Pentium4 5xxJ系列處理器上,取代了以前的Pentium 4處理器和其它大部分x86處理器中的所常用的C1 halt state。C1 halt state由操作系統idel進行發出的HLT命令觸發,然后處理器就會進入到低功耗的掛起狀態(halt state)。最新的C1E halt state也是由HLT命令觸發的,它是通過調節倍頻來逐級的降低處理器的主頻,同時還可以降低電壓。?C1E與EIST的不同 EIST的觸發機制同C1E halt state是不同的,它的運作需要BIOS和操作系統的支持(Windows XP SP2/Windows Server 2003 SP1/Linux 2.6 kernel 或更新的版本 ),由操作系統通過ACPI進行調節。簡而言之,EIST能更有智慧地來管理處理器資源,可以根據必需的處理器負載程度與系統速度來自動調整處理器的電壓與核心頻率,而且調節的級別更加的細致,因此相比C1E halt可以更加精確的調節處理器的狀態。Thermal Monitor2(TM2) TM2全稱Thermal Monitor2,是Intel在LGA775封裝的Prescott核心處理器中增加的新的過熱保護機制。類似于Pentium4處理器中的溫度回饋裝置TM1(Thermal Monitor1),當處理器過熱時,Pentium4處理器的主頻會降低一半,此時功耗也會降低一半,從而降低處理器溫度達到保護處理器安全的目的。與TM1相比,TM2可以提供更智能,更有效的處理器熱量功耗的管理方式,在保證處理器基本性能的前提下盡可能在滿負荷情況下降低處理器的功耗和溫度。 TM2的主要工作方式仍然是通過TCC進行處理器主頻的控制,不過它被稱為“Enhanced TCC(增強型TCC)”,通過調節處理器的倍頻和輸入電壓來降低處理器的功耗。 TM2為處理器的工作狀態預設了兩個點:第一點的工作狀態是正常的主頻和核心電壓;第二點是低主頻和低電壓點。一旦TM2偵測到處理器的溫度上升到預設的警戒溫度時,E-TCC電路被激活,調整處理器的第一點主頻和電壓,朝著第二點的預設值轉換。這一轉換的過程非常快――僅5微妙。在轉換的這段時間之內,處理器不能響應系統總線的訪問請求的。 處理器的主頻降到預設的低值之后,便會向主板上的電壓控制模塊發出新的電壓識別信號(VID Code)。因此,要實現TM2,主板的電壓控制模塊必須支持處理器的多電壓轉換過程,具備較低的電壓輸出能力。在處理器電壓轉換的過程中,可以接受系統總線對其的訪問,執行指令。 處理器溫度下降到正常值時,處理器的工作主頻和電壓便會朝正常的值上升。首先上升的是電壓,這樣可以保證處理器恢復到正常頻率工作后的穩定性(因為低壓高頻一般會導致處理器工作不穩,就像加壓超頻的原理)。