• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            每天早晨叫醒你的不是鬧鐘,而是夢想

              C++博客 :: 首頁 :: 聯系 :: 聚合  :: 管理
              62 Posts :: 0 Stories :: 5 Comments :: 0 Trackbacks

            常用鏈接

            留言簿(1)

            我參與的團隊

            搜索

            •  

            最新評論

            閱讀排行榜

            評論排行榜

            原文標題:Cache: a place for concealment and safekeeping

            原文地址:http://duartes.org/gustavo/blog/

             

            [注:本人水平有限,只好挑一些國外高手的精彩文章翻譯一下。一來自己復習,二來與大家分享。]

             

            本文簡要的展示了現代Intel處理器的CPU cache是如何組織的。有關cache的討論往往缺乏具體的實例,使得一些簡單的概念變得撲朔迷離。也許是我可愛的小腦瓜有點遲鈍吧,但不管怎樣,至少下面講述了故事的前一半,即Core 2的 L1 cache是如何被訪問的:

             

            L1 cache – 32KB,8路組相聯,64字節緩存線

            1.       由索引揀選緩存組(行)

             

            在cache中的數據是以緩存線(line)為單位組織的,一條緩存線對應于內存中一個連續的字節塊。這個cache使用了64字節的緩存線。這些線被保存在cache bank中,也叫路(way)。每一路都有一個專門的目錄(directory)用來保存一些登記信息。你可以把每一路連同它的目錄想象成電子表格中的一列,而表的一行構成了cache的一組(set)。列中的每一個單元(cell)都含有一條緩存線,由與之對應的目錄單元跟蹤管理。圖中的cache有64 組、每組8路,因此有512個含有緩存線的單元,合計32KB的存儲空間。

             

            在cache眼中,物理內存被分割成了許多4KB大小的物理內存頁(page)。每一頁都含有4KB / 64 bytes == 64條緩存線。在一個4KB的頁中,第0到63字節是第一條緩存線,第64到127字節是第二條緩存線,以此類推。每一頁都重復著這種劃分,所以第0頁第3條緩存線與第1頁第3條緩存線是不同的。

             

            在全相聯緩存(fully associative cache)中,內存中的任意一條緩存線都可以被存儲到任意的緩存單元中。這種存儲方式十分靈活,但也使得要訪問它們時,檢索緩存單元的工作變得復雜、昂貴。由于L1和L2 cache工作在很強的約束之下,包括功耗,芯片物理空間,存取速度等,所以在多數情況下,使用全相聯緩存并不是一個很好的折中。

             

            取而代之的是圖中的組相聯緩存(set associative cache)。意思是,內存中一條給定的緩存線只能被保存在一個特定的組(或行)中。所以,任意物理內存頁的第0條緩存線(頁內第0到63字節)必須存儲到第0組,第1條緩存線存儲到第1組,以此類推。每一組有8個單元可用于存儲它所關聯的緩存線(譯注:就是那些需要存儲到這一組的緩存線),從而形成一個8路關聯的組(8-way associative set)。當訪問一個內存地址時,地址的第6到11位(譯注:組索引)指出了在4KB內存頁中緩存線的編號,從而決定了即將使用的緩存組。舉例來說,物理地址0x800010a0的組索引是000010,所以此地址的內容一定是在第2組中緩存的。

             

            但是還有一個問題,就是要找出一組中哪個單元包含了想要的信息,如果有的話。這就到了緩存目錄登場的時刻。每一個緩存線都被其對應的目錄單元做了標記(tag);這個標記就是一個簡單的內存頁編號,指出緩存線來自于哪一頁。由于處理器可以尋址64GB的物理RAM,所以總共有64GB / 4KB == 224個內存頁,需要24位來保存標記。前例中的物理地址0x800010a0對應的頁號為524,289。下面是故事的后一半:

             


            在組中搜索匹配標記

             

            由于我們只需要去查看某一組中的8路,所以查找匹配標記是非常迅速的;事實上,從電學角度講,所有的標記是同時進行比對的,我用箭頭來表示這一點。如果此時正好有一條具有匹配標簽的有效緩存線,我們就獲得一次緩存命中(cache hit)。否則,這個請求就會被轉發的L2 cache,如果還沒匹配上就再轉發給主系統內存。通過應用各種調節尺寸和容量的技術,Intel給CPU配置了較大的L2 cache,但其基本的設計都是相同的。比如,你可以將原先的緩存增加8路而獲得一個64KB的緩存;再將組數增加到4096,每路可以存儲256KB。經過這兩次修改,就得到了一個4MB的L2 cache。在此情況下,需要18位來保存標記,12位保存組索引;緩存所使用的物理內存頁的大小與其一路的大小相等。(譯注:有4096組,就需要lg(4096)==12位的組索引,緩存線依然是64字節,所以一路有4096*64B==256KB字節;在L2 cache眼中,內存被分割為許多256KB的塊,所以需要lg(64GB/256KB)==18位來保存標記。)

             

            如果有一組已經被放滿了,那么在另一條緩存線被存儲進來之前,已有的某一條則必須被騰空(evict)。為了避免這種情況,對運算速度要求較高的程序就要嘗試仔細組織它的數據,使得內存訪問均勻的分布在已有的緩存線上。舉例來說,假設程序中有一個數組,元素的大小是512字節,其中一些對象在內存中相距4KB。這些對象的各個字段都落在同一緩存線上,并競爭同一緩存組。如果程序頻繁的訪問一個給定的字段(比如,通過虛函數表vtable調用虛函數),那么這個組看起來就好像一直是被填滿的,緩存開始變得毫無意義,因為緩存線一直在重復著騰空與重新載入的步驟。在我們的例子中,由于組數的限制,L1 cache僅能保存8個這類對象的虛函數表。這就是組相聯策略的折中所付出的代價:即使在整體緩存的使用率并不高的情況下,由于組沖突,我們還是會遇到緩存缺失的情況。然而,鑒于計算機中各個存儲層次的相對速度,不管怎么說,大部分的應用程序并不必為此而擔心。

             

            一個內存訪問經常由一個線性(或虛擬)地址發起,所以L1 cache需要依賴分頁單元(paging unit)來求出物理內存頁的地址,以便用于緩存標記。與此相反,組索引來自于線性地址的低位,所以不需要轉換就可以使用了(在我們的例子中為第6到11位)。因此L1 cache是物理標記但虛擬索引的(physically tagged but virtually indexed),從而幫助CPU進行并行的查找操作。因為L1 cache的一路絕不會比MMU的一頁還大,所以可以保證一個給定的物理地址位置總是關聯到同一組,即使組索引是虛擬的。在另一方面L2 cache必須是物理標記和物理索引的,因為它的一路比MMU的一頁要大。但是,當一個請求到達L2 cache時,物理地址已經被L1 cache準備(resolved)完畢了,所以L2 cache會工作得很好。

             

            最后,目錄單元還存儲了對應緩存線的狀態(state)。在L1代碼緩存中的一條緩存線要么是無效的(invalid)要么是共享的(shared,意思是有效的,真的J)。在L1數據緩存和L2緩存中,一條緩存線可以為4個MESI狀態之一:被修改的(modified),獨占的(exclusive),共享的(shared),無效的(invalid)。Intel緩存是包容式的(inclusive):L1緩存的內容會被復制到L2緩存中。在下一篇討論線程(threading),鎖定(locking)等內容的文章中,這些緩存線狀態將發揮作用。下一次,我們將看看前端總線以及內存訪問到底是怎么工作的。這將成為一個內存研討周。

             

            (在回復中Dave提到了直接映射緩存(direct-mapped cache)。它們基本上是一種特殊的組相聯緩存,只是只有一路而已。在各種折中方案中,它與全相聯緩存正好相反:訪問非常快捷,但因組沖突而導致的緩存缺失也非常多。)

             

            [譯者小結:

             

            1.         內存層次結構的意義在于利用引用的空間局部性和時間局部性原理,將經常被訪問的數據放到快速的存儲器中,而將不經常訪問的數據留在較慢的存儲器中。

            2.         一般情況下,除了寄存器和L1緩存可以操作指定字長的數據,下層的內存子系統就不會再使用這么小的單位了,而是直接移動數據塊,比如以緩存線為單位訪問數據。

            3.         對于組沖突,可以這么理解:與上文相似,假設一個緩存,由512條緩存線組成,每條線64字節,容量32KB。

            a)         假如它是直接映射緩存,由于它往往使用地址的低位直接映射緩存線編號,所以所有的32K倍數的地址(32K,64K,96K等)都會映射到同一條線上(即第0線)。假如程序的內存組織不當,交替的去訪問布置在這些地址的數據,則會導致沖突。從外表看來就好像緩存只有1條線了,盡管其他緩存線一直是空閑著的。

            b)        如果是全相聯緩存,那么每條緩存線都是獨立的,可以對應于內存中的任意緩存線。只有當所有的512條緩存線都被占滿后才會出現沖突。

            c)        組相聯是前兩者的折中,每一路中的緩存線采用直接映射方式,而在路與路之間,緩存控制器使用全相聯映射算法,決定選擇一組中的哪一條線。

            d)        如果是2路組相聯緩存,那么這512條緩存線就被分為了2路,每路256條線,一路16KB。此時所有為16K整數倍的地址(16K,32K,48K等)都會映射到第0線,但由于2路是關聯的,所以可以同時有2個這種地址的內容被緩存,不會發生沖突。當然了,如果要訪問第三個這種地址,還是要先騰空已有的一條才行。所以極端情況下,從外表看來就好像緩存只有2條線了,盡管其他緩存線一直是空閑著的。

            e)         如果是8路組相聯緩存(與文中示例相同),那么這512條緩存線就被分為了8路,每路64條線,一路4KB。所以如果數組中元素地址是4K對齊的,并且程序交替的訪問這些元素,就會出現組沖突。從外表看來就好像緩存只有8條線了,盡管其他緩存線一直是空閑著的。

            ]

             

            本文來自CSDN博客,轉載請標明出處:http://blog.csdn.net/drshenlei/archive/2009/06/17/4277959.aspx

            posted on 2011-04-25 14:01 沛沛 閱讀(1304) 評論(1)  編輯 收藏 引用 所屬分類: 體系結構

            Feedback

            # re: Cache:一個隱藏并保管數據的場所——組相聯詳解 2011-12-21 12:45 Itmelody
            一直都想問下大神您國外牛人的博客是怎么找到的...  回復  更多評論
              

            久久久久人妻精品一区 | 久久国产视频99电影| 久久精品国产乱子伦| 国产精品丝袜久久久久久不卡| 久久人爽人人爽人人片AV| 久久天天躁夜夜躁狠狠躁2022| 欧美粉嫩小泬久久久久久久| 51久久夜色精品国产| 996久久国产精品线观看| 精品国产一区二区三区久久久狼| 国产成人无码精品久久久性色| 武侠古典久久婷婷狼人伊人| 日韩欧美亚洲国产精品字幕久久久 | 性做久久久久久久久老女人| 成人国内精品久久久久影院VR| 伊人久久大香线蕉综合影院首页| 久久精品国产2020| 人妻少妇久久中文字幕| 精品乱码久久久久久久| 久久96国产精品久久久| 91麻豆精品国产91久久久久久| 国内精品久久久久久久久| 久久久久国色AV免费观看| 久久久噜噜噜久久| 久久久久99这里有精品10| 综合久久给合久久狠狠狠97色| 精品多毛少妇人妻AV免费久久| 亚洲狠狠婷婷综合久久久久| 久久久精品人妻一区二区三区蜜桃 | 国产成人久久精品二区三区| 99久久精品费精品国产| 久久精品这里只有精99品| 久久久久久久久久久精品尤物| 久久天天躁夜夜躁狠狠| 91精品国产乱码久久久久久| 久久久久九国产精品| 久久精品卫校国产小美女| 久久免费精品一区二区| 亚洲午夜福利精品久久| 99精品久久精品一区二区| 亚洲日韩欧美一区久久久久我 |