999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

低功耗高性能的分離比較cache方案

2007-12-31 00:00:00彭蔓蔓
計算機應用研究 2007年10期

摘要:提出了一種基于分離比較cache的設計方法,其技術關鍵在于設計一個用來存儲原標志低四位的全相聯cache和分離標志比較器,以確保同時獲得高性能和低能量損耗#65377;SPEC95仿真結果表明,分離比較cache能夠節省傳統四路組相聯cache13%的存取時間和45%~60%的能量損耗#65377;

關鍵詞:高速緩存; 高性能; 低功耗; 嵌入式系統

中圖分類號:TP302.1文獻標志碼:A

文章編號:1001-3695(2007)10-0267-02

0引言

在嵌入式微處理器的設計中,設計者必須考慮性能#65380;能量消耗#65380;面積等多個方面#65377;片上cache顯著地提高了計算機系統的整體性能,但同時也占據了很大一部分的芯片面積,帶來了大量的能量消耗#65377;有些cache結構試圖通過以較小的性能代價來降低能耗#65377;例如:段式查找(phasedlookup)cache[1]采用兩段式查找,即在第一段中查找比較所有的標志陣列,如果命中,則在第二段中存取命中的惟一數據陣列#65377;段式查找cache需要兩個時鐘周期才能完成讀寫,但只訪問了一個數據陣列,以性能為代價換取了數據陣列部分的能耗#65377;路預測(way predictive)cache[2]通過預測機制并行存取一路標志和一路數據陣列#65377;如果預測正確,可以獲得高性能和低功耗;但是如果一旦預測失誤,則會導致更長的平均存取時間#65377;

有些cache以動態可重構來適應特殊的應用程序#65377;例如路關閉(wayshutdown)cache和路連接(wayconcatenation)cache[3]#65377;前者通過關掉一些不必要的路來節省能耗,后者通過連接相鄰的路形成四路#65380;二路組相聯或直接映像cache,而不改變總的cache容量#65377;這些方法共同的特點是:主要考慮降低功耗,但是性能卻有不同程度的損失;如果四路都需要,則不能節省能耗#65377;

其他一些改進的cache結構雖然適合于低能耗處理器,但是仍然不能同時提高性能#65377;例如路暫停(wayhalting)cache[4]在結構上添加一個小的全相聯的存儲器#65377;它保存了cache中所有地址標志的低四位;能夠在組索引譯碼的同時并行與目標地址的低四位進行比較#65377;如果不匹配,則有效地中斷存取,降低能耗#65377;但是它在性能方面沒有改進,因為它需要的存取時間和周期數與傳統四路組相聯cache一樣#65377;

StrongArm處理器采用基于CAM(contentaddressable memory)的高相聯度cache,它本質上也是一種段式(phased)cache#65377;文獻[5]提出采用分離匹配行(match line),并且使用單端信號放大器的技術來提高CAM標志比較的速度#65377;但是其內部結構沒有給予詳細描述,很可能會帶來較大的能量消耗[6]#65377;

鑒于目前已有方法中存在的問題,本文提出一種新的cache組織結構,稱為分離比較cache方案#65377;

1分離比較cache方案

1.1基本結構

本文設計了一種分離比較cache組織方案,如圖1所示#65377;與傳統的四路組相聯cache相比,分離比較cache在結構上首先添加了一個分離的全相聯cache——暫停標志陣列(halt tag array),用以存儲每個標志的低四位;同時用一個與非門替換字行(word line)驅動器中的第一個反向器#65377;另外原比較器被一分為二,每個小的比較器并行處理比較一半的地址位#65377;例如,原標志占20位,分離以后的兩個比較器,每個比較器則并行處理10位地址#65377;這兩個比較器在后續的多路傳輸驅動器階段通過一個與非門合并,即用與非門替換原多路傳輸驅動器中存在的第一個反向器#65377;

傳統cache中,首先譯碼器譯碼地址,然后選擇適當的行,同時驅動標志和數據陣列中的字行#65377;每個陣列中包含很多字行,但是在某一個確定的時刻,每個陣列中只有一個字行被選擇為有效#65377;在分離比較cache中,暫停標志陣列能夠在組索引譯碼的同時并行與目標地址的低四位進行比較,并且暫停標志陣列比較過程不會比組索引譯碼慢,也就不會延長關鍵路徑而帶來性能損耗#65377;組索引譯碼的輸出結果必須和暫停標志陣列比較結果作與運算,即只有當低四位匹配時,cache才能繼續存取主標志陣列和數據陣列#65377;如果暫停標志陣列不匹配,標志陣列的存取將會中斷#65377;顯然這種方式能夠在有效地節省能耗的同時不會對命中率產生影響#65377;

傳統組相聯cache中,標志陣列和數據陣列的存取過程是并行處理的#65377;這樣在cache讀操作過程中就存在兩條潛在的關鍵路徑:數據路徑包括譯碼和讀數據陣列兩個步驟;標志路徑包含標志譯碼#65380;讀標志#65380;比較#65380;多路選擇信號驅動四個步驟#65377;顯然這兩條路徑中較長的那一條為關鍵路徑,它決定了cache的存取延遲#65377;在0.18 μm的技術工藝下,筆者模擬了兩種cache結構:第一種是容量為8 KB,塊大小為32 Byte的四路組相聯cache;第二種是容量為8 KB,塊大小為64 Byte的四路組相聯cache#65377;

圖2表明,在小容量cache中,標志路徑是關鍵路徑,而且比較器部分耗費的時間占標志路徑的較大比例#65377;將比較器一分為二能夠減少比較器部分的延遲,同時也能減少原比較行(comparison line)的容量負荷#65377;但是,比較器只能分離一次,多于兩個將會使得硬件代價過高#65377;

在速度方面,盡管與非門明顯要比反向器慢,但是可以使用三倍原晶體管容量大小的與非門來獲得相當于原反向器的速度[3]#65377;

1.2暫停標志陣列的設計

暫停標志陣列是分離比較cache中最重要的部分之一#65377;它不僅要快于組索引譯碼,還必須是低能耗部件,才能從總體上節省能耗#65377;這也就意味著需要考慮暫停標志陣列中存儲的位寬問題#65377;

根據空間局部性原理,最近的將來要用到的信息很可能與現在正在使用的信息在空間地址上是臨近的#65377;暫停標志陣列應該存儲的是低序的標志位#65377;

筆者的目標是確定合適的位寬,以此來判斷在四路組相聯cache的一次存取過程中,有三路必須中斷,或者說只激活其中的一路#65377;理論上說,這至少要求有兩位#65377;然而,決定采用固定的哪兩位是很困難的#65377;因為各個組中這兩位的位置是不同的#65377;如果動態地決定這兩位的位置,代價又過高#65377;因此較好的解決方法是采用固定的更多的位寬#65377;

圖3表明,在容量大小為16 KB的指令cache和數據cache中,當選擇的固定位寬小于等于四位時,位寬越大對性能的提升影響越大;當位寬大于等于五位時,其對性能的影響沒有明顯的改善,所以選擇位寬為4#65377;

1.3虛擬索引/物理標簽的問題

本文的設計方案要求暫停標志陣列比較過程不會比組索引譯碼慢#65377;但是如果標簽需要首先從地址變換緩沖器(TLB)獲得,而組索引直接采用虛擬地址,這樣就使暫停標志陣列不能正常工作#65377;這種虛擬索引/物理標簽(V/P)cache運用在AMD K6和MIPS R10K等處理器上#65377;

首先簡要介紹四種使用虛擬地址和物理地址的cache:虛擬索引/虛擬標簽(V/V)#65380;虛擬索引/物理標簽(V/P)#65380;物理索引/虛擬標簽(P/V)和物理索引/物理標簽(P/P)cache#65377;除了V/P,其他三種情況都能使在獲得標簽的同時(或快于)得到索引#65377;顯然V/P cache會影響分離比較cache的存取時間#65377;為了解決這個問題,可以采用頁著色技術[7]#65377;

通過采用頁著色技術和操作系統的支持,可以使處理器給出的虛擬地址中至少四位等同于存儲在cache標簽中的四位#65377;Windows CE和嵌入式Linux都有相應的功能#65377;這樣,暫停標志陣列查找過程能夠快于從TLB中獲得物理標簽的過程,從而避免了性能的損失#65377;也就是說分離比較cache能應用到所有四種使用虛擬地址和物理地址的cache中#65377;

2實驗模擬

本文使用目前較為流行的CACTI模型和SimpleScalar仿真器來仿真和模型化通用處理器及其cache存儲系統的性能#65377;測試程序使用了SPEC95 benchmark#65377;因為路暫停cache能節省傳統四路組相聯cache 45%~60%的能耗,存取時間和周期數與傳統四路組相聯cache一樣[4]#65377;實驗中,對比了路暫停cache和分離比較cache的性能及能耗#65377;在0.18 μm的技術工藝下,模擬了兩種cache配置結構:第一種是容量為8 KB,塊大小為32 Byte的四路組相聯cache;第二種是容量為8 KB,塊大小為64 Byte的四路組相聯cache#65377;

圖4表明cache的性能改進#65377;在塊大小為32 Byte的情況下,相對于路暫停四路組相聯cache,分離比較cache可以有效地減少14.02%的存取延遲#65377;在塊大小為64 Byte的情況下,存取延遲能減少12.68%#65377;

若用Edec#65380;Etag#65380;Edata#65380;Epre#65380;Ehac#65380;ESA#65380;Emux和Ecom分別表示地址譯碼#65380;一組標志陣列#65380;一組數據陣列#65380;一路預充電電路#65380;暫停標志陣列比較電路#65380;一路靈敏放大電路#65380;多路選擇及輸出驅動#65380;一路標簽比較電路的能耗;用EsSA#65380;Esmux和Escom分別表示分離比較cache中一路靈敏放大器電路#65380;多路選擇及輸出驅動#65380;一路標志比較電路的能耗,則路暫停cache和分離比較cache的能耗為Ewh=Edec+Emux+n(Etag+Edata+Epre+Ecom+ESA)+4×Ehac

Esc=Edec+Esmux+n(Etag+Edata+Epre+Escom+EsSA)+4×Ehac

暫停標志陣列保存低四位地址,則n的平均值為1.06#65377;Ewh和Esc分別代表路暫停cache和分離比較cache的能耗#65377;采用以上性能模擬的兩種cache配置結構,模擬了Ewh和Esc的差值#65377;

圖5表明,Esc小于Ewh,但是分離比較cache相對于路暫停cache節省的能耗平均值僅為0.001 935 nJ,可以忽略不計#65377;也就是說,分離比較cache相對于路暫停cache提高性能的同時,能耗方面兩者大致一樣——節省傳統四路組相聯cache 45%~60%的能耗#65377;

3結束語

本文提出一種新的cache組織結構,稱做分離比較cache方案#65377;它能夠節省傳統四路組相聯cache平均13%的存取時間和45%~60%的能量損耗#65377;

參考文獻:

[1]HASEGAWA A, KAWASAKI I, YAMADA K, et al. SH3: high code density, low power[J]. IEEE Micro, 1995,15(6):1119.

[2]INOUE K, ISHIHARA T, MURAKAMI K. Waypredictive setassociative cache for high performance and low energy consumption[C]//Proc of the International Symposium on Low Power Electronics and Design. 1999:273-275.

[3]ZHANG C, VAHID F, NAJJAR W. A highly configurable cache for low energy embedded systems[J]. ACM Transactions on Embedded Computing Systems, 2005,4(2):363-387.

[4]ZHANG C, VAHID F, YANG J, et al. A wayhalting cache for lowenergy high performance systems[J]. ACM Transactions on Architecture and Code Optimization, 2005,2(1):34-54.

[5]ZHANG M, ASANOVIC K. Highlyassociative caches for lowpower processors[C]//Kool Chips Workshop in Conjunction with International Symposium on Microarchitecture. 2000.

[6]EFTHYMIOU A, GARSIDE J D. An adaptive serialparallel CAM architecture for lowpower cache blocks[C]//Proc of the International Symposium on Low Power Electronics and Design. 2002:136141.

[7]TAYLOR G, DAVIS P, FARMWALD M. The TLB slice: a lowcost highspeed address translation mechanisms[C]//Proc of the 17th Annual International Symposium on Computer Architecture.[S.l.]: IEEE, 1990:355-363.

“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 国产精品欧美亚洲韩国日本不卡| 色婷婷在线影院| 成人小视频网| 无码区日韩专区免费系列| 99热这里只有精品5| 亚洲人成色在线观看| 日韩高清在线观看不卡一区二区| 国内精品自在自线视频香蕉| 免费黄色国产视频| 国产H片无码不卡在线视频| 国产在线拍偷自揄观看视频网站| 亚洲国产天堂久久综合| 一级毛片高清| 99一级毛片| 伊人精品成人久久综合| 成人免费一区二区三区| 国产精品一区二区国产主播| 青青青国产视频手机| 亚洲精品波多野结衣| 人妻91无码色偷偷色噜噜噜| 国产精品欧美激情| 国产丰满大乳无码免费播放| 国产成人精品一区二区秒拍1o| 伊人色综合久久天天| 四虎亚洲精品| 亚洲色中色| 91精品aⅴ无码中文字字幕蜜桃| 久久精品视频一| 在线观看网站国产| 欧美激情综合| 91久久精品日日躁夜夜躁欧美| 喷潮白浆直流在线播放| 日韩黄色大片免费看| 国产精品嫩草影院视频| 青草精品视频| 青青久久91| 91久久夜色精品国产网站| 日韩色图区| 成人va亚洲va欧美天堂| 黄色片中文字幕| 欧美精品H在线播放| 国产91精品久久| 国产大片喷水在线在线视频| 国产精品视频第一专区| 欧美在线观看不卡| 啪啪国产视频| 色香蕉影院| 国产又爽又黄无遮挡免费观看 | 九色综合视频网| 亚洲中文久久精品无玛| 亚洲精品国产乱码不卡| 精品视频在线观看你懂的一区| 欧美午夜视频在线| 国产成人AV综合久久| 日韩精品免费在线视频| 精品综合久久久久久97超人| 亚洲二区视频| 欧美日韩一区二区三区在线视频| 日韩高清中文字幕| 国产美女叼嘿视频免费看| 日韩成人高清无码| 毛片一级在线| 欧美日韩久久综合| 精品视频一区二区观看| 制服丝袜亚洲| 成人伊人色一区二区三区| 亚洲a免费| 一区二区欧美日韩高清免费| 亚洲欧美综合另类图片小说区| 中文字幕人妻av一区二区| 亚洲Aⅴ无码专区在线观看q| 青青草原国产| 国内精品自在欧美一区| 成人免费视频一区| 亚洲日韩在线满18点击进入| 岛国精品一区免费视频在线观看 | 91美女视频在线| 伊人天堂网| 久久久成年黄色视频| 亚洲免费播放| 国产免费福利网站| 无码免费视频|