999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向多核的共享多通道Cache體系及原型構建

2010-03-12 09:05:56劉彩霞薛立成
哈爾濱工業大學學報 2010年11期
關鍵詞:體系結構系統

劉彩霞,石 峰,鄧 寧,宋 紅,薛立成

(北京理工大學計算機科學技術學院,北京100081,lcxhxb@gmail.com)

多核(Chip Multi-Processor,CMP)處理器能夠充分開發不同粒度的并行性,因而成為微處理器的主流發展方向.本質上多核設計的瓶頸還在于解決片內多核之間的互聯和通信機制問題,也就是需要一個快速的數據存儲和傳輸路徑[1-3].存儲系統在多核系統中不再僅僅意味著對數據的組織和存儲,合理的存儲體系對于提高多核系統并行通信性能甚至系統整體性能起著至關重要的作用[4-5].

基于將不同的存儲體系的優勢結合的目的,本文提出一種使用多通道Cache作為L2 Cache的可擴展可配置CMP體系Architecture Utilizing Multi-Channel Cache,AUMCC.根據所設計的多通道Cache的不同工作模式,AUMCC可以配置成私有L2 Cache結構或共享L2 Cache結構.AUMCC的共享模式中,多通道Cache的多個獨立的訪問通道確保了核間共享數據的高效并行傳輸,提高了核間通信帶寬;同時多通道Cache的分離訪問模式簡化了對L1 Cache的一致性維護開銷.基于LEON3處理器的原型系統上性能模擬及測試表明,AUMCC體系能提供高效的并行通信,通信性能相對于基于總線共享Cache結構約高出37%,系統的層次化特點使得系統具有良好的擴展性.

1 使用多通道Cache的多核系統AUMCC總體結構

AUMCC體系是一種采用多數據通道Cache作為L2 Cache的層次化可擴展可配置CMP結構[6](如圖1所示).系統中每個核擁有私有分離L1指令和數據Cache,L2 Cache可以根據多通道Cache的訪問模式動態配置成私有或共享兩種方式,因而AUMCC體系相應的可以配置成私有L2 Cache結構或共享L2 Cache結構.每個核對應一個通道,各個通道依次順序編址.內核間可以通過底層的互聯網絡通信,也可以通過共享模式中的多通道L2 Cache交換數據.共享模式的AUMCC中,內核可以讀寫本地通道內的存儲體,可以讀其他通道內的存儲體,因而不存在多核之間的寫沖突問題,簡化了對L1 Cache的一致性維護開銷,提高了系統性能,同時Cache的多通道特性可以緩解傳統基于總線共享Cache結構的總線帶寬的瓶頸問題,提高系統訪問帶寬和可擴展性.

圖1 AUMCC總體架構

圖1中該結構具有明顯的層次性.各功能核及多通道L2 Cache可以看作系統的“超核”.按照構建“超核”的方式,可以通過共享更高級的多通道Cache構成更大規模的系統,相似的構建方式可以應用于memory或輔助存儲器.

實驗中,節點數2、3、4時的平均精度分別為98.82%、90.29%、76.72%,可見,隨著預測節點數增多,預測精度降低,預測結果的穩定性也開始下滑.這是因為,當預測的節點數增多時,所有節點組成區域內的鏈路組合數量呈指數倍增長,而組合數越多,使得預測結果的搜索空間越大,模型越難準確地命中真實的情況,從而導致其預測穩定性的下滑;同時,當數據集大小有限時,對于每種組合下的輸入數據就會更少,即每種標簽下對應的訓練樣本變少,使得各標簽的訓練過程不充分,模型出現欠擬合現象,從而導致其預測精度變低.

利用CACTI進行的對比實驗表明,4個1 KB大小的單端口SRAM在工作頻率和面積上都優于一個4端口4 KB的全定制SRAM模塊,而且單端口SRAM可以由EDA工具快速編譯生成,便于設計實現.因此本文采用存儲體多體交叉的方式實現本體系中的多通道Cache[7-9],其硬件組織結構如圖2所示.

2 多通道Cache體系結構

2.1 多通道Cache硬件組織結構

設計意圖:簡潔的問題拉近了教師與學生的距離,讓學生有親切感并迅速進入問題探究.邏輯的學習應該避免簡單機械的記憶和抽象的理解,而應通過學生具體、生動的舉例來體會邏輯用語.

本文在Xilinx的開發板DS-KIT-4VLX60 MB上利用Xilinx FPGA XC4VLX60-10 FF1148C建立了基于LEON3[11]處理器的AUMCC體系以及基于總線共享Cache結構(SCA)的原形平臺.首先利用VHDL語言設計實現多通道Cache控制器,并將其嵌入編譯到Grlib庫的總線控制器中,實例化該庫中三端口SRAM生成多端口Cache存儲陣列.將LEON3軟核和VHDL設計文件一起利用make工具編譯生成庫IP核.之后由XST綜合工具生成的FPGA網表文件并由Xilinx公司的布局布線和下載工具生成相應的 SOF文件,通過JTAG端口將SOF文件下載到FPGA上進行硬件配置.使用LEON3的基于GCC的LECCS交叉編譯系統對基準程序進行編譯,得到二進制代碼以后,通過串行口下載到FPGA開發板上執行,系統配置參數如圖4所示.

圖2 多通道Cache組織結構圖

2.2 雙模式操作與并行交叉訪問

本文為多通道Cache設計了“私有”和“共享”兩種工作模式.1)在私有模式下,任意核core-i只能讀/寫與其對應通道內的多個存儲體,不能訪問其他的通道;2)在共享模式下,每個核可以讀取其他通道的數據,但不能向其中寫入數據.任意核必須通過其對應通道的存儲體與其他核交換共享數據.

在AUMCC體系的私有工作模式下,每一個功能核只讀寫L2 Cache本地通道的數據,因而不存在L1 Cache的一致性問題.在共享工作模式下,任意功能核只能讀取L2 Cache非本地通道的數據,因而共享模式下L1 Cache的一致性協議可以采用簡化的MESI協議——M協議:為每一個L1 Cache塊設置一位“M”位,用來標識在共享模式中讀取的L2非本地通道內的數據是否被通道擁有核修改.當任意功能核修改了L2 Cache本地通道內的數據時,會通過廣播方式通知其他所有核,其他核接收到通知后會根據Tag位和通道標識(CID)將相應的L1 Cache中的M狀態位置“1”.L1 Cache在進行Tag比較的同時會查看狀態位是否為“1”,若狀態位為“1”,則即使Tag命中,也會發出L1 Cache“缺失”請求,進而產生共享讀請求,訪問L2非本地通道.L2 Cache會根據核標識(CID)將命中的數據送入相應的CPU及L1 Cache中.依據這樣的L1 Cache一致性協議,AUMCC Cache體系結構如圖3所示.

本文以基準程序集 MediaBench[12]和 OOPACK[13]為基礎,從不同的分類中選擇了7個典型的基準測試程序basicmath,bitcount,blowfish,matrix,dijkstra,fft和stringsearch.測試結果給出了8核AUMCC體系及SCA體系中各基準測試程序運行時間(如圖5所示).相比SCA結構,AUM-CC體系中不存在L1 Cache的一致性維護開銷,而且L2 Cache的多通道支持高效的并行訪問,因而AUMCC體系中各種測試程序的運行性能均有所提高,平均加速比可以達到37%.通信與交互比較多的應用在兩種體系中的性能都最好,說明共享Cache結構能滿足核間高速、低延遲的通信需求.對于通信和并行交互比較多的測試程序,AUMCC的性能加速比更高,分別達到 1.52,1.46,因而相對SCA體系,AUMCC體系可以提供更高效的并行通信性能,支持核間共享數據的高效并行傳輸.

我走到那十幾個孩子身邊,輕輕擁著第一個孩子,真誠地說:“寶貝們,都抬起頭來。你們都有資格擁有徐老師做的小紅花,因為老師記得你們所做的每一件讓我感動的事情。小輝主動去到垃圾,回來時把垃圾筒洗得干干凈凈,弄得我們都不好意思往里面丟垃圾了,對嗎?”

因此,在寫入第1塊共享數據之后,讀寫操作就可以并行執行.當多方的計算負載均衡,速度匹配的時候,核之間可以進行流水并行傳輸.同步等待延遲最小,傳輸效率達到最高.

2.3 AUMCC Cache體系結構

可見,在私有模式下,所有的存儲體都不存在訪問競爭.在共享模式下,AUMCC不存在多核寫沖突的問題,簡化了維護L1 Cache數據一致性的硬件開銷,提高了核間共享數據的傳輸速度,有利于提高系統應用的實時性.在共享模式下,通道內存儲體的低地址交叉方式消除了核間的讀沖突.

圖3 AUMCC Cache體系結構

3 AUMCC原型系統的構建及性能分析

3.1 原型系統的構建平臺及構建方案

AUMCC原型系統的構建平臺及構建方案設置為:系統環境為Windows with Cygwin,仿真器為Modelsim 6.1f,綜合工具為Xilinx ISE 8.1,開發板為Xilinx的DS-KIT-4VLX60 MB.

第三模塊是素質拓展模塊,通過就業講座、社會實踐、各種比賽等形式,提高學生的綜合素質,更好地適應用人單位的需求。

多通道Cache由交叉開關和單端口Cache以多體交叉方式構成.該方案中,m個核通過一個m*n的交叉開關(crossbar)共享一個具有m個訪問通道、n個訪問端口的Cache存儲陣列.每個通道內設置了p片單端口Cache.每一個Cache模塊擁有獨立的Cache控制器,可以提供獨立的訪問端口.通道間以高位地址交叉方式編碼形成多通道Cache地址,存儲器的多體交叉是提高其數據帶寬的有效方法[10].通道間高位交叉使得多通道Cache的相鄰地址分布在同一個Cache通道內,可以減少通道沖突.而通道內各Cache則以低地址交叉方式形成通道地址,低地址交叉方式可以為訪問同一通道的各請求提供基于“生產者-消費者”的流水并行訪問方式,降低共享沖突.

3.2 AUMCC體系性能測試

在任務流水的計算模式下,核間的共享數據相繼構成“生產者-消費者”關系:前一個核的計算輸出直接作為下一個核的計算輸入.為了有效支持這種傳輸模式,在AUMCC中采用了交叉訪問的機制:1)當“生產者”core-i向其對應通道內的存儲體Bank-i寫入第1塊共享數據之后,釋放該存儲體,轉而向Bank-i+1寫入第2塊共享數據;2)“消費者”core-j(j≠i)啟動讀訪問,從Bank-i讀出第1塊共享數據;core-i釋放Bank-i+1,向Bank-i+2寫入第3塊數據.依此類推,直至全部并行流水傳輸完成.

在消除了多通道Cache的訪問沖突之后,所有核可以同時訪問不同的存儲體.理論上看,AUMCC的訪問帶寬可以隨著核數量的增長而線性增長,具有良好的可擴展性.為此,定義AUMCC體系的帶寬B為在某個單位時間內所能完成的訪問請求的數目,模擬時以每拍實際完成的訪問請求的數目DPC(Demands per cycle)來衡量共享數據Cache的帶寬,N為核的數量.7個基準程序的擴展性模擬結果如圖6所示.

圖4 系統參數配置

圖5 兩種體系下基準程序得運行時間

3.3 系統擴展性測試分析

路遙:鼓舞億萬農村青年投身改革開放的優秀作家。路遙,原名王衛國,陜西清澗人,1949年12月出生,1992年11月去世,曾任中國作家協會陜西分會黨組成員、副主席,先后創作了《人生》《驚心動魄的一幕》《在困難的日子里》等作品,榮獲“陜西省有突出貢獻專家”稱號,享受國務院政府特殊津貼。特別是他勇于改革文壇風氣,創作了長篇小說《平凡的世界》,展現了我國城鄉社會生活和人民思想情感的巨大變化,頌揚了拼搏奮進、敢為人先的時代精神,激勵了一代又一代青年人向上向善、自強不息。

圖6 AUMCC系統有效訪問帶寬與核數量的關系

由實驗結果可見,當N<12時,B快速增長,與N呈近似的線性關系.隨著N的進一步增大,核與存儲體之間的控制邏輯開銷、互連總線和交叉開關端口數量以O(N2)數量級增長,AUMCC的工作頻率開始下降,訪問延遲越來越大,有效訪問帶寬增長十分緩慢.當N<8時,帶寬的平均增長率為30%;當8<N<12時,平均增長率為13%;當N>12時,帶寬增長率低于5%.因此,AUMCC適合于12核以內的多核CMP.當核數量超過8核以上時,將以4核為一個超節點進行結構擴展.超節點內部采用AUMCC實現緊耦合的數據傳輸,超節點之間通過片上網絡或者其他共享存儲結構進行數據傳輸.

4 結論

1)提出一種面向多核系統的使用多通道Cache作為L2 Cache的高效存儲架構AUMCC.

黎永蘭母親李玉憤恨地說,自己的女兒還是一個副區長,但平日里穿的衣服都是淘寶上買的幾十塊的平價貨,遇到重大場合才舍得穿一件幾百塊錢的好衣服,生活品質連剛畢業的大學生都不如。

2)針對性能需求設計了多通道Cache的體系,其兩種分離訪問模式不僅簡化了L1 Cache的一致性維護開銷,同時使得AUMCC可以分別配置成共享L2 Cache和私有L2 Cache兩種架構.

3)采用LEON3處理器基于FPGA構建了AUMCC體系原型系統并進行了系統性能仿真模擬,結果表明,AUMCC體系相對于傳統基于總線共享的存儲架構而言有37%的性能提升.同時系統擴展性試驗表明,該體系具有明顯的層次化特點,易于擴展.

[1]OLUKOTUN K,HAMMOND L.QUEUE:The future of microprocessors[J].ACM,2005,3(7):26-29.

[2]Costin Iancu,Steven Hofmeyr.Runtime optimization of vector operations on large scale SMP clusters[C]//Proceedings of the 17th International Conference on Parallel Architectures and Compilation Techniques.New York,NY:ACM,2008:122-132.

[3]HOEFLER T,GOTTSCHLING P,LUMSDAINE A.Leveraging non-blocking collective communication in highperformance applications[C]//Proceedings of the Twentieth Annual Symposium on Parallelism in Algorithms and Architectures.New York,NY:ACM,2008:113-115.

[4]LEE Jaejin,SEO Sangmin,KIM Chihun,et al.COMIC:A coherent shared memory interface for cell be[C]//Proceedings of the 17th International Conference on Parallel Architectures and Compilation Techniques. New York,NY:ACM,2008:303-314.

[5]OZTURK O,KANDEMIR M,CHEN G,et al.Customized on-chip memories for embedded chip multiprocessors[C]//Proceedings of the 2005 Asia and South Pacific Design Automation Conference.New York,NY: ACM,2005:743-748.

[6]Haroon-Ur-Rashid,SHI Feng,JI Weixing,et al.Tri-BA:A novel scalable architecture for high performance parallel computing applications[C]//Proceedings of the 6th Conference on WSEAS International Conference on Applied Computer Science.Stevens Point,Wisconsin: World Scientific and Engineering Academy and Society (WSEAS),2007:396-401.

[7]AMD.AMD AthlonTM64處理器[EB/OL].[2005-03 -08].http://www.amd.com.cn/CHCN/Processors/ Product Information/0,30-118-9484,00.html.

[8] OZTURK O,KANDEMIR M.Data replication in banked DRAMs for reducing energy consumption[C]// Proceedings of the 7th International Symposium on Quality Electronic Design.Washington,DC:IEEE Computer Society,2006:551-556.

[9]劉彩霞,石峰,薛立誠,等.一種塊傳輸多端口存儲控制器:中國,200710098503.7[P/OL].[2007-10-09].http://search.sipo.gov.cn/sipo/zljs/hyjs-jieguo. jsp.

[10]HENNESSY J L,PATTERSON D A.計算機體系結構:量化研究方法[M].3版.北京:機械工業出版社,2002.

[11]Grlib-gpl-1.0.19-b3188.tar.gz[OL].[2008-09-30].http://www.gaisler.com/cms/index.php?option =com-content&task=view&id=156&Itemid=104.

[12]GUTHAUS M R,RINGENBERG J S,EMST D,et al. MiBench:A free,commercially representative embedded benchmark suite[C]//Proceedings of the 4thAnnual Workshop on Workload Characterization.Washington,DC:IEEE Computer Society,2001:3-14.

[13]Evaluating Performance and Power of Object-Oriented vs. Procedural Programming in Embedded Processors.[EB/ OL].[2008-9-19].http://www.auto.tuwien.ac. at/AE2002/Presentations/chatzigeorgion/ADA.ppt.

猜你喜歡
體系結構系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
WJ-700無人機系統
構建體系,舉一反三
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
論《日出》的結構
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
“曲線運動”知識體系和方法指導
主站蜘蛛池模板: 色综合手机在线| 无码中文AⅤ在线观看| 国产成人三级| 欧美三級片黃色三級片黃色1| 55夜色66夜色国产精品视频| 婷婷五月在线视频| 人人91人人澡人人妻人人爽| 22sihu国产精品视频影视资讯| 日本a级免费| 国产91线观看| 一区二区在线视频免费观看| 免费啪啪网址| 国产精品无码久久久久AV| 亚洲欧美一区二区三区麻豆| 亚洲 成人国产| 欧美在线免费| 国产h视频在线观看视频| 啪啪国产视频| 九色在线视频导航91| 国模私拍一区二区三区| 成人91在线| 国产精品成人免费综合| 找国产毛片看| 国产精品成人一区二区不卡 | 亚洲精品视频在线观看视频| 九九九久久国产精品| 国产爽妇精品| 国产成人精品三级| a毛片免费看| 扒开粉嫩的小缝隙喷白浆视频| 蜜桃臀无码内射一区二区三区| 国产女同自拍视频| 国产精品视频公开费视频| 一级黄色欧美| 免费一级毛片| 国产精品55夜色66夜色| 国产成人一区二区| 国产精品夜夜嗨视频免费视频 | 国产三级视频网站| 91精品免费久久久| 99re在线视频观看| 成人亚洲天堂| 制服丝袜 91视频| 欧美激情视频一区| 色综合激情网| 精品久久综合1区2区3区激情| 九九精品在线观看| 亚洲欧美日韩中文字幕一区二区三区 | 国产一级精品毛片基地| 国产成本人片免费a∨短片| 综合人妻久久一区二区精品| a级高清毛片| 98超碰在线观看| 波多野结衣视频网站| 全部免费毛片免费播放 | 精品一区二区三区无码视频无码| 高潮爽到爆的喷水女主播视频 | 91在线国内在线播放老师| 国产一级做美女做受视频| 国产欧美视频在线观看| 538国产在线| 综合色区亚洲熟妇在线| 91小视频在线播放| 8090成人午夜精品| 成人午夜久久| 亚洲无线视频| 色丁丁毛片在线观看| 欧美.成人.综合在线| 欧美亚洲日韩中文| 日韩人妻无码制服丝袜视频| 美女被操黄色视频网站| 中文字幕亚洲综久久2021| 亚洲国产中文在线二区三区免| jizz在线观看| 免费无遮挡AV| 欧美精品不卡| 国产99视频在线| 欧美日韩中文国产va另类| 91精品伊人久久大香线蕉| 五月丁香在线视频| 精品欧美视频| 日韩中文无码av超清|