999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于與非錐的新型FPGA邏輯簇互連結構研究

2015-08-17 11:15:08黃志洪楊海鋼楊立群李威江政泓林中國科學院電子學研究所北京100190中國科學院大學北京100049
電子與信息學報 2015年12期
關鍵詞:結構

黃志洪楊海鋼楊立群李 威江政泓林 郁(中國科學院電子學研究所 北京 100190)(中國科學院大學 北京 100049)

基于與非錐的新型FPGA邏輯簇互連結構研究

黃志洪①②楊海鋼*①楊立群①②李 威①江政泓①②林 郁①
①(中國科學院電子學研究所 北京 100190)②(中國科學院大學 北京 100049)

該文針對新型FPGA可編程邏輯單元與非錐(And-Inverter Cone, AIC)的結構特性,提出一系列方案以得到優化的邏輯簇互連結構,包括:移除輸出級交叉矩陣,單級反相交叉矩陣,低負載電路優化,將反饋和輸出選擇功能分開,限制AIC輸出級數的基礎上移除中間級交叉矩陣,與LUT架構進行混合等。通過大量的實驗,得出針對面積延時積最優的AIC簇互連結構,與Altera公司的FPGA芯片Stratix-IV結構相比,該結構邏輯功能簇本身面積減小9.06%, MCNC應用電路集在基于優化的AIC FPGA架構上實現的平均面積延時積減小40.82%, VTR應用電路集平均面積延時積減小17.38%;與原有的AIC結構相比,簇面積減小23.16%, MCNC應用電路集平均面積延時減小27.15%, VTR應用電路集平均面積延時積減小15.26%。

與非錐(AIC);AIC簇;單級反相交叉矩陣;簇互連結構

1 引言

FPGA(Field-Programmable Gate Arrays)由于具有開發周期短、產品上市速度快、市場適應能力強和不同工藝節點產品升級容易等優點,使得其逐步在互聯網、通信、圖像處理諸多領域都得到了越來越廣泛的應用,FPGA 也已從最早實現小型的邏輯電路轉向實現大的應用電路乃至整個數字系統[1,2]。當前主流的商用FPGA器件的邏輯基本單元普遍采用基于查找表(Look Up Table, LUT)的邏輯結構[3],k位輸入查找表能夠實現 22k種功能,其高度功能靈活性和可配置性是過去30年FPGA器件快速發展和廣泛應用根本原因之一。然而,查找表功能的高靈活性也帶來了相應的面積損耗代價,而且隨著芯片集成度越來越高,查找表邏輯結構的可擴展性制約逐漸成為FPGA器件發展的瓶頸。2012年,瑞士洛桑理工大學 Parandeh等人[4,5]提出了一種基于與非錐(And-Inverter Cone, AIC)結構的新型FPGA邏輯單元。得益于綜合工具的進步,如abc中Boolean SAT 解決方案的采用[6],使得電路在映射成為有向無環圖 AIG(And-Inverter Graph)時能夠在該圖不同深度上找到可復用的大量子圖,使得基于AIC結構的FPGA能夠在最大程度上利用已有的邏輯單元,提高邏輯利用率。本文通過比較AIC與LUT的結構特點,分析原AIC邏輯簇的不成熟和局限,改進面向AIC的映射工具,建立完整的適用于AIC邏輯結構的FPGA架構評估CAD流程,并基于此提出適用于與非錐結構特點的改進AIC簇互連結構設計方案,通過大量的仿真和實驗,得到優化的基于AIC結構的邏輯簇。

2 AIC邏輯單元及其簇結構

2.1 LUT的結構局限及AIC的適用機理

LUT通過更改存儲單元中的數值來實現不同邏輯功能。如圖1所示,k位輸入的LUT需要通過一個“2k位選1”多路選擇器和2k位SRAM來實現編程功能,假定一個多路選擇器單元面積為Sm,一位SRAM面積為Ss,則基于LUT的邏輯單元電路的面積為SL=2k(Sm+Ss)。面積隨k增加呈指數增長。假定“2k位選1”多路選擇器通過主流芯片常用的基于4輸入選擇器的多級選擇實現,每級4輸入選擇器的延時為Tm,則總延時TL=kTm/2,延時隨k呈線性增長。

AIC邏輯單元電路及多級AIC錐結構如圖2所示,K輸入AIC只需要通過log2k層次的與非選擇單元實現,假定每個與非錐單元面積為Sa,則總的面積 SA=(2D-1)Sa,其中D為K位輸入AIC實現所需的層次數,D=log2K,所以, SA=(K -1)Sa,邏輯單元電路總面積SA隨著輸入位數k線性增長。假定每級 AIC延時為 Ta,則總的延時為 TA= log2kTa,隨k呈對數增長。

圖1 4輸入查找表結構

圖2 AIC邏輯單元以及改進型可編程AIC單元

對于一個K輸入LUT,一共有N=2K個SRAM配置位,通過 2N不同的配置方案,可以實現 2N不同的功能。也就是說可以實現K輸入情況下的任意邏輯功能,有著極其強大的可編程能力。然而這種可編程能力也帶來了面積、延時和功耗的代價。以K=4的LUT結構為例,一個4輸入的LUT通過不同的配置,能夠實現一共216=65536種邏輯功能。以4輸入LUT實現VTR電路集中的各電路,一共采樣了411799個配置查找表,其中僅出現了942種不同的配置,占所有可能配置的1.437%,因此,查找表的可編程功能存在較大的冗余。此外,LUT只有一個輸出端,無法復用可配置資源。

根據最小項表達式和根據德摩根律[7],我們可知,任何函數通過邏輯運算都能夠改寫成為與非單元的組合表達式。因而可將任意的函數映射到AIC組合結構上。AIC結構中單個單元能夠實現的功能雖然簡單,但是堆疊起來能實現的功能則變得豐富,其特有的多個中間層輸出結構特點,使得本身的資源能夠得到充分的利用。

2.2 改進型可編程AIC單元

AIC基本單元的結構如圖2中BAE (Basic AIC Element)所示,為了使AIC基本單元在第1級即能

2.3 AIC簇結構

一個或者多個不同層次的AIC通過互連形成的可編程邏輯模塊,稱之為 AIC簇。Altera公司StratixIV 中與之相對應的是邏輯功能簇 LAB(Logic Array Block),為了驗證基于 AIC結構的FPGA的可行性并探索合適的AIC簇架構,文獻[8]采用了全定制設計方法,在Cadence的Virtuso設計平臺上,采用 40 nm標準CMOS工藝,實現了Stratix-IV的邏輯功能簇[9]作為對比的參照基準。其結構如圖3所示,其中一個LAB由10個自適應功能單元ALM(Adaptive Logic Module)組成。每個邏輯功能簇有52個輸入端,每個ALM模塊為6輸入查找表結構,并有兩個輸出端口,一個LAB共20個輸出端[10]。

通過采用Cadence公司的仿真工具spectre對電路進行仿真,獲得前仿性能參數,乘以經驗常數獲得后仿性能參數。與Stratix-IV芯片數據比對,關鍵模塊性能參數如6輸入查找表延時性能,D觸發器建立、保持時間、傳輸時間,整個邏輯簇面積等都與之基本相近[8,11]。

通過同樣的定制設計方法,根據文獻[4]設計了AIC簇的電路結構,如圖4所示。該AIC簇結構中,有3個層次為6級的AIC邏輯功能塊即AIC6。每個AIC6為對稱結構,有64個輸入端。由通道通過連接盒提供 64個輸入引腳,通過輸入級交叉矩陣(input crossbar)模塊進行選擇后為3個AIC6提供輸入。限定 AIC6從第 2層次開始提供輸出,即AIC6_2,共 31個輸出端。通過中間級交叉矩陣(middle crossbar)模塊進行選擇,并提供寄存輸出和邏輯輸出,最后再通過輸出級交叉矩陣(output crossbar)模塊選擇得到20個輸出,最終送到全局互連通道資源上。

該AIC簇結構中,有3個AIC6邏輯功能塊,每個AIC6為對稱結構,有64個輸入端。由通道通過連接盒提供64個輸入引腳,通過輸入級交叉矩陣(input crossbar)模塊進行選擇后為3個AIC6提供輸入。限定AIC6從第2層次開始提供輸出,共31個輸出端。通過中間級交叉矩陣模塊進行選擇,并提供寄存輸出和邏輯輸出,最后再通過輸出級交叉矩陣模塊選擇得到20個輸出,最終送到全局互連通道資源上。其中,各級交叉矩陣的電路實現方式均采用二級陣列多路選擇器電路實現,與主流的Altera公司的stratix系列產品相同[11]。

通過仿真獲得性能參數,通過 VPR7.0流程[12]獲得面積和延時參數,與Stratix-IV FPGA相比,不同應用電路采用AIC簇結構實現有著不同的性能參數結果,部分電路結果較差,部分電路有更優的面積和時延性能。

圖3 StratixIV邏輯功能簇結構

然而,文獻[8]中的設計和評估仍有多方面的不足。深入分析AIC邏輯功能塊,與LUT結構一個重要區別是,AIC邏輯功能塊有著更多的輸入和輸出,且由于不同層次眾多輸出的存在,可以復用功能模塊的中間節點輸出,從而大大提高了邏輯運算單元的利用率和運算密度,也有利于提升應用電路的性能。然而眾多的輸入輸出在帶來豐富局部布線資源,提升布線靈活性的同時,也帶來了電路實現的面積和延時損耗。在設計中出現的輸入級、中間級、輸出級交叉矩陣模塊,即使是在較優設計中,在整個AIC簇結構中所占的面積為79.89%,延時占AIC簇總延時43.3%至70.7%。這些豐富的資源在實際電路應用中存在冗余,導致AIC簇在面積和速度指標上的惡化。同時,原有的面向AIC的映射工具存在一定的限制,如原AIC映射工具僅支持AIC每個層次都需輸出;AIC單元層次為D時,輸入端個數必須大于2D等。這些限制制約了AIC簇設計的靈活性,也導致AIC簇性能無法進一步提升。

圖4 文獻[8] AIC簇結構

3 AIC簇互連結構設計方案及其性能評估

3.1 面向AIC的映射工具及結構評估流程

針對原有的映射工具存在的問題,基于開源的abc軟件[13]對新的工藝映射工具進行了開發[14]??删庉嫽成鋷斓囊?,使得應用電路在映射階段就能更準確建立映射代價函數,充分考慮到映射結果的代價,從而得到更符合要求的映射電路。AIC的獨立輸入個數,輸出層次、輸出個數的結構參數可調節化處理,使得對AIC結構參數的實驗能更為靈活自由。

集成新的工藝映射工具,本文所采用的新的AIC結構評估CAD流程如圖5所示:通過設定預選參數完成電路設計、仿真驗證、電路及管子參數優化獲得準確的電路信息,并基于此統計不同類型的映射單元的面積、延時庫,提供電路基本結構參數,完成面積和延時模型的建立。本文選取學術界

經典的20個最大的MCNC電路[15]和VTR中的大部分電路[10],除去個別規模過大非常耗時的電路,作為完整的測試電路集完成整個評估流程。本文電路設計平臺為 Cadence公司的 Virtuso,并通過spectre進行仿真驗證。

3.2 AIC簇互連結構改進方案

3.2.1輸出級交叉矩陣的移除和基于LUT的邏輯簇LAB的設計不同,基于與非元錐結構的AIC簇為了使輸出能靈活跳轉到不同的通道線,在連接至通道資源之前設計了輸出級交叉矩陣。雖然該交叉矩陣提供了更為靈活的布線資源,但是實際電路中,由于通道之間的跳轉靈活性,輸出本身可以通過連接有限根不同的通道傳輸到不同邏輯模塊參與下一步運算。輸出級交叉開關的存在,在占用面積開銷的同時,也為應用電路帶來了延時代價。本文合理利用互連通道的可置換特點,有效利用布線資源靈活度,將輸出級交叉矩陣的功能部分上移至通道開關完成,嘗試移除輸出級交叉矩陣,即實現AIC簇結構如圖6所示。

圖5 集成改進映射工具的CAD結構評估流程

圖6 移除輸出級交叉矩陣的AIC簇結構

通過CAD流程實驗,可得MCNC和VTR電路集在基于改進AIC簇FPGA實現的關鍵路徑延時和面積,與Stratix-IV和文獻[8]FPGA14中的AIC結構相比,延時和面積性能改進比對如圖7所示。

移除輸出級交叉矩陣的AIC簇結構與Stratix-IV結構相比,在MCNC應用電路和VTR應用電路平均面積延時積分別減小了33.92%和 9.88%;與文獻[8]中AIC結構相比,平均面積延時積分別減小了18.65%和 7.56%。

3.2.2單級反相交叉矩陣和低負載電路優化Stratix-

IV中的各級交叉矩陣采用了經典的二級多路選擇器來實現信號選擇和復用功能[11],該結構包含兩級反相器即緩沖器,中間通過上拉管實現因傳輸管帶來的電壓損失的電平恢復。這種設計的主要考慮因素是保持輸出信號和輸入信號的同相性,以及確保本級輸出有較好的驅動能力。

文獻[8]中邏輯功能簇在輸入級交叉矩陣和中間級交叉矩陣均采用了同樣的電路結構。這種結構中,為了很好地驅動連線上較大的負載,通常會采用尺寸較大的第2級反相器。其中,輸入級交叉矩陣中的多路選擇器最后一級反相器面積占該模塊總面積的 14.6%,中間級交叉矩陣中的多路選擇器最后一級反相器占該模塊總面積的16.1%。

圖7 移除輸出級交叉矩陣AIC簇結構延時和面積比對

進一步分析可以發現,AIC可編程邏輯電路在輸入端和輸出端均有著可通過 SRAM 進行信號正反相選擇的特點,即不管是輸入級交叉矩陣還是中間級交叉矩陣是否能夠保持輸入信號和輸出信號的同相性,甚至在輸出級交叉矩陣未移除情況下,可編程AIC都能通過簡單的正反相選擇實現所需的功能。

而且,對輸入級交叉矩陣中的多路選擇器,每個多路選擇器僅需驅動 AIC6中的一個輸入端,中間級交叉矩陣中的多路選擇器,也同樣是一個多路選擇器僅需驅動一個寄存器和一個二選一選擇器,負載都在可控范圍內,采用雙級反相器組成的緩沖器造成了很大的浪費。192個多路選擇器組成的輸入級交叉矩陣,48個多路選擇器組成的中間級交叉矩陣,加上移除的輸出級交叉矩陣,在整個AIC簇模塊中占了79.89%的面積。

因此,本文提出了適用于AIC架構的單級反相交叉矩陣(Inverter-Suffixed Crossbar, ISC),即由單級多路選擇器構成,并針對不同級交叉矩陣,重新考慮面積和延時的折中,對所用到晶體管尺寸進行仿真優化,不僅大大減少了面積開銷,而且帶來了各級交叉矩陣性能的進一步提升。在保持設計選擇器功能和個數不變的情況下,改進后的輸入級交叉矩陣延時由文獻[8]中的203.2 ps變成113.28 ps,提升 44.3%,每個多路選擇器面積由文獻[8]中的212.9MWTA[3](Minimum Width Transistor Area)變成188.75NWTA,減小11.37%。中間級交叉矩陣延時由文獻[8]中的 118.4 ps變成 76.72 ps,提升35.3%,每個多路選擇器面積由文獻[8]中的152.3NWTA變成104.2NWTA,減小27.5%。

文獻[8]中AIC輸出連接到中間級交叉矩陣時為了使信號有較好的上升和下降性能,在中間級交叉矩陣前設計了93個緩沖器A。信號通過2選1選擇器后送入輸出級交叉矩陣前,同樣加入了緩沖器B,以滿足其多負載的驅動需求。利用AIC運算單元能夠實現正反相選擇的特性,可將緩沖器A, B均換成一級反相器C, D實現。進一步仿真優化,適度增大AIC中的與非門以及二選一選擇器傳輸門的管子尺寸,可以增大驅動能力,因此進一步移除反相器C,使得整體面積在減小的同時,延時得以進一步減小。通過優化負載電路后獲得的新AIC簇結構如圖8所示,運算模塊面積為2738.99NWTA,相比于文獻[8]中 AIC6運算模塊的面積 3290.07NWTA,減少了16.7%, AIC不同級輸出延時平均減少14.71%。

通過實驗,可得該結構的電路延時和面積比對如圖9所示,與Stratix-IV結構相比,在MCNC應用電路和 VTR應用電路平均面積延時積分別減小了36.03%和 13.7%;與文獻[8]中AIC結構相比,平均面積延時積分別減小了21.25%和 11.48%。

3.2.3拆分輸出和反饋文獻[8]中AIC錐運算結果通過中間級交叉矩陣后,通過2選1選擇器mux2s1來實現邏輯和寄存輸出的選擇功能,其輸出同時反饋回輸入級交叉矩陣,即文獻[8]中的AIC簇的反饋和輸出實際上共用2選1選擇器的輸出,這種設計雖然節省整體實現面積,但如果一旦有AIC錐運算結果同時需作為輸出和反饋,且輸出和反饋分別需要寄存和組合邏輯輸出應用時,便會增加布線難度。同時,由于文獻[8]中緩沖器B需要反饋接入輸入級交叉矩陣中 96個多路選擇器的同時驅動多根通道線,導致緩沖器B的尺寸較大,且延時性能較差。

圖8 采用單級反相交叉矩陣和低負載電路優化后AIC簇結構

本文提出將AIC簇的反饋和輸出分開,不再共用2選1選擇器的輸出,同時由于寄存器單元的面積較大,為了避免寄存器單元數目的增加,采用了共用寄存器的方案,僅增加2選1選擇器數目,且通過兩個反相器輸出,實現架構如圖10所示。采用該結構,雖然在電路實現面積上有所增大,但此時反饋和輸出都能獨立靈活地選用組合邏輯輸出和寄存輸出,且由于將驅動拆分成兩個反相器,負載近似減半,管子尺寸可以減小的同時提高了反相器的延時性能。通過 VTR流程實驗,統計可得電路延時和面積比對如圖11所示。采用拆分輸出和反饋后的AIC簇結構與Stratix-IV結構相比,在MCNC應用電路和 VTR應用電路平均面積延時積分別減小了39.69%和14.75%;與文獻[8]中AIC結構相比,平均面積延時積分別減小了25.75%和12.56%。3.2.4中間級交叉矩陣采用全連通交叉矩陣實現文獻[8]中AIC簇的中間級交叉矩陣采用的結構為最小化交叉矩陣(minimal crossbar)[16],即采用48個輸入個數為16,輸出個數為1的多路選擇器mux16s1實現。本文嘗試采用全連通交叉矩陣(full crossbar)結構,即采用48個輸入個數為31,輸出個數為1的多路選擇器mux31s1實現,這種結構在簇實現面積

圖9 采用單級反相交叉矩陣和低負載電路優化后AIC簇結構延時比對

圖10 拆分輸出和反饋的AIC簇結構

圖11 拆分輸出和反饋的AIC簇結構延時比對

上變得大,但提供了更高的布線靈活性。通過 CAD流程,可得結果如下:采用全連通交叉矩陣結構比采用最小化交叉矩陣結構 MCNC

應用電路平均關鍵路徑延時減小 5.54%,平均面積增大2.98%,面積延時積減小2.72%, VTR應用電路平均關鍵路徑延時減小 4.02%,平均面積增大

2.02%,面積延時積減小2.07%。即可知,采用全連通交叉矩陣結構比最小化交叉矩陣結構性能可獲得更高的提升。

3.2.5限制AIC6的輸出級數文獻[8]中AIC簇的設計受限于原AIC映射工具的約束,一旦選定AIC錐的級數D, AIC錐輸出個數即為 2(D-2)- 1,并因此制約了AIC簇結構的探索自由度。本文中,由于映射工具的改進,AIC錐的輸出級數能夠自由設定,考慮到實際映射結果中存在大量層數為2級和3級的輸出,本文嘗試將AIC錐的輸出限制為3級以上輸出,即1級和2級均不再提供輸出,用AIC6_3進行標示。AIC錐級數為 D時,輸出個數為2(D-2)- 1,即AIC6_3的輸出個數為15個。

本文提出在輸出交叉矩陣移除的基礎上,進一步將中間級交叉矩陣移除。該結構由于中間級交叉矩陣的移除,可以進一步減少整個AIC簇面積的同時,減少AIC錐運算結果輸出和反饋所需經過的模塊,進一步減小延時。改進AIC簇結構如圖12所示。

本文同時嘗試對AIC簇中的3個AIC6中的2個、1個限制其為3級以上輸出,其它仍保持2級以上輸出,分別通過前文所述的 CAD流程,最終可得3AIC6_3面積和延時結果最好,電路面積和延時比對如圖13所示。

與Stratix-IV結構相比,該結構在MCNC應用電路和 VTR應用電路平均面積延時積分別減小了40.82%和17.38%;與文獻[8]中AIC結構相比,平均面積延時積分別減小了27.15%和 15.26%。

3.3 改進結構實驗結果分析和比較

通過 VTR流程對上述結構進行評估,統計各結構的實現結果如表1所示,其中A表示面積減少的百分比,D表示關鍵路徑延時減小的百分比,P表示面積延時積減小的百分比。各結構都是在前一結構基礎上進一步嘗試和探索,但各結構又有自身特點。相比于采用單級反相交叉矩陣的AIC架構2,拆分反饋和輸出后的AIC架構3由于AIC簇本身的面積增大,因此在實現不同應用電路集的面積性能上,改善較少或者基本相近,但延時性能在不同應用電路集上卻基本更優。相比于拆分反饋和輸出后仍保持2級以上輸出的AIC結構3,限制AIC輸出級數為3級以上輸出的AIC結構4雖然在MCNC電路集延時性能上改善較少,但由于其面積更小,從而面積延時積改善指標上更具優勢,而且在VTR電路集上性能更好。因此從面積延時積角度考慮實驗結果,限制AIC輸出級數為3級以上輸出AIC結構4最優。

圖12 限制AIC6的輸出級數的AIC簇結構

圖13 限制AIC6的輸出級數的AIC簇結構延時比對

本文同時將輸出限制為3級以上的AIC6_3結構4和stratix-IV的LUT結構混合,形成新的FPGA架構5進行試驗。由于VTR工具的限制,僅能實現對列的改動,因此本文仍采用文獻[4]中按列混合的方式,即AIC簇和LAB簇的比例為1:3,在每3列stratix-IV的LUT結構的LAB簇中間插入一列AIC簇。

通過 CAD流程,與 Stratix-IV結構相比,MCNC應用電路在該混合架構上實現時平均面積延時積減小40.12%, VTR應用電路平均面積延時積減小8.79%;與文獻[8]中AIC結構相比,MCNC應用電路平均面積延時積減小26.28%, VTR應用電路平均面積延時積減小6.44%。所得結果與純AIC6_3結構相比,所得的電路性能并沒有得到進一步改善,原因是由于本文映射時的所采用的代價函數將延時性能作為第一要素考慮導致的。

表1 不同改進結構與Stratix-IV LUT以及文獻[8]中AIC結構實現性能比較(%)

4 結論

本文深入剖析AIC與LUT的結構特點,通過集成改進型面向AIC的映射工具,建立完整的適用于基于AIC邏輯結構的FPGA架構評估CAD流程?;诖?,針對AIC結構特點,提出移除輸出級交叉矩陣,單向交叉矩陣,優化負載電路,并提出將反饋和輸出選擇功能分開,限制AIC輸出級數的基礎上移除中間級交叉矩陣,并與LUT架構進行混合等AIC簇互連設計改進方案,經過大量實驗,最終得出針對面積延時積優化的AIC簇互連結構。

相比于傳統Stratix-IV基于LUT簇結構,文獻[8]所提出的AIC簇結構在部分電路延時性能上有一定優勢,但其面積過大,限制了其性能的提升。本文提出的優化結構在邏輯功能簇本身實現面積上相比文獻[8]中的 AIC簇結構減少 23.16%,相比于Stratix-IV LUT簇結構減少9.06%,從而使得基于AIC結構FPGA邏輯簇在一定程度上展現出其潛在的優勢。

與Stratix-IV結構相比,本文得到的優化結構實現 MCNC應用電路時平均面積延時積減小了40.82%, VTR應用電路平均面積延時積減小了17.38%;與文獻[8]中AIC簇結構相比,MCNC應用電路平均面積延時積減小了27.15%, VTR應用電路平均面積延時積減小了15.26%。

[1] Kuon I and Rose J. Measuring the gap between FPGAs and ASICs[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2007, 26(2): 203-215.

[2] Mayer-Lindenberg F. Design and application of a scalable embedded systems’ architecture with an FPGA based operating infrastructure[C]. 9th Euromacro Conference on Digital System Design, Croatia, 2006: 189-196.

[3] Betz V, Rose J, and Marquardt A. Architecture and CAD for Deep-Submicron FPGAs[M]. Netherlands, Kluwer Academic Publishers, 1999: 15-20.

[4] Parandeh-Afshar H, Benbihi H, Novo D, et al.. Rethinking FPGAs: elude the flexibility excess of LUTs with and-inverter cones[C]. Proceedings of the ACM/SIGDA International Symposium on Field Programmable Gate Arrays, Monterey,2012: 119-128.

[5] Parandeh-Afshar H, Zgheib G, Novo D, et al.. Shadow and-inverter cones[C]. IEEE International Conference on Field Programmable Logic and Applications (FPL), Porto,2013: 1-4.

[6] Mishchenko A, Chatterjee S, and Brayton R. DAG-aware AIG rewriting: a fresh look at combinational logic synthesis[C]. Proceedings of the 43rd Design Automation Conference,San Francisco, 2006: 532-536.

[7] 埃伯哈德, 蔡德勒等, 編. 李文林, 等譯.《數學指南-實用數學手冊》[M]. 北京: 科學出版社, 2012: 875.

[8] Zgheib G, Yang L, Huang Z, et al.. Revisiting and-inverter cones[C]. Proceedings of the 2014 ACM/SIGDA international symposium on Field-Programmable Gate Arrays. ACM,Monterey, 2014: 45-54.

[9] Altera Corporation. Stratix IV Device Handbook, vols.1 and 2.[OL] https://www.altera.com/content/dam/altera-www /global/en_US/pdfs/literature/hb/strastr-iv/stratix4_hand book.pdf, 2012.

[10] Murray K E, Whitty S, Liu S, et al.. Titan: enabling large and complex benchmarks in academic CAD[C]. Proceedings of the 23rd International Conference on Field-Programmable Logic and Applications, Porto, Portugal, 2013: 1-8.

[11] Lewis D, Ahmed E, Baeckler G, et al.. The stratix II logic and routing architecture[C]. Proceedings of the 2005 ACM/ SIGDA 13th ACM International Symposium on Field-Programmable Gate Arrays, Monterey, 2005: 14-20.

[12] Luu J, Goeders J, Wainberg M, et al.. VTR 7.0: Next generation architecture and CAD system for FPGAs[J]. ACM Transactions on Reconfigurable Technology and Systems(TRETS), 2014, 7(2): 6:1-6:30.

[13] Brayton R and Mishchenko A. ABC: an academic industrialstrength verification tool[C]. Computer Aided Verification,Edinburgh, 2010: 24-40.

[14] 江政泓, 林郁, 黃志洪, 等. 面向AIC結構的FPGA映射工具[J]. 電子與信息學報, 2015, 37(7): 1769-1773. Jiang Zheng-hong, Lin Yu, Huang Zhi-hong, et al.. Mapper for AIC-based FPGAs[J]. Journal of Electronics & Information Technology, 2015, 37(7): 1769-1773.

[15] Yang S. Logic synthesis and optimization benchmarks User Guide, version 3.0[OL]. http://ddd.fit.cvut.cz/prj/ Benchmarks/LGSynth91.pdf, 1991.

[16] Lemieux G, Leventis P, and Lewis D. Generating highlyroutable sparse crossbars for PLDs[C]. Proceedings of the 8th ACM/SIGDA International Symposium on FPGA, Monterey,California, 2000: 155-64.

黃志洪: 男,1984年生,博士生,助理研究員,研究方向為可編程邏輯結構設計、嵌入式存儲器通道結構.

楊海鋼: 男,1960年生,研究員,研究方向為數?;旌闲盘柤呻娐吩O計、超大規模集成電路設計等.

楊立群: 女,1989年生,博士生,研究方向為FPGA架構開發、FPGA CAD工具開發.

李 威: 女,1983 年生,助理研究員,研究方向為可編程芯片結構設計.

江政泓: 男,1990年生,博士生,研究方向為FPGA架構開發、FPGA的映射算法.

林 郁: 男,1982年生,助理研究員,研究方向為FPGA的CAD輔助設計、FPGA高層綜合.

Interconnect Architecture of a Novel And-inverter Cone Based FPGA Cluster

Huang Zhi-hong①②Yang Hai-gang①Yang Li-qun①②
Li Wei①Jiang Zheng-hong①②Lin Yu①①
①(Institute of Electronics, Chinese Academy of Sciences, Beijing 100190, China)
②(University of Chinese Academy of Sciences, Beijing 100049, China)

With deep understanding of the characteristics of And-Inverter Cone (AIC), an alternative logic element for FPGA, a series of improvements are proposed to get an optimized interconnect architecture inside the logic cluster. The enhancements include removing the output crossbar, adopting Inverter-Suffixed Crossbar (ISC),optimizing the low load circuit path, dividing the feedback and output function, restricting the output level of AIC and removing the middle crossbar, mixing with the LUT element. An optimized architecture is derived through amounts of experiments. Compared to Stratix IV, Altera, the area of cluster is reduced by 9.06%.Implemented on the new AIC architecture, the average area-delay product of MCNC benchmarks are reduced by 40.82%; the average area-delay product of VTR benchmarks is reduced by 17.38%. Compared to the original AIC-based FPGA architecture, the area of AIC cluster is reduced by 23.16%. Implemented on the new AIC architecture, the average area-delay product of MCNC benchmarks are reduced by 27.15%; the average area-delay product of VTR benchmarks are reduced by 15.26%.

And-Inverter Cone (AIC); AIC cluster; Inverter-Suffixed Crossbar (ISC); Cluster interconnect architecture

The National Natural Science Foundation of

TN402

A

1009-5896(2015)12-3030-11

10.11999/JEIT150249

2015-02-12;改回日期:2015-09-16;網絡出版:2015-11-01

*通信作者:楊海鋼 yanghg@mail.ie.ac.cn

國家自然科學基金(61271149)

China (61271149)

猜你喜歡
結構
DNA結構的發現
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結構的應用
模具制造(2019年3期)2019-06-06 02:10:54
循環結構謹防“死循環”
論《日出》的結構
縱向結構
縱向結構
我國社會結構的重建
人間(2015年21期)2015-03-11 15:23:21
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 色综合中文字幕| a级毛片视频免费观看| 国产区精品高清在线观看| 人妻丝袜无码视频| 欧美精品在线看| 久久精品国产91久久综合麻豆自制| av一区二区三区在线观看| 亚洲欧美成人| 国产一区免费在线观看| 992tv国产人成在线观看| 国产精品偷伦在线观看| 亚洲69视频| 国产第一页免费浮力影院| 中文字幕亚洲专区第19页| 久草青青在线视频| 丁香亚洲综合五月天婷婷| 精品人妻系列无码专区久久| 88av在线| V一区无码内射国产| 成年av福利永久免费观看| 久久久精品国产SM调教网站| 毛片基地视频| www.亚洲色图.com| 青草视频久久| 91精品小视频| 国产在线精彩视频二区| 99国产精品国产高清一区二区| 午夜激情婷婷| 欧美五月婷婷| h视频在线播放| 国产va在线观看免费| 亚洲日产2021三区在线| 日本高清在线看免费观看| 女人18一级毛片免费观看| 国产精品亚洲五月天高清| 欧美国产日韩一区二区三区精品影视| 国产成人一区| 国产乱人伦偷精品视频AAA| 国产精品亚洲片在线va| 婷婷开心中文字幕| 美女一区二区在线观看| 欧美亚洲第一页| 亚洲第一国产综合| 伊人AV天堂| 国产精鲁鲁网在线视频| 中文字幕在线观| 一级香蕉人体视频| 欧美日韩一区二区三区四区在线观看| 国产欧美日韩va另类在线播放 | 亚洲高清中文字幕在线看不卡| 青青草国产精品久久久久| 日韩欧美在线观看| 福利小视频在线播放| 久久综合AV免费观看| 久久99国产乱子伦精品免| 91精品国产无线乱码在线| 国产成人麻豆精品| 国产成人禁片在线观看| 亚洲婷婷六月| 特级精品毛片免费观看| 国产杨幂丝袜av在线播放| 日本一区二区不卡视频| 亚洲成人黄色在线| 中文字幕中文字字幕码一二区| 亚洲日韩国产精品无码专区| 国产精品99在线观看| 99久久免费精品特色大片| 国产综合日韩另类一区二区| 四虎永久在线视频| 四虎免费视频网站| 国产一区二区三区日韩精品| 丁香综合在线| 久久国产毛片| 久久久波多野结衣av一区二区| 精品亚洲欧美中文字幕在线看| 日韩精品无码不卡无码| 最新亚洲人成网站在线观看| 毛片手机在线看| 国产精品永久不卡免费视频| 中国丰满人妻无码束缚啪啪| 欧洲欧美人成免费全部视频| 国产91无码福利在线|