任博琳,肖立權,齊星云,張 庚,王 強,羅 章,龐征斌,徐佳慶
(國防科技大學計算機學院,湖南 長沙 410073)
隨著半導體制造工藝的提升,芯片性能在摩爾定律的指導下不斷提高,但由于器件尺寸已經開始逼近物理極限,半導體產業進入了“后摩爾時代”。芯片制造成本隨著工藝的提升越來越高,半導體產業一直在尋找解決發展步伐變慢的方法[1]。片上系統SoC(System on Chip)的發展已經遇到瓶頸[2]。單個芯片上集成過多的單元使得芯片面積急劇增大,導致芯片良品率降低,進而增加了成本。芯粒(Chiplet)技術是行業認為延緩摩爾定律的解決方案之一,受到了行業的普遍重視[3]。
Intel、AMD、微軟、高通公司、三星和臺積電等公司一起建立了一個小芯片互連標準UCIe(Universal Chiplet Interconnect express)。UCIe是一種開放的、支持多協議的封裝內互連標準,用于連接同一封裝上的多個芯片。UCIe制定了Chiplet之間高速低功耗互連的標準。針對UCIe提出的低功耗、低誤碼率的互連標準,本文設計了一種低功耗的發射機驅動[4]。
面向UCIe協議提出的芯粒間互連標準,本文介紹了一種采用2-tap前饋均衡的低功耗發射機驅動設計。通過對比分析電壓模驅動器SST(Source-Series Terminated)和電流模驅動器CML(Current Mode Logic),電壓模驅動器的功耗為電流模驅動器的1/4,采用SST電壓模驅動器可以顯著降低發射機的整體功耗。發射機采用2-tap的可調前饋均衡器,芯粒間互連由于通信距離短,信道衰減程度小,降低了整體發射機的功耗。根據不同信道的衰減,調整均衡系數,可以降低信號通過信道后的碼間串擾。
本文工作主要包括以下4個方面:
(1)分析電流模驅動器與電壓模驅動器的電路結構,并對兩者功耗進行對比分析,得知電壓模驅動器具有功耗低、線性度好等優勢,因此本文設計采用電壓模驅動器。
(2) 基于電壓模驅動器實現2-tap前饋均衡,分析單端傳輸中SST電壓模驅動器實現前饋均衡的工作原理,即通過調整延遲抽頭切片(slice)的數量來調整去加重后的電壓差,從而改變均衡強度,并對電路進行功耗分析。
(3) 設計了一種基于SST電壓模驅動器的低功耗可調均衡發射機驅動,最大均衡強度為-3.7 dB,仿真功耗僅為4.0 mW。根據不同信道衰減程度選取合適的均衡強度,降低信號的碼間干擾。
(4) 測量真實信道參數,不同的數據速率對應不同的信道衰減。根據真實信道參數,測試發射機性能以及不同電源電壓下發射機的眼圖及功耗。
發射機主要架構包括4∶1并轉串模塊、去加重控制模塊、驅動模塊及時鐘通路。4∶1并轉串模塊將4路輸入信號合成1路高速的32 Gbps信號。時鐘由PLL(Phase Lock Loop)產生并通過分頻電路將時鐘分頻后給各個模塊。去加重控制模塊是通過控制主抽頭和延遲抽頭驅動器slice的數量來控制輸出信號的去加重程度。

Figure 1 Overall structure of transmitter
驅動器是整個發射機功耗最大的部分,常用的2種驅動器如圖2和圖3所示,圖2為電流模驅動器CML[5],圖3為電壓模驅動器SST[6]。下面分別對電流模驅動器和電壓模驅動器的功耗進行分析。

Figure 2 Current mode driver

Figure 3 Voltage mode driver
在電流模驅動器(CML)傳輸信號的過程中,尾電流為整個電路提供恒定的電流,M1、M2的柵極分別是信號的輸入端,M1和M2的尺寸盡量選擇大尺寸,輸出阻抗近似為負載電阻R。電阻R的阻值為50 Ω,以實現信道的阻抗匹配,降低信道對信號的反射和衰減,當輸入信號Vin_n為低電平,Vin_p為高電平時,晶體管M1導通,晶體管M2截止,整個電路的電流如式(1)和式(2)所示:
(1)
(2)
在電壓模驅動電路(SST)傳輸信號的過程中,M1與M2的柵極作為信號Vin_p的輸入端,M3與M4的柵極作為信號Vin_n的輸入端,信號傳輸過程中,當輸入為高電平時,NMOS管導通,當輸入為低電平時,PMOS管導通。設計過程中,NMOS管與PMOS管尺寸應匹配,以保證信號在傳輸過程中保持穩定。CMOS管導通電阻與串聯電阻之和應為50 Ω,以實現與信道的阻抗匹配。當Vin_p為高電平,Vin_n為低電平時,M2、M3導通,整個電路的工作電流為式(3):
I3=I
(3)
通過上面的分析可知,電流模驅動器在工作時,負載中流過的電流為尾電流的1/4,其中3/4的電流被晶體管消耗了。反觀電壓模驅動電路,電流的利用效率高,輸出相同的電壓擺幅的情況下,電流模驅動器要消耗4倍的電流。因此,電流模驅動電路的功耗是電壓模驅動電路的4倍。UCIe協議中要求芯粒間互連要盡可能地降低功耗,電壓模驅動相較于電流模驅動具有功耗低、線性度好等優點,因此本文采用電壓模驅動電路,以達到降低功耗的目的。
信號在傳輸過程中,由于信道的非理想性,會受到串擾、反射和噪聲等諸多因素干擾,導致信號產生碼間干擾ISI(InterSymbol Interference)[7]。為了消除碼間干擾,需要在發射端和接收端采用相應的均衡技術,以補償或抵消信道的衰減。常用的均衡器有前饋均衡器FFE(FeedForward Equalizer)、判決反饋均衡器(Decision Feedback Equalizer)和連續時間線性均衡器(Continuous Time Linear Equalizer)[8]。
在發射端常用的是前饋均衡器。前饋均衡器的原理圖如圖4所示,主要由延時單元、乘法單元和加法單元組成。數據通過延遲單元后,分為前抽頭、主抽頭和后抽頭,延遲的數據乘上不同的抽頭系數,最后將數據進行疊加。前饋均衡技術主要應用于發射端,該技術可以降低信號前后的干擾,但是由于抽頭個數不是無限的,干擾無法完全消除。前饋均衡器(FFE)有2種實現方式。一種是增加信號高頻分量來抵消或降低信道對高頻信號的衰減,這種方式也被稱為預加重;另一種是降低低頻分量,確保信號通過信道后的完整性,也被稱為去加重。

Figure 4 Principle block diagram of feedforward equalizer
UCIe協議中建議發送端速率在24 Gbps和32 Gbps時,發送端采用前饋均衡的方式,均衡強度為-2.2 dB(±0.5 dB)。當速率較低時,由于信道距離短,不進行發送端均衡,從而降低功耗。
根據UCIe協議提出的芯粒間互連標準,速率在32 Gbps時,均衡強度為-2.2 dB(±0.5 dB)。本文在設計前饋均衡器時,要求均衡強度至少能夠達到-2.7 dB。該驅動器設計的最大均衡強度為-3.7 dB。
前饋均衡器可分為去加重和預加重2種。為了實現低功耗,本文設計采用的是去加重的前饋均衡器,通過調整各個抽頭slice的數量,來調整抽頭系數,從而實現不同的均衡強度。可調前饋均衡器總體結構如圖5所示。

Figure 5 Overall structure of adjustable feedforward equalizer
SST電壓模驅動器主要包括上拉支路和下拉支路,上拉電路由PMOS管和串聯電阻組成,下拉電路由NMOS管和串聯電阻組成。在設計電路的過程中,使得串聯電阻的阻值相等,PMOS管和NMOS管的數量保持一致,方便版圖設計。PMOS管和NMOS管的尺寸要匹配,使得信號在傳輸過程中上下支路的阻抗相等[9]。一個SST電路稱為一個slice,其中,單個slice的輸出阻抗為N×R,N為SST電壓模驅動器的總個數,驅動器之間都是并聯的關系;R=50 Ω,為信道的特征阻抗。總的輸出阻抗Rout如式(4)所示:
(4)
在設計單個slice時,由于輸出阻抗由晶體管的導通電阻和串聯電阻組成,隨工藝、溫度、電壓的變化而變化。晶體管的尺寸大小的選取要經過仔細分析,串聯電阻的阻值越大,整個輸出阻抗受到溫度等因素的影響越小。但是,若串聯電阻的阻值選取過大,晶體管的尺寸也要變大才能降低晶體管的導通電阻,這樣會引起較大的負載電容;同時,晶體管漏極與源極間電壓Vds過小也會導致晶體管處于截止狀態[10]。在選擇晶體管尺寸的過程中需要考慮多個參數,最終本文設計中電路總電阻與串聯電阻之比設為4∶3。
利用SST電壓模驅動電路來實現FFE均衡,通過串并轉換電路的信號經過一個UI的延遲單元后,分為主抽頭和延遲抽頭,通過控制延遲抽頭接入slice的數量來控制均衡強度,在延遲抽頭接入slice數量變化時,保持總體的slice數不變,從而使得輸出阻抗等于傳輸信道的特征阻抗,實現阻抗匹配。
整個電路的簡化原理圖如圖6和圖7所示,其中,M表示主抽頭對應的slice數,P表示延遲抽頭對應的slice數,K表示slice的總數,K=M+P且K=N;RT表示接收端終端對地電阻,RM和RP分別表示主抽頭和延遲抽頭的等效阻抗。下面分析輸入不同信號時,輸出電壓的變化情形:

Figure 6 Equivalent circuit 1

Figure 7 Equivalent circuit 2
當D[n]=1,D[n-1]=1時,電路等效為圖6,輸出電壓如式(5)所示:
(5)
當D[n]=0,D[n-1]=0時,電路等效為圖7,輸出電壓如式(6)所示:
(6)
其中,RT、RM和RP以及并聯之后的電阻分別如式(7)~式(11)所示:
(7)
(8)
(9)
(10)
(11)
將式(10)和式(11)代入式(5)和式(6)后,得到去加重后的輸出電壓Vout1和Vout2,如式(12)和式(13)所示:
(12)
(13)
可以看出,輸出的電壓跟抽頭的slice數量有關系,通過調整抽頭接入的slice數量來實現強度均衡。去加重后輸出信號的電壓差Vb如式(14)所示:
(14)
當D[n]=1,D[n-1]=0時,無論是主抽頭還是延遲抽頭都是PMOS管導通,所有slice并聯的等效電阻值等于信道的特征阻抗50 Ω,輸出電壓為VDD/2。當D[n]=0,D[n-1]=1時,無論是主抽頭還是延遲抽頭都是NMOS管導通,電路中沒有電流流過,輸出電壓為0 V。輸出信號沒有去加重情況下的電壓差Va如式(15)所示:
(15)
信號經過FFE均衡后的波形如圖8所示,信號的擺幅為VDD/2,經過去加重后的輸出電壓分別為Vout1和Vout2。再通過調整延遲抽頭接入slice的數量來改變Vout1和Vout2之間的電壓差,接入slice的數量越多,RP的阻值越小,Vout1和Vout2之間的電壓差越小,去加重的程度越大。Vout1和Vout2之間的電壓差變化的步長為2/K,其中,K為slice的總數。均衡強度公式如式(16)所示:
(16)

Figure 8 Waveform of signal after FFE
本文設計可以實現3 bit 8位的均衡調節。當控制位全為1時,均衡強度最大為-3.7 dB,發射機可以控制去加重程度,以適應不同的信道衰減。
采用0.9 V電源供電時,驅動電路阻抗為50 Ω,理論電流取平均值為4.5 mA。根據式(17),計算得到除去控制電路的驅動器理論功耗為4.05 mW。由第2節推導結論可知,若采用電流模驅動,功耗為該電路的4倍,即16.2 mW。當采用0.8 V電源供電時,理論功耗為3.2 mW;當采用1 V電源供電時,理論功耗為5 mW。
(17)
利用網絡分析儀對真實21 mm短距離信道參數進行提取,得到的傳輸信道頻率響應曲線如圖9所示,發射機數據傳輸速率為32 Gbit/s,奈奎斯特頻率為16 GHz。根據測量得到的傳輸信道在16 GHz下的衰減為-2.37 dB。可以看出,信號在低頻處衰減較小,隨著頻率的升高,信道質量呈指數型降低。由于是短距離信道,信號衰減程度不大,在發射機設計時,最大的均衡強度為-3.7 dB,該發射機可以在此信道正常傳輸信號。

Figure 9 Frequency response curve of transmission channel
采用CMOS 28 nm工藝進行仿真驗證。通過調整去加重控制電路,驗證發射機電路的均衡功能。改變8種不同的去加重控制程度,所有仿真波形疊加圖如圖10所示,信號擺幅為電源電壓的一半,即450 mV。不開啟均衡和最大強度均衡后的眼圖如圖11所示,信號經過去加重后的幅度為291 mV,經過計算均衡強度為-3.78 dB,與理論計算的結果基本一致。

Figure 10 Waveforms under different equilibrium intensities

Figure 11 Eye map after turning on equalization
電源電壓分別為0.8 V,0.9 V和1 V時,信號擺幅隨著電源電壓的升高而增大,不同電壓下調整合適的均衡強度后,信號經過信道后的眼圖如圖12所示。信號在0.8 V供電時,眼高為220 mV,眼寬為27.19 ps。信號在0.9 V供電時,眼高為253 mV,眼寬為27 ps。信號在1 V供電時,眼高為282.3 mV,眼寬為26.18 ps。

Figure 12 Eye maps after enabling equalization through channels under different voltages

Figure 13 Transient currents at different voltages
測試發射機驅動電路功耗。該電路功耗由驅動器和控制電路2部分組成。通過對電源輸出電流進行積分得到平均電流值來計算功耗,如式(18)所示。通過計算可知,電源電壓為0.8 V時,功耗為3.2 mW;電源電壓為0.9 V時,功耗為4.0 mW;電源電壓為1 V時,功耗為5.1 mW。理論功耗在不同電壓下分別為3.2 mW,4.05 mW和5.0 mW,仿真結果與理論計算功耗基本相同。不同電壓下的瞬態電流如圖13所示。
(18)
本文與其他文獻中發射機的參數對比如表1所示。可以看出,本文發射機驅動電路支持更高的傳輸速率且具有較低的功耗。

Table 1 Comparison of transmitter parameters between this paper and other literature
本文針對UCIe協議提出的芯粒間互連標準,設計并實驗了面向芯粒間互連的低功耗發射機驅動,對CML電流模驅動器與SST電壓模驅動器的功耗進行了分析,詳細介紹了基于SST電壓模驅動器實現FFE均衡的工作原理并進行了功耗分析。最后,通過提取真實信道的參數,對發射機進行了仿真驗證。測試結果表明,輸出信號的眼圖以及均衡強度符合設計指標。在28 nm設計工藝下,最大均衡強度為-3.7 dB。0.9 V電源電壓下,眼高為253 mV,眼寬為27 ps,功耗僅為4.0 mW。