張陽


摘 要 本文先簡單介紹了一種用于消息認證的加密算法——SHA的原理,接著結(jié)合FPGA的硬件特性,重點闡述了一種用于安全協(xié)處理器中的SHA密碼芯片的方案設(shè)計及優(yōu)化方法,最后給出了硬件實現(xiàn)過程和較好的測試結(jié)果。
關(guān)鍵詞 散列函數(shù);安全散列算法;SHA
引言
Hash函數(shù)是把可變輸入長度串轉(zhuǎn)換成固定長度輸出串的一種函數(shù)。一個安全的hash函數(shù)必須滿足下面的條件:對任意長度的消息,產(chǎn)生固定長度的hash值;由消息到hash值的映射過程易于實現(xiàn);由hash值反映射為原始消息是不可行的;欲構(gòu)造任意兩個不同的明文,使其有相同的hash值,也是不可行的。常用的單向hash函數(shù)有MD5,SHA等,而SHA因其實現(xiàn)更簡單,安全性更高,而更為廣泛地應(yīng)用于身份認證,數(shù)據(jù)完整性鑒別等方面。
SHA(Secure Hash Algorithm)由美國國家標準和技術(shù)協(xié)會(NIST)開發(fā),于1993年作為聯(lián)邦信息處理標準(FIPS PUB 180)發(fā)表。SHA由麻省理工學(xué)院的Ron rivest開發(fā),設(shè)計很近似于MD4模型,易于硬件實現(xiàn)。本文所述的SHA密碼芯片采用FPGA技術(shù)實現(xiàn),主要應(yīng)用于安全協(xié)處理器中[1]。
1 SHA算法原理
SHA對長度不超過264的消息產(chǎn)生160位的消息摘要輸出,其步驟如下:
(1)消息預(yù)處理。先填充附加位,使消息長度對512取模余448。即使信息已經(jīng)達到需要的長度,也需進行填充,因此填充消息長度范圍是1至512。附加位為單個“1”和若干個“0”。按上述方式填充后,再填充64位原消息長度,使消息長度恰好是512的整數(shù)倍。
(2)SHA運算。其運算流程如圖1所示。圖中,CV為160位的hash值。先將其初始化為CV0,與對應(yīng)的消息分組Y0作SHA運算后生成hash值CV1;再將CV1與Y1作SHA運算后生成CV2。共進行L次迭代運算后得到的CVL即為最終的hash函數(shù)值。
將CV用5個32位字(A,B,C,D,E)表示,其初始值CV0為如下16進制值:
A=67452301;B=EFCDAB89;C=98BADCFE;D=10325476;E=C3D2E1F0。
在圖1的SHA運算功能模塊中,先將Yi分為80個16位的子分組;再分別參與80輪迭代;最后將最終迭代結(jié)果的每個字與CVi的對應(yīng)字作模232加法,從而生成CVi+1。
Y的子分組過程為:先將512位Y分為16個32位M t(t=0~15),再由此產(chǎn)生80個32位子分組W t(t=0~79)。產(chǎn)生方式如下:
W t=M t ,(t=0~15);
Wt=(M t-3⊕M t-8⊕M t-14⊕M t-16)<<1,(t=16~79)。
<<表示循環(huán)左移,+表示模232加,F(xiàn)t與Kt隨t變化。
(3)輸出hash值。將進行L次SHA運算后得到的CVL緩存后輸出。
2 密碼芯片的方案設(shè)計
該SHA密碼芯片用于安全協(xié)處理器(PCI板)上,受外圍電路時鐘頻率和數(shù)據(jù)寬度限制。為使該設(shè)計芯片和外圍電路協(xié)調(diào)工作,可將SHA算法系統(tǒng)的設(shè)計方案分為如下三個模塊:消息預(yù)處理模塊、SHA算法實現(xiàn)模塊和hash值輸出模塊 [2]。SHA算法實現(xiàn)模塊是設(shè)計的核心模塊,主要完成SHA運算。根據(jù)其流程特點及硬件結(jié)構(gòu),進行如下設(shè)計和優(yōu)化。
2.1 子分組W的生成
如上節(jié)所述,1次SHA運算需要80個32位子分組Wt,而在實際設(shè)計時,根據(jù)其產(chǎn)生規(guī)律和硬件結(jié)構(gòu),僅需16×32位的RAM和1個32位的寄存器即可。先將Wt(t=0~15)依次存于RAM中;而32位寄存器用以存儲從RAM中取出4個相應(yīng)的Wt進行異或移位的值;此后,每個新的Wt均直接從該寄存器中直接讀取,并同時更新RAM中對應(yīng)的Wt的值。因此,每個新的Wt的產(chǎn)生公式則變?yōu)椋?/p>
wt <=(w(t mod 16) xor w((t+2)mod 16) xor w((t+8)mod 16) xor w((t+13)mod 16))<<1;
80個子分組Wt在經(jīng)過上述5輪RAM循環(huán)寫操作后全部產(chǎn)生。而80個子分組Wt參與加密運算,即對RAM的讀操作,也與寫操作同時進行。經(jīng)過上述處理,能最大程度地節(jié)約FPGA中寶貴的存儲資源,并能較好的簡化硬件操作的復(fù)雜度。
3.2 80輪迭代
由于80輪迭代的流程完全相同,故可以設(shè)計一個迭代模塊,再對其復(fù)用80次,每次迭代的輸出存入寄存器中,作為下一輪迭代的輸入,這樣可極大的優(yōu)化FPGA的硬件資源。其中,循環(huán)移位運算硬件容易實現(xiàn)。Ft是關(guān)于B、C、D和t的非線性函數(shù),可采用多路選擇器產(chǎn)生。在具體實現(xiàn)時,可將B、C、D參與運算的可能的結(jié)果預(yù)先以異步方式先算出,再由t作判斷,指定1路結(jié)果[3]。
3.3 模232加法運算
模232加法運算多次應(yīng)用于SHA運算過程中,直接關(guān)系到密碼芯片的運算速度。考慮到模塊的復(fù)用性,所有的模加運算均采用4個8位分塊的超前進位加法器并接實現(xiàn),其結(jié)構(gòu)如圖4所示。
參考文獻
[1] 殷輝,胡曉宇.適用于家庭安全網(wǎng)關(guān)的HMAC SHA3算法的硬件設(shè)計[J].集成電路應(yīng)用,2020,37(5):14-17.
[2] 房海松,司偉建.基于FPGA的二維譜峰搜索算法硬件架構(gòu)設(shè)計[J].空天防御,2020,3(1):58-64.
[3] 谷會濤,武宗濤.基于雙重流水同步迭代的SM3算法高速硬件設(shè)計[J].計算機與網(wǎng)絡(luò),2020,46(2):54-56.