徐平 徐海東 楊拓? 黃海漩 張旭琳 袁霞 肖鈺斐 李雄超 王夢禹
1) (深圳大學物理與光電工程學院,微納光電子技術研究所,深圳 518060)
2) (深圳技術大學大數據與互聯網學院,深圳 518118)
光學衍射神經網絡(optical diffraction neural network,ODNN)以光波作為計算媒介執行神經網絡的邏輯分析與運算功能,具有高速度、低功耗及并行處理的優勢.本文設計了一種僅有三層相位調制的ODNN,提出了基于目標空間頻率一級譜分布提升ODNN 的數字識別性能的方法,經優化獲得了系統最優的像素大小、衍射距離,以及最佳的三層相位分布.設計的ODNN 對MNIST 手寫體數字集識別準確率達到了95.3%,高于文獻中采用五層衍射神經網絡實現的準確率91.75% (Lin X,Rivenson Y,Yardimci N T,Veli M,Luo Y,Jarrahi M,Ozcan A 2018 Science 361 1004),且精簡了系統結構.結合ODNN 高速度、低功耗的優點,提出的基于頻譜分析方法有利于提高ODNN 的性能,使ODNN 在邊緣計算領域有巨大的應用潛力.
深度學習[1,2]用多層人工神經網絡學習數據、提取特征[3-7],在諸多領域展現的能力已經達到甚至優于人類專家的水平,然而電子芯片在運算速度上的瓶頸將限制深度學習在海量數據及高速運行環境中的應用.在減小算力負擔和提高處理速度方面,光計算具有明顯優勢,并且具有低功耗、高速度、信息并行處理及抗電磁干擾等優點[8],近幾年一些學者以光作為媒介來加速或完成神經網絡的計算,這方面的研究已經取得很多成果[8-10].主要有光子芯片和光衍射神經網絡[11],前者通過光邏輯處理單元來取代晶體管實現光速處理[8],后者通過光學傳播完成邏輯運算[2].衍射神經網絡以光的衍射傳播表示神經網絡中各層神經元之間的映射連接,以光波相位等參量的調制實現網絡的權值調整,通過衍射傳播實現網絡的運算,因此可執行特征提取及目標分類等任務[11-13].
2018 年,Lin 等[2]首次提出衍射深度神經網絡的概念,在太赫茲波段設計了5 層相位調制的衍射神經網絡,每一層像素為200×200,對手寫體數字學習的盲測識別率達到了91.75%.此后,衍射神經網絡的研究得到廣泛的關注,Yan 等[12]將衍射神經網絡以十層網絡級聯的方式處理,特別是級聯過程中加入光學非線性處理模塊后,獲得較好的識別效果.Mengu 等[14]對衍射神經網絡的損失函數、梯度消失等問題進行優化,并采用相位和振幅雙調制來提升識別性能.Li 等[15]提出了差分網絡的辦法來解決光強非負數的問題,提出了聯合訓練的神經網絡.Sun 等[16]在波長10.6 μm 波段下設計了6 層調制層的衍射神經網絡,提出以非線性器件作為調制層,并獲得較好識別性能.以上工作將衍射神經網絡的識別能力提高到可以與經典的計算機神經網絡LeNet[17]相媲美的水平,體現出衍射神經網絡的巨大潛力.但上述網絡的光學系統相對復雜,級聯層數比較多,存在物理實現難度較大的問題.
我們組一直從事光學相關識別方面的研究[18,19],曾在2018 年將神經網絡引入光學識別,針對范德魯特光學相關器應用神經網絡設計了高性能光學濾波器[20,21],大幅提升了光學相關器對發生畸變的目標的識別能力.在此研究基礎上,本文針對目前衍射神經網絡存在的局限,在可見光波段構建衍射神經網絡模型,并通過研究目標的空間頻率譜在光學衍射神經網絡(optical diffraction neural network,ODNN)衍射層之間的變化,發現了目標空間頻率譜中影響ODNN 識別性能的關鍵特征信息.通過對ODNN 的結構參量和各層調制相位進行優化,最終僅用三層相位調制的衍射結構,對MNIST 手寫體數字集的盲測達到95.3%的識別準確率,在未采用非線性光學器件以及特殊優化算法的情況下,本研究為目前文獻報道的最高識別率.該工作有利于將ODNN 推廣到諸多需要對海量數據進行高速檢索的邊緣計算環境中,例如文字檢索、車牌識別、物料分揀、機器視覺、交通管理、人臉識別門禁、安防報警等應用中[15,16].
ODNN 是在神經網絡和光學識別的基礎上發展而來.圖1(a)是深度神經網絡,圖1(b)是經典的范德魯特光學相關器光路圖[22,23].圖2 是結合深度神經網絡和光學識別衍生出的ODNN,其衍射面的像素單元均是可優化的神經元,而以光速完成調制處理,較好地利用了神經網絡和光學識別的優勢.在深度學習的網絡中,各層神經元之間的連接一般是全連接或是卷積[5],而在ODNN 中,各層神經元之間的連接通過光學衍射實現,即衍射關系決定了映射連接[24].兩個相位調制層之間的光學衍射是一個特定的卷積關系,卷積核為點擴散函數,其關系為

圖1 (a) 深度神經網絡;(b) 經典的范德魯特光學相關器Fig.1.(a) Deep neural network;(b) the classic Vander Lugt correlator.

其中,?表示卷積;卷積核h(x,y) 表達式為

從(1)式和(2)式可知,在波長已定的情況下對于一個特定的輸入U0(x0,y0) ,衍射輸出U(x,y) 會受到衍射距離D和像素位置 (x0,y0,x,y) 的影響,最終影響ODNN 對信息的調制能力.
本文采用神經網絡訓練,設計了一種僅有三層相位調制的ODNN,物理模型如圖2(a)所示,網絡模型見圖2(b).衍射光學元件(diffractive optical element,DOE)加載的信息以T表示,T中每個像元的值均可被優化,光場經過DOE 時則受到T的調制,光場在DOE 之間的衍射傳播實現了網絡映射,結果輸出到接收面上.
其中,輸入的樣本是MNIST 手寫體訓練數據集的5.5 萬張手寫阿拉伯數字灰度圖像,像素數為28×28.在圖2 中,以Tn表示3 個DOE 的調制函數:

圖2 三層DOE 衍射神經網絡 (a) 光路示意圖;(b) 程序流程圖Fig.2.Three-layer DOE ODNN: (a) Optical path;(b) program flow chart.

式中的調制函數采用指數形式表示,由于DOE 是相位調制元件,所以只含相位角的函數為第n個DOE上x,y坐標處的相位調制信息.以Z0表示輸入圖像,光場通過Z0后,可通過(1)式—(3)式推演得到A2,Z2,A3,Z3,A4.A4即是到達接收面的光場分布:

初始的Tn是隨機分布的,在準直光源的照射下,光場經歷了(4)式的ODNN 調制后,最終以A4描述的光場分布投影到接收面.本文在接收域內分了10 個區,分別對應數字0,1,2,···,9.圖3 給出了接收域的編碼.

圖3 接收面的區域劃分及演示說明 (a) 10 個阿拉伯數字所在的區域劃分;(b) 當輸入圖像為數字8,代表數字8的區域所在的能量最大Fig.3.Area division and demonstration description of the receiving surface: (a) Area division of the 10 Arabic numerals are located;(b) when the input image is the digit 8,the area representing the digit 8 has the maximum energy.
ODNN 的期望結果是任意一張MNIST 圖像作為輸入源,經過ODNN 后接收面上的光場能量會集中在該圖像所對應的編碼位置上.如圖3(b)所示,當輸入數字8 時,接收面對應數字8 位置處的能量最強.接收面的光能分布和理想分布會存在偏差,計算接收面光場分布與理想分布之間的均方差[2],就是誤差函數L:

這里,Gi表示接收面上第i個像元上的期望能量值,Si是由仿真得到接收面第i個像元上的能量值,K表示接收面光場分布上的像素點的數量.在訓練中像元值可被優化,而光學系統的一些超參數[25],例如波長、像元間距、衍射距離等參數需要人為設定,且超參數的值對訓練結果影響巨大.本文主要研究這類超參數對數字識別網絡性能的影響.圖像識別就是對物體特征的匹配度進行判斷,而在頻譜空間研究特征匹配會更有效率.對于數字識別來說,數字識別的關鍵特征是數字的基本形狀規律,本研究將其歸為低頻信息;而手寫的差異,包括筆畫習慣等細節上,將其歸為高頻信息.手寫數字識別的目的是數字區分,訓練時應當忽略手寫的差異,而重點關注低頻信息.因此,本文提出基于手寫數字的低頻信息設計ODNN,使ODNN 成為一個低通濾波器,低頻信息可以在ODNN 內傳導,高頻信息在傳導過程中被舍去.
數字形狀特征的最高頻率是兩倍筆畫寬度對應的頻率,如圖4 中的數字1,其頻譜圖樣中水平方向上有最寬的一級衍射斑,而根據角譜理論,筆畫寬度的頻率和該衍射斑的邊緣位置相對應.因此,本文以筆畫寬度的一級譜頻譜帶寬為低通濾波的截止帶寬,數字形狀的特征信息均在該低通部分內.

圖4 手寫數字及對應的頻譜幅度圖Fig.4.Handwritten digits and the corresponding spectral map.
依據這一思路設計ODNN,使衍射層的像素僅針對有價值的特征信息進行調制,提高調制效率以減少網絡層數.較易理解的情況是,當層與層之間的距離屬于弗朗禾費衍射區時,輸出面上得到的是輸入面的頻譜花樣,并且中心是低頻信息,邊緣是高頻信息,此時很輕易地通過輸出面的尺寸來設定截止頻率.雖然相比參考文獻[2,14,15]將網絡設計在瑞利-索末菲衍射區,夫朗禾費衍射區的傳輸距離更大,但是由于在這個傳輸距離下,衍射面的寬度和傳輸距離的比例一般在1∶10 以上,使得光學系統容易轉換成折返式光路的系統,最終這樣的設計將有利于進一步的壓縮空間以及提高光學器件的集成化,特別是三個衍射層在同一個平面上加工,將有利于提高加工效率以及減小裝配方面的負擔.基于本課題在平面集成化的光學識別器方面的研究成果[18,19],后續可將把平面光學設計和ODNN結合起來,本文不作詳細介紹.
在已定波長、像元尺寸的情況下,像素數、衍射距離這兩個因素可以將接收面的信息限制在一級衍射斑內,后文研究這兩個因素對ODNN 識別準確率的影響,分析了采用一級譜作為手寫數字識別的有效性.本文均在波長為632.8 nm,像元間距為8 μm 的情況下對ODNN 進行研究.
一般來說,神經網絡的層數越多,則神經元越多,識別能力越強.但是,對于ODNN,增加層數會導致物理模型的復雜化,對準誤差、形變誤差、透過率、衍射級次串擾等因素的影響也會增大,使實際效果變差[2],而通過增加每層像素數的方式可體現出光學并行處理的優勢.增加像素數可以增加圖像的特征信息,從頻域分析可直觀地觀察這一改善.以圖5 為例,原圖像像素為28×28 的樣本數字8,通過離散傅里葉變換得到的頻譜圖也是28×28,有較明顯的鋸齒狀且譜圖模糊.當對原圖像的四周補0 使圖像擴展成64×64 時,對應頻譜圖的截止頻率不變但分辨率提高,數字8 的特征信息更加明顯.

圖5 不同像素大小的圖像和頻譜幅度譜Fig.5.Image and amplitude spectrum of different pixel sizes.
逐漸增加DOE 的像素數大小,并分別訓練得到像素數為28×28,32×32,64×64,128×128以及256×256 時ODNN 的識別率.如圖6 所示,將像素數從28×28 提高到128×128 時,識別率顯著提高,說明頻譜圖分辨率提高對識別率有貢獻.而從128×128 到256×256 時,識別率略微下降,說明128×128 時頻譜圖的數字特征已經足夠呈現,進一步擴展像素已經沒有太多提升,但是在有限的訓練周期下,128×128 系統的優化速度更快,并且網絡體積更小.因此,在識別率、訓練速度和體積的綜合考慮上,ODNN 的衍射層選擇128×128 的像素大小較為合適.

圖6 ODNN 的系統分辨率對識別率的影響Fig.6.Impact of ODNN’s resolution on recognition rate.
傳輸距離D對層與層之間映射關系的影響同樣很顯著.如圖7 所示,當D遠大于圖像尺寸,且圖像尺寸為1.024 mm×1.024 mm 時,在29 mm處得到的光強分布已經可近似為夫朗禾費衍射[24].而進一步加大D時,輸出面仍呈現為夫朗禾費衍射衍射花樣,但圖像比例隨D的增加而變大,使高頻部分溢出屏外,即高頻部分在接收面被截止.
將D設置成不同的大小,并分別對ODNN 進行訓練,通過訓練得到系統分別在D=29,32,35,38,41,44,47,50 mm 時的識別率.從圖8 可看出,D=41 mm 時系統的識別率最高,結合圖7 可知,此時圖像在接收面的衍射花樣保留了一級頻譜內的信息,高頻信息已溢出屏外.因此,從頻域分析的角度出發,針對數字識別的有效頻率成分設計ODNN 的光學距離,使得在有限的像素數和網絡層數的前提下,可得到衍射網絡的最佳的衍射距離.

圖7 衍射距離D 對信息傳遞的影響Fig.7.Effect of diffraction distance on information transmission.

圖8 衍射距離D 對ODNN 識別率的影響Fig.8.Influence of diffraction distance D on the recognition rate of ODNN.
對比文獻[2],本文采用MNIST 的訓練樣本對所提出的三層調制層、分辨率為128×128 的ODNN 訓練50 個周期,并用測試樣本做盲測仿真,結果如圖9 所示,盲測的識別準確率達到了95.3%.在相同的算法下,文獻[2]采用五層中間層、分辨率為200×200 的設計,其識別準確率僅為91.75%.此外,本文采用632.8 nm 的波段,使像元間距從400 μm 縮小到8 μm,結合衍射層數和像素數的減少,最終將光網絡的尺寸從文獻[2]的80 mm×80 mm×120 mm 減小到1.024 mm×1.024 mm×164 mm,極大地壓縮了系統的體積.后續采用折反式平面光學設計,不僅能將空間尺寸進一步壓縮,還可以將衍射層集成在一個面上有助于加工和裝配.

圖9 三層ODNN 的訓練結果Fig.9.Training results of three-layer ODNN.
使用測試數據集在MATLAB 上檢驗訓練的結果,當輸入圖像為圖10(a)所示的數字8 時,經歷ODNN 后在接收面上輸出的能量分布如圖10(b)所示,數字8 位置處的能量光斑最大.考慮后續加工DOE 將進行臺階量化處理,本文進一步分析了臺階量化后對識別結果的影響,如圖10(c)所示,8 臺階量化后,數字8 的識別結果仍較為明顯.圖10(d)分別表示臺階量化前和量化后的三個DOE.

圖10 ODNN 的 (a) 輸入和 (b) 輸出圖例;(c) DOE 量化后的仿真結果;(d) 量化前及量化后的DOEFig.10.Input (a) and output (b) pattern examples of ODNN;(c) simulation result when the DOEs are quantified;(d) DOEs and quantified DOEs.
為了實現高性能的手寫數字識別,本文提出了三層相位調制層的ODNN,從頻域分析的角度出發,建立了依據數字樣本集的空間頻率一級譜特征設計ODNN 的方法.依據此方法優化了光學系統參數,包括相位分布、像素大小、衍射距離,保證了光網絡在傳播及調制過程中充分利用一級譜信息.最終本文設計了工作波長為632.8 nm,僅有三層相位調制的ODNN,其分辨率為128×128,像元間距為8 μm,層間距為41 mm.仿真表明識別準確率達到95.3%,高于文獻[2]采用五層衍射神經網絡的91.75%,且設計的ODNN 光學部分體積僅為1.024 mm×1.024 mm×164 mm,遠小于文獻[2]報道的體積.本文提出的方法提升了ODNN的數字識別性能,減少了網絡層數,有效精簡了系統結構,結合ODNN 低功耗、高速率的優點,有助于產業化應用.后續將進一步采用頻譜特征分析方法對更加復雜的識別任務進行研究,使ODNN 在文字檢索、車牌識別、物料分揀、機器視覺、交通管理、人臉識別、門禁、安防報警等應用場景中發揮更多的應用價值.