黃 濤,沈淑梅,董博宇
(1.中航航空電子有限公司,北京 100081;2.洛陽電光設備研究所,洛陽 471000)
廣角高清成像系統是一種可以兼顧大視場、高分辨率、遠距成像的監控、偵察設備,可廣泛應用于廣場和港口等敏感區域監控、海洋搜救、機載對地偵察等領域。為了能夠同時在大范圍內實現對微小目標的清晰成像,成像系統的像素數高達億像素級,例如ARGUS-IS 系統[1]18.4億像素、AWARE-2系統[2-6]12億像素、同心球二次成像系統1.6億像素[7]、無中繼廣角高清成像系統[8]1.5億像素。
受限于現有圖像傳感器的制造工藝,單一圖像傳感器難以滿足廣角高清成像系統的億級像素需求。因此,無論前段光學系統是采用多鏡頭拼視場、同心球二次成像還是多光學系統拼像面,最終的光學圖像采集均采用多傳感器拼接方式實現。例如 ARGUS-IS[1]采 用 了 398 個 MT9P031 CMOS 圖 像 傳 感 器,ARAWE-2[2-6]用了220個MT9F002 CMOS 圖像傳感器,國防科大的同心球二次成像系統用了61個MT9P031 CMOS 圖像傳感器。
由于采用了傳感器圖像拼接,實時處理平臺需要完成多傳感器圖像的同步采集、預處理(亮度校正和去噪增強)、多傳感器圖像拼接(配準、融合)、圖像壓縮、數據傳輸、數據存儲及顯示等功能。以10億像素、30fps、8bit 灰階的廣角高清成像系統為例,需要采集、處理、傳輸、顯示、存儲的圖像數據高達30GByte/S。再考慮到工程應用對體積、重量、功耗的限制,滿足億像素級廣角高清成像系統處理需求的嵌入式處理硬件平臺的設計難度極大。
基于上述問題,本文針對廣角高清成像系統的工作特點和實時處理平臺架構進行了深入研究。

圖1 實時處理架構
為了解決廣角高清成像處理系統數據量遠超現有嵌入式系統處理能力的問題,結合廣角高清系統的應用特點,本文提出了一種基于顯示請求的廣角高清實時處理方法。實時處理架構如圖1所示,系統主要分為本地處理模塊(Local Processing Unit,LPU)、交換網絡模塊(Switch)和主處理模塊(Main Arithmetic Processor,MAP)三部分。LPU完成CMOS圖像傳感器的參數配置、在外觸發信號控制下實現多傳感器圖像同步采集、圖像亮度校正和去噪增強等預處理、圖像的壓縮及本地存儲。Switch 模塊完成LPU 和MAP 及外部設備之間的數據交互。MAP 通過Switch 模塊從各LPU 獲取需要拼接和顯示的圖像數據并進行處理后通過視頻接口送出顯示。外部設備也通過Switch 模塊從各個LPU 模塊獲取圖像數據進行后續處理。

圖2 廣角高清成像系統顯示應用示意
現有單顯示器的分辨率最高為4K(4096×2160),遠低于廣角高清成像系統的圖像分辨率。實際應用中往往采用多顯示器拼成顯示墻,或者采用將整個幅面縮小到單顯示器上觀看概貌,對感興趣區域采用局部開窗觀看細節的方式進行。由此,廣角高清系統實際顯示應用如圖2所示。顯示應用Ⅰ用于觀看全視場,一般采用下采樣圖像。顯示應用Ⅱ,Ⅲ,Ⅳ,Ⅴ分別用于觀看整個視場中不同位置的圖像,這些圖像涉及單個、相鄰兩個或者相鄰四個圖像傳感器的局部區域。由此可知,每路顯示的數據量實際受限于顯示分辨率,以1080P 的顯示為例,考慮到重疊區的影響,每路顯示所需的圖像數據僅比1920×1080(8bit灰度圖)字節略多。
本文中的實時處理架構采用交換網絡模塊將所有的LPU 和MAP 連接起來。當MAP 需要進行全視場顯示時,向對應的LPU發送指令,要求LPU 將圖像數據下采樣后發送給MAP 進行配準融合處理;當MAP 需要高清顯示局部區域時,可根據顯示位置要求所涉及的LPU 將相應的局部圖像傳輸過來進行配準融合處理并最終顯示。無論如何顯示,所需傳輸和處理的數據量僅與顯示分辨率相關。
因此,在本架構中,MAP 負責待處理圖像數據的請求發起、圖像的配準、融合和顯示,而LPU 完成圖像的采集、預處理、原始數據的壓縮后存儲、根據MAP 要求發送相應的局部圖像數據等。當廣角高清系統采用的圖像傳感器數量過多時,為了進一步降低數據傳輸壓力,可在LPU 上完成待傳輸圖像的壓縮后再傳輸到主處理模塊。
圖像的后處理模塊,例如目標識別跟蹤等處理單元,也可類似圖1中的MAP 一樣,通過Switch 模塊向各個LPU 請求所需的數據。
如上節所述,多傳感器的圖像拼接在MAP 中完成,根據顯示需求,MAP 僅要求傳輸全部傳感器圖像的下采樣數據或者部分傳感器的原始或下采樣數據。以全局顯示3×3的多傳感器圖像為例,為保證圖像配準,圖像間單方向至少5%的重疊區。廣角高清成像系統采用多個傳感器分別對不同視場的區域成像,如每個圖像傳感器對應光學系統的光軸均不相同,例如AWARE-2系統和本文中無中繼同心球面成像系統[8],每個傳感器的拍攝視角都不同,而一般顯示系統都是平面的,且觀察者視角方向默認以屏幕法線為準,則圖像拼接的過程實際上是將各個視角的圖像投影變換到同一視角再配準后對重疊區進行融合處理的過程。如果每個圖像傳感器對應光學系統的光軸均平行,例如ARGUS-IS系統,則僅需將圖像配準后對重疊區融合處理即可。
圖像拼接過程如圖3所示。假定以中心子圖像5為基準,子圖像2,4,6,8分別通過與子圖像5的重疊區計算出各自的投影變換矩陣。同理可以獲得子圖像7和子圖像9相對于子圖像8的投影變換矩陣,子圖像1和子圖像3相對于子圖像2的投影變換矩陣。由于投影變換矩陣可以進行傳遞,即可獲得子圖像1,2,3,4,6,7,8,9相對于子圖像5的投影變換矩陣。為避免拼縫兩側圖像亮度差異太大,需對子圖像重疊區進行融合處理。最后考慮到圖像數據目前基本都以一維或二維矩陣的方式進行管理,非矩形圖像區域采用填充黑區的方式補充成矩形。

圖3 多傳感器圖像配準融合過程
為滿足無中繼同心球面廣角高清成像系統的實時處理要求,基于上述實時處理方法,本文研制了基于FPGA+嵌入式GPU 的實時處理硬件系統,如圖4所示。本系統主要分為圖像采集預處理單元(Image Acquisition and Pre-procession,IMAP)、圖像壓縮存儲單元(Image Compress and Storage Unit,ICS)、萬兆交換機(10 Gigabit Network Switch,10GigE Switch)和 MAP 等四部分構成。IMAP 完成圖像傳感器的參數配置、同步積分控制、數據采集、圖像預處理(亮度校正和去噪增強),然后通過光纖傳輸至ICS。ICS 完成圖像原始數據的壓縮和存儲,并根據后續MAP的需求壓縮、存儲和傳輸部分圖像數據。MAP 根據顯示和處理需求經10GigE Switch 向ICS 請求所需的數據,并進行后續的配準、融合后送出顯示。

圖4 基于FPGA+嵌入式GPU的實時處理硬件系統
根據圖像采集預處理單元的任務特點,本文中設計了基于FPGA 的IMAP 硬件,設計架構如圖5所示。FPGA 采用通過SPI接口配置CMOS 圖像傳感器,根據外觸發信號同步控制CMOS圖像傳感器的積分,然后采用LVDS 接口接收數字圖像數據。FPGA 以并行流水線的方式對圖像數據進行兩點法亮度校正、高斯模板去噪濾波等處理后寫入外掛DDR3進行緩存。然后按照GTX(Gigabyte Transceiver)的時序要求從DDR3 取出數據經2塊SFP+(Small Form-factor Pluggable)模塊轉換成兩路光纖信號輸出,單路光纖輸出速率為10.3125Gbps。FPGA 外掛的Flash Rom 用于CMOS 相機配置參數和亮度校正參數的存儲。實物如圖6所示。

圖5 圖像采集和預處理模塊設計框圖

圖6 IMAP板卡實物
根據圖像壓縮存儲單元ICS 和主處理機MAP 的任務特點,同時考慮到兩個單元的相似性,本文中設計了一套基于英偉達嵌入式GPU TX2的硬件可同時滿足這兩個單元的使用要求,硬件架構如圖7 所示。FPGA 用于實現光纖和PCIE-X4 的相互轉換,為匹配兩種接口的通信速率,FPGA 外掛DDR3作為數據緩存。該硬件板卡外部有光纖轉PCIE-X4、DDR3、SATA、DVI、GigE、UART、USB 等豐富的接口。針對不同應用,選擇不同的接口和軟件組合即可。硬件實物如圖8所示。
當應用于ICS 單元時,FPGA 實現2路光纖信號和PCIE-X4的轉換,IMAP 預處理后的圖像數據經PCIE-X4接口送入TX2中,在TX2中利用片內硬核完成圖像JPEG 壓縮并經STAT 接口存儲在SSD 中(Solid State Disk)。當從GigE 接收到來自MAP 的數據請求時,TX2將對應的數據壓縮后經GigE 送出。
當應用于 MAP 時,TX2 從RS232 或者 USB3.0 接收顯示控制命令,根據顯示需求向對應的ICS 請求數據,并完成配準、融合后經DVI 接口輸出顯示。

圖7 基于嵌入式GPU的數據處理模塊設計框圖

圖8 基于嵌入式GPU的數據處理硬件實物
基于上述實時處理硬件平臺和已有的無中繼同心球面光機[8],搭建了廣角高清實時成像系統,如圖9所示。系統參數如表1所示。

圖9 廣角高清實時成像系統

表1 系統參數
該系統支持兩臺顯示器同時工作,一臺顯示1080P 的全視場圖像,另一臺顯示局部感興趣區域圖像。通過鼠標在全局圖像上選擇任意感興趣區域,則顯示局部圖像的顯示器能夠根據選擇實時更新顯示內容。實際效果如圖10所示。

圖10 基于顯示請求的廣角高清實時處理系統顯示效果
通過對廣角高清系統的技術特點和應用過程的研究,本文提出了一種基于顯示請求的廣角高清實時處理方法,并搭建了基于FPGA+GPU 的實時處理硬件系統。采用分布式架構的本地處理模塊完成圖像的采集、預處理、壓縮和存儲,后續顯示或處理系統根據自身需求向對應的多個本地處理模塊請求數據,并完成后續處理和顯示,從而有效降低了實時處理所需的數據量和運算量。實驗證明,本方法具有良好的適應性和可擴展性,能夠有效滿足億像素級廣角高清成像系統的實時處理需求。