王 葛,朱 艷,沈 韜,劉英莉,曾 凱
(昆明理工大學 信息工程與自動化工程學院,昆明 650500)
近年來,安防檢測設備被廣泛地運用到了日常生活中,為公共社會安全提供了可靠的保障。傳統的安全檢查方法主要是基于X射線[1]掃描儀、紅外探測以及金屬探測器等。但X射線掃描儀這種檢測方法產生的輻射對人體傷害特別大,因此無法廣泛應用于人體目標,而金屬探測器又只能局限于探測出金屬類危險物品,無法對非金屬材料制成的危險物品進行檢測。同時,安檢工作者對待檢測人員的直接接觸檢查使得個人隱私難以保障,存在著檢測準確性和檢測效率極低的問題。
太赫茲波處于電磁波譜中的毫米波段與遠紅外波段之間的位置,低頻區與毫米波重疊,高頻區與紅外波重疊,是一種處于電子學與光子學交叉區域的技術。太赫茲波具有許多獨特性,例如光子的低能性、脈寬頻譜性、能對非極性材料有極強的穿透特性、以及很好的相干性、瞬態性等優點。隨著科技的進步,太赫茲這門新興的學科前沿技術得到了飛速的發展,太赫茲(THz)成像系統[2]也漸漸地被運用于各城市的地鐵站、火車站、汽車站等公共安全檢測卡口進行人體成像檢測。
基于可見光的人體圖像中無法檢測到隱藏在人體衣物內部的物體,而太赫茲成像系統能夠穿透人體服裝等材料并呈現出隱藏物品,包括金屬材料與非金屬材料物體等。目前的太赫茲安檢成像系統成像精度、檢測效率仍然較低,往往需要人工輔助檢查,因此,對太赫茲安檢圖像中可疑目標的智能識別檢測仍需進一步加強。現有目標檢測方法主要分為提取有效特征或基于深度學習的方法。通過提取有效特征并進行分類的目標檢測方法是傳統的主流方案,其中,最具代表性的方法有尺度不變特征轉換(SIFT)[3]、加速魯棒特征(SURF)[4]、方向梯度直方圖(HOG)[5].SIFT提取的是圖像的局部特征,其對旋轉、尺度縮放、噪聲等有著很好的穩定性,但也伴隨著實時性不高、特征點較少的缺點。HOG具有保持圖像幾何和光學較好的穩定不變性等特點,但仍存在著計算速度較慢,重疊嚴重等問題。2014年,區域卷積神經網絡R-CNN[6]的提出推動了深度學習的發展,R-CNN網絡擁有比傳統目標檢測方法更高的識別準確性和穩定性,它將傳統的手工提取特征變成了特征學習的方法。Fast R-CNN[7]針對R-CNN存在嚴重的重復計算等問題做了改進,通過共享卷積層對整張圖進行一次特征提取,提高了計算速度。Faster R-CNN[8]則進一步針對Fast R-CNN選擇性搜索耗時的瓶頸,設計了提取候選區域的RPN網絡來代替比較費時的選擇性搜索,使得檢測速度大幅提高。該算法在各類公共數據集中均表現出了顯著的性能,到目前為止,Faster R-CNN網絡已經成為一種普遍使用的深度學習目標檢測模型。然而,基于深度學習的目標檢測方法,需要大量的數據樣本作為支撐,從而確保所檢測目標對象具有良好的準確性。但目前太赫茲安檢圖像數據相對較少,因此需要對數據集進行有效擴充以滿足深度學習方法的要求。通過生成對抗網絡GAN[9]可以生成更多的數據集,而深度生成對抗網絡DC-GAN[10]在擴充圖像數據集中表現出了更好的效果。另外,太赫茲安檢圖像存在著待檢測的人像、手機、刀等目標不清晰,細節紋理特征較模糊、圖像分辨率較差等問題。若直接將生成的太赫茲安檢圖像送入深度神經網絡中進行訓練,將無法得到理想的檢測效果。因此,對太赫茲安檢圖像進行預處理則很有必要。對低質量的圖像進行超分辨率重構是一種有效解決低質圖像不清晰的方法。在超分辨算法中,生成對抗網絡SRGAN[11]能生成更接近于自然的圖像,但生成圖像的細節往往伴隨著偽影。基于增強型超分辨率生成對抗網絡ESRGAN[12]則在SRGAN的基礎上進一步生成更逼真的紋理。
基于上述問題,本文采用了DC-GAN網絡來對太赫茲安檢圖像數據集進行擴充,并采用ESRGAN超分辨重建算法與線性變換和閾值處理相結合的方法對擴充后得到的太赫茲安檢圖像數據與原太赫茲安檢圖像數據進行預處理操作,使得太赫茲安檢圖像在清晰度、對比度等質量特征上得到了較大的改善。同時,本文針對太赫茲安檢圖像中檢測目標存在較多重疊的情形,對Faster R-CNN網絡中非極大值抑制算法存在的不足進行了改進,解決了圖像中由于目標重疊造成漏檢的問題。太赫茲安檢圖像檢測中面臨的挑戰以及本文解決方案具體如圖1所示。
從太赫茲安檢圖像數據的特點以及存在的問題出發,本文主要通過生成對抗網絡來生成更豐富的太赫茲安檢圖像,對太赫茲安檢圖像進行超分辨重建,改善太赫茲安檢圖像的質量。借助可見光圖像與太赫茲安檢圖像之間的相似性,采用遷移學習[13]的方法對太赫茲安檢圖像數據進行了研究。圖2展示了本文的整體架構流程圖。首先,對太赫茲安檢圖像數據采用DC-GAN網絡生成更多的太赫茲安檢圖像,擴充原太赫茲安檢圖像數據量;再采用ESRGAN超分辨重構算法與線性變換和閾值處理相結合的方法,對擴充后的太赫茲安檢圖像與原太赫茲安檢圖像的質量、對比度等特征進行改善,使得太赫茲安檢圖像在清晰度、對比度等質量特征上得到了較大的改善;然后,選用VGGNet[14],ResNet[15]等網絡在公開的光學圖像數據集進行訓練得到的預訓練模型網絡參數,傳入到改進的Faster R-CNN網絡進行初始化。修改神經網絡中的最后一層為我們標注的特定太赫茲安檢圖像數據目標類別,對改進的Faster R-CNN網絡進行二次訓練得到訓練模型;最后,利用太赫茲安檢圖像的測試集對檢測模型進行測試,得到測試實驗結果。

圖1 太赫茲安檢圖像檢測面臨的挑戰與解決方案

圖2 太赫茲安檢圖像檢測識別整體框架圖
本文采用DC-GAN生成對抗網絡生成太赫茲安檢圖像的方法實現數據擴充,解決由于太赫茲安檢圖像數據稀少,無法通過深度神經網絡進行模型訓練得到較理想的檢測效果的問題。DC-GAN網絡原理和GAN網絡類似,主要基于GAN的核心博弈的思想,將GAN中的生成網絡G和鑒別網絡D替換為深度卷積神經網絡。其中,生成網絡的作用是生成假的太赫茲安檢圖像使鑒別網絡無法鑒別真假,鑒別網絡的目的是努力分辨出真實的太赫茲安檢圖像和生成的太赫茲安檢圖像,直到鑒別網絡分辨不出生成網絡生成的以假亂真的圖像為止。本文選用了6 000張太赫茲成像系統生成的原太赫茲安檢圖像放入DC-GAN網絡中進行訓練,學習率設置為0.002,迭代了2 000次,實驗生成了兩萬張太赫茲安檢圖像。剔除部分生成的不可用圖像,共計挑選了4 000張生成的太赫茲安檢圖像放入原太赫茲數據集中。圖3分別展示了太赫茲成像系統所產生的太赫茲安檢圖像數據與通過DC-GAN網絡生成的部分太赫茲安檢圖像。
觀察對比圖3,可以直觀地看出DC-GAN網絡生成的太赫茲安檢圖像中,刀、手機等可疑目標具有輪廓清晰,且與原太赫茲安檢圖像極為類似的特點,符合所需大量太赫茲數據源的要求。同時,通過該方法可生成多樣化的太赫茲安檢圖像,有效擴充了訓練和檢測樣本的多樣性。

圖3 原太赫茲安檢圖及DC-GAN網絡生成不同類型的太赫茲圖
太赫茲安檢圖像具有色調單一,分辨率低、清晰度和對比度差等特點。若直接將太赫茲安檢圖像送入目標檢測網絡中進行訓練和測試,則無法達到較理想的檢測效果。因此,需要對圖像進行預處理以改善太赫茲安檢圖像中存在的上述問題。直接通過傳統的預處理方法(如對圖像進行灰度變換、圖像插值、圖像濾波、圖像去噪等)對太赫茲安檢圖像進行處理,則無法使太赫茲安檢圖像的質量得到較大地改善。通過對低質量的圖像進行了超分辨率操作可以將圖像轉換為高分辨的圖像,能很好地解決低質圖像不清晰的問題。
本文結合增強型超分辨率生成對抗網絡ESRGAN和線性變換閾值處理的方法,對太赫茲安檢圖像進行預處理操作,將低分辨的太赫茲安檢圖像轉化為高分辨的圖像,獲得更高的視覺質量以及更逼真和更自然的紋理特征。ESRGAN的網絡結構分為生成器和判斷器兩個部分。生成器采用RRDB密集殘存塊作為基本單位,該結構含有一個“殘差再殘差”結構,使得在不同層級都能使用到殘差,保證了梯度信息能夠有效地傳遞,從而增強生成對抗網絡的魯棒性。同時使用殘差縮放和更小的初始化有助于訓練更深的網絡,從而提高感知質量,進一步改善修復的紋理。但通過ESRGAN網絡對太赫茲安檢圖像進行超分辨后,得到的圖像中背景噪聲仍然存在,感興趣區域與其他背景之間的對比度還不夠明顯。為了去除噪聲并提高太赫茲安檢圖像的對比度,本文還對通過ESRGAN網絡進行超分辨重建后得到的太赫茲安檢圖像進行了閾值處理和線性變換,過濾了背景噪聲的同時,提升不同目標之間的區分度,以進一步達到圖像增強的目的。圖4展示了太赫茲安檢圖像經過ESRGAN網絡進行超分辨重建、線性變換閾值處理后的圖像效果。
圖4(a)為原太赫茲安檢圖像,圖4(b)為通過ESRGAN網絡進行超分辨處理后得到的太赫茲安檢圖像,圖4(c)為線性變換閾值處理后的結果圖。其中,圖4(a)、(b)中紅色框標出的刀分別對應下方的局部放大圖。觀察圖4(a)、(b)兩幅圖中刀所對應的局部放大圖的細節紋理,可以直觀地看出,通過ESRGAN對原太赫茲安檢圖像以及DC-GAN生成的太赫茲安檢圖像進行超分辨處理后得到的圖像,在細節紋理上變得更加清晰,圖像質量得到了顯著提高。觀察圖4(c)能夠直觀地看出,超分辨后的太赫茲安檢圖像通過線性變換和閾值處理后,圖像的背景噪聲以及感興趣目標與背景之間的對比度都得到了進一步改善。

圖4 經過ESRGAN網絡進行超分辨重建、線性變換閾值處理后的圖像效果
本文引入了經典的Faster R-CNN目標檢測網絡作為太赫茲安檢圖像識別的基礎框架。太赫茲安檢圖像中,待檢測的目標對象存在大量重疊的情況。傳統Faster R-CNN框架中的非極大值抑制算法針對重疊較多的檢測框,首先刪除得分較低的目標框,導致重疊目標難以檢測出來。本文提出了FasterR-CNN改進算法,通過引入sigmoid加權函數,降低重疊檢測框的置信度而非直接刪除,進而保留了相關目標檢測框,解決了目標漏檢的問題,提升了太赫茲安檢圖像中對可疑物體的檢測準確性。
1.3.1整體架構
改進的Faster R-CNN算法整體架構圖如圖5中所示,其原理可簡要概述為:首先,利用深度卷積神經網絡對太赫茲安檢圖像進行特征提取(文中選用VGG16網絡對太赫茲安檢圖像進行特征提取,每個卷積層利用前面網絡信息來生成抽象描述,第一層主要學習太赫茲安檢圖像的邊緣信息,第二層學習太赫茲安檢圖像邊緣中的圖案,層數越深則學習越復雜的形狀等信息。最終得到太赫茲安檢圖像的卷積特征圖,然后通過共享卷積層將特征圖分別送入Fast R-CNN網絡和區域建議網絡(region proposal network,RPN)中。RPN網絡通過滑動窗口對送入的特征圖產生出特征向量,并輸入到全連接層中進行分類和回歸生成區域建議;同時,將RPN網絡產生的區域建議和卷積神經網絡提取的特征圖輸入到固定尺寸的感興趣區域池化層;最后,通過兩個損失函數對其進行分類和回歸損失計算,生成預測坐標值從而得到檢測目標框。

圖5 改進的Faster R-CNN算法結構圖
1.3.2損失函數
對RPN網絡進行訓練時,需要對每一個錨點分配一個對應的是否為目標的標簽。將具有與實際邊界框的重疊最高交并比(intersection over union,IoU)的錨點分配一個正標簽,負樣本為與實際邊框的IoU小于0.3的樣本定義為負樣本。Faster R-CNN中RPN的損失函數定義為:
(1)


(2)

1.3.3非極大值抑制算法的改進
非極大值抑制算法在目標檢測、邊緣檢測中表現出了良好的效果,能夠將大量重疊的候選框進行刪除,并篩選出需要的目標框。其工作原理為:
1) 從所有候選框中選出得分最高的候選框。
2) 移出得分最高的候選框,在剩余的框中選出得分最高的框,并依次與得分低的框進行對比。將得分最高且重疊度高于設定閾值的框進行刪除。
3) 重復上述操作,最后只選出最優框中的目標。
目標檢測中非極大值抑制算法對邊界框進行評分的過程:
(3)
式中:si為第i個預測框對應的IoU分類得分,Nt為抑制閾值,M為當前得分最大的邊界框。其中,IoU函數作為該算法計算重疊面積的主要依據,用于計算候選框與真實目標框面積之間的交疊率,具體公式如下:
(4)
式中:D和E分別表示為是預測邊界框面積與實際邊界框面積。
從上述算法的步驟中可知,當對同一類物體檢測時,物體之間在重疊區域較大的情況下,會將原本的預測框刪除,具體如圖6所示。

圖6 非極大值抑制算法存在的問題
圖6中,真實檢測應該輸出兩個框,但是非極大值抑制算法下紅色虛線框與紅色實線框的IoU大于設定的閾值時,則此時虛線框的得分較低會被過濾掉,導致只檢測出一個目標,造成漏檢的問題。為了解決這個問題,本文在非極大值抑制算法中引入了Sigmoid加權函數,該算法的優勢在于可以根據當前得分遞歸地重新評分,而不是直接抑制分數較低的相鄰方框,這樣就不會在同一類物體存在高度重疊時,對預測框進行誤刪。改進的非極大值抑制算法具體步驟如下。
1) 分類標簽,并預測出對應的所有候選區域框;
2) 用A、B分別表示不同類別所對應的框以及篩選后的框,繼續如下操作:
a.提取最高得分的框F,送入B中;
b.將剩余的框與F進行重疊面積計算,若比設定閾值Nt大,則舍棄,反之保留;
c.當步驟b中得到的所有框為空,則執行步驟2),反之執行a;
3) 上述步驟處理之后,不同類別的有效框將保留在集合內。
在非極大值抑制算法中,本文引入了Sigmoid加權:
(5)
式中:λ為可調參數,si為第i個預測框對應的分類得分,Nt為抑制閾值,M為當前得分最大的邊界框,bi表示待過濾的第i個預測框。實驗對比了原Faster R-CNN網絡與改進的Faster R-CNN對太赫茲安檢圖像的檢測效果,驗證了改進的Faster R-CNN網絡對存在大量重疊目標的太赫茲安檢圖像中擁有更好的檢測效果。
本文所有實驗均在Ubuntu16.04系統下進行,采用深度學習框架tensorflow進行實驗,硬件環境:Intel Corei7-7800X 3.50GHz CPU,Tesla K80,顯存為24 GB,在訓練中通過GPU進行加速。共有10 000張太赫茲安檢圖像作為總數據集,太赫茲安檢圖像數據集格式為JPG格式,每張圖像的大小固定為760×500像素。在實驗過程中,使用了交叉驗證的方法來確保模型的魯棒性,多次隨機選取原始圖像的70%作為訓練集、20%作為驗證集、10%作為測試集進行實驗,確保所有數據至少接受一次訓練。
實驗分別用太赫茲安檢圖像數據進行原Faster R-CNN算法與改進的Faster R-CNN算法框架的對比研究。實驗使用開源標注工具labelImg來標注圖像,生成了.xml格式的標注數據,.xml格式的數據包括了目標名稱、左上角坐標、右下角坐標等信息。分別對人、刀、手機等3個類別的數據集標注,并制作成VOC2007格式的數據集。同時還采用了COCO數據集上訓練好的VGG16權重參數作為預訓練模型。表1為本實驗采用的Faster R-CNN算法訓練太赫茲安檢圖像得到的不同目標對應的平均準確性實驗結果(mean average precision,MAP).

表1 不同網絡所對應的MAP檢測結果
從表1可以看出,改進的Faster R-CNN算法在VGG16網絡中表現出了比原網絡更好的識別檢測效果。在實際生產應用中,大于80%的精度是可以被接受的[16],本文中改進的Faster R-CNN網絡準確率達到了94.17%,遠遠超過了傳統檢測方法以及人眼的檢測準確率。另外,本文引入了改進的非極大值抑制算法,解決重疊目標的漏檢問題,實現太赫茲安檢圖像中對可疑物體更快速、更準確的檢測效果,證明了該方法的有效性。
為了驗證改進的網絡算法性能,實驗還對比驗證了與原網絡以及YOLOv3網絡識別太赫茲安檢圖像的檢測效果,實驗結果如表2所示。

表2 不同框架的MAP檢測結果
如表2所示,與各類算法相比,在識別太赫茲案件圖像中,改進的Faster R-CNN擁有著更高的識別檢測精度,同時也解決了重疊目標存在漏檢的問題。本文還分別從太赫茲安檢圖像中人體的不同角度(正面、側面)多目標有重疊的情況下,對比了原Faster R-CNN網絡和改進的Faster R-CNN網絡的檢測效果,如圖7所示。

圖7 原網絡與改進后的網絡檢測太赫茲安檢圖像實驗效果對比圖
圖7分別展示了原Faster R-CNN網絡和改進的Faster R-CNN網絡檢測人體在不同角度(正面、側面)多目標存在重疊的情況下的實驗效果對比。對比上圖7中(a)、(b)兩組圖能夠明顯得出改進的Faster R-CNN網絡在檢測刀、手機等可疑目標時擁有更高的檢測精度。同時,當檢測對象有遮擋目標時,原網絡除了檢測準確性較低外,還存在漏檢的情況。而改進后的Faster R-CNN網絡對有遮擋情況的可疑目標進行檢測時,擁有更高的檢測精度同時也解決了漏檢的問題。進一步驗證了改進的Faster R-CNN網絡比原網絡具備更好的識別檢測效果。
基于深度學習的目標檢測與識別方法已成為圖像處理、計算機視覺領域的重要研究方向,在人臉識別、自動駕駛、故障檢測等多個領域廣泛應用。針對太赫茲安檢圖像訓練樣本少、分辨率低導 致檢測識別率低的問題,本文提出了一種基于改進的Faster R-CNN網絡實現太赫茲安檢圖像識別檢測方法。首先通過DC-GAN網絡生成更多的太赫茲安檢圖像,對原太赫茲安檢圖像數據進行了有效擴充;再將擴充后的太赫茲安檢圖像與原太赫茲安檢圖像一起送入ESRGAN網絡進行超分辨、線性變化和閾值處理,使得圖像質量以及不同目標的區分度等特征得到了較好的改善;最后針對傳統Faster-RCNN對重疊目標檢測能力不足的問題,引入了基于加權函數的非極大值抑制方法,有效解決了重疊目標漏檢的問題。實驗證明,改進后的Faster R-CNN在對太赫茲人體安檢圖像進行檢測時,擁有更高的檢測準確性,可適用于機場、火車站、大型場館等安檢需求量大、檢測準確率要求較高的太赫茲安檢系統中。