胡靖雪,張 馳,徐力恒,呂曉軍,劉躍虎
(1. 西安交通大學 人工智能學院,西安 710049;2. 中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081)
安檢智能檢測軟件(簡稱:智能檢測軟件)采用深度學習模型,自動識別行李X光圖像中的危險品,減輕了安檢人員作業勞動強度,同時也提高了安檢效率[1]。
在實際業務場景中,由于旅客行李中攜帶的危險品種類繁多,且有些危險品實物形態不固定,智能檢測軟件可能難以識別出其中一些危險品,降低了識別準確率。對于基于深度神經網絡模型的檢測軟件,樣本數據會直接影響神經網絡學習模型的預測準確率。因此,如何有效利用現場行李安檢系統運行過程中的新增圖像數據,提升智能檢測軟件的性能,使智能檢測軟件能夠適應車站行李安檢現場的復雜業務場景,滿足行李安檢系統產品上線應用的技術指標要求,是一道亟待攻克的技術難題。
智能檢測軟件需要應對行李X光圖像數據呈“長尾分布”特征[2],即旅客行李中不攜帶危險物品的安全場景占絕大多數,而小概率出現的危險物品或疑似物品復雜多樣,通過有限次數據采集無法獲取完備的危險品圖像樣本數據。
為此,從現場行李安檢系統采集的行李X光圖像數據中,找出智能檢測軟件會錯誤識別的難分樣本集,作為增量樣本數據,支持智能檢測軟件的增量式學習,實現模型更新。這種通過數據分析來改進業務模型的迭代策略被稱為“數據分析閉環”,已在無人駕駛智能系統研發領域得到廣泛應用[3-4]。
行李安檢智能檢測數據分析閉環流程,如圖1所示。

圖1 行李安檢智能檢測數據閉環流程
實例研究表明,業務模型的最難分樣本對改善系統的邊界決策能力起決定性作用[5],即基于最難分樣本的訓練可以有效提升模型處理邊界問題的能力。如何高效、準確地從現場行李圖像數據中選取最難分樣本集,最大程度地改善智能檢測軟件性能,是本文重點研究的問題。
受數據增強(AutoAugment)策略的自動搜索方法啟發[6],本文提出行李X光圖像數據最難分樣本集選取方法,其框架如圖2所示。

圖2 行李X光圖像數據最難分樣本集選取方法框架
基于強化學習框架,通過迭代計算,可選取出行李X光圖像的最難分樣本集。即將最難分樣本集選取問題轉化為長短期記憶循環神經網絡(LSTMRNN,Long Short Term Memory Recurrent Neural Network)控制器的樣本圖像特征空間離散搜索問題,使用最差性能獎勵約束的策略梯度方法優化搜索過程;利用預計算的K-reciprocal重排序技術[6],查找預測樣本在有標注數據集中的最近鄰樣本;將最近鄰有標注樣本作為代理計算獎勵函數,驅動無標注行李X光圖像數據(即業務數據池)的最難分樣本選取。具體步驟如下:
(1)LSTM-RNN控制器從圖像特征空間中采樣,得到視覺特征向量S;
(2)匹配器從業務數據池中查找到視覺特征最接近S的n個無標注樣本,作為候選最難分樣本集N;并使用重排序技術,來保證匹配數據集的內部特征一致性;
(3)對候選最難分樣本集N中的每個樣本,在初始數據集中搜索其最近鄰樣本,生成代理樣本集N;
(4)計算智能檢測軟件對代理樣本集N的檢測準確度mAP,根據mAP計算獎勵值R,并將獎勵值R發送回控制器,用于更新LSTM-RNN控制器的權重;使用策略梯度優化,解決因獎勵值R不可導造成的控制器無法完成訓練的問題。
在最難分樣本集的迭代搜索過程中,控制器采用基于強化學習的策略梯度算法進行網絡訓練。
控制器采樣得到圖像視覺特征的過程可視為動作列表a1:T,其中,T是控制器采樣的視覺特征向量維數。根據控制器采樣的圖像視覺特征,在業務數據池中選取樣本集N,在已標注數據集上生成其代理樣本集N;根據智能檢測軟件在樣本集N上的檢測準確度mAP,計算用于訓練控制器的獎勵值R

為了從業務數據池中挑選出最難分樣本集,控制器的訓練目標是使智能檢測軟件的性能表現最小化,并使整個蒙特卡洛過程中最大獎勵期望值最大化,即有

其中, θc是控制器的網絡參數。
求梯度的經驗近似公式通??杀硎緸?/p>

其中,Rk對應代理樣本集中第k個樣本的獎勵值;基線函數b是前序迭代獎勵值的指數滑動平均,用以降低策略梯度優化過程獎勵值的期望方差。
最后,策略梯度算法通過策略性能的隨機梯度提升迭代更新 θc,使控制器訓練收斂,更新迭代過程可表示為

在最難分樣本集迭代搜索過程中,需要檢索與控制器所生成的視覺特征S最為接近的有標注數據集。為了高效地匹配到準確性高、內聚性強的有標注數據,可使用K-reciprocal重排序技術,并結合最近鄰匹配方法,將無標注樣本轉化為有標注樣本集。
使用K-reciprocal重排序技術,可搜索到最近鄰的匹配數據集,并保證匹配數據集的內部特征一致。但在迭代過程中,動態重排序會占用大量內存,且耗時較長,降低了樣本匹配速度,影響了最難分樣本集的搜索效率。為此,提出基于預計算重排序的匹配器設計,即預先對所有圖像的視覺特征進行重排序計算,并把結果記入靜態重排序表,用于快速查詢視覺特征S的最近鄰樣本[7];靜態重排序表的生成過程見算法1。
算法1
靜態重排序表生成
輸入:
離散特征空間Φ
有標注樣本集特征 Θ1,Θ1?Φ
無標注樣本集特征 Θ2,Θ2?Φ
匹配樣本數n
輸出:靜態重排序列表T
for eachs2Θ2do
設置S為目標特征
使用K-reciprocal,計算n個最近鄰的有標注樣本特征p2Θ1
將鍵值S和包含n個樣本的列表存儲于T中
end for
在此基礎上,在靜態重排序表中查找最接近目標視覺特征的前K個最近鄰特征行,可獲得相應的重排序結果;最近鄰有標注樣本集查詢過程見算法2。
算法2
最近鄰有標注樣本子集查詢輸入:
離散特征空間Φ
控制器生成的目標特征S,S2Φ
靜態重排序列表T
匹配樣本數n
輸出:對應目標特征S的前n個最近鄰有標注樣本子集N
①計算T中與S最 臨近的n個鍵值fs1,...,sng
②新建空集合N
for eachsi2fs1,...,sngd o:
①得到T中si對應的列表L
②得到列表L中top1有標注樣本ti
③N=N[ftig
end for
為模擬現場行李安檢業務場景,使用一組初始訓練集來訓練智能檢測軟件;初始訓練集包含電池、瓶子、錘斧等5類危險品圖像共6 819張。同時,使用2組測試集作為業務數據池;其中,測試集A與初始訓練集在同一場景下采樣,包含與其獨立同分布的安檢圖像1704張;測試集B包含與初始訓練集中危險品形態迥異的1704張安檢圖像,用于模擬行李安檢運行過程中出現的新增數據。這3個數據集中包含的危險品類別及數目,如表1所示。

表1 測試數據集各類危險品數目 (單位:張)
最難分樣本集選取算法使用LSTM網絡作為基本單元,其每層包含60個隱藏神經元;通過30維softmax函數,輸出預測的目標視覺特征,并計算其交叉熵損失。基于獎勵值R,對控制器的策略梯度進行縮放,以確??刂破髂軌蛞暂^低概率采樣到簡單樣本對應的特征,而以較高概率采樣到難分樣本對應的特征。控制器采用RMSProp優化器進行優化,學習率為0.001,學習率的指數衰減系數為0.95,衰減步長為50;最大迭代次數設置為300。
選用YOLO v5作為檢測模型的骨干網絡,其第7層卷積層輸出512×20×20維特征,經PCA降維后,所得到的30維特征將作為最難分樣本集選取算法中的視覺特征。
為消除實驗誤差,對每組測試集分別進行100次重復實驗,使用全類平均準確率,評價本文算法選取最難分樣本集的效果,測試結果見表2。

表2 最難分樣本集選取算法實驗結果
由表2可知:(1)使用本文提出的最難分樣本集選取方法,針對2個不同分布的測試集A和B,所選取的最難分樣本集的準確率均遠低于其平均準確率,說明該方法對于選取不同分布數據集的最難分樣本集均具有良好的適用性;(2)測試集B上的最難分樣本集選取效果明顯差于測試集A,說明對于測試集與訓練集具有不同數據分布的情況,該方法的最難分樣本集選取性能仍有提升空間。
本文分析安檢智能檢測數據分析閉環流程,能夠從行李安檢系統運行過程中產生的危險品實例圖像中持續選取最難分樣本,作為增量數據,完成智能檢測軟件的學習更新,實現車站安檢智能檢測軟件性能的持續成長。本文將最難分樣本集選取形式化為LSTM-RNN神經網絡控制的樣本圖像特征空間離散搜索問題,使用最差性能獎勵約束的策略梯度方法優化搜索過程。利用預計算的K-reciprocal重排序技術,查找預測樣本在有標注數據集中的最近鄰樣本,將最近鄰有標注樣本作為代理計算獎勵函數,驅動無標注業務數據池的最難分樣本集選取。測試表明,該強化學習架構可有效選取業務數據池中智能檢測軟件的最難分樣本集。
在實際的行李安檢場景中,行李中包含的危險品可能與訓練集處于不同分布,無法選取其最理想的最難分樣本集,將影響智能檢測數據分析閉環的軟件更新效率。因此,如何在測試集與訓練集處于不同數據分布的情況下,提高最難分樣本集的選取性能,將是下一階段的研究重點。