張永庫 杜帥川 孫勁光 周積林 金雅茹
1(遼寧工程技術大學電子與信息工程學院 遼寧 葫蘆島 125105)2(遼寧工程技術大學研究生學院 遼寧 葫蘆島 125105)3(山東中醫藥大學護理學院 山東 濟南 250000)
?
基于多尺度特征學習的陰影檢測
張永庫1杜帥川2孫勁光1周積林2金雅茹3
1(遼寧工程技術大學電子與信息工程學院遼寧葫蘆島 125105)2(遼寧工程技術大學研究生學院遼寧 葫蘆島 125105)3(山東中醫藥大學護理學院山東 濟南 250000)
摘要針對傳統陰影檢測方法存在精心設計特征、訓練時間長與陰影檢出率低等問題,提出一種有監督學習的陰影檢測方法。首先輸入的圖像經過拉普拉斯金字塔變換,確定聚類中心,分別以聚類中心為中心進行窗口提??;然后合成訓練樣本,訓練樣本在卷積神經網絡中進行訓練得到后驗分布;最后將得到的后驗分布反饋給條件隨機場生成有標簽的圖像。實驗結果表明,該方法有較好的場景適應性、訓練時間短并且有較高的陰影檢出率。
關鍵詞陰影檢測卷積神經網絡特征學習條件隨機場
0引言
陰影是許多圖像的組成部分,有時候反映了物體形狀、大小等重要信息,然而圖像中的陰影會對圖像的后續處理造成不利的影響。例如:在智能視頻監控中,陰影會嚴重影響目標的跟蹤。陰影檢測率會直接影響陰影消除的效果,因此陰影檢測也是近些年的研究熱點之一。
目前陰影檢測方法大體可以分為兩類:基于模型[1-3]的方法和基于特征[4-6]的方法?;谀P偷姆椒ɡ靡欢ǖ南闰炐畔⒔⒐庹漳P蛠頇z測陰影;基于特征的方法根據陰影的色度、亮度等特征來識別和檢測陰影。基于模型的方法通常需要利用多幅圖像的先驗信息進行建模,該類方法有一定的局限性,只適合于特定的場景。基于特征的方法不需要場景的先驗知識,僅僅通過圖像的特征檢測陰影,時間復雜度較小。當陰影區被覆蓋時,雖然亮度變低卻仍然保留著一定的色度信息,依據這一特點,在陰影檢測時往往將圖像轉換為亮度與色度相互獨立的顏色空間[7,8]?;谏鹊年幱皺z測方法計算量小,但是對噪聲和光照比較敏感。近幾年來,基于統計屬性[9-12]的陰影檢測方法受到了更高的關注。Zhu等[9]基于圖像的可變特征和不可變特征、Lalonde等[10]基于圖像的色彩特征和紋理屬性、Jiang等[11]基于圖像的色彩分割與照明估計、Guo等[12]基于成對區域,這類方法都采用條件隨機場標識陰影區域。該類方法對不同的場景與不同光照條件具有較強的適應性,代表了當前的研究水平與未來的發展方向。但是該類方法都需要花費大量精力小心的設計這些特征。Zhu等[9]提取可變特征與不可變特征,這些特征用來訓練一個分類器,該方法消耗資源大訓練時間長。Lalonde等[10]使用了48維的特征向量,雖然增加特征維數能夠達到很好的效果,但是陰影檢測的時間大大的增長了。Jiang等[11]對Lalonde等[10]方法進行了改進,取得了更好的效果,卻花費了更長的時間。Guo等[12]首先采用均值漂移的方法對圖像進行分割,把提取的特征作為支持向量機(SVM)的輸入建立分類模型。該方法對局部細節噪聲較為敏感并且當場景比較復雜時大大增加了SVM的測試時間。
針對上述方法的缺點,本文提出一種新的多尺度特征學習的陰影檢測方法。與上述基于統計屬性的方法相比,本文方法是一種在場景中,通過特征學習的方法學習大部分相關特征,這些特征用來進行陰影檢測。卷積神經網絡CNNs(Convolutional Deep Neural Networks)[13]是人工神經網絡的一種,已成為當前圖像處理領域的研究熱點。它的權值共享網絡結構使之更類似于生物神經網絡,降低了網絡模型的復雜度,減少了權值的數量。它模擬人腦進人腦的機制來解釋、處理圖像等。因此,本文采用卷積神經網絡進行特征學習。一個像素是否屬于陰影區像素,不僅與像素自身的亮度、色度等特征有關,還與其周圍相鄰區域與不相鄰區域有緊密的關系,多尺度(圖像的拉普拉斯金字塔)的特征學習很好地解決了這個問題。條件隨機場CRF(Conditional Random Fields)[14]是一種基于統計的模型。2001年,由 John等人首次提出,可在給定全局條件的前提下,計算全局最優輸出標記的條件概率。它是一種判別式概率模型,是隨機場的一種,常用于標注或分析序列資料。卷積神經網絡特征學習之后的后驗分布反饋給條件隨機場,條件隨機場對圖像進行標注達到陰影檢測的目的。
1自學習陰影檢測框架
給定一副圖像,本文在像素級別下檢測和定位陰影。對于一個像素來說,不能簡單地根據與周圍相鄰像素之間的關系來判斷它是否屬于陰影區像素。一個像素與其周圍較遠處不相鄰的像素也有較為密切的關系。人眼能夠根據圖像中陰影區與其周圍非陰影區的不同快速定位陰影。本文對輸入的圖像經過拉普拉斯金字塔變換,分別以確定的聚類中心為中心進行窗口提取達到考慮像素周圍較遠處區域的目的。合成訓練樣本后在卷積神經網絡中進行訓練,用小的測試集進行測試,最后產生的后驗分布反饋給條件隨機場,不同標簽集合的交集形成陰影檢測的結果。本文方法流程如圖1所示。

圖1 本文方法流程圖
1.1確定聚類中心


圖2 不同方法搜索范圍比較
在聚類中心點數目相同時,該方法能夠減少重復計算的時間,因為圓形具有嚴格的幾何不變性[16],確定的聚類中心為:
Ck=[lk,ak,bk,xk,yk]T
(1)
其中,lk、ak與bk表示坐標為(xk,yk)的像素點在CIELAB顏色空間下各通道的值,k∈[1,K]。
1.2窗口提取與特征學習
輸入圖像經過拉普拉斯金字塔變換,以每個聚類中心為中心進行窗口提取,則對于坐標為(xk,yk)的像素點,此操作可以描述為:
Ωk=W(Ck,t)
(2)
其中,Ωk為所提取的圖像塊Ωk∈Ω,W(·)為窗口操作,t為提取窗口的大小,由于所選圖像集陰影區域的不平衡性,采用合成少數類過取樣算法[17]合成訓練樣本:
Ο=Λ(Ω)
(3)
其中,Λ(·)為合成樣本操作,Ο為樣本集,樣本集在卷積神經網絡中進行特征學習。本文卷積神經網絡結構如圖3所示。

圖3 卷積神經網絡結構圖
對于卷積層來說,上一層的特征圖被一個可學習的卷積核進行卷積,然后通過一個激活函數,就可以得到輸出特征圖。每一個輸出特征圖可能是組合卷積多個輸入的特征圖:
(4)

(5)
(6)
對于式(6)j∈[shadow,n-shadow],卷積神經網絡以一個圖像塊作為輸入,經過訓練之后得到一個后驗分布。在本文中,池操作的步幅等于池鄰域的均值,通過降采樣層執行池操作有助于學習不變性的特征描述。全連接層工作原理是有一層隱藏層的多層傳感器,這個隱藏層后邊跟著一個邏輯回歸的輸出層,邏輯回歸的輸出層提供類的分布。圖像轉化為二值圖像,二值輸出變量的后驗分布:
(7)
圖像塊訓練之前先進行預處理,采用卷積神經網絡可以把概率分布的模型PCNNs(Yi|Οk)定義為:
PCNNs(Yi|Οk)=F(θ(Οk))
(8)
其中,θ(·)是預處理,F(·)是有5層隱藏層的卷積神經網絡。預處理之后,通過在線學習(隨機梯度下降),卷積神經網絡進行有監督的訓練。在訓練過程中,梯度通過反向傳播的方式計算,交叉熵損失函數被最小化[17]。采用交叉驗證的方法確定訓練參數,訓練樣本在訓練之前被打亂,這是因為卷積神經網絡對未知樣本學習得更快。卷積神經網絡的初值是從0均值的高斯分布中隨機取樣來初始化的。
卷積神經網絡在訓練過程的每個階段用一個小的驗證集來評估正在訓練的網絡,一旦驗證集在執行時不能達到κ步,訓練過程就停止(本文κ=5)。在驗證集上表現好的網絡被用來在圖像庫上進行測試,最初的學習率是試探性的選擇能使誤差收斂的最大學習率。
1.3條件隨機場
給定輸入圖像,陰影檢測的任務實際上就是把整幅圖像的像素分為了兩類,也是對每一個像素進行標簽的過程,一個像素要么被標記為陰影像素要么被標記為非陰影像素。這種二分類問題從有監督的特征學習中建立概率估計并提供給條件隨機場。條件隨機場定義在網格拓撲結構圖上,圖的節點對應于圖像的像素,如式(9),條件隨機場是對像素標簽最常用的方法之一。由于訓練空間(標簽圖像)的大小增加了計算似然函數梯度的難度,因此條件隨機場的參數不能被簡單的手工標簽陰影區的最大似然估計來得到,采用一種最大化利潤學習方法[18]來學習條件隨機場的參數。把陰影檢測定義為條件概率分布:
(9)
其中,ω是該模型的權值,Z(ω)是歸一化函數,ν表示節點(比如單個像素),ε表示邊(比如相鄰像素),X表示整幅圖像的像素。對吉布斯能量函數而言,上述分布形式為:
(10)

(11)

(12)
當Yi≠Yj時φp1(Yi,Yj)=α,否則φp1(Yi,Yj)=0,φp2(X)如下:
(13)
其中,α和β通過在每個數據集上交叉驗證得到,對隨機變量Y∈ΓN,通過采用最大后驗估計Y′來確定像素的標簽,由于歸一化函數Z(ω)不依賴與Y′,這種估計轉化為能量最小化問題:
(14)
根據Y′求標簽集合SJ最后求交集:
(15)
2結果與討論
2.1實驗方案
為了驗證提出方法的有效性和高效性,本文實驗方案如下:
(1) 圖像庫:本文實驗圖像庫來源于文獻[9]圖像庫(大部分陰影圖像背景復雜,多為硬陰影,陰影面積小)和文獻[12]圖像庫(大大部分陰影圖像背景簡單,多為軟陰影,陰影面積大)。
(2) 實驗參數:本文聚類數目K取150,拉普拉斯金字塔J取5。實驗條件為Intel(R)Core(TM)i3-2370@2.40 GHz處理器,2 GB內存,32位操作系統,Visual Studio2012開發平臺編程實現。
K的值小于圖像大小與樣本大小的商,這樣能夠保證在窗口提取時能夠提取每個超像素的大部分像素,從而能夠得到更可靠的樣本。而當K等于150時,對于圖像庫中的所有圖像,窗口提取都能夠滿足條件。對于一些特定的實時領域,K的值需要簡單的計算與測試確定。實驗的精度并不隨J的增大而增大,當J=5時,陰影的檢出率最高,而當J>5時,陰影的檢出率反而下降,因此J取5。
(3) 實驗方法:宏觀上交叉訓練,交叉測試;微觀上選取9幅場景復雜度不同的圖像進行測試。
(4) 計算方法:
對于一副有陰影標簽的圖像來說,假設A表示陰影區像素的集合,B表示非陰影區像素的集合,A'、B'分別表示經過實驗得到的陰影區與非陰影區像素的集合。陰影檢測效果采用陰影檢出率SD、陰影誤檢率SE來評價,TP計算方法如下(其中N(·)表示計算像素的數目):
2.2實驗結果
(1) 宏觀測試
本文采用在其中一個圖像庫上訓練然后在另一圖像庫進行測試的方法,然后比較本文在不同圖像集上所能達到的最高精度(陰影檢出率SD)。在文獻[9]圖像庫上進行訓練,在文獻[12]圖像庫測試的精度達到81.9%;而在文獻[12]圖像庫上訓練,在文獻[9]圖像庫上測試的精度為79.8%。這是因為文獻[9]圖像庫的圖像場景比較復雜能夠訓練得到一個更好的網絡。本文方法在文獻[9]圖像庫與文獻[12]圖像庫上測試達到的最高精度分別為90.71%與93.37%。由陰影檢測計算公式可知:在相同條件下誤檢率相同時,陰影區的面積越大陰影的檢出率相對較高,而文獻[12]圖像庫的陰影區面積較大,因此本文方法在文獻[12]圖像庫上取得較高的精度。
(2) 微觀測試
為了驗證本文方法的場景適應性,選取了9幅場景復雜度不同的圖像作為本位陰影檢測結果的實例,如圖4所示。其中第一排、第三排和第五排為源圖像,第二排、第四排和第六排為陰影檢測效果圖。
定性上,從陰影檢測的效果來看,本文方法能夠很好地檢測軟陰影、硬陰影、自陰影以及場景非常復雜的陰影。(a)、(b)、(d)與(f)場景較為簡單且無自陰影,但是(a)與(b)陰影多為軟陰影,(d)與(f)陰影接近硬陰影;(c)、(d)、(g)、(h)與(i)都包含自陰影,其中(c)與(d)場景較為簡單,(g)、(h)與(i)場景較為復雜,(g)與(h)為遙感圖像,(i)為復雜的室外自然場景。實驗表明,本文提出方法在各種不同場景下的圖像的陰影檢測效果較好,能夠準確檢測出由于遮擋產生的自陰影。

圖4 陰影檢測結果實例
定量上,本文對選取的圖像進行測試并將本文方法的陰影檢出率與誤檢率和傳統的方法進行比較,如表1、表2所示。

表1 陰影檢出率SD(%)

表2 陰影誤檢率SE(%)
從表1與表2可以看出,本文方法陰影檢出率較傳統的方法高,陰影誤檢率較傳統方法低。而SD與SE并沒有完全的相關性,這與SD與SE的計算方法有關。傳統方法陰影的檢出率隨場景的變化變化較大且檢出率較低,而本文方法相對較為穩定且能夠達到更高的檢出率。
在訓練資源的消耗上,文獻[9]所采用的方法需要更大的內存(9 GB)和更大的時間消耗(大約10小時訓練125幅圖像)。本文的多尺度特征學習方法只需要2 GB內存,訓練時間也更短(大約4小時能訓練兩個圖像庫全部的圖像)。在實驗中當用網絡i的權值初始化網絡i+1時(1<=i,i+1<=5),本文方法的訓練時間能夠縮短到2.5小時左右。文獻[12]采用的支持向量機方法只適合小數據,卷積神經網絡模擬人的可視域可以用多個卷積核映射出多個特征圖,更適合圖像像素的分類。當圖像擴展到三維,或圖像場景非常復雜,卷積神經網絡的優勢就體現出來了。就目前來說,圖像越來越復雜,卷積神經網絡的適應性越強。
3結語
本文主要闡述了一種新的陰影檢測方法,利用卷積神經網絡進行特征學習,結合條件隨機場對圖像進行標簽。該方法場景適應性強,在陰影面積較大、軟陰影較多的圖像中也取得了很好的效果,而且訓練的時間也比現有的基于統計屬性的方法大大縮短,陰影檢出率也較現有傳統的算法高。
本文方法雖然在當前圖像庫和一些采樣的圖像上取得了較好的效果,而一些參數仍需簡單的計算與測試得到。如何自適應的確定參數、減少網絡訓練時間以及三維圖像的陰影檢測是以后研究的重點。
參考文獻
[1] Hsieh J W,Hu W F,Chang C J,et al.Shadow elimination for effective moving object detection by Gaussian shadow modeling[J].Image and Vision Computing,2003,21(6):505-516.
[2] Cavallaro A,Salvador E,Ebrahimi T.Shadow-aware object-based video processing[J].IEE Proceedings on Vision,Image and Signal Processing,2005,152(4):398-406.
[3] Nicolas H,Pinel J M.Joint moving cast shadows segmentation and light source detection in video sequences[J].Signal Processing:Image Communication,2006,21(1):22-43.
[4] Huang X,Hua G,Tumblin J,et al.What Characterize a Shadow Boundary under the Sun and Sky?[C]//In ICCV,2011:898-905.
[5] 孫靜,田建東,唐延東.靜態室內圖像投影邊緣檢測方法研究[J].儀器儀表學報,2010,31(S2):28-31.
[6] 郭迎春,吳鵬,袁浩杰.基于自投影和灰度檢索的視頻幀中異常行為檢測[J].數據采集與處理,2012,27(5):612-619.
[7] Chen C T,Su C Y,Kao W C.An enhanced segmentation on vision-based shadow removal for vehicle detection[C]//International Conference on Green Circuits and Systems,2010:679-682.
[8] Finlayson G D,Drew M S,Lu C.Entropy minimization for shadow removal[C]//In:IJCV,2009,85(1):35-57.
[9] Zhu J,Samuel K G,Masood S Z,et al.Learning to recognize shadows in monochromatic natural images[C]//CVPR,IEEE,2010:223-230.
[10] Lalonde J F,A Efros A,Narasimhan S G.Detecting ground shadows in outdoor consumer photographs[C]//ECCV,2010:322-335.
[11] Jiang X,Schofield A J,Wyatt J L.Shadow detection based on colour segmentation and estimated illumination[C]//BMVC,2011:1-11.
[12] Guo R Q,Dai D,Hoiem D.Paired Regions for Shadow Detection and Removal[C]//IEEE,2013,12(35):2956-2967.
[13] Lecun Y,Bottou L,Bengio Y,et al.Gradient-Based Learning Applied To Document Recognition[C]//Proceedings of the IEEE,1998,10:2278-2324.
[14] Lafferty J,McCallum A,Pereira F.Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Processing of the International Conference on Machine Learning (ICML-2001),2001:282-289.
[15] Achanta R,Shaji A,Smith K,et al.Slic superpixels compared to state-of-the-art superpixel methods[C]//TPAMI,2012,34:2274-2282.
[16] 孟繁杰,郭寶龍.使用興趣點局部分布特征及多示例學習的圖像檢索方法[J].西安電子科技大學學報,2011,38(2):47-53.
[17] Chawla N V,Bowyer K W,Hall L O,et al.Smote: synthetic minority over-sampling technique[J].Journal of AI Research,2002,16(1):321-357.
[18] Szummer M,Kohli P,Hoiem D.Learning crfs using graph cuts[C]//ECCV,2008:582-595.
SHADOW DETECTION BASED ON MULTI-SCALE FEATURE LEARNING
Zhang Yongku1Du Shuaichuan2Sun Jinguang1Zhou Jilin2Jin Yaru3
1(SchoolofElectronicsandInformationEngineering,LiaoningTechnicalUniversity,Huludao125105,Liaoning,China)2(InstituteofGraduate,LiaoningTechnicalUniversity,Huludao125105,Liaoning,China)3(SchoolofNursing,ShandongUniversityofTraditionalChineseMedicine,Jinan250000,Shandong,China)
AbstractTraditional shadow detection methods need careful hand-crafted features design and long training time. Specially, these methods have lower detection rate as well. In order to solve these problems, in this paper we propose a supervised learning method for shadow detection. Firstly, the inputted images are transformed through Laplacian pyramid to determine the clustering centres, and these clustering centres are then taken as the centres for extracting the windows separately. Secondly, the method synthesises the training samples, and trains these samples in convolutional neural network to generate the posterior distribution. Finally, it feeds the derived posterior distribution back to the conditional random field to generate the labelled image. Experimental results show that this method works well in different scenes, the training time is short and the shadow detection rate is high.
KeywordsShadow detectionConvolutional neural networkFeature learningConditional random field
收稿日期:2014-10-13。國家科技支撐計劃項目(2013bah12f01)。張永庫,副教授,主研領域:圖形圖像處理和多媒體,數據處理和數據挖掘。杜帥川,碩士生。孫勁光,教授。周積林,碩士生。金雅茹,本科。
中圖分類號TP3
文獻標識碼A
DOI:10.3969/j.issn.1000-386x.2016.05.046