基于概率轉移卷積神經(jīng)網(wǎng)絡的含噪標記SAR圖像分類

2017-11-27 08:42:17趙娟萍郭煒煒崔世勇張增輝郁文賢

雷達學報 2017年5期

關鍵詞：分類特征模型

趙娟萍郭煒煒柳彬崔世勇張增輝* 郁文賢

①(上海交通大學智能探測與識別上海市高校重點實驗室上海 200240)

②(德國宇航局遙感技術研究所德國韋斯靈 82234)

基于概率轉移卷積神經(jīng)網(wǎng)絡的含噪標記SAR圖像分類

趙娟萍①郭煒煒①柳彬①崔世勇②張增輝*①郁文賢①

①(上海交通大學智能探測與識別上海市高校重點實驗室上海 200240)

②(德國宇航局遙感技術研究所德國韋斯靈 82234)

合成孔徑雷達(Synthetic Aperture Radar, SAR)圖像分類是SAR圖像解譯的重要任務。以卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)為代表的監(jiān)督學習方法需要大量已標注的訓練樣本。然而對于SAR圖像真值標注而言，由于SAR特殊的成像機理，圖像受相干斑噪聲、幾何畸變和結構缺失等因素影響較為嚴重，非直觀性較強，使得SAR圖像人工標注非常困難，極易出錯，從而導致CNN等模型學習和泛化性能急劇降低。針對這種含噪標記條件下的SAR圖像分類問題，該文提出了一種基于概率轉移模型的卷積神經(jīng)網(wǎng)絡(Probability Transition CNN, PTCNN)方法，該方法在傳統(tǒng)CNN模型基礎上，基于含噪標記與正確標記之間的概率轉移模型，建立噪聲標記轉移層，這種新的卷積網(wǎng)絡模型可潛在地校正錯誤標記，增強了含噪標記下分類模型的魯棒性。與經(jīng)典CNN等模型相比，在構建的16類SAR圖像地物數(shù)據(jù)集和MSTAR數(shù)據(jù)集上的實驗結果表明該文方法相比于經(jīng)典CNN等模型，在保持SAR圖像分類性能的同時具有較好的抗噪性，能夠有效校正訓練樣本中的標注錯誤，從而降低了SAR圖像有監(jiān)督分類任務對樣本標注質(zhì)量的要求，具有一定的研究價值與應用前景。

合成孔徑雷達(SAR)圖像分類；監(jiān)督學習；含噪標記；概率轉移卷積神經(jīng)網(wǎng)絡(PTCNN)；深度特征

1 引言

合成孔徑雷達(Synthetic Aperture Radar, SAR)全天時全天候的優(yōu)勢使其在軍用和民用領域中都有著非常廣泛的應用。近年來，以卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)[1]為代表的監(jiān)督學習方法在自然圖像理解，如圖像分類[2,3]、目標檢測[4]、以及自然語言處理[5,6]等領域中取得了顯著成功。在SAR圖像解譯領域，學者們也對CNN應用于SAR圖像分類和識別進行了初步嘗試[7—13]，在MSTAR數(shù)據(jù)集和地物分類數(shù)據(jù)集上[12]的測試結果顯示CNN能夠顯著提高SAR目標識別和地物分類的準確率，表明CNN對SAR圖像解譯同樣具有很大潛力。為了解決MSTAR數(shù)據(jù)規(guī)模小和避免過擬合問題，文獻[7,10]基于自編碼方法進行網(wǎng)絡的預訓練，文獻[11,13]對MSTAR原始數(shù)據(jù)進行變換來增加樣本數(shù)量，文獻[9]將CNN作為一種特征提取器來提取MSTAR圖像深度特征，并結合SVM進行MSTAR車輛目標識別。最近，文獻[13]提出了一種全卷積神經(jīng)網(wǎng)絡(A-ConvNets)對MSTAR車輛目標進行識別，識別率達到了99%以上，取得了目前在MSTAR數(shù)據(jù)集上最好的效果。

雖然CNN在SAR圖像分類中取得了較好的效果，但是這種監(jiān)督學習方法需要大規(guī)模、正確標注的訓練樣本[14]。然而SAR特殊的成像機理(相干成像、主動式、微波波段等)使得圖像存在嚴重的相干斑噪聲、幾何畸變與結構缺失現(xiàn)象，圖像非直觀性強、理解難度大，即使經(jīng)驗豐富的判讀專家也需要借助豐富的先驗信息才能對SAR圖像進行準確判讀；對于非合作目標，先驗信息的缺乏極易導致圖像錯標。SAR圖像中這種觀測樣本與其標注不一致的現(xiàn)象造成SAR圖像解譯中的含噪標記問題。在SAR圖像分類中，直接使用含噪標記樣本進行監(jiān)督學習，必然會使得分類性能下降、模型復雜度上升和過擬合問題[15]。目前，含噪標記條件下的圖像分類問題在計算機視覺和機器學習領域也逐漸引起重視，主要的解決方法是通過改進損失函數(shù)的正則化約束項來提高分類器對噪聲標記的魯棒性[15,16]，而且這些方法基于人工設計的特征，且特征提取與分類器訓練分階段進行，并不具備特征學習的能力，使得分類性能和對噪聲標記的魯棒性進一步降低。而近年來興起的CNN等深度模型由于參數(shù)多，雖然具有更強特征學習和表達能力，但更容易受到噪聲標記的影響。

目前，針對這種SAR圖像解譯中廣泛存在的含噪標記問題還鮮有研究。為解決該問題，克服含噪標記條件下SAR圖像的分類識別性能和泛化性能下降問題，本文提出了一種基于概率轉移模型的卷積神經(jīng)網(wǎng)絡(Probability Transition CNN, PTCNN)方法，該方法在CNN模型基礎上，基于含噪標記與正確標記之間的概率轉移模型，建立了噪聲標記轉移層，構建了一種新的卷積網(wǎng)絡模型，其一方面能充分利用CNN較強的圖像表征能力，另一方面可潛在地對錯誤標記進行校正，從而增強了含噪標記條件下CNN模型的魯棒性，降低了經(jīng)典CNN方法對訓練樣本標注質(zhì)量的要求。本文分別在構建的16類SAR圖像地物數(shù)據(jù)集和美國MSTAR數(shù)據(jù)集上進行實驗，分析了不同噪聲比例條件下SAR圖像分類性能，并與經(jīng)典CNN方法和支持向量機(Supported Vector Machine, SVM)算法進行對比，實驗結果表明相比于傳統(tǒng)模型，本文提出的PTCNN模型具備較好的抗噪性，在含噪標記條件下能夠保持較好的分類性能，從而有效降低了SAR圖像標注質(zhì)量對分類器性能的影響。

2 網(wǎng)絡模型

針對含噪標記條件下的SAR圖像分類問題，本文PTCNN網(wǎng)絡結構如圖1所示，該模型主要分為兩部分：(1)深度特征提取部分；(2)概率轉移模型部分。深度特征提取部分采用經(jīng)典的CNN模型提取訓練樣本x的深度特征(圖中C1, C2, C3, C4, C5均表示卷積層，S1, S2表示降采樣層，F(xiàn)c6, Fc7,Fc8表示全連接層)，概率轉移模型通過softmax分類器對深度特征進行分類，提取訓練樣本真值標注y的后驗概率含噪標記問題中隨機變量之間的相互依賴關系如圖2所示，由貝葉斯原理可得含噪標記的后驗概率

圖1 概率轉移卷積神經(jīng)網(wǎng)絡Fig. 1 Probability transition convolutional neural network

圖2 SAR圖像含噪標記模型Fig. 2 Model of SAR image noisy labels

2.1 深度特征提取

CNN是一種典型的有監(jiān)督深度學習方法，其最初是受靈長動物視覺神經(jīng)機制的啟發(fā)而設計的一種具有深度學習能力的人工神經(jīng)網(wǎng)絡。CNN直接將原始圖像作為網(wǎng)絡輸入，有效避免了傳統(tǒng)算法中的特征提取和數(shù)據(jù)重建過程，提高了算法效率。但是，CNN并不是一個黑盒子，其內(nèi)部通過一系列數(shù)學運算實現(xiàn)圖像表征。

具有局部連接和權值共享特性的卷積層是CNN的核心組成部分，該層每個神經(jīng)元的輸入與前一層的局部感受野(Receptive Field)連接，提取圖像局部特征。其中，同一特征圖中的神經(jīng)元提取前一層特征圖中不同位置的局部特征，而對單一神經(jīng)元來說其提取的特征是前一層若干不同特征圖中相同位置的局部特征。

為了使神經(jīng)網(wǎng)絡具有非線性擬合能力，需要將卷積等線性運算得到的結果通過一個非線性的激活函數(shù)。激活函數(shù)為CNN網(wǎng)絡引入非線性特征，使其具有非線性擬合能力。激活函數(shù)不僅影響數(shù)據(jù)的映射方式，而且不同的激活函數(shù)因梯度不同還會影響反向傳播過程。因此，反向傳播算法要求激活函數(shù)具有連續(xù)、可微、單調(diào)非遞減的性質(zhì)。常用的激活函數(shù)有Sigmoid激活函數(shù)、tanh激活函數(shù)和ReLU激活函數(shù)。

降采樣層以采樣區(qū)域的大小為步長來掃描圖像。該網(wǎng)絡層在有效減少模型參數(shù)的同時保留了圖像的結構信息。常用的降采樣方法有最大值降采樣、均值降采樣等。

CNN訓練過程中由于有標記樣本規(guī)模小、網(wǎng)絡參數(shù)多，模型訓練容易過擬合。Dropout層在每次迭代訓練過程中隨機舍棄一些神經(jīng)元，僅利用剩下的神經(jīng)元參與訓練，有效減少了模型參數(shù)，能夠防止過擬合現(xiàn)象發(fā)生。

2.2 概率轉移模型

本文根據(jù)SAR圖像樣本庫構建與標注過程中變量之間的實際依賴關系，建立如圖2所示的SAR圖像含噪標記模型，圖中yn,分別表示觀測樣本xn對應的真值標注和含噪標注，和Q分別為深度特征提取參數(shù)集、softmax分類器參數(shù)集和概率轉移矩陣，本文假設含噪標記數(shù)據(jù)集中共有N個訓練樣本。

對于有噪聲標記的SAR圖像數(shù)據(jù)集D=其中觀測樣本集為相應的含噪標注集為真值標注集假設數(shù)據(jù)集共有K類，則。在模型訓練過程中，如果網(wǎng)絡輸入的觀測樣本表示為xn∈X，輸入數(shù)據(jù)在前向傳播過程中通過CNN逐層非線性映射到區(qū)分性較強的深度特征空間為：

然后通過softmax分類器獲得輸入數(shù)據(jù)真值標注的后驗概率P(yn|xn)，將其寫成矩陣形式為：

將式(3)表示為矩陣形式

最后，通過最小化含噪標記條件下的正則化損失函數(shù)

如果Q=I，則有而理想情況下

2.3 訓練方法

3 實驗與結果分析

3.1 實驗數(shù)據(jù)

3.1.1 SAR圖像地物數(shù)據(jù)集本文實驗數(shù)據(jù)來源于中國武漢地區(qū)和上海交通大學閔行校區(qū)的兩景TerraSAR-X衛(wèi)星影像，其成像參數(shù)如表1所示。

針對這兩景TerraSAR-X影像，本文構建了一個包含16類地物類型(港口、稀疏建筑區(qū)、池塘、橋梁、濕地、艦船、小溪、公路、運動場、沙灘、密集建筑區(qū)、河流、森林、道路、綠化帶、水體)共5336個正確標記樣本的樣本庫。

表1 TerraSAR-X衛(wèi)星成像參數(shù)Tab. 1 TerraSAR-X satellite imaging parameters

本文SAR圖像地物樣本庫構建借助德國宇航局的半自動化人機交互軟件平臺[20]并結合實地調(diào)繪完成。經(jīng)過多視和上采樣處理后的兩景影像地距向像元尺寸在0.7 m～0.8 m之間，方位向像元尺寸均在0.6 m～0.7 m之間，因此將兩景圖像統(tǒng)一標注是合理的。高分辨率SAR圖像中200×200的樣本尺寸(本數(shù)據(jù)集中每個切片對應實際地表范圍約為150 m×130 m)能夠比較全面地反映圖像的類別信息[21,22]，使得切片具有比較明顯的語義含義。表2所示為SAR地物樣本庫訓練集和測試集，其中每類地物類型總量的60%用于訓練，其余40%用于測試。

3.1.2 MSTAR數(shù)據(jù)集該部分實驗數(shù)據(jù)來源為美國MSTAR計劃公布的地面靜止軍事目標的聚束式SAR實測數(shù)據(jù)[23]。MSTAR數(shù)據(jù)集包含了軍用和民用的多種靜止軍事車輛目標，目標方位角覆蓋了0°～360°。本文用MSTAR數(shù)據(jù)中的10類目標并截取中間88×88大小的切片作為訓練和測試樣本[13]，其中訓練集和測試集分別用15°方位角和17°方位角下的SAR樣本切片，訓練數(shù)據(jù)集和測試數(shù)據(jù)集如表3所示。

3.2 實驗設置

3.2.1 類別噪聲仿真為了驗證PTCNN模型的有效性，本文利用構建的16類正確標記TerraSAR-X地物數(shù)據(jù)集和MSTAR數(shù)據(jù)集仿真兩組含噪標記樣本庫。含噪標記仿真方法為：從每組訓練集的每類樣本中隨機抽取一定比例(本文噪聲比例分別選取10%, 20%, 30%, 40%, 50%)，將相應類別標記設置為噪聲標記，其中標記噪聲服從式(8)所示的均勻分布。

表2 SAR圖像地物分類訓練與測試數(shù)據(jù)集Tab. 2 Training and testing set for SAR image land cover classification

其中，Pe表示訓練集中每類樣本正確標注的比例，則相應的含噪標記比例為1—Pe。

3.2.2 參數(shù)初始化本文將CNN作為一種特殊的特征學習方法，通過逐層線性或非線性映射從原始數(shù)據(jù)中提取圖像的深度特征。圖3(a)和圖3(b)分別為16類地物要素和MSTAR數(shù)據(jù)集車輛目標的深度特征提取模塊網(wǎng)絡結構。圖3(a)中“Conv1”、“Conv2”、“Conv3”、“Conv4”、“Conv5”層權值初始化為方差0.01的高斯分布，“Conv1”、“Conv3”層偏置設置為常數(shù)0,“Conv2”、“Conv4”、“Conv5”層偏置設置為常數(shù)1，“Norm1”、“Norm2”層局部窗口大小為5×5，縮放因子指數(shù)項β=0.75，“Fc6”, “Fc7”層權值初始化為方差0.05的高斯分布，偏置設置為常數(shù)1, “Fc8”層權值初始化為方差0.01的高斯分布，偏置初始化為常數(shù)0。圖3(b)中網(wǎng)絡結構參數(shù)初始化參照文獻[13]。

表3 用于訓練和測試的MSTAR數(shù)據(jù)集Tab. 3 Training and testing set of MSTAR database

3.2.3 對比算法為了說明本文方法能夠一定程度上解決含噪標記條件下的SAR圖像分類問題，降低錯誤標注對分類器性能的影響，提高分類模型對噪聲標記的魯棒性，本文將PTCNN與經(jīng)典CNN方法和基于傳統(tǒng)特征的SVM算法進行對比。兩組數(shù)據(jù)集中經(jīng)典CNN方法與PTCNN方法的區(qū)別都是僅僅缺少噪聲標記轉移層。

圖3 深度特征提取網(wǎng)絡結構Fig. 3 Deep feature extraction structure

而由于SVM算法分類性能與特征選擇密切相關，對于地物數(shù)據(jù)集，本文采用基于Gabor特征的SVM分類算法[20]，這里提取的Gabor特征為48維(由4個方向、6個尺度下特征圖的均值和標準差依次組成)，SVM分類器采用RBF核函數(shù)，通過網(wǎng)格搜索法得到最佳誤差項懲罰參數(shù)C=8000.0，最佳核函數(shù)系數(shù)

對于MSTAR數(shù)據(jù)集，采用基于PCA特征的SVM算法[24]，PCA特征采用圖像原始幅度信息，特征維數(shù)通過網(wǎng)格搜索尋優(yōu)法取35維。SVM分類器參數(shù)采用5次多項式核函數(shù)，通過網(wǎng)格搜索法得到最佳誤差項懲罰參數(shù)C=1，最佳多項式系數(shù)，最佳常數(shù)項值r=0[16]。

3.2.4 評價指標評價指標采用每種方法在每種噪聲比例下的分類準確率、混淆矩陣。

3.3 實驗結果與分析

3.3.1 地物數(shù)據(jù)集實驗高分辨率TerraSAR-X影像豐富的地物類型和龐大的數(shù)據(jù)量為本實驗提供了充足的數(shù)據(jù)源，地物樣本數(shù)據(jù)庫通過PTCNN模型，采用迭代優(yōu)化策略更新模型參數(shù)。模型訓練采用基于動量(momentum)法的SGD算法，初始學習率為0.001，每迭代400次學習率更新一次，衰減率為0.1，動量設置為0.9，最大迭代次數(shù)設置為4000使損失函數(shù)收斂。

不同噪聲比例下的地物分類準確率如表4所示。從表中可以看出，無論噪聲比例如何變化，PTCNN的分類準確率都優(yōu)于其他兩種方法，且經(jīng)典CNN模型分類準確率優(yōu)于基于Gabor特征的SVM分類算法。因此，在SAR圖像地物要素分類性能方面：PTCNN＞經(jīng)典CNN＞Gabor+SVM。

表4 不同標記噪聲比例下的地物分類準確率(%)Tab. 4 Land cover classification accuracies of different label noise fraction (%)

圖4(a)顯示了3種方法的地物分類準確率隨噪聲比例的變化曲線。從圖中可以看出，本文PTCNN網(wǎng)絡在不同噪聲比例下地物分類準確率保持在98.80%左右，基本不隨噪聲比例變化而變化，經(jīng)典CNN網(wǎng)絡和基于Gabor特征的SVM算法分類準確率隨著噪聲比例的增加下降較明顯，其中SVM算法準確率最低且隨噪聲比例增加下降速度最快。所以在抗噪性能方面：PTCNN＞經(jīng)典CNN＞Gabor+SVM。

圖4(b)為3種方法對車輛目標的分類準確率隨噪聲比例的變化曲線，從圖中可以看出，經(jīng)過20000次迭代更新，PTCNN模型在不同噪聲比例下準確率最高，且隨噪聲比例的變化幅度較小，驗證了PTCNN模型對噪聲的敏感性較低，體現(xiàn)出其較好的抗噪性能。而基于PCA特征的SVM算法比經(jīng)典CNN算法隨噪聲比例變化更緩慢，說明前者比后者抗噪性能好。說明PTCNN模型的抗噪性能最好，SVM算法次之，經(jīng)典CNN模型抗噪性能最差。

圖4 分類準確率隨噪聲比例變化曲線Fig. 4 Classification accuracy varies with noise fraction

圖5 類別噪聲比例為30%時3種方法的測試混淆矩陣Fig. 5 Confusion matrix of three method with 30% noise fraction

圖5(a)、圖5(b)、圖5(c)分別是訓練樣本噪聲比例為30%時3種算法測試結果的混淆矩陣，明顯可以看出PTCNN模型的測試準確率最高，只有極個別樣本被錯分，經(jīng)典CNN模型次之，基于Gabor特征的SVM算法測試準確率最低。

圖5給出了含噪標記條件下SAR圖像訓練樣本的PTCNN特征、CNN特征和Gabor特征，采用t-SNE (t-distributed Stochastic Neighbor Embedding)方法分別將其特征分布映射到2維空間中并可視化(3種方法在不同噪聲比例下的特征分布如圖6所示，圖中不同顏色表示不同的含噪標記，不同聚類表示預測的不同標記)。從圖6第1列圖6(a1)～圖6(f1)可以看出不同標記噪聲比例下的錯標樣本都被重新歸類，特征分布基本不隨噪聲比例變化而變化，從視覺上直觀地驗證了PTCNN模型較好的抗噪性能和分類性能。同樣地，從圖6中第2列圖6(a2)～圖6(f2)可以看出經(jīng)典CNN特征受噪聲影響較大，且特征的可區(qū)分性隨標記噪聲比例的增加越來越差。圖6第3列圖6(a3)～圖6(f3)可以看出傳統(tǒng)Gabor特征可區(qū)分性比深度特征差，且對噪聲比較敏感。

圖6 不同標記噪聲比例下3種方法的特征分布Fig. 6 Feature distribution of three method with different noise label fractions

3.3.2 MSTAR數(shù)據(jù)集實驗MSTAR數(shù)據(jù)集對車輛目標分類的過程中，參數(shù)衰減系數(shù)設置為0.004，網(wǎng)絡學習率采用步進式策略，基礎學習率設為0.001，每迭代500次學習速率更新1次，各層權重與偏置更新策略采用基于動量(momentum)法的SGD算法，動量設置為0.9，最大迭代次數(shù)設置為20000次，直至目標函數(shù)收斂。不同噪聲比例下MSTAR車輛目標分類準確率如表5所示，同樣可以看出，不同噪聲比例下PTCNN模型對車輛目標的分類準確率優(yōu)于經(jīng)典CNN模型，而經(jīng)典CNN模型分類性能又優(yōu)于基于PCA特征的SVM算法。

表5 不同標記噪聲比例下MSTAR車輛目標分類準確率(%)Tab. 5 Classification accuracies of MSTAR vehicle target with different noise fractions (%)

4 結論

SAR圖像由于其特殊的成像機理使得圖像目視解譯困難，直接獲取大規(guī)模、高質(zhì)量標注的訓練樣本非常困難。本文針對含噪標記條件下的SAR圖像分類問題，提出了一種基于概率轉移模型的卷積神經(jīng)網(wǎng)絡方法(PTCNN)，首先提取訓練樣本的CNN特征，然后基于錯誤標記與正確標記之間的轉移概率模型，建立噪聲標記轉移層，從而構建了一種新的含噪標記條件下的卷積網(wǎng)絡模型。對比實驗采用基于傳統(tǒng)特征的概率轉移模型、采用經(jīng)典CNN模型和SVM算法，分析不同比例噪聲對SAR圖像分類性能的影響，對比驗證了PTCNN模型相比經(jīng)典CNN模型，能夠利用含噪標記樣本訓練出分類性能較好的模型，并且能夠潛在校正含噪標記，減小了含噪標記對模型訓練的影響，從而降低了SAR圖像分類任務對訓練樣本標注質(zhì)量的要求，具有一定的研究價值與應用前景。

[1]Krizhevsky A, Sutskever I, and Hinton G E. Imagenet classification with deep convolutional neural networks[C].Advances in Neural Information Processing Systems, 2012:1097—1105.

[2]He K, Zhang X, Ren S,et al.. Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE transactions on pattern analysis and machine intelligence,2015, 37(9): 1904—1916. DOI: 10.1109/TPAMI.2015.2389824.

[3]Chan T H, Jia K, Gao S,et al.. PCANet: A simple deep learning baseline for image classification?[J].IEEE Transactions on Image Processing, 2015, 24(12): 5017—5032.DOI: 10.1109/TIP.2015.2475625.

[4]Chen X, Xiang S, Liu C L,et al.. Vehicle detection in satellite images by hybrid deep convolutional neural networks[J].IEEE Geoscience and remote sensing letters,2014, 11(10): 1797—1801. DOI: 10.1109/LGRS.2014.2309695.

[5]Kalchbrenner N, Grefenstette E, and Blunsom P. A convolutional neural network for modelling sentences[J].arXiv Preprint arXiv: 1404. 2188, 2014.

[6]Kim Y. Convolutional neural networks for sentence classification[J].arXiv Preprint arXiv: 1408. 5882, 2014.

[7]Chen S and Wang H. SAR target recognition based on deep learning[C]. 2014 International Conference on Data Science and Advanced Analytics (DSAA), Shanghai, 2014: 541—547.

[8]Wagner S. Combination of convolutional feature extraction and support vector machines for radar ATR[C]. 17th International Conference on Information Fusion (FUSION),Salamanca, 2014: 1—6.

[9]田壯壯, 占榮輝, 胡杰民, 等. 基于卷積神經(jīng)網(wǎng)絡的SAR圖像目標識別研究[J]. 雷達學報, 2016, 5(3): 320—325.Tian Zhuangzhuang, Zhan Ronghui, Hu Jiemin,et al.. SAR ATR Based on Convolutional Neural Networks[J].Journal of Radars, 2016, 5(3): 320—325.

[10]Li X, Li C, Wang P,et al.. SAR ATR based on dividing CNN into CAE and SNN[C]. 5th Asia-Pacific Conference on Synthetic Aperture Radar (APSAR), Singapore, 2015:676—679.

[11]Ding J, Chen B, Liu H,et al.. Convolutional Neural Network With Data Augmentation for SAR Target Recognition[J].IEEE Geoscience and Remote Sensing Letters, 2016, 13(3): 364—368.

[12]Zhao J, Guo W, Cui S,et al.. Convolutional neural network for SAR image classification at patch level[C]. International Geoscience and Remote Sensing Symposium (IGARSS),Beijing, 2016: 945—948.

[13]Chen S, Wang H, Xu F,et al.. Target Classification Using the Deep Convolutional Networks for SAR Images[J].IEEE Transactions on Geoscience and Remote Sensing, 2016,54(8): 4806—4817. DOI: 10.1109/TGRS.2016.2551720.

[14]Deng J, Dong W, Socher R,et al.. Imagenet: A large-scale hierarchical image database[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Miami Beach, Florida, 2009: 248—255.

[15]Zhu X and Wu X. Class noise vs. attribute noise: A quantitative study[J].Artificial Intelligence Review, 2004,22(3): 177—210. DOI: 10.1007/s10462-004-0751-8.

[16]Chang C C and Lin C J. LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology(TIST), 2011, 2(3): 27.

[17]Jia Y, Shelhamer E, Donahue J,et al.. Caffe: Convolutional architecture for fast feature embedding[C]. Proceedings of the 22nd ACM International Conference on Multimedia,Orlando, 2014: 675—678.

[18]Hecht-Nielsen R. Theory of the backpropagation neural network[C]. IEEE International Joint Conference on Neural Networks, 1989: 593—605.

[19]Bottou L. Stochastic gradient learning in neural networks[J].Proceedings of Neuro-Nmes, 1991, 91(8).

[20]Cui S, Dumitru C O, and Datcu M. Semantic annotation in earth observation based on active learning[J].International Journal of Image and Data Fusion, 2014, 5(2): 152—174.DOI: 10.1080/19479832.2013.858778.

[21]Popescu A A, Gavat I, and Datcu M. Contextual descriptors for scene classes in very high resolution SAR images[J].IEEE Geoscience and Remote Sensing Letters,2012, 9(1): 80—84. DOI: 10.1109/LGRS.2011.2160838.

[22]Singh J, Cui S, Datcu M,et al.. A survey of density estimation for SAR images[C]. 20th European of Signal Processing Conference (EUSIPCO), 2012: 2526—2530.

[23]Ross T D, Worrell S W, Velten V J,et al.. Standard SAR ATR evaluation experiments using the MSTAR public release data set[C]. Aerospace/Defense Sensing and Controls. International Society for Optics and Photonics,1998: 566—573.

[24]Wu T, Chen X, Ruang X W,et al.. Study on SAR target recognition based on support vector machine[C]. 2nd Asian-Pacific Conference on Synthetic Aperture Radar, 2009:856—859.

趙娟萍(1991—)，女，陜西渭南人，學士，于2014年獲西安電子科技大學學士學位，2014年9月至今，在上海交通大學電子信息與電氣工程學院攻讀博士研究生。研究方向為雷達圖像解譯、機器學習。

E-mail: juanpingzhao@sjtu.edu.cn

郭煒煒(1983—)，男，江蘇南通人，博士，分別于2005年、2007年和2011年獲國防科技大學信息與通信工程專業(yè)學士、碩士和博士學位。2014年至今，在上海交通大學電子信息與電氣工程學院做博士后。主要從事圖像理解、模式識別與機器學習等方面的研究。

E-mail: gwnudt@163.com

柳彬(1985—)，男，湖南衡陽人，博士，助理研究員，分別于2007年、2009年和2015年獲上海交通大學信息工程、信號與信息處理和信號與信息處理學士、碩士和博士學位。2012年10月至2013年4月在法國巴黎高科電信學院訪問研究。2015年12月，任上海交通大學電信學院信息技術與電氣工程研究院助理研究員。主要從事雷達圖像的分割分類、目標檢測識別、多時相分析等方面的研究。

E-mail: bliu.rsti@sjtu.edu.cn

崔世勇(1984—)，男，山東濰坊人，博士，德國宇航中心研究員。師從國際著名遙感影像信息挖掘?qū)W者Mihai Datcu教授和國際著名SAR學者Otmar Loffeld教授。2013年從德國錫根大學畢業(yè)并獲得電子工程與計算機科學博士學位。從2009年至今，在德國宇航中心遙感技術所從事機器學習和圖像分析相關科研工作。在該領域已經(jīng)發(fā)表多篇國際學術期刊論文。擔任該領域主要期刊(IEEE TGRS, IEEE GRSL, IEEE JSTARS)的審稿人。主要研究方向包括：統(tǒng)計機器學習，數(shù)據(jù)挖掘，計算機視覺，圖像分析與理解等方向。

E-mail: shiyong.cui@dlr.de

張增輝(1980—)，男，山東金鄉(xiāng)人，博士，副研究員，分別于2001年、2003年和2008年獲國防科技大學應用數(shù)學、計算數(shù)學和信息與通信工程專業(yè)學士、碩士和博士學位。2008年6月，任國防科大理學院數(shù)學與系統(tǒng)科學系講師；2014年2月，任上海交通大學電子信息與電氣工程學院副研究員。主要從事新體制雷達系統(tǒng)、雷達信號處理、壓縮感知理論等方面的研究。

E-mail: zenghui.zhang@sjtu.edu.cn

郁文賢(1964—)，男，上海松江人，博士，教授，博士生導師，上海交通大學講席教授。中國第2代衛(wèi)星導航系統(tǒng)重大專項測試評估與試驗驗證專家組專家，高分辨率對地觀測系統(tǒng)重大專項專家委員會地面系統(tǒng)組專家，“十二五”總裝備部衛(wèi)星應用技術專業(yè)組顧問，裝發(fā)部上海市“北斗導航與位置服務”共建重點實驗室主任，上海交通大學學術委員會委員，雷達信號處理國防科技重點實驗室學術委員會委員，“十一五”國家863計劃信息獲取與處理技術主題第一、第二屆專家組組長，“十一五”總裝備部雷達探測技術專業(yè)組專家，主要研究方向為先進探測技術和多維信號與信息處理，研究內(nèi)容包括新型成像系統(tǒng)、微波圖像處理和解譯、信息融合、目標識別等。

E-mail: wxyu@sjtu.edu.cn

s: The National Natural Science Foundation of China (61331015), The China Postdoctoral Science Foundation(2015M581618)

Convolutional Neural Network-based SAR Image Classification with Noisy Labels

Zhao Juanping①Guo Weiwei①Liu Bin①Cui Shiyong②Zhang Zenghui①Yu Wenxian①
①(Shanghai Key Laboratory of Intelligent Sensing and Recognition,Shanghai Jiaotong University,Shanghai200240,China)
②(Remote Sensing Technology Institute (IMF),German Aerospace Center (DLR),Wessling82234,Germany)

SAR image classification is an important task in SAR image interpretation. Supervised learning methods, such as the Convolutional Neural Network (CNN), demand samples that are accurately labeled.However, this presents a major challenge in SAR image labeling. Due to their unique imaging mechanism, SAR images are seriously affected by speckle, geometric distortion, and incomplete structural information. Thus,SAR images have a strong non-intuitive property, which causes difficulties in SAR image labeling, and which results in the weakened learning and generalization performance of many classifiers (including CNN). In this paper, we propose a Probability Transition CNN (PTCNN) for patch-level SAR image classification with noisy labels. Based on the classical CNN, PTCNN builds a bridge between noise-free labels and their noisy versions via a noisy-label transition layer. As such, we derive a new CNN model trained with a noisily labeled training dataset that can potentially revise noisy labels and improve learning capacity with noisily labeled data. We use a 16-class land cover dataset and the MSTAR dataset to demonstrate the effectiveness of our model. Our experimental results show the PTCNN model to be robust with respect to label noise and demonstrate its promising classification performance compared with the classical CNN model. Therefore, the proposed PTCNN model could lower the standards required regarding the quality of image labels and have a variety of practical applications.

SAR image classification; Supervised learning; Noisy labels; Probability Transition Convolutional Neural Network (PTCNN); Deep features

TN957.52

2095-283X(2017)05-0514-10

10.12000/JR16140

趙娟萍, 郭煒煒, 柳彬, 等. 基于概率轉移卷積神經(jīng)網(wǎng)絡的含噪標記SAR圖像分類[J]. 雷達學報, 2017,6(5): 514—523.

10.12000/JR16140.

Reference format:Zhao Juanping, Guo Weiwei, Liu Bin,et al.. Convolutional neural network-based SAR image classification with noisy labels[J].Journal of Radars, 2017, 6(5): 514—523. DOI: 10.12000/JR16140.

2016-12-06；改回日期：2017-04-07；網(wǎng)絡出版：2017-04-21

*通信作者：張增輝 zenghui.zhang@sjtu.edu.cn

國家自然科學基金重點項目(61331015)，中國博士后基金項目(2015M581618)