黃素琴
(廣東省國土資源測繪院, 廣東 廣州 510500)
高光譜遙感影像蘊含著豐富的地物信息,可為地礦深層勘探、土地資源監管、農業生產規劃提供重要的數據[1]。由于遙感圖像數量巨大,在進行調取應用時需要對其分類檢索,從而匹配到具有相似或相同特征的檢索圖像,從最初的基于文本的圖像檢索方法發展至目前的基于內容的圖像檢索技術,遙感影像的檢索精度和效率上有了較大提升[2]。
在遙感圖像檢索方法上,很多學者均提出了自己的見解和觀點,最開始的全局特征提取到目前主流的融合局部特征的提取,這大大提升了檢索效率、縮短了檢索時間[3-4]。卷積神經網絡不僅具有強大的特征提取能力,還具有很強的分類能力,是目前在各領域最常用的一種深度學習方法,具有局部連接、權值共享、空間采樣等特征,在圖像分類和目標識別等工作中得到廣泛應用[5-8]。但是,檢索出來的圖像如何展現給用戶又是一個問題,每一個檢索到的圖像與查詢圖像之間肯定存在一定的關聯,且關聯度是互不相同的,需要采用一種方法來對檢索到的圖像進行排序,然后依次推薦給用戶,從而提高用戶的檢索效率,距離權重算法可實現這一目的,且在測繪領域已有一定的應用[9-10],也為遙感圖像分類檢索提供了新的方向。
本文基于卷積神經網絡和距離權重,提出了一種新的遙感圖像分類檢索方法,以期能為提升遙感圖像的檢索效果提供借鑒。
基于內容的圖像檢索(Content-Based Image Retrieval,CBIR)是通過輸入圖像,經過對輸入圖像特征的提取,在檢索圖像庫中尋找與之查詢圖像的顏色、紋理、布局等具有相似特征的圖像,并將其推薦給用戶的一種檢索方法,具體檢索流程見圖1。在基于內容的圖像檢索流程中,最重要的一步就是對圖像進行特征提取,并準確、高效地建立圖像庫與對應特征之間的索引關系,而卷積神經網絡(Convolutional Neural Networks,CNN)被證明是一種能夠提取更為抽象圖像特征的深度學習方法,其可以通過抽象學習來提取圖像的全連接層和卷積層特征,從而實現強大的表征能力,但在檢索精度上還有待進一步提高。因此,本文在卷積神經網絡方法基礎上,提出了一種基于距離權重(Distance Weighted,DW)的卷積神經網絡圖像檢索方法。
卷積神經網絡作為一種深度學習方法,開始于20世紀80~90年代,并在21世紀得到快速發展,在圖像分類、目標識別等領域得到較為廣泛的應用。卷積神經網絡包括特征提取層和特征映射層兩層基本結構,根據功能劃分,又可以將其細分為輸入層、卷積層、下采用層(池化層)、全連接層和輸出層,見圖2。輸入層的主要作用是獲得原始圖像信息并轉化為像素矩陣,最后將數據傳遞給卷積層;卷積層的主要作用是利用卷積核對像素數據進行卷積操作,同時利用非線性函數對輸出結果進行特征提取;池化層的作用是對卷積層處理過后的特征再進行二次特征提取,降低特征圖像分辨率的同時還能提高特征的尺度不變性;全連接層的主要作用是將二維的特征向量轉化為一維特征向量,為輸出層提供更好分類的數據;輸出層的主要作用就是對目標數據庫進行分類處理,并將結果推薦給用戶。

圖2 卷積神經網絡結構
距離權重是利用某單元特征值與周圍毗鄰單元特征值之間的函數關系,根據兩單元之間的距離來反推該單元的特征值,距被估點越遠的特征所起作用越小。卷積神經網絡輸出層利用Softmax函數作為輸出,并將輸出轉化為每個類的對應概率值pi
(1)
式中,an表示輸出層中輸入的N個向量。
當查詢圖像q輸入到微調模型中后,可得到下緩存圖像對應的每個類的概率值pq,從而得到每張檢索圖像r對應的權重值wr
(2)
式中,k表示圖像r的類。
那么,查詢圖像q與檢索圖像r之間的距離權重就可以表示為
dw(q,r)=w×d(q,r)
(3)
式中,d(q,r)表示常用距離,本文取歐氏距離。
基于CNN-DW的圖像分類檢索流程主要分為兩個部分,一是離線部分,二是在線部分,其檢索流程示意見圖3。

圖3 CNN-DW檢索流程
2.3.1離線部分
離線部分主要分為三個步驟:(1)利用經過訓練的CNN模型對具有相應標記的數據庫進行微調;(2)利用微調后的CNN模型對檢索到的圖像進行特征提取和標記工作;(3)根據特征提取結果,建立特征向量和具有相似特征的類標簽檢索數據集。
2.3.2在線部分
在線部分分為四個步驟:(1)用戶將需要查詢的圖像輸入到CNN模型中,利用計算機程序計算CNN特征值和對應的類概率;(2)計算檢索圖像與查詢圖像之間的距離權重;(3)按距離權重的大小進行圖像排序;(4)按排序結果依次進行圖像檢索,得到檢索結果。
試驗數據為一個高分辨率的公開數據集,數據集包括飛機、棒球場、籃球場、海灘、橋、墓地、叢林等共計38類,每類又包含800張圖像,每張圖像的大小為256×256,數據集總共包含38×800=30 400張高分辨率遙感圖像,圖像的最高分辨率為0.06 m,圖像的最低分辨率為4.69 m,該數據集具有尺度高、分辨率高、高類內多樣性和類間相似性等諸多特點,是一個理想的可用于測繪研究的遙感圖像數據集。
CNN訓練在MS Windows 10系統中的MATLAB R2016上進行,使用的工具包為matconvnet,處理器型號為Intel i7-7700,內存大小為16 GB,CPU型號為NvidiaGe Force GTX 1080 8GB。學習率設為0.001,動量大小設為0.9,初始權重值設為0.000 5,采用自適應矩估計(Adam)優化算法來更新權重。CNN特征選用Fc6、Fc7和PooL5,對應的維數分別為4 096、4 096和1×1×2 048。
采用平均查準率(Mean Average Precision, MAP)和平均歸一化檢索秩(Average Normalized Modified Retrieval Rank, ANMRR)兩個參數來對CNN-DW檢索方法的檢索效果進行評價。
平均查準率的計算公式為
(4)
式中,PM表示平均查準率;N表示查詢圖像數量;APi表示第i張圖像的加權類別值。PM值越大,表明圖像檢索的精度越高。
平均歸一化檢索秩計算公式為:
(5)
式中,RA表示平均歸一化檢索秩;Q表示查詢圖像;RN(Qq)表示歸一化后的檢索秩。RA值介于0~1之間,RA越小,表明同類性更好,檢索性能越佳。
隨機選取兩張圖像作為查詢圖像,對比分析了利用CNN法和利用CNN-DW的檢索結果,見圖4。從圖4中可以看到:對于圖4(a)的圖像1,僅采用CNN法時,只檢索出4張相同類的圖像,另有五張為不相關圖像,而采用CNN-DW檢索后,共檢索出9張相同類圖像;對于圖4(b)的圖像2,僅采用CNN法時,只檢索出3張相同類圖像,另有6張為不相關圖像,而采用CNN-DW檢索后,共檢索出6張相同類圖像,另有3張為不相關圖像。可見,當采用加權距離的遙感圖像神經網絡檢索法的檢索效果較傳統神經網絡檢索法有較為明顯的提升。
對兩種檢索方法在不同特征下的所有38類MAP值進行求解,然后得到每一特征下的平均MAP值,見圖5。從圖5中可以看到:在3個CNN特征中,采用PooL5特征的檢索精度最高,其次為Fc7,最差的為Fc6;相同特征下,采用CNN-DW檢索方法的檢索精度較傳統CNN檢索法有較大幅度提高,CNN法在三個特征下的平均MAP值為60%,而CNN-DW檢索方法在三個特征下的平均MAP值達到91.7%,可見,采用加權距離檢索后,神經網絡檢索法的檢索精度得到有效提升,這主要是因為在僅使用CNN檢索時,對建筑物、存儲倉和網球場等類的檢索性能較差,當采用加權距離檢索后,對籃球場、護理中心、游泳池等類的檢索性能有較大幅度提升,從而使整體檢索效果顯著加強。

圖5 CNN和CNN-DW檢索MAP值對比
為了進一步驗證CNN-DW檢索方法性能的優越性,對兩種方法在不同訓練集大小(5~100張)下的檢索效果進行了對比(特征均選用PooL5),結果見圖6。從圖6中可以看到:隨著訓練集圖像數量的增加,CNN法的平均查準率和平均歸一化檢索秩基本保持不變,PM值為68%,RA值為0.33,而采用CNN-DW檢索時,平均查準率隨訓練集數量增加而逐漸增大,當訓練集數量為20張時,PM值就能達到90%以上,平均歸一化檢索秩隨訓練集數量增加而逐漸減小,當訓練集數量為30張時,RA值就低于0.05。可見,隨著訓練集數量的提高,CNN-DW檢索方法的檢索性能會逐漸提升,而且較傳統CNN檢索方法而言,只需要更少數量的訓練集就能達到良好的檢索效果。

圖6 訓練集大小對檢索效果的影響
針對高光譜遙感圖像檢索分類問題,提出了一種基于卷積神經網絡和距離權重的圖像檢索方法(CNN-DW法),并將其檢索流程劃分為離線部分和在線部分,通過圖像檢索試驗,證明了CNN-DW檢索法較傳統CNN檢索法的分類檢索效果有顯著提升,前者的平均MAP值高達91.7%,而且CNN-DW法的檢索性能會隨著訓練集數量的增大而逐漸提升,相較于CNN法僅需要更少數量的訓練集就能達到良好的檢索效果。