王 圓 畢玉革
(1.內(nèi)蒙古農(nóng)業(yè)大學機電工程學院,呼和浩特 010018;2.鄂爾多斯應(yīng)用技術(shù)學院信息工程系,鄂爾多斯 017000)
荒漠草原是我國北方重要的生態(tài)安全屏障,在保持生物多樣性及維護生態(tài)平衡方面具有特殊地位[1]?;哪菰匚锍尸F(xiàn)細碎分布,分類要求趨于精細化[2],無人機低空遙感平臺克服了傳統(tǒng)遙感空間分辨率不足[3-5]的缺點,在草原生態(tài)環(huán)境保護領(lǐng)域逐漸得到應(yīng)用[6]。高光譜數(shù)據(jù)具有“圖譜合一”的特點[7],在地物精細識別分類中,以無人機為高光譜成像儀搭載平臺,可充分發(fā)揮納米級光譜分辨率與厘米級空間分辨率相結(jié)合的優(yōu)勢[8-9]。
從目前研究現(xiàn)狀來看,許多性能優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò)模型經(jīng)過改進后被引入到遙感影像解譯中[10-11],這些模型[12-13]通過加深網(wǎng)絡(luò)獲取RGB圖像特征[14-15],然而采用經(jīng)典模型缺少對遙感場景特殊性的考慮[16-18]。大量研究成果為獲得較高分類精度而創(chuàng)建了多層網(wǎng)絡(luò)模型[19-20],如汪傳建等[21]建立7層二維卷積神經(jīng)網(wǎng)絡(luò)模型對多種農(nóng)作物進行分類,PI等[22]創(chuàng)建5層三維卷積神經(jīng)網(wǎng)絡(luò)模型對荒漠草原裸土、植被進行分類,這些深度網(wǎng)絡(luò)模型可能存在計算過度、耗費時間過長等問題。應(yīng)用于高光譜遙感的3D-CNN可以同時提取高光譜遙感影像數(shù)據(jù)的光譜信息和空間信息,缺點是3D-CNN卷積操作本身計算復(fù)雜度高,易造成計算壓力加大,訓練成本增加等問題。
本文集成無人機高光譜遙感系統(tǒng),選擇典型荒漠草原為研究對象,在保證地物分類精度的基礎(chǔ)上,提出3D-CNN精簡學習分類模型,并通過超參數(shù)調(diào)優(yōu),以降低模型深度為目標,向輕量、高效模型方向探索,以期建立適用于荒漠草原細碎地物分類應(yīng)用的精簡學習分類模型。
研究區(qū)位于內(nèi)蒙古自治區(qū)四子王旗,地理坐標為北緯41°47′17″,東經(jīng)111°53′46″,海拔1 450 m,地處溫帶草原向干旱荒漠過渡的典型荒漠草原。無人機航飛數(shù)據(jù)采集區(qū)域為4.61 hm2,氣候類型屬于中溫帶大陸性季風氣候,春季干旱多風,夏季炎熱,年降水量約200 mm,該地具有荒漠草原典型地域的特征[23],植被草層低矮稀疏,蓋度低且呈碎片化分布[24-25]。研究區(qū)域位置及無人機航飛區(qū)域衛(wèi)星圖像如圖1所示。

圖1 研究區(qū)域位置及其衛(wèi)星圖像
本研究集成的無人機高光譜遙感系統(tǒng)為六旋翼無人機搭載Gaia Sky-mini型高光譜儀,該高光譜儀具有256個波段,采用內(nèi)置推掃成像工作方式,光譜分辨率為3.5 nm,光譜范圍為400~1 000 nm,可將高空間分辨率與高光譜分辨率優(yōu)勢結(jié)合,并實現(xiàn)“空譜合一”,無人機高光譜遙感系統(tǒng)如圖2所示。

圖2 無人機高光譜遙感系統(tǒng)
無人機高光譜影像數(shù)據(jù)采集后,在數(shù)據(jù)完成預(yù)處理的基礎(chǔ)上,首先利用目視解譯提取裸土、植被、標記物純凈像元光譜,進行光譜特征分析,計算反射率均值,選取特征波段;而后利用特征波段構(gòu)建分類規(guī)則,進行閾值統(tǒng)計與分析,選取最佳可分性閾值,制作數(shù)據(jù)集;最后構(gòu)建精簡學習分類模型,并進行超參數(shù)優(yōu)化,圖3為研究方法的具體技術(shù)流程。

圖3 技術(shù)路線流程圖
2.1.1無人機遙感系統(tǒng)數(shù)據(jù)采集及野外實測
根據(jù)2021年荒漠草原氣候特征及其植被的生長周期特性,在植物長勢茂盛的2021年7月上旬進行野外試驗,通過人工踏訪,在植被相對聚集區(qū)設(shè)置樣方,共設(shè)置植被混合樣方20個,為滿足光學遙感所需的氣象條件,選擇無風晴朗少云的天氣進行野外數(shù)據(jù)采集并及時校正標準參考白板。為了便于無人機空中采集數(shù)據(jù)辨認樣方種類,由樣方外西南角插下藍色小旗、東北角放置藍色地墊共同指示,標記物圖像如圖4中紅色方框所示。

圖4 標記物圖像
無人機飛行高度30 m時,獲得的高光譜遙感影像的空間分辨率為2.3 cm,滿足荒漠草原裸土、植被群落和標志物的目視解譯要求。為了進一步減小隨機誤差,對每個樣方采集5次,圖5為無人機數(shù)據(jù)采集流程圖。

圖5 無人機數(shù)據(jù)采集流程圖
2.1.2數(shù)據(jù)預(yù)處理
本文數(shù)據(jù)預(yù)處理包括去除扭曲變形圖像、輻射校正、濾波降噪等環(huán)節(jié)。先由人工目視法去除因陣風影響發(fā)生扭曲變形的圖像,而后使用SpectView軟件進行輻射校正,將遙感影像像元亮度值(Digital number,DN)轉(zhuǎn)換為光譜反射率[26],得到地物真實的反射率數(shù)據(jù),再使用ENVI 5.3軟件進行反射率檢查,進一步篩選出可用數(shù)據(jù)。由于野外采集光譜受到環(huán)境干擾、儀器噪聲等多種因素影響,導致光譜曲線附帶較多噪聲,影響后續(xù)光譜分析。為使光譜曲線降低噪聲干擾[27],更易發(fā)現(xiàn)波峰、波谷,因此需要對反射率校正后的光譜曲線進行光譜平滑去噪[28-29],本文采用Savitzky-Golay方法進行平滑降噪。
高光譜圖像由數(shù)百個高度相關(guān)的光譜波段組成,光譜信息豐富,具有遙感大數(shù)據(jù)的特征[30],因此高光譜遙感影像數(shù)據(jù)的處理方式不同于RGB 3波段圖像數(shù)據(jù)處理,高光譜圖像處理通常用到波段選擇[31]、特征提取[32]等方法。
2.2.1存儲格式轉(zhuǎn)換
本研究采集數(shù)據(jù)默認的存儲格式為波段按行交叉格式(Band interleaved by line format,BIL),由于按波段順序排列存儲格式(Band sequential format,BSQ)更適合空間分析應(yīng)用,因此將無人機獲得的高光譜數(shù)據(jù)由BIL格式轉(zhuǎn)換為BSQ格式。
2.2.2包絡(luò)線去除
基于荒漠草原地物之間光譜差異微弱的特點,直接使用原始反射率光譜構(gòu)建植被指數(shù)難以實現(xiàn)地物分類,因此需要采用光譜變換的方法增強光譜差異。本文采用包絡(luò)線去除法,將原始反射率光譜進行連續(xù)統(tǒng)去除變換,有效突出了地物的光譜特征。
2.2.3植被指數(shù)構(gòu)建
利用經(jīng)過連續(xù)統(tǒng)去除變換后的高光譜數(shù)據(jù),選取第50波段(中心波長為508.6 nm)和第65波段(中心波長為543.5 nm)構(gòu)建差值植被指數(shù)(Difference vegetation index,DVI),選取第125波段(中心波長為686.7 nm)和第145波段(中心波長為735.8 nm)構(gòu)建歸一化植被指數(shù)(Normalized difference vegetation index,NDVI)。以上2種植被指數(shù)利用近紅外波段高反射率和紅光波段低反射率進行波段合成[33]。通過構(gòu)建的2種植被指數(shù),獲得植被圖像增強的灰度圖,提高了目視解譯精度,便于進一步選取感興趣區(qū)域[34-35]。
2.2.4自制數(shù)據(jù)集
數(shù)據(jù)采集時由于空間分辨率的影響導致存在大量混合像元,干擾地物邊界提取,造成光譜數(shù)據(jù)不確定,導致地物像素分類難度加大。通過對感興趣區(qū)域裸土、標記物、植被3種地物提取純凈端元,構(gòu)建植被指數(shù)分別進行閾值統(tǒng)計。具體過程為:①通過選取每類地物各50個純凈像元確定特征波段。②利用特征波段建立植被指數(shù),獲得灰度圖。③在灰度圖上選出各地物像元,進行置信度為5%~95%的DN值統(tǒng)計。④分析得出各地物的最佳可分閾值,設(shè)定NDVI大于0.15且DVI大于0標記為植被,NDVI取[0,0.08]標記為裸土。裸土、植被、標記物對應(yīng)的顏色編碼和樣本數(shù)量如表1所示。

表1 數(shù)據(jù)集顏色編碼和樣本數(shù)量
在確定地物間最佳可分閾值基礎(chǔ)上制作數(shù)據(jù)集,數(shù)據(jù)集共有181 693個數(shù)據(jù)樣本,其中裸土有42 608個,標記物(地墊、旗子)有586個,植被有138 499個。在進行模型訓練之前,隨機選取數(shù)據(jù)集中80%的數(shù)據(jù)作為訓練集,其余20%的數(shù)據(jù)作為測試集,訓練集共有145 354個樣本,測試集共有36 339個樣本,數(shù)據(jù)集標簽圖如圖6所示。

圖6 數(shù)據(jù)集標簽圖
2.2.5數(shù)據(jù)降維
高光譜圖像數(shù)據(jù)大量波段間的高度相關(guān)性帶來了數(shù)據(jù)冗余,有必要進行數(shù)據(jù)降維[36],本研究獲取的高光譜數(shù)據(jù)共有256個波段,采用主成分分析(PCA)法,設(shè)置8個新的主成分進行降維,將圖像信息保留到98%以上。
2.2.6patch分割
高光譜遙感數(shù)據(jù)地物分類是類似于圖像語義分割的技術(shù),即把分類器的預(yù)測結(jié)果映射到遙感影像的每個像素,實現(xiàn)影像分割。3D-CNN是以影像像素的鄰域塊作為網(wǎng)絡(luò)的輸入,基于滑動窗口patch進行高光譜遙感影像語義分割,設(shè)置窗口尺寸為17,即表示采用一個尺寸17×17的滑動窗口,按照從左到右、從上到下遍歷整個高光譜遙感影像,將每個窗口的內(nèi)容放在卷積神經(jīng)網(wǎng)絡(luò)里面進行分類,分類結(jié)果就是每一個窗口的中心像素點的類別。
2.3.1精簡學習分類模型構(gòu)建
與傳統(tǒng)的機器學習特征工程[37-38]相比,深度學習可以自動提取圖像內(nèi)在深層特征,有利于解決復(fù)雜的分類問題,因此現(xiàn)有研究中模型卷積層個數(shù)普遍大于1層,但隨著層數(shù)的增加容易造成計算過度的問題。本研究旨在建立適用于荒漠草原地物分類的單層卷積學習分類模型,以構(gòu)建精簡模型的思路解決荒漠草原地物分類的問題,并在此基礎(chǔ)上,進行網(wǎng)絡(luò)超參數(shù)的優(yōu)化,達到高精度識別各類地物的目的,精簡學習分類模型結(jié)構(gòu)示意圖如圖7所示。

圖7 精簡學習分類模型結(jié)構(gòu)示意圖
初始網(wǎng)絡(luò)模型中,卷積核數(shù)量為4,卷積核尺寸為7×7×7,窗口尺寸為17,學習率為0.001,批量規(guī)模為32,訓練輪數(shù)為100。初始網(wǎng)絡(luò)模型如表2所示。

表2 初始網(wǎng)絡(luò)模型
2.3.2精度評價
為評價精簡學習分類模型的分類精度,本文采用混淆矩陣、測試準確率、總體分類精度(Overall accuracy,OA)、平均分類精度(Average accuracy,AA)、Kappa系數(shù)等作為精度評價指標,對分類結(jié)果進行分析并評價模型性能。其中,混淆矩陣以表格形式對多分類結(jié)果進行可視化展示,總體分類精度以數(shù)值形式表示被正確分類的樣本數(shù)占分類樣本總數(shù)的比例。
對初始精簡學習分類模型進行訓練,得到初始模型分類結(jié)果:初始模型的裸土測試準確率為99.835%,植被測試準確率為99.913%,Kappa系數(shù)為0.988,總體分類精度(OA)為99.573%。
初始模型可視化分類結(jié)果如圖8所示,從圖8可以看出,初始模型未識別到任何標記物,即標記物識別率為0%,初始模型平均分類精度為66.583%,識別結(jié)果未達到預(yù)期效果,因此本模型需進行超參數(shù)優(yōu)化,進一步改善模型分類性能。

圖8 初始模型可視化分類結(jié)果
根據(jù)參數(shù)邏輯關(guān)系及單變量原理,依次調(diào)整初始精簡學習分類模型中的超參數(shù),逐步得到最優(yōu)超參數(shù)組合并進行預(yù)測。具體超參數(shù)有訓練輪數(shù)、卷積核尺寸、卷積核數(shù)量、學習率、批量規(guī)模等。
(1)訓練輪數(shù)。通過反復(fù)多次進行模型訓練,結(jié)果顯示模型在訓練輪數(shù)前50次期間,訓練精度已趨于一個穩(wěn)定值,所以在隨后訓練中,訓練輪數(shù)均取50即可。
(2)卷積核數(shù)量。卷積核起到特征提取的作用,增加卷積核數(shù)量可以提高模型性能,訓練時間也相應(yīng)增加。因此在初始精簡學習分類網(wǎng)絡(luò)模型卷積核數(shù)量為4的基礎(chǔ)上,逐漸增加卷積核數(shù)量至5、6、7、8、9、10,分別進行模型精度測試,得到總體分類精度分別為95.546%、99.912%、99.931%、99.568%、99.584%、99.917%。
當卷積核數(shù)量為5、6、7時,總體分類精度逐步升高,卷積核數(shù)量為7時達到最大值。當卷積核數(shù)量為8時,分類精度下降,卷積核數(shù)量為9和10時,分類精度有所上升,但未達到最大值。
(3)學習率及卷積核尺寸。保持初始模型的學習率為0.001,卷積核數(shù)量為4,將卷積核尺寸分別設(shè)置為1×1×1、3×3×3、5×5×5時,得到分類結(jié)果如表3所示,從表3可看出,這3種卷積核尺寸條件下的標記物均未被識別出。

表3 初始模型的學習率為0.001時的分類結(jié)果
將學習率設(shè)置為0.000 1,對卷積核尺寸依次設(shè)置為1×1×1、3×3×3、5×5×5、7×7×7,得到分類結(jié)果如表4所示。

表4 初始模型的學習率為0.000 1時的分類結(jié)果
由表4可以看出,在學習率為0.000 1條件下,卷積核尺寸為3×3×3、5×5×5、7×7×7時均可以高精度識別標記物,模型在卷積核尺寸為7×7×7時達到最優(yōu)。
(4)批量規(guī)模。在初始模型各項參數(shù)保持不變的基礎(chǔ)上,取批量規(guī)模依次為16、32、64、128、256、512,對比模型在不同批量規(guī)模下的分類結(jié)果,如 圖9所示。當學習率保持0.001時,改變批量規(guī)模,隨著批量規(guī)模增加,各項指標均得到提升,當批量規(guī)模為512時,模型分類結(jié)果達到最優(yōu)。

圖9 不同批量規(guī)模的分類結(jié)果
(5)其他參數(shù)。將卷積層valid模式更改為same模式進行訓練,分類效果基本不變,卷積運算模式對本模型分類結(jié)果影響不大;將池化參數(shù)由(1,1,2)更改為(2,2,2)后進行訓練,結(jié)果顯示此操作不能對標記物識別結(jié)果起到改善作用。
研究表明學習率、卷積核尺寸、批量規(guī)模對精簡學習分類模型性能影響較大,而卷積模式、池化參數(shù)對模型性能影響較小。綜合以上研究結(jié)果,設(shè)定各超參數(shù)為:批量規(guī)模為512,學習率為0.000 1,卷積核尺寸為7×7×7,訓練輪數(shù)為50,卷積核數(shù)量為4,連續(xù)訓練5次,分類結(jié)果如表5所示。

表5 連續(xù)訓練5次的分類結(jié)果
通過模型優(yōu)化,本研究將初始精簡學習分類模型在數(shù)據(jù)集上的總體分類精度從99.573%提高到99.746%(5組數(shù)據(jù)的計算平均值)。模型優(yōu)化后可視化分類結(jié)果如圖10所示。

圖10 模型優(yōu)化后的可視化分類結(jié)果
分析初始學習精簡分類模型識別標記物小樣本出現(xiàn)的問題,原因是學習率為0.001時,損失函數(shù)曲線波動較大,不利于標記物的識別??蓪W習率降低,設(shè)置學習率為0.000 1,采用優(yōu)化后的超參數(shù)組合,得到模型損失函數(shù)曲線如圖11所示,由圖11可知,曲線較為平滑,模型優(yōu)化效果較好。

圖11 優(yōu)化后模型損失函數(shù)曲線
(1)針對荒漠草原植被稀疏、裸土呈細碎化分布的特點,集成了無人機高光譜遙感系統(tǒng),選擇在典型荒漠草原進行地物光譜數(shù)據(jù)采集,首次提出基于3D-CNN的精簡學習分類模型,對荒漠草原植被、裸土、標記物等地物進行分類,得到了較高精度。精簡學習分類模型具有輕量、高效的特點,在荒漠草原地物的分類與識別應(yīng)用中具有較大優(yōu)勢。
(2)采集的無人機高光譜數(shù)據(jù)具有256個波段,不能直接輸入精簡分類模型,需通過主成分分析法進行降維,為保留98%的信息量,獲得8個主成分,若保留更少的信息量,主成分數(shù)量也可減少,分類模型可進一步簡化。
(3)對初始模型調(diào)優(yōu)的過程中發(fā)現(xiàn)3個主要規(guī)律:針對初始模型對標記物的識別效果不佳問題,通過對學習率、批量規(guī)模、卷積核尺寸、卷積核數(shù)量等超參數(shù)優(yōu)化,可有效提高標記物識別率,而通過改變卷積模式、池化參數(shù)等方式,不能改善標記物識別效果;學習率對模型訓練有較大影響,當學習率偏大時,損失函數(shù)曲線呈現(xiàn)出較大波動,不利于標記物識別,應(yīng)降低學習率,使損失函數(shù)曲線趨于平滑后再進行標記物識別;在確定適當學習率基礎(chǔ)上,選擇尺寸較大的卷積核有利于標記物的分類與識別。精簡學習分類模型的優(yōu)化建立在多種超參數(shù)不斷調(diào)整的基礎(chǔ)上,需充分對比不同組合分類效果,來獲得精度高、耗時短、性能穩(wěn)定的最優(yōu)模型。