常江 丁雷



摘? 要: 通過神經網絡和機器學習的方法建立遙感影像的光譜信息與土壤濕度之間的模型,采用遙感手段大范圍預測地表土壤濕度。以“天宮二號”2016年9月24日寬波段成像儀采集的可見光近紅外譜段影像作為模型輸入,選取與“天宮二號”影像相同采集時間和經緯度的SMAP/Sentinel?1 L2土壤濕度產品作為輸出,分別通過貝葉斯神經網絡算法和隨機森林算法建立光譜信息和土壤濕度數據之間的關系。結果表明:采用貝葉斯線性回歸反演時,當隱含層節點個數為24時訓練效果最好,R2為0.755,均方根誤差RMSE為0.161;采用隨機森林機器學習算法反演時,當決策樹個數為60時效果最好,R2為0.809,均方根誤差RMSE為0.120。對“天宮二號”影像進行土壤濕度反演時,隨機森林模型比貝葉斯神經網絡模型的精度更高,擬合效果更好,可以實現較為準確的大范圍土壤水分含量預測。
關鍵詞: 土壤濕度反演; 貝葉斯神經網絡; 隨機森林; “天宮二號”; 建立預測模型; 精度評價
中圖分類號: TN219?34? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)06?0082?04
Method of soil moisture retrieval in Tiangong?2
CHANG Jiang1,2,3, DING Lei1
(1. CAS Key Laboratory of Infrared Detection and Imaging Technology, CAS Shanghai Institute of Technical Physics, Shanghai 200083, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China; 3. Shanghai University of Science and Technology, Shanghai 200031, China)
Abstract: The model between the spectral information of remote sensing image and the soil moisture is established by means of the neural network and machine learning method to predict the surface soil moisture on a large scale by remote sensing. The visible light and near?infrared spectrum image acquired by the Wide?band imager on September 24, 2016 is used as the model input, SMAP/Sentinel?1 L2 soil moisture product with the same time and latitude and longitude as the Tiangong?2 image is selected as the model output, and the relationship between spectral information and soil moisture data is established by means of the Bayesian neural network algorithm and random forest algorithm, respectively. The results show that when using Bayesian linear regression inversion, the training effect is best with the number of hidden layer nodes is 24, R?square is 0.755, and root mean square error is 0.161. In the soil moisture inversion of tiangong?2 image, the random forest model has higher accuracy and better fitting effect than the Bayesian neural network model, which can achieve more accurate prediction of soil moisture content in a large range.
Keywords: soil moisture retrieval; Bayesian neural network; random forest; Tiangong?2; build prediction model; precision evaluation
0? 引? 言
“天宮二號”空間實驗室是繼“天宮一號”完成任務后,發射的第二個太空實驗室,從2016年9月起,運行狀態良好,工作穩定,獲取了大量的遙感數據,覆蓋范圍為南北緯42°以內的區域。而它搭載的寬波段成像儀可以獲取高時間、空間分辨率的多光譜影像,光譜范圍為可見光近紅外譜段、短波紅外譜段以及熱紅外譜段,實現了大視場全推掃的集成功能。研究“天宮二號”對地觀測的多光譜數據可以對我國的農、林業的發展,氣候、水土的預測以及自然災害的防治起到至關重要的作用。
土壤濕度指數是輔助農林業觀測的重要參數,代表土壤中水分的含量。目前對于土壤濕度的觀測方法是傳統的探測方法,通過采用質量或者探針測量法來測定土壤中水分含量[1]。這種方法的局部精度非常高,但是代價就是需要消耗大量的人力物力,而且不適用于大規模的土壤濕度預測。針對傳統探測方法的局限性,遙感觀測方法應運而生。遙感技術可以大規模獲取地面信息從而預測大范圍的土壤濕度信息,更好地推動我國水土和農林業的發展。但是對于如此龐大的數據樣本來說,一般的線性回歸算法無法很好擬合出高精度的反演模型[2?3]。神經網絡和機器學習的方法可以很好地建立大數據樣本和輸出之間的關系,其中的貝葉斯算法和隨機森林算法在保持高預測精度的同時還可以有效地解決模型過擬合的問題[4]。
本文選用的影像數據是“天宮二號”寬波段成像儀可見光近紅外譜段的二級產品,土壤濕度數據采用的是NASA的SMAP/Sentinel?1 L2土壤濕度產品,對影像進行大氣校正和云掩膜處理后,分別采用神經網絡中貝葉斯線性回歸的算法和機器學習中隨機森林的算法對土壤濕度參數進行反演并比較兩種算法的精度,最后生成土壤濕度專題圖。
1? 數據選取及預處理
1.1? “天宮二號”寬波段成像儀影像
“天宮二號”的寬波段成像儀具有寬視場、寬波段以及“圖譜合一”的特點。在國內外首次實現了可見近紅外譜段、短波紅外譜段和熱紅外多譜段的組合集成功能,并可以進行大視場全推掃的成像。寬波段成像儀在可見近紅外具有通道可編程功能,在可見光近紅外、短波紅外和熱紅外譜段具有多光譜探測的推掃式成像特性。主要用于中等(偏高)地面分辨率、監測較大尺度的地面物體,適用于陸地、大氣探測和湖泊、海洋檢測等氣候觀測。
本文中的遙感影像從載人航天空間應用數據推廣服務平臺獲取,申請了“天宮二號”的寬波段成像儀可見光近紅外波段的二級產品。因遙感影像需要與對應土壤濕度產品進行匹配,而本文中選取的土壤濕度數據并非全球覆蓋,所以選擇的研究區域為美國科羅拉多州奎斯塔城市(33°4′48"N, 105°34′98"W),影像空間分辨率100 m,視場角42°,刈幅300 km, 采用大幅寬虛擬相機高精度傳感器校正模型進行寬波段數據無控制點幾何校正處理,定位精度在8個像元內,通道中心波長指標如表1所示。
1.2? SMAP土壤濕度數據
土壤濕度產品是從Nasa Earthdata Search獲取的SMAP/Sentinel?1 L2 土壤濕度產品,分辨率3 km,數據格式為HDF5 [5]。選用2016年9月24日的數據,從中提取經度、緯度、土壤濕度三個參數與所選“天宮二號”影像進行經緯度匹配。為了方便程序的讀寫,提取后的土壤濕度用Excel格式存儲,每個單元格記錄經度、緯度以及對應的土壤濕度。
1.3? 大氣校正和云掩膜處理
從空間數據中心獲取的影像已經做過幾何校正和輻射定標,因此僅需進行大氣校正即可。
選用ENVI快速大氣QUAC校正工具,該工具可以自動從圖像上收集不同物質的波譜信息,獲取經驗值來完成較高精度的多光譜影像大氣校正。大氣校正前后的光譜信息如圖1所示。
為了除去遙感影像中云層的影響,還需要對“天宮二號”影像中的厚云進行掩膜處理,識別影像中的厚云將其提取出來并剔除掉,使其不參與樣本訓練的計算。因“天宮二號”影像年份較新,ENVI等圖像處理軟件無法自動做去云處理,本文選用的云掩膜算法是2018年Han Zhai等人在ISPRS上發表的基于光譜指數的多光譜影像云掩膜算法,提取后的云如圖2所示。
云掩膜原理:
式中:T1,T2為約束可見光和近紅外波段云反射設定的閾值;CI1用來衡量可見光波段和紅外波段反射特性的相似性;CI2用來表示云的亮度特性;CSI用來表示云陰影在較長波長下的反射特性[6]。
對“天宮二號”影像進行云掩膜后,得到無云影像,然后可以進行影像值提取,采用ArcGIS軟件提取特征值,將云掩膜后的“天宮二號”數據與對應區域的SMAP土壤濕度數據進行匹配,設定為地理坐標系WGS84。最終套合的結果如圖3所示。
2? 研究算法
2.1? 貝葉斯神經算法
本文采用的第一個反演算法是貝葉斯線性回歸神經網絡算法。輸入層設置為經過預處理后的“天宮二號”影像,輸出層設置為對應的SMAP土壤濕度數據,隱含層層數初步設置為1。貝葉斯算法相較于其他神經網絡算法的一個最大的優點是,針對數據量不是特別大的樣本,模型也會有比較好的訓練效果,不會出現過擬合的情況[7]。
貝葉斯算法的核心是,每當一個訓練樣本進來以后,是以概率密度的形式進行學習和訓練,并不是僅僅以樣本數據的形式進行學習。在訓練模型的時候把未知參數看作隨機變量,然后用樣本的概率分布計算未知的隨機變量[8]。
貝葉斯公式:
式中:[θ]表示隨機變量;[x]表示樣本;[πθx]表示后驗分布。
2.2? 隨機森林算法
近年來隨著人工智能技術的普及,機器學習的方法在我國各個領域均取得了比較好的突破。經過驗證,在眾多機器學習方法中,隨機森林的方法具有很好的效果和精度,并且可以有效地防止過擬合的問題。因此,本文選用隨機森林算法對“天宮二號”的影像進行土壤濕度反演。隨機森林的主要原理是采用一組分類器而不是一個分類器對樣本進行學習和訓練,而這個分類器往往以決策樹為基礎。對原始樣本集進行隨機樣本的抽取,得到樣本的采樣集,然后對這些樣本的采樣集分別建立決策樹模型,最后投票選出一個最優的結果來決定最終的分類模型。
分類決策模型公式為:
式中:[hi]表示第[i]個決策樹分類模型;[Y]表示輸出變量;[I(·)]表示示性函數[9]。
2.3? 預測模型建立
在訓練的過程中,按照85∶15設定訓練集和測試集樣本的比例,每個“天宮二號”數據包含14個可見光近紅外波段,對應SMAP土壤濕度數據集包含樣本點個數大約2 279個。基于Matlab 2018a神經網絡工具箱和GUI頁面對貝葉斯神經網絡模型進行設計。設置學習速率為0.01,最大迭代次數為500。 調節隱含層節點數,記錄每次調節后貝葉斯神經網絡模型精度;調節決策樹的個數,記錄每次調節后隨機森林模型的精度[10?11]。
3? 結果與分析
3.1? 精度評價
各個神經網絡隱含層節點數下的模型精度和均方根誤差,以及各個決策樹個數下的模型精度和均方根誤差如表2所示。
使用神經網絡和機器學習方法在每次學習之后得出的結果會有小范圍的波動,所以在每個節點下都訓練了至少5次以防止模型精度的偶然性。結果表明:在進行“天宮二號”數據土壤濕度反演時,由于樣本數據量比較大,在神經網絡節點數選取23~26時效果比較好,模型精度穩定在0.70以上,其中當節點數取24時模型精度可達到0.755,均方根誤差達到了0.161,節點數過少和過多會出現測試集和驗證集收斂過慢的情況并且影響最后的回歸效果。但是通過建模的結果判斷,在節點數較大的情況下模型雖然更為復雜,但是并未出現過擬合的情況,也就驗證了貝葉斯模型可以很好地防止過擬合的情況出現。使用貝葉斯神經網絡算法得到的預測值和真實值比較結果如圖4所示。
隨機森林算法中重要的參數是決策樹的個數,選取20,40,60,80進行訓練比較結果發現,模型精度穩定在0.76以上,當決策樹個數取值為60時,模型精度達到了0.809,均方根誤差也達到了0.120。使用隨機森林算法得到的預測值和真實值比較結果如圖5所示。
通過比較,對于本文中的反演方案,當輸入為“天宮二號”寬波段成像儀影像而輸出為SMAP土壤濕度數據時,隨機森林機器學習模型比貝葉斯神經網絡模型的精度更高,擬合效果更好。
雖然本文中模型的精度相較于其他傳統探測方法獲取的土壤濕度的精度還有些提升的空間,但是這種方法的優勢就在于不需要大量的人力物力,只需要提供足夠多的樣本即可達到農、林業土壤濕度高效預測的要求。而如何進一步提升模型精度的同時降低預測值的離散程度,則是未來的研究重點。
3.2? 土壤濕度專題圖
在實驗中獲取了每個像元預測的土壤濕度數值,在繪制土壤濕度專題圖時,使用ArcGIS軟件加載云掩膜處理后的“天宮二號”影像作為底圖數據,然后加載預測的土壤濕度Excel信息,最后添加圖例信息。預測的土壤濕度專題圖如圖6所示。白色區域為云掩膜處理后去除的部分,除白色區域外,可以通過專題圖的顏色了解該區域內的土壤濕度情況并對土地干旱、洪澇災害迅速做出判斷,對于我國水土災害預測防治以及莊稼灌溉等農業生產活動可以起到很好的幫助。
4? 結? 論
“天宮二號”成像光譜儀可以提供高空間分辨率的多光譜影像,但是因其年份較新,許多圖像處理軟件還未能自動識別和處理該影像,對“天宮二號”數據的研究和使用目前也處于一個比較初步的階段。
本文中對“天宮二號”影像進行了大氣校正、云掩膜等預處理步驟,分別選用貝葉斯神經網絡和隨機森林的方法,基于SMAP土壤濕度數據對“天宮二號”數據中的土壤濕度參數進行反演和提取,均取得了不錯的結果。采用貝葉斯線性回歸反演算法時,模型精度穩定在0.70以上,其中當隱含層節點個數為24時,訓練效果最好,R2為0.755,均方根誤差RMSE為0.161;采用隨機森林算法進行反演時,模型精度穩定在0.76以上,當決策樹個數為60時,效果最好,R2為0.809,均方根誤差RMSE為 0.120。比較發現,在對“天宮二號”數據進行土壤濕度反演時,隨機森林的方法模型精度更高,訓練效果更好。最后,將隨機森林算法反演的土壤濕度結果輸出,制成專題圖。
研究表明,針對大尺度范圍內的土壤濕度預測,比起傳統的土壤質量和探針測量法,選用基于機器學習的反演方法可以大大減少人力財力的投入,并且在較短時間內獲得較高精度的預測模型,加快推動了我國農、林業大范圍地理信息預測的發展。
參考文獻
[1] SENEVIRATNE S I, CORTI T, DAVIN E L, et al. Investigating soil moisture?climate interactions in a changing climate: a review [J]. Earth science reviews, 2010, 99(3): 125?161.
[2] CUI X, PARKER D J, MORSE A P. The drying out of soil moisture following rainfall in a numerical weather prediction model and implications for malaria prediction in west Africa [J]. Weather & forecasting, 2010, 24(6): 1549.
[3] 劉虹利,王紅瑞,吳泉源,等.基于MODIS數據的濟南市農田區土壤含水量模型[J].中國農村水利水電,2012(8):12?15.
[4] AREL I, ROSE D C, KARNOWSKI T P. Deep machine learning: a new frontier in artificial intelligence research frontier [J]. Computational intelligence magazine IEEE, 2010, 5(4): 13?18.
[5] ENTEKHABI D, NJOKU E G, O"NEILL P E, et al. The soil moisture active passive (SMAP) mission [J]. Proceedings of the IEEE, 2010, 98(5): 704?716.
[6] ZHAI H, ZHANG H Y, ZHANG L P, et al. Cloud/shadow detection based on spectral indices for multi/hyperspectral optical remote sensing imagery [J]. ISPRS journal of photogrammetry and remote sensing, 2018, 144: 235?253.
[7] VILLEMEREUIL P D, WELLS J A, EDWARDS R D, et al. Bayesian models for comparative analysis integrating phylogenetic uncertainty [J]. BMC evolutionary biology, 2012, 12(1): 102.
[8] HUANG Y, LING B. A Bayesian network and analytic hierarchy process based personalized recommendations for tourist attractions over the Internet [J]. Expert systems with applications, 2009, 36(1): 933?943.
[9] BIAU G. Analysis of a random forests model [J]. Journal of machine learning research, 2010, 13(2): 1063?1095.
[10] 吳春雷,秦其明,李梅,等.基于光譜特征空間的農田植被區土壤濕度遙感監測[J].農業工程學報,2014,30(16):106?112.
[11] 張娜,張棟良,李立新,等.基于高光譜的區域土壤質地預測模型建立與評價:以河套灌區解放閘灌域為例[J].干旱區資源與環境,2014(5):67?72.