999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生成式對抗網絡的土壤有機質高光譜估測模型

2021-06-10 07:15:52何少芳沈陸明謝紅霞
光譜學與光譜分析 2021年6期
關鍵詞:模型

何少芳, 沈陸明, 謝紅霞

1. 湖南農業大學信息與智能科學技術學院, 湖南 長沙 410128 2. 湖南農業大學資源環境學院, 湖南 長沙 410128

引 言

土壤中含碳有機物總稱為有機質, 它是診斷和評價土壤肥力的核心指標。 傳統的土壤有機質含量測定方法為室內化學測定法, 該方法具有精度高的優點, 但具有測定周期長且費時費力的缺點。 目前用于估測土壤性狀指標的主要技術手段是高光譜遙感, 它具有分辨率高、 波段多且連續的特點, 能夠對一定范圍內的地物進行準確識別。 近年來, 對土壤有機質高光譜估算模型的研究, 已經由簡單的一元線性模型逐漸發展成多元線性模型和非線性模型, 以及多種建模方法的耦合使用。 線性方法主要包括多元逐步回歸(stepwise multiple linear regression, SMLR)、 主成分回歸(principal component regression, PCR)和偏最小二乘回歸(partial least squares regression, PLSR)。 徐夕博等[1]在主成分變換的基礎上提取光譜特征, 對光譜信息的來源分類進行差別分析, 建立了基于主成分分析的多元逐步回歸和神經網絡預測模型。 李陽等[2]以新疆南部地區的荒漠土壤為研究對象, 使用主成分回歸分析、 偏最小二乘回歸分析和支持向量機回歸分析方法建立并篩選出最佳反演模型。 由于土壤高光譜數據信息錯綜復雜且彼此關聯, SMLR并不適合于變量間存在共線性問題, 而PCR較好地解決了自變量間存在的信息重疊問題, 能避免估測模型的過度擬合, 但忽略了因變量的作用。 非線性方法主要有神經網絡(artificial neural network, ANN)、 隨機森林(random forest regression, RFR)、 支持向量機(support vector machines, SVM)和局部加權回歸(locally weighted regression, LWR)等。 包青嶺等[3]采用小波變換與數學變換進行光譜數據預處理, 結合灰色關聯分析與隨機森林預測分類模型對各小波分解特征光譜進行重要性分析, 最后基于最優特征光譜建立多元線性預測模型并進行分析。 為探討分數階微分聯合支持向量機分類-隨機森林模型改善高光譜監測荒漠土壤有機質含量的效果, 張智韜等[4]建立不同分數階微分的隨機森林模型, 并以不同土質中的最佳模型進行組合, 構建新的聯合支持向量機分類-隨機森林模型。 國佳欣等[5]對土壤光譜進行了包含分數階導數在內的3種數學變換方法, 將經過P=0.01顯著性檢驗的波段用于模型的構建, 選用偏最小二乘回歸和BP神經網絡(back propagation neural network, BPNN)建立土壤有機質含量預測模型, 結果表明PLSR-BP復合模型預測精度優于單一模型。 LWR是從光譜庫中選取光譜特征相近的樣本建立局部模型, 土壤光譜數據越全面, 基于大樣本土壤光譜數據的局部模型預測效果就越好。 從LWR的應用研究可看出, 在大樣本和大尺度區域上它能發揮更好的作用, 但建模的重要前提是構建大樣本土壤光譜數據庫。 為了更準確地監測大面積土壤的有機質含量, 在已有的估測模型基礎上, 從拓展樣本數據集的角度探索提高土壤有機質高光譜估測模型預測能力的方法很有必要。

在機器學習領域, 高質量數據集的合成一直以來是一個非常重要且充滿挑戰性的問題, 合成的高質量數據可用于改善模型, 尤其是深度學習模型的訓練過程[6]。 Goodfellow等[7]提出一種新型生成模型-生成式對抗網絡(generative adversarial network, GAN), 開創性地使用對抗訓練機制對2個神經網絡進行訓練, 并利用隨機梯度下降(stochastic gradient descent, SGD)實現優化。 深度卷積GAN[8](deep convolutional generative adversarial networks, DCGAN)是對GAN的第一個重要改進, 它將深度卷積和批標準化層引入GAN網絡結構中, 在幾種不同的數據集上都取得了令人信服的實驗結果。 GAN自提出后立即受到人工智能學術界和工業界的高度關注和廣泛研究[9-11]。 基于零和博弈的GAN可通過無監督學習獲得數據分布, 并生成較逼真的數據, 在圖像生成、 視頻生成等領域都獲得了成功的應用。

已有的土壤有機質含量估測模型, 大多通過優選有機質敏感波段并結合線性或非線性回歸算法提高模型穩健性[12-13], 較少涉及從拓展建模樣本空間角度提升模型性能。 本工作以湖南省長沙市稻田土樣為研究對象, 探索精度和穩定性更優的土壤有機質高光譜估測模型。 考慮到有限的標簽數據僅能反饋有限的信息, 在少量帶標簽樣本環境下訓練出來的回歸模型往往難以得到理想的預測性能, 在LWR的應用原理和GAN在圖像生成等領域成功應用的啟發下, 以239份樣本數據作為GAN的輸入, 生成與輸入數據真偽難辨的等量偽數據, 并將其與原始數據建模集合并構成增強建模集。 為了充分評價基于GAN的土壤有機質高光譜估測模型對精度提升效果的顯著性, 在增強建模集上設置4個觀測點(對應增強建模集中含隨機選擇的50, 100, 150和239個生成樣本), 動態構建交叉驗證嶺回歸(ridge cross validation, RCV)、 偏最小二乘回歸和BP神經網絡土壤有機質含量估測模型, 并在同一測試集上實施模型評估。

1 數據獲取

1.1 研究區域概況

選取湖南省長沙市和株洲市及周邊(東經112.608—114.067, 北緯27.536—28.514)的大田水稻種植土壤作為研究對象, 研究區域地勢平坦, 土壤排水良好, pH值在4.5與9.0之間, 研究區域概況如表1所示(CS代表長沙, ZZ代表株洲)。 每個采樣點的土壤剖面(深度為0~130 cm)分為5~7個發生層, 每個發生層對應不同的土壤層次深度并命名區分。

表1 研究區域概況

1.2 樣本采集與光譜測定

在研究區域內選擇51個剖面對應的水稻田中隨機、 均勻采集土壤樣本, 同步使用手持GPS定位儀進行定位, 共采集239份土壤樣本。 經過實驗室風干、 磨細處理后, 每份土壤樣本分為2份, 一份用于光譜數據采集, 一份用于理化性質分析。

光譜數據采集使用可見光-近紅外光譜儀(ASD Vis-NIR), 波長范圍350~2 500 nm, 采樣間隔350~1 000 nm內為1.4 nm和1 000~2 500 nm內為2.0 nm, 重采樣間隔為1 nm。 239份土樣高光譜均在室內測定。

土壤樣本的有機質含量測定使用重鉻酸鉀-外加熱法, 每份樣本均經過2次測定后取平均值。 239份土樣中, 完成有機質含量測定的土樣79份, 另160份土樣的有機質含量通過預測獲得, 所使用的預測模型為79份土樣的高光譜和有機質含量擬合的交叉驗證嶺回歸。 從79份土樣中隨機劃分出25%(20個樣本)作為測試集, 不參與后續模型擬合, 僅用于模型評估的獨立實驗; 余下59份樣本與160份樣本合并構成建模集。 土樣的有機質含量統計特征如表2所示。

表2 土壤有機質含量統計特征

2 生成式對抗網絡與建模方法

2.1 生成式對抗網絡

生成式對抗網絡(GAN)的思想來源于博弈論中二元零和博弈, 其基本框架(如圖1所示)主要包括兩個重要組成部分: 判別器和生成器。 生成器以一個來自常見概率分布的隨機噪聲矢量z為輸入, 生成的偽數據G(z)為輸出; 判別器的輸入有兩種: 真實數據x和生成器生成的數據G(z), 輸出為判別結果, 可以是一個標量, 用于表示輸入是真實數據的概率, 也可以是1或0(若判別器認為輸入的是真實數據, 則輸出判別結果1, 反之為0)。 判別器與生成器是一對互相對抗訓練的模型, 由于判別器是一個二分類模型, 在給定生成器的情況下, 用于判斷和監視判別器學習效果的目標函數J(D)可用交叉熵。 判別器與生成器進行二元零和博弈, 因而生成器的目標函數J(G)滿足J(G)=-J(D)。 利用隨機梯度下降法SGD對GAN進行優化, 優化問題可描述為式(1)中的極大極小博弈問題, 其中,E表示求期望,G和D分別表示生成器與判別器的可微函數,x是真實數據樣本,z是隨機噪聲矢量,G(z)為生成器生成的數據。 當判別器無法正確區分輸入數據來源于真實數據x還是生成數據G(z)時, 模型達到最優。

minGmaxDV(D,G)=Ex~pdata(x)[log(x)]+

Ez~pz(z)[log(1-D(G(z)))]

(1)

圖1 GAN網絡模型基本框架

針對GAN訓練過程中容易出現的梯度消失、 模式崩潰和過擬合等影響模型性能的問題, 已有相關研究工作提出了針對具體訓練問題的技巧和解決方案[8-11, 14]。 GAN生成樣本的質量評價主要依賴于主觀判斷, 而常用的客觀評價指標(如平均對數似然、 核密度估計等)互不依賴且分別適用于不同類型的生成模型[9], 統一、 公認的生成數據質量客觀評價標準仍然缺乏。

2.2 模型構建

基于GAN的土壤有機質含量估測模型是回歸算法與GAN的結合, 模型流程見圖2。

圖2 基于GAN的土壤有機質估測模型流程

模型的輸入(GAN的輸入)是含239個樣本的原始數據。 測試集中含20個樣本, 建模集含有219個樣本。 首先, 通過GAN訓練生成等量偽數據, 它們與建模集合并構成增強建模集; 然后, 在增強建模集上構建回歸模型; 最后, 利用測試集評估模型。 該模型流程有三點需說明: (1)針對GAN訓練過程不穩定問題, 設置前150輪為預訓練; (2)由于生成數據質量沒有公認評價標準, 采取即時評估策略, 即在每輪GAN正式訓練中, 以本輪獲得的增強建模集的光譜數據為自變量、 歸一化的有機質含量為因變量擬合回歸模型, 然后在測試集上計算該模型的精度, 以分析生成數據的有效性; (3)為探討生成數據數量與估測模型精度提升效果之間的關系, 在各輪正式訓練中設置增強建模集的4個觀測點(分別對應增強建模集中含隨機選擇的50, 100, 150和239個生成樣本), 分別評估回歸模型的決定系數和均方根誤差。 總的來說, 提出的模型與一般估測模型的區別主要體現在兩方面: 一方面, 用于擬合回歸模型的數據集不同, 一般估測模型在建模集上訓練, 而本模型是在由建模集與GAN生成數據構成的增強建模集上訓練; 另一方面, 不同于一般估測模型的靜態性, 本模型具有動態特征, 隨著GAN多輪正式訓練, 它將依據正式訓練輪次和增強建模集的觀測點數, 動態構建(輪次數×觀測點數)個估測模型。

光譜波長范圍是350~2 500 nm, 波段長度為2 151, 將土壤有機質含量進行標準化處理后, 輸入GAN的參考數據大小為239行2 152列。 由于卷積神經網絡(convolutional neural network, CNN)比MLP具有更好的抽象能力, 參考深度卷積GAN (DCGAN)在Fashion MNIST數據集上的實現來構建GAN的判別器和生成器, 結合輸入數據及硬件實現條件設置網絡內部結構和參數, 軟件中的建模操作可通過Tensorflow2.0平臺keras庫的序列模型(Sequential)實現。 考慮到內存僅有16GB, 無GPU加速, 生成器的網絡結構設置3個反卷積層, 判別器含2個卷積層。 生成器的輸入是一個長度為2 152的隨機矢量(注意8×269=2 152), 序列模型中添加的各層依次是: 神經元個數為8×264×64=137 728的密集層、 批標準化層、 激活層、 重塑型層(使原長度為137 728的數據轉換為8行269列64個通道的數據)、 32個神經元的反卷積層、 批標準化層、 激活層、 16個神經元的反卷積層、 批標準化層、 激活層、 只含一個神經元的反卷積層, 輸出為8行269列1個通道的數據。 判別器的輸入數據大小與生成器的輸出一致, 序列模型中添加的各層依次是: 64個神經元的卷積層、 激活層、 丟棄層、 128個神經元的卷積層、 激活層、 丟棄層、 平坦層、 1個神經元的密集層, 輸出為判別結果。 反卷積與卷積所使用的卷積核都為(5, 5), 激活函數選擇“LeakyReLU”。

模型訓練前, 需設置的超參數有訓練輪次、 用于驗證GAN訓練效果的隨機矢量長度和個數, 其值分別是300, 2 152和239; 前150輪視為預訓練, 后150輪為正式訓練。 由于構建的判別器相當于一個卷積神經網絡分類器, 損失函數選擇二分類交叉熵。 生成器和判別器的優化器都選擇“Adam”。 在每一輪訓練中, 將依據批次大小(本文設置為10)完成輸入數據集(參考數據)上若干次對抗訓練; 在每一次對抗訓練中, 依據判別器對參考樣本和生成樣本的判別結果, 計算生成器損失和判別器損失, 并獲得生成器梯度和判別器梯度, 進而應用梯度優化生成器和判別器。 生成器中增加了批標準化層改善網絡, 避免生成數據與參照數據過于相似。 由于本文的GAN網絡結構參考DCGAN在Fashion MNIST數據集上的訓練來構建, 實質上是DCGAN的精簡版, 因而, GAN模型性能可參考文獻[8]。

圖2中的回歸模型選擇交叉驗證嶺回歸RCV、 偏最小二乘回歸PLSR和BP神經網絡, 兼顧線性方法和非線性方法。 嶺回歸是一種用于共線性數據分析的有偏估計回歸法, 是改良的最小二乘估計法, 通過在代價函數后加上一個參數的約束項防止過擬合, 而帶內置參數交叉驗證嶺回歸類似網格搜索, 結合交叉驗證對模型評分, 在指定范圍內自動搜索和確定約束項的最佳系數。 BP神經網絡[15]是一種多層前饋神經網絡, 具有自學習能力, 在訓練時, 數據依次經過輸入層、 隱含層和輸出層, 比較輸出值與期望值之間的誤差, 并通過誤差反向傳播來調整優化網絡層之間的權值。 依據選擇的回歸方法, 提出的模型對應簡稱為GAN-RCV, GAN-PLSR和GAN-BPNN。

3 實驗結果和模型評價

采用Python3.7編程實現基于GAN生成數據的土壤有機質高光譜估測模型, 實驗平臺為PyCharm社區版和Tensorflow 2.0, Windows10 Pro操作系統, 處理器為Intel(R) Core(TM) i3-4170 CPU ? 3.7 GHz(64位操作系統, 基于x64的處理器), 安裝內存16.0GB, 無GPU。

模型穩定性與預測精度評價指標采用決定系數(determination coefficient,R2)和均方根誤差(root mean square error, RMSE),R2越大、 RMSE越小, 模型預測精度越高穩定性越好。

本工作側重于研究GAN生成數據對土壤有機質含量估測模型精度和穩定性提升的有效性, 因而, 回歸算法中參數的選擇和設置不失一般性, 交叉驗證嶺回歸中參數取值的范圍設置為0.1~10, 步長為0.2; BP神經網絡訓練300輪次, 隱含層中含3個全連接層(即64-32-16), 激活函數都選擇“relu”, 優化器是“Adam”, 損失函數為均方差, 驗證集占比20%。 GAN訓練300輪, 在后150輪正式訓練中, 每輪對抗訓練完成后都對GAN生成數據質量加以評估。 以第3個觀測點(從生成樣本中隨機選擇150個樣本與建模集合并構成增強建模集)為例, 將提出的模型與建模集上擬合的模型在相同測試集上進行評估和對比。 建模集上擬合的模型分別記為Ori-RCV, Ori-PLSR和Ori-BPNN, 它們與第3觀測點上構建的GAN-RCV, GAN-PLSR和GAN-BPNN在測試集上的精度如表3所示。 由表3可知, 建模集上擬合的3個回歸模型中, Ori-RCV表現最佳, 然而, GAN-RCV, GAN-PLSR和GAN-BPNN獲得了更高的決定系數和更低的均方根誤差, 具有更佳的精度和穩定性, 表現為: GAN-RCV的最大R2比Ori-RCV提高了7.2%, 對應RMSE值降低了18.9%, 對比Ori-PLSR, GAN-PLSR的最大R2提高了20.6%, 對應RMSE降低了29.5%, 與Ori-BPNN相比, GAN-BPNN的最大R2提高了30.8%, 相應RMSE降低了44.50%。 提出的模型中, GAN-BPNN表現最佳, 且模型性能提升效果最顯著, 它在正式訓練過程中的模型精度如圖3所示, 其中, 紅色與藍色分別代表擬合于建模集與增強建模集第3觀測點的回歸模型評估結果。 從圖3中容易看出, 盡管GAN訓練過程不穩定, 每輪訓練中動態構建的模型精度上下波動, 但提升效果異常顯著。

圖3 GAN-BPNN訓練過程中的R2和RMSE

表3 估測模型性能對比

平均決定系數(均方根誤差)是模型正式訓練中各輪決定系數(均方根誤差)之和除以輪數。 估測模型在每輪正式訓練的4個觀測點(對應增強建模集中含隨機選擇的50, 100, 150和239個生成樣本)上擬合, 并在測試集上評估, 獲得的平均決定系數和均方根誤差如表4所示。 從表中可看出, 4個觀測點上構建的估測模型性能均優于建模集上擬合的估測模型, 其中, GAN-RCV性能最穩定, 不同觀測點上模型精度差異不大, 相對地, GAN-PLSR和GAN-BPNN對加入的生成樣本數量更敏感。 總的來說, 隨著生成樣本數量增加, 平均決定系數呈先升后降趨勢(平均均方根誤差先降后升), 這表明加入生成數據拓展樣本建模集有益于提高估測模型的預測能力, 且當生成樣本數量增多并達到一定值時, 提升效果顯著增強并達到最大, 而增加更多生成數據時, 模型提升效果顯著性減小。 造成這種現象的主要原因在于過多的生成樣本會稀釋因變量的全部變異通過回歸模型由自變量解釋的能力, 從而降低了估測模型在測試集上的精度。

表4 各觀測點上模型的平均決定系數與均方根誤差

4 結 論

以改善土壤有機質高光譜估測模型精度和穩定性為目的, 從拓展樣本數據建模集的角度出發, 利用深度學習算法中GAN具有合成高質量數據的能力, 提出基于GAN的土壤有機質高光譜估測模型GAN-RCV, GAN-PLSR和GAN-BPNN。 模型以少量樣本數據為輸入, 經過預訓練后每輪都生成了與輸入數據集等量的新數據。

雖然GAN的學習能力與可塑性強, 但突出的問題是訓練過程不穩定, 且缺乏公認的生成數據質量的客觀評價標準, 因此, 本文采用即時評估方式評價生成數據質量, 即在GAN正式訓練中, 每輪訓練完成后都通過評估模型GAN-RCV, GAN-PLSR和GAN-BPNN在相同測試集上的精度和穩定性來驗證生成數據的質量, 相對來說, 就是利用GAN生成高質量數據的能力拓展樣本數據建模集, 以提高土壤有機質高光譜估測模型的預測性能。 參考建模集上估測模型的精度, 對比分析GAN-RCV, GAN-PLSR和GAN-BPNN在訓練過程中的R2和RMSE, 不難得到: 提出的模型具有更優的精度和穩定性, 其中, GAN-BPNN表現最佳; GAN-RCV的模型提升效果受增強建模集中生成樣本的數量影響較小, 而GAN-PLSR和GAN-BPNN受影響較大; 增強建模集上設置的4個觀測點中, 第3個觀測點構建的模型性能改善效果最顯著。 值得一提的是本模型是全譜模型, 并未涉及光譜數據預處理和特征波段選擇, 這意味著模型精度和穩定性還有一定的提升空間。 此外, GAN屬于深度學習范疇, 模型訓練對硬件要求較高, 對比建模集上構建的土壤有機質估測模型Ori-RCV, Ori-PLSR和Ori-BPNN, 提出的模型因GAN訓練耗時相對較長, 然而, 在有限數據樣本條件下, 以犧牲計算效率為代價獲取更高的模型性能亦是可取的。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 午夜免费视频网站| 亚洲综合九九| 亚洲精品视频免费| 一级高清毛片免费a级高清毛片| 亚洲高清在线播放| 久久香蕉欧美精品| 色婷婷电影网| 国产aⅴ无码专区亚洲av综合网| 中文纯内无码H| 中国国产高清免费AV片| 熟女成人国产精品视频| 制服丝袜国产精品| 啊嗯不日本网站| 一本久道久综合久久鬼色| 欧美区一区| 亚洲成人精品久久| 思思99热精品在线| 91在线激情在线观看| 5555国产在线观看| 国产精品美人久久久久久AV| 8090成人午夜精品| 免费人成又黄又爽的视频网站| 黄色网站在线观看无码| 久久久91人妻无码精品蜜桃HD| 日韩色图区| 一区二区在线视频免费观看| 99热这里只有精品5| 国产精品网址你懂的| 91小视频在线观看免费版高清| 91精品久久久无码中文字幕vr| 亚洲无码免费黄色网址| 亚洲人成日本在线观看| 亚洲成人77777| 国产亚洲第一页| 色综合中文综合网| 99一级毛片| 精品免费在线视频| 国产精品9| 国产无码高清视频不卡| 亚洲三级视频在线观看| 国产视频一二三区| 国产精品入口麻豆| 国产人成午夜免费看| a级毛片在线免费| 欧美日本在线| 中文字幕在线欧美| 国产成人综合久久精品下载| 亚洲成a人片在线观看88| 99热6这里只有精品| 欧美成人aⅴ| 国产精品尤物在线| 亚洲国产av无码综合原创国产| 99热国产这里只有精品9九| 欧美日本二区| 黄色在线不卡| 精品国产女同疯狂摩擦2| 亚洲国产亚综合在线区| 91福利一区二区三区| 成人日韩精品| 国产精品天干天干在线观看| 亚洲欧美在线综合图区| 在线看AV天堂| 亚洲无码在线午夜电影| 日日拍夜夜操| 欧美 亚洲 日韩 国产| 国产毛片基地| 在线视频一区二区三区不卡| 一级毛片不卡片免费观看| 直接黄91麻豆网站| 亚洲精品免费网站| 亚洲男人的天堂在线| 国产成人精品一区二区不卡| 国产成人免费高清AⅤ| 啪啪啪亚洲无码| 91成人精品视频| 国产成人免费手机在线观看视频 | 久久香蕉国产线看观看精品蕉| 国产福利小视频高清在线观看| 国产无码高清视频不卡| 久久综合亚洲色一区二区三区| 综合色区亚洲熟妇在线| 91国语视频|