付虹雨,王薇,岳云開,盧建寧,龔喜紅,王梓薇,崔國賢,佘瑋
(湖南農業大學農學院,湖南 長沙 410128)
多年生作物是指能夠進行多年生長,或地上部分在冬季枯萎,第二年繼續生長和開花結實的作物[1],與一年生作物相比,其根系發達,具有更高的養分利用率和光能利用率,生產潛力巨大[2-3]。 苧麻是典型的多年生作物之一[4],高效、無損、準確地掌握苧麻產量信息不僅可為多年生作物生產管理提供技術支持,還能輔助進一步挖掘多年生作物的產量潛力和遺傳資源。
目前,遙感技術能夠基于各種平臺(地面遙感、航空遙感、衛星遙感)捕獲作物冠層信息,為大面積田間作物的長勢監測、營養診斷、產量估測、病蟲害監測等提供支持。 其中,無人機低空遙感憑借其高分辨率、高準確性、靈活機動等優勢引起了越來越多學者的關注,并在精準農業的定量觀測中得到廣泛應用。
無人機遙感平臺可搭載多種傳感器,如RGB相機、多光譜、高光譜等,從而獲取光譜、紋理、冠層結構等多維數據信息[5]。 因此,有學者提出多維數據融合的策略,使多種類型數據互相補充,以提高作物指標估測模型性能。 如,Yue 等[6-7]結合無人機高光譜傳感器獲取的光譜參數和作物高程進行了小麥地上生物量估測,結果表明,作物高程的納入可以有效改善生物量的估算精度;除作物高程參數外,他還指出,利用高地面分辨率圖像的紋理信息也能提升高植被覆蓋率下作物生物量的估測精度。 Li 等[8]結合無人機高光譜成像數據和RGB 圖像提取的株高數據預測了馬鈴薯地上鮮生物量,改進后的產量預測精度可達到0.81。劉楊等[9]通過無人機獲取了馬鈴薯冠層的多光譜影像,然后結合提取的植被指數、高頻信息和株高構建了精度更高、更穩定的生物量估測模型。以上研究表明,多維數據融合是提高作物產量估測精度的重要手段,但現有的大多數研究都是將多類別數據作為單獨變量直接引入估測模型中,缺乏對多數據間關系的深入探究,往往導致數據融合不充分和數據信息冗余。 樊意廣等[10]利用融合特征參數提高了馬鈴薯植株氮含量的估測精度,為基于數據融合的作物產量估測提供了新思路。
另一種數據融合策略是基于無人機遙感獲取的多時序數據。 如,Campos 等[11]利用多個生長階段數據構建了小麥產量估測模型,結果表明多時序數據的融合能夠顯著提高作物產量估測精度,因為在某些物候期發現的差異可以在其他物候期得到補償。 Dhillon 等[12]同樣提出,利用多時序遙感影像預測冬小麥地上生物量比使用單一時期的遙感“快照”更可靠、更精確。
針對苧麻多年生生長特性,本研究擬采用3種數據融合策略提升基于無人機遙感的多年生作物產量估測精度。 首先基于無人機RGB 影像提取苧麻遙感特征值,分別包括植被指數(vegetation indexes,VIs)、株高(HDSM)、覆蓋率(VCUAV)、株數(PN);然后構造VIs × HDSM× VCUAV、VIs/(1+HDSM)、VIs(1+ VCUAV)3 種融合特征參數(fusion feature parameters,FFPs);最后以歷史產量、遙感特征值、融合特征參數為變量,利用4 種機器學習方法構建苧麻產量估測模型,探究歷史數據融合、多時序數據融合、多維數據融合估測多年生作物產量的潛力。
研究區位于湖南省長沙市芙蓉區湖南農業大學耘園種植基地(28°11'1.981″N,113°4'10.159″E)。 該地區屬典型的亞熱帶季風性濕潤氣候,降水充沛,光熱條件良好,是苧麻生長的主產區之一。 研究區域內共栽有154 份苧麻種質材料,各材料于2017 年12 月育苗移栽,2018 年6 月首次收獲。 小區面積為3.6 m2,小區內種植8 蔸苧麻(2 行×4 蔸),小區間距為0.6 m,排水溝寬為0.5 m。 試驗區土壤成分均一且肥沃,灌溉排水便捷,田間水肥管理一致。 為完成后期影像的重建,提高經緯、高程位置校準的精度,在試驗地內均勻布置了6 個地面控制點(GCP)。
于2019—2021 年間,對試驗材料進行了連續多次監測。 采集的數據包括兩種來源,即地面測量數據和無人機影像數據。 為保證數據的時效性,地面數據測量與無人機航拍在同一天同步進行。
1.2.1 地面數據采集 采集了苧麻株高、成熟期株數及產量數據。 每小區隨機選取10 株苧麻,利用直尺測量植株底部至冠層頂端的距離,取其平均值作為小區尺度株高;株數為每個小區內苧麻植株總數,通過目視獲得;產量利用電子秤稱取每個小區的苧麻總重量獲得。
1.2.2 遙感影像采集及預處理 采用大疆悟2搭載禪思X5s 高清數碼相機獲取苧麻冠層RGB影像。 為保證太陽輻射穩定和充足,飛行作業選擇在當地時間12—14 時進行。 采用DJI GS Pro(大疆地面站專業版)在指定區域內自動生成航線,設置主航向上重疊率80%,主航線間圖像重疊率70%,飛行高度為20 m,云臺俯仰角為-90°,相機曝光模式選擇自動。
遙感影像的預處理在Pix4Dmapper 軟件中完成,最終生成研究區域的正射影像以及數字地表模型(digital surface model,DSM),見圖1。 拼接過程中,為獲取準確的地理參考,導入地面控制點的三維空間位置信息進行地理校正。

圖1 試驗區域正射影像及數字地表模型
從無人機遙感影像中提取的遙感特征值包括VIs、HDSM、VCUAV以及PN。
1.3.1 VIs、HDSM的提取 VIs 由不同波段反射率的均值及其線性或非線性方式組合而成[13-14],HDSM通過對不同時期獲取的DSM 進行差值運算提取,具體計算公式如表1。 在ArcGIS 10.2 軟件中,采用柵格工具繪制矩形感興趣區域(area of interest,AOI),提取單位小區的平均VIs 和HDSM。繪制時,小區四周邊緣余留10%以消除邊緣效應干擾。

表1 VIs 和HDSM的計算公式
1.3.2 VCUAV的提取 本研究參考多篇文獻求取植被覆蓋率的思路[15-17],提出一種利用HSV 顏色轉換空間,從無人機遙感影像中快速提取植被覆蓋度的方法。 首先利用HSV 顏色空間的H 通道對苧麻植株及土壤進行閾值分割;然后使用最大間類方差法去除影像中包含的雜草,生成苧麻植被影像;最后分別計算原影像總像元數和植被影像總像元數,兩者的比值結果即為VCUAV,計算公式如下:
其中,PO表示植被影像包含的總像元個數,P 表示未分割前原影像中包含的總像元數。
1.3.3 PN 的提取 利用2019、2020 年獲取的苧麻冠層影像,采用FCOS 目標檢測(fully convolutional one-stage object detection)算法構建了苧麻植株計數模型,模型召回率達到0.892,精度為0.819,RMSE 為0.089,表明該模型可用于識別遙感影像中的苧麻株數。 FCOS 模型采用殘差網絡ResNet101 作為主干網絡(backbone),FPN(特征金字塔網絡)用于提取特征,訓練次數為20 次。圖2 為苧麻植株檢測結果,藍框標注實際植株樣本,紅框標注識別樣本。

圖2 基于FCOS 的苧麻植株計數
為充分融合苧麻光譜特征和結構特征,基于上述提取的遙感特征值,分別構造了VIs × HDSM×VCUAV、VIs/(1+ HDSM)、VIs/(1+ VCUAV)3 種共計33 個FFPs。
采用線性回歸(linear regression,Linear)、偏最小二乘回歸(partial least squares regression analysis,PLSR)、支持向量回歸(support vector regression,SVR)和隨機森林(random forest,RF)4 種方法建模。 建模過程中,采用網格搜索方法尋找不同模型的最佳參數;采用五折交叉驗證方法評估模型;采用7 ∶3比例將數據劃分為訓練集和驗證集,訓練集用于訓練數據構建經驗模型,驗證集用于評估模型穩定性;采用決定系數(R2)、均方根誤差(RMSE)評估模型性能。
表2 為2019—2021 年不同季度每小區苧麻產量的統計分析結果。 可見,試驗材料間產量差異明顯,變異系數為5.99%~15.75%;不同季苧麻產量變異程度表現為頭麻>三麻>二麻。 2019—2021 年頭麻、二麻、三麻平均產量分別為10.195、7.433、8.067 kg,表現為頭麻>三麻>二麻,與苧麻產量變異的趨勢一致。 這可能是因為,頭麻和三麻生長期長(約80 d),并且生長周期內雨量充沛,日照條件好,有利于苧麻的生長;而二麻生長周期短(50~60 d),且期間易受高溫干旱影響,生長受限。 綜上所述,頭麻、三麻的產量比二麻產量存在更大差異,數據分布更加分散。

表2 2019—2021 年苧麻種質材料的小區產量統計結果
2.2.1 相關性分析 表3 為苧麻產量與遙感特征值(HDSM、PN、VIs)、歷史產量的Pearson 相關性分析結果。 可見,不同年份不同季苧麻產量間存在極顯著相關關系(P<0.01),平均相關系數范圍為0.482 ~0.644,表明歷史產量可以作為苧麻產量估測的重要數據來源。 PN、HDSM與產量的平均相關系數分別為0.375、0.351,這是因為株數和株高是苧麻產量的重要構成因素;對于由高清數字圖像構建的VIs,B、R、ExGR 與苧麻產量具有較好的相關關系,平均相關系數分別為0.266、0.212、0.199;另外,與頭麻產量相關性達到極顯著水平的VIs 較多,而與三麻、二麻產量極顯著相關的VIs 較少,表明基于VIs 的苧麻產量估測效率可能不高,數據的融合有望彌補單一光譜特征估測的缺陷。

表3 苧麻產量與遙感特征值、往年產量數據的相關性分析
2.2.2 利用歷史產量和遙感特征值估測苧麻產量 融合歷史產量和從遙感影像中提取的4 項遙感特征值(HDSM、PN、VCUAV、VIs),采用Linear、RF、PLSR、SVR 4 種機器學習算法,分別構建了2019—2021 年各季苧麻產量估測模型。 圖3 為不同機器學習算法的建模效果,可知,Linear、RF、PLSR、SVR 總體表現非常接近(Std.<0.1)。 總體來說,SVR 的產量估測表現略好于其他算法,在2019 年三麻、2020 年頭麻、2020 年二麻的產量估測中表現最佳;Linear 和PLSR 也具有較好的表現,PLSR 在2019 年二麻產量估測中R2最大;RF對2020 年三麻產量及2021 年頭麻產量的估測效果最好。

圖3 不同機器學習算法的建模效果
表4 對比了最優模型下,基于遙感特征值的苧麻產量估測精度與融合歷史產量和遙感特征值的苧麻產量估測精度。 可知,僅基于遙感特征值的苧麻產量估測模型精度較低,驗證集R2為0.012~0.420,RMSE 在2.020~3.554 范圍內;而融合歷史產量后,苧麻產量估測模型精度顯著提高,驗證集R2為0.289 ~0.832,RMSE 為1.256 ~3.556,對比遙感特征值估產結果,建模集R2提高4.619%~631.915%, RMSE 降低 14. 644% ~54.427%,驗證集R2提高87.647%~2 308.333%,RMSE 降低4.307%~39.088%(除2020 年二麻增加外)。 綜上所述,對于多年生作物,歷史產量數據對當季產量預測及估測具有重要意義。

表4 融合歷史產量和遙感特征值的苧麻產量估測
上述研究中,使用的遙感特征值是單一時期(成熟期)獲取的,并且各項遙感特征值是作為單獨變量直接輸入到產量估測模型中的。 為進一步探究生育周期內多時序數據、多維數據融合對苧麻產量估測精度的影響,以2021 年頭麻為例,著重探討多時序FFPs 估測苧麻產量的潛力。
2.3.1 FFPs 與苧麻產量的關系 由圖4 可知,VIs 和FFPs 在4 個生育期都表現出與產量較好的相關性。 其中,苗期有8 個VIs 與產量極顯著相關(P<0.01),相關系數絕對值介于0.223 ~0.408之間,按相關性大小排序前三的VIs 分別為VARI(0.408)、NGRDI(0.408)、ExR(-0.364),而相關性位于前三的FFPs 分別為VARI×HDSM×VCUAV、B×HDSM×VCUAV、NGRDI×HDSM×VCUAV,相關系數范圍為0.520 ~0.531;封行期有VARI(0.3)、WI(0.267)、B_mean(0.249)、G_mean(0.246)、NGRDI(0.229)5 個VIs 與產量呈極顯著相關關系,相關系數絕對值介于0.229 ~0.300,排序前三的FFPs 分別為VARI×HDSM×VCUAV、G×HDSM×VCUAV、B×HDSM×VCUAV,相關系數范圍為0.559 ~0.565;旺長期VIs 與產量之間的相關性在4 個時期中最弱,相關系數范圍為0.019 ~0.200,而該時期FFPs 與產量的相關系數范圍為0.019 ~0.398;在4 個時期中,成熟期VIs 與產量的相關性最強,除ExG 外,其他VIs 與產量均達到極顯著相關水平,相關系數絕對值范圍為0.251 ~0.459,排序前三的FFPs 為RF×HDSM×VCUAV、ExGR×HDSM×VCUAV、NGRDI/(1+VCUAV),相關系數分別達到0.499、0.493、0.489。 由以上分析可知,構造的大部分FFPs 與產量的相關性都明顯高于單一光譜特征值,并且不同生育期特征參數均對產量敏感,這表明融合特征參數與苧麻產量聯系更緊密,通過融合光譜特征和結構紋理特征能更好地估測苧麻產量,多時序數據可能有助于苧麻產量的早期預測,提高最終產量估測精度。

圖4 不同生育期苧麻產量與融合特征參數的相關性分析
2.3.2 利用多時序融合特征參數估測苧麻產量為評估融合特征參數估測苧麻產量的能力,將各生育期構建的FFPs、PN、歷史產量作為變量,采用RF 算法構建2021 年頭麻產量估測模型。由圖6 可知,對比單參數估測苧麻產量,以融合特征參數為變量構建的單一生育期苧麻產量估測模型性能有所提升,R2提高7.624%~19.031%,其中苗期、封行期、旺長期、成熟期模型的R2分別達到0.638、0.607、0.593、0.663,表明多參數構建的模型具有更高的精度和穩定性,這與相關性分析的結果一致。
基于多時序融合特征參數的苧麻產量估測模型精度同樣提升,訓練集R2為0.917,RMSE 為1.030,驗證集R2達到0.671(圖5),驗證集多時序融合特征參數構建模型的R2比單一生育期融合特征參數構建模型的R2提高1.207%~13.153%,RMSE 為2.376。 綜上所述,多時序融合特征參數包含更多作物生長細節,能夠有效提高苧麻產量估測精度。

圖5 單參數和融合參數構建模型估測苧麻產量的效果比較
長期栽培生產發現,當環境因素較為穩定時,不同年份不同收獲季間苧麻產量存在高度相關性和連續性,與本研究的相關性分析結果一致。 造成這一現象的原因是,苧麻屬多年生宿根性作物,具有穩定的再生能力和優質高產的可持續性[18]。
根據這一生長特征,本研究提出了優化苧麻產量估測模型的3 種數據融合策略,分別是歷史產量數據融合、多維數據融合以及多時序數據融合。 結果表明,融合歷史產量數據后,2019—2021年各季苧麻產量估測精度明顯提升,表現為建模集和驗證集的R2提高,RMSE 降低,證實了歷史產量對多年生作物產量預測及估測的意義。 在當前全球資源緊缺、氣候變化的背景下,多年生作物因具有比一年生作物更高的水分、養分利用率以及更強的生產潛力日益受到人們關注,世界各國已開展多年生作物育種計劃[19],因此,把握多年生作物生長規律,精確獲取多年生作物產量,對于篩選優質高產品種、挖掘其遺傳資源具有重要意義。
將VIs、FFPs 和苧麻產量進行相關性分析,發現各生育期融合特征參數與苧麻產量具有更高的相關性,說明光譜特征值與結構特征值的深度融合有利于更好地反映作物長勢情況。 樊意廣等[10]研究表明,包含了作物冠層和垂直結構2 個層次變化信息的FFPs 與植株氮含量具有更好的相關性。 株高是苧麻產量的主要構成因素[20-21],植被覆蓋度能一定程度消除土壤背景的影響,因此本研究所構建的FFPs 能有效反映苧麻產量。
本研究成果都是基于RGB 相機拍攝影像獲得的,盡管RGB 相機具有高性價比、高圖像分辨率的優勢,利用RGB 影像也取得了較滿意的苧麻估產結果,但今后的研究還需從更多源的數據中探索更多的特征,例如高光譜數據、熱數據、氣象數據、雷達數據等,而所獲取的作物表型也不應僅停留在冠層層面,從而有望通過更多源數據的融合在估測精度及穩定性上取得更大突破。
本研究探究了利用無人機搭載高清數碼相機獲取的圖像估測多年生作物苧麻的產量潛力,通過采用3 種數據融合策略和4 種常用機器學習方法,優化了基于無人機遙感的苧麻產量估測模型,主要結論如下:
(1)對于多年生作物,歷史產量是重要的參考數據,融合無人機遙感特征值和歷史產量的苧麻產量估測模型精度明顯提升。 其中,基于隨機森林方法的2020 年三麻估產模型具有最高精度,R2=0.832,RMSE =1.256。
(2)與原始遙感特征值相比,構造的大部分融合特征參數與苧麻產量的相關性較高,可以用于估算作物產量。
(3)對比單一生育期產量估測,基于生長周期內多時序數據構建的估產模型效果更好。 利用隨機森林算法構建模型對2021 年頭麻產量的估測結果顯示,模型訓練集R2為0.917,RMSE 為1.030;驗證集R2達到0.671,比單一生育期融合參數構建模型的R2提高1.207% ~13.153%,且RMSE 為2.376。