李 德,樂章燕,陳文濤,史錫軍,馬嘉煒,陳 偉,孫 朋,邱虎森
(1.安徽省宿州市氣象局,安徽宿州 234000;2.河北省廊坊市氣象局,河北廊坊 0650002;3.宿州學院環境與測繪工程學院,安徽宿州 234000)
小麥赤霉病是世界范圍內廣泛流行的小麥病害,具有暴發性強、抗病育種難度大、防治適期時效性強、危害損失重等特點[1-3]。隨著全球氣候變暖和耕作方式的改變,小麥赤霉病的發生危害面積和頻次不斷增加。在中國小麥主產區的黃淮麥區,赤霉病也已成為常發病害[2-4]。“見花打藥,統防統控”是當前赤霉病防控工作的黃金法則[3-6],其關鍵是提前對小麥開花日期進行準確預報,從而為藥劑藥械、人力調度等提供決策依據。
目前,諸如小麥開花期、成熟期等作物物候預報問題一直受到學者的關注。統計模型、過程機理模型和理論模型[7-8]是物候預報的傳統方法,但均存在不足,如統計模型未考慮影響因子之間的非線性關系[7,9]、過程機理模型的機理研究不清且參數多[10-11]、以遙感數據驅動的理論模型[7-8]在研判閾值上存在不確定性[12-16]等。機器學習算法由于在理解和預測生物系統和非生物系統間復雜的相互作用方面具有優勢,且不要求樣本數據具有特定的分布形式,能智能分析數據規律并利用其進行預測[7-9,17],特別是隨機森林算法(RF,random forest),近年來已在玉米物候識別[18]與葉綠素濃度估算[19]、梨樹花期[9]、天氣類型與氣象要素[20-24]、森林火災[19]、空氣質量[26]、小麥產量[27]和赤霉病病穗率預測[28]等許多領域得到應用并取得較好預測效果。然而,目前這方面的研究在訓練模型時,多采用從基礎數據集中隨機抽取樣本[9,19-21,25],或將全部樣本[22-23,26]作為訓練集,或直接采用Bootstrap法[24,27-28]訓練模型,并未對樣本不均衡引起的過擬合問題進行關注[29-31]。同時,應用RF算法進行作物物候預測的研究相對較少。本研究依據前人先驗知識,篩選影響皖北地區小麥始花期早遲的關鍵氣象因子作為特征變量,以小麥始花期為目標變量,采取有序等距離抽樣的拆分方法,構造訓練集與測試集,再根據不同起報時間,由RF算法訓練構建皖北地區小麥始花期氣象預報模型并實現始花期逐日預報,以期通過解決樣本不平衡問題,提升始花期預報精度,為小麥赤霉病精準防控提供技術支撐。
冬小麥是安徽省主要糧食作物之一,其中皖北地區常年種植面積140 萬 hm2以上,約占全省種植面積的70%,年總產量占全國總產量的8%左右[6,32]。皖北平原屬黃淮冬麥區[33],冬小麥適宜播種期間日平均氣溫15~18 ℃,越冬期間年平均氣溫0 ℃上下,極端最低氣溫不低于-20 ℃,越冬期凍害幾率低。冬小麥生育期間多年平均降水量為300 mm左右,≥0 ℃積溫2 300 ℃·d,日照時數約1 300 h。
1980-2019年,皖北地區亳州、碭山、蒙城、宿州、阜陽、壽縣和五河7個農業氣象觀測站的冬小麥始花期原位觀測地段的物候觀測數據和氣象監測逐日實況數據,均來自安徽省氣象信息中心,其中壽縣站和亳州站冬小麥始花期觀測分別開始于1983年和1985年,7個觀測站累計有小麥始花期樣本271個。觀測站點的冬小麥物候觀測地段與觀測植株選擇標準以及開花始期觀測方法,均按照《農業氣象觀測規范(下卷)》[34]執行。7個觀測站的冬小麥物候觀測期間對應的逐日氣象監測實況數據包括平均氣溫、最高氣溫、最低氣溫、降水量、日照時數等。
1.3.1 等距拆分和RF算法的小麥始花期氣象預報模型構建技術路線
依據影響冬小麥開花始期早遲的相關知識和研究成果,搜集基本氣象數據和小麥始花期數據。通過Pearson相關分析,篩選與小麥始花期相關程度較高的關鍵氣象因子作為特征變量并形成基本數據集。有序等距離抽樣拆分出測試集與訓練集方法,即先把皖北地區7個觀測站點的冬小麥逐年始花期數據,逐一按照由早到遲的順序進行排列,然后根據各站點的樣本量和所需要抽取用于測試的樣本量大小,確定抽取距離。例如40個樣本,抽取5個用于測試集,則抽取距離為8個間距,樣本點分別為8、16、24、32、40號位上的樣本,并由抽取的這5個樣本年份的小麥始花期數據及其對應年份篩選出來的特征變量構成測試集,剩下的始花期樣本及其對應年份的特征變量則構成訓練集。按照不同的開始預報日期,基于RF算法,由訓練集進行模型訓練,并經測試集進行預報模型精度評估。最后,利用評估后的預報模型開展小麥始花期氣象預報(具體技術路線見圖1)。

圖1 基于等距拆分和RF算法構建小麥始花期氣象預報模型技術路線Fig.1 Technical route of meteorological forecast model of wheat initial flowering based on isometric sampling split method and random forest algorithm

圖2 不同界限溫度的積溫及累積日數與始花期之間相關系數Fig.2 Correlation coefficients between accumulated temperature,accumulated days and initial flowering at different threshold temperatures
1.3.2 隨機森林預報模型構建
(1)特征變量與目標變量構造:研究表明,小麥開花受到春化作用、光合周期反應、熱效應等環境因素和基本早熟性等生物因素的相互作用,且環境因素對物候影響更顯著,其中氣溫、日照時數等氣象要素是環境因素中最重要、最活躍的影響因子,尤其是每個物候期的開始日期與其前2~3個月的氣溫有顯著的相關關系[10,33,35-39]。本研究依據冬小麥的生物學特性[33,39],結合環境氣候特點和生產服務經驗及相關研究成果[3,7-8,10,35-39],按照不遺漏可能影響開花的前期氣象因子,并兼顧所選預報因子距離實際開花始期有一定的提前量,以提升預報結果的實際應用價值為原則,選取的氣象因子的終止日期為較常年始花期早10 d的4月15日,以選取更多的氣象因子。依據Pearson相關系數,篩選出通過0.01信度水平檢驗的氣象因子,作為基本特征因子。同時,按照冬小麥越冬期、越冬至返青、返青至起身和起身至始花前4個時段進行特征因子篩選。
首先,篩選冬小麥越冬開始期(1月1日)至開始現花之前(4月10日)逐旬及其跨旬的日平均氣溫、日照時數、降水量等氣象要素,以反映小麥始花前氣象條件整體變化對生育進程的影響。同時,重點普查起身后至開花前(3月上旬-4月10日)逐旬及其跨旬的日平均氣溫、日平均最高氣溫和日照時數與始花期之間的相關程度,以反映氣象要素之間的疊加效應。
其次,為反映氣候過渡帶冬小麥越冬期間熱量累積對生育進程的影響[32-33,39],普查了越冬期間(1月1-31日)逐日平均氣溫≥0 ℃積溫與始花期之間的相關程度。
再者,為反映返青到起身之間熱量效應對生育進程的影響,普查了2月1日-3月10日逐日平均氣溫≥0 ℃活動積溫和≥3.0 ℃與≥5.0 ℃活動及有效積溫與始花期間的相關程度。
最后,為反映起身后溫度效應對發育進程的影響,選取起身后日平均氣溫、日平均高溫等氣象要素超過小麥生理適宜溫度的累積量及其日數等指標,即自每年3月11日開始累積到4月10日、4月11日……4月15日的逐日平均氣溫≥5.0 ℃和≥11.5 ℃活動積溫、有效積溫及累積日數和逐日平均最高氣溫≥15.0 ℃活動積溫與累積日數,計8個指標,每個特征指標自4月10日為一組,向后每增1 d特征變量增加一組,至4月15日為止,共計8×6組變量并與始花期進行相關系數計算。
目標變量為皖北地區亳州、碭山、蒙城、宿州、阜陽、壽縣和五河7個觀測站點的小麥始花期原位觀測數據,累計271個樣本。采用日序法轉換法,將皖北地區7個站點的冬小麥逐年始花期的日期型數據,轉換為數值型數據,作為目標變量集,即1月1日、1月2日、1月3日……1月31日,分別為1、2、3……31,其余類推。
(2)逐日滾動氣象預報模型構建:以4月10日為開始預報日期、4月15日為終止預報日期,自4月10日開始至4月15日,期間每向后延1 d,分別選取不同的特征變量進入數量集進行模型訓練,累計訓練6個預報模型,以實現始花期逐日滾動氣象預報。
(3)預報模型構建過程:隨機森林回歸是由多棵分類回歸樹(classification and regression tree, CART)構成的組合分類模型[40-41],以選定的特征變量作為特征數據并與始花期數據進行集成,構成隨機森林的樣本數據集。
本研究對皖北地區7個觀測站點各等距離抽取5個樣本(表1),計35個樣本用于測試集,占總樣本量的13%。剩余的236個樣本作為訓練集,占總樣本量的87%。

表1 等距離抽樣法抽取的各站點測試樣本(年份)Table 1 Samples of each site extracted by isometric sampling split method(year)
然后,通過自助法(bootstrap)從訓練集采樣得到構建N棵樹所需的N個子集,每次未被抽到的數據稱為袋外數據(out-of-bag,OOB),用來進行內部誤差估計和變量重要性評價。生成每棵樹時,從規模為M的特征變量集中隨機選擇m個變量(m (1) 式中,y為各原位監測點歷年小麥始花期數據;N為決策樹數量;Qn為獨立同分布隨機向量。 本研究在逐日始花期氣象預報模型的 RF 算法訓練中,最大節點數、最大樹深度、最小子節點數、模型數量分別取1 000、10、5、100,并利用 R 語言 Random Forest包來實現隨機森林模型構建和各特征變量重要性計算。 1.3.3 模型精度評估與應用 采用決定系數(r2)、均方根誤差(RMSE)和預報準確率(Nd)3個指標進行模型優劣評價。 (2) (3) Nd=Nr/Nf×100% (4) 同時,利用等距離抽樣法拆分出訓練集和測試集,比較了基于隨機森林(RF)算法與類神經網絡算法(ANN)、線性支撐向量機(LSVM)、多元回歸(RG)和支持向量機(SVM)4種算法訓練出的預報模型的優劣。 另外,2020年和2021年,利用皖北地區亳州、碭山、蒙城、宿州、阜陽、壽縣和五河7個觀測站點氣象監測實況數據,驅動訓練的6個始花期氣象智能預報模型,進行了小麥始花期預報應用檢驗。 《普通高中英語課程標準:2017年版》指出英語課程承擔著發展學生思維能力的任務。思維品質體現英語學科核心素養的心智特征,是學生發展的重要內容。提問作為英語教學的重要教學技能,是培養學生思維品質的重要手段。然而,為了滿足應試需求,英語教師普遍關注語用能力的培養,提問側重于閱讀文本的詞句、段落大意的理解,較少涉及學生對文本內涵的理解和評判,在促進學生思維發展方面存在不足。在英語學科核心素養的背景下,閱讀教學中學生思維品質的培養已成為重要教學目標。 依據Pearson相關系數,篩選出通過0.01水平檢驗的旬尺度及跨旬尺度的氣象要素即特征變量共有28個(表2)。在這28個特征變量中,有27個特征變量與小麥始花期的相關程度均達到了0.001顯著性水平,其中相關程度最高的特征變量為3月-4月上旬平均氣溫,與始花期之間的相關系數為-0.658 1;剩余的1個變量(3月上旬-中旬日照時數)與始花期的相關程度最低,相關系數為-0.180 8。入選的特征變量由平均氣溫、最高氣溫、日照時數三類因素構成,而降水量、降水日數、最低氣溫等因素未入選,表明本研究區域內,在旬和跨旬尺度水平上,降水因素與小麥始花期早遲相關性不強。 表2 旬及跨旬尺度氣象要素與小麥始花期相關系數Table 2 Correlation coefficients between meteorological elements and initial flowering dates of wheat at ten-day scale and inter-ten-day scale 入選的不同界限溫度的活動積溫、有效積溫及其累積日數變量共有12個(表3),而1月逐日平均氣溫≥0 ℃累積日數,2月1日-3月10日日平均氣溫≥3.0 ℃、≥5.0 ℃有效積溫及其累積日數,3月11日-4月15日逐日平均氣溫≥5.0 ℃的累積日數,與小麥始花期之間的相關程度均未通過0.01顯著性水平檢驗。12個特征變量中,ΣT0、ΣT6和ΣTn3i與小麥始花期之間的相關系數絕對值均小于 0.5,其他特征變量與小麥始花期之間的相關系數絕對值均大于0.5,其中ΣT7i和ΣT8i與小麥始花期相關性最大。 表3 篩選的積溫效應特征變量Table 3 Selected characteristic variable of accumulated temperature effect 根據上述確定的逐日預報模型構建原則,以4月10日為開始預報日進行始花期預報,以后每增加1 d訓練1個氣象預報模型,到4月15日最后1個預報日,累計訓練6個預報模型。其中,4月10日、4月11日、4月12日、4月13日和4月14日入選的特征變量均為40個,4月15日入選的特征變量為39個(表4)。 表4 不同日期預報模型入選的特征變量Table 4 Selected characteristic variables of different date prediction models 從6個預報日預報模型入選的特征變量重要性看,從大到小排序前5位的特征變量(表5)中,排在第1位的特征變量均為ΣT0,即越冬期間1月1日-31日>0 ℃的積溫量。這可能與皖北地區地處氣候過渡帶,在本研究時段內冬季無明顯越冬期[32,39],越冬期間的積溫多少對小麥生育進程有正向促進作用。排在第2位的6個特征變量中,ΣT3占3個,分別屬于預報模型1、模型4和模型6;ΣT6占2個,分別屬于預報模型2和模型3;余下的Tav5屬于預報模型5。排在第3和4位的特征變量只有1個相同,即Sav8,其余5個特征變量均不相同。排在第5位的特征變量在6個預報模型中均不一樣。這表明即使距離花期有1 d變化,影響花期早遲的氣象因子也存在差異。 表5 不同預報模型中重要性排在前5位的特征變量Table 5 Top 5 important characteristic variables in different forecast models 2.4.1 等距抽樣和隨機抽樣法拆分構建預報模型的誤差 采用等距抽樣和隨機抽樣法拆分訓練集,再基于RF算法構建不同預報日期的預報模型。在訓練集和測試集上,基于等距拆分法構建的預報模型預報誤差在±3 d以內的準確率均高于傳統的隨機抽樣法,且隨著預報日期逐漸向終止預報日接近,訓練集和測試集的準確率均呈現增加的趨勢(圖3)。采用隨機抽樣法拆分數據,訓練的預報模型準確率在訓練集和測試集上的穩定性都弱于等距離拆分法。 圖3 不同模型在訓練集和測試集上的預報準確率Fig.3 Prediction accuracy of training set and test set 從預報模型的RMSE和決定系數(r2)(圖4和圖5)看,在訓練集上,等距抽樣和隨機抽樣法的RMSE 和r2均相近,RMSE在2.0左右,r2在0.93以上;在測試集上,隨機抽樣法的RMSE和r2分別顯著高于和低于等距離拆分法,其中隨機抽樣法的RMSE普遍高于4.0,r2普遍在0.85以上,而等距離拆分法RMSE則多在2.0~3.0之間,r2多在0.65~0.75之間。 圖4 不同預報模型的均方根誤差(RMSE)Fig.4 Root mean square error(RMSE) of different prediction models 圖5 不同預報模型的決定系數(r2)Fig.5 Determination coefficients of different prediction models(r2) 2.4.2 基于等距抽樣拆分法構建不同機器學習算法的氣象預報模型評估 基于利用等距離抽樣拆分法建立的訓練集和測試集,分別用類神經網絡算法(ANN)、線性支撐向量機(LSVM)、多元回歸(RG)和支持向量機(SVM)構建預報模型,其在訓練集和測試集上的準確率均低于RF算法模型,RMSE和r2分別均大于和小于RF算法(圖6)。 圖6 4種機器學習算法構建預報模型評估Fig.6 Evaluation of prediction model constructed by four machine learning algorithms 分別利用2020年和2021年皖北地區亳州、碭山、蒙城、宿州、阜陽、壽縣和五河7個氣象觀測站的氣象監測數據,以等距離抽樣拆分法和RF算法構建的不同預報日期的小麥始花期氣象預報模型,得到7個站點2020年、2021年小麥始花期(圖7)。與實際監測的小麥始花期相比,2020年和2021年除4月12日有2個站(阜陽站誤差3.7 d、宿州站誤差3.5 d)預報誤差超過3 d外,4月12日之后即4月13-15日的預報誤差均在3 d之內,尤其是最終的預報日,即4月15日,2個年度的預報模型5(即4月15日)的預報誤差均在2 d以內,取得了較高的預報精度。 圖7 2020年和2021年不同預報日期的預報誤差Fig.7 Forecast errors of different forecast dates in 2020 and 2021 利用氣象數據準確預報皖北地區冬小麥始花期,可為小麥赤霉病防控決策部署提供技術支撐。本研究以4月10日為起報日、4月15日為終報日,以始花期為目標變量及與花期早遲密切相關的前期氣象條件為特征變量,以決定系數、均方根誤差(RMSE)和準確率為判定訓練模型優劣指標,采用有序等距離抽樣的方法,拆分出訓練集和測試集,基于隨機森林算法(RF),每日訓練1個模型,形成6個模型,建立了冬小麥始花期的逐日滾動氣象智能預報技術。同時,基于RF算法訓練的預報模型的3項檢驗指標均優于類神經網絡算法(ANN)、線性支撐向量機(LSVM)、多元回歸(RG)和支持向量機(SVM)4種算法訓練的預報模型。經2020年、2021年利用氣象監測實況數據檢驗,6個RF算法預報模型均表現出較高的預報能力,提前7~9 d準確預報出當年小麥始花期,基本滿足小麥赤霉病防控決策部署的氣象服務需求,為開展相關作物花期預報技術研究提供了樣例。 隨著機器學習技術的興起,多種應用場景都采用了機器學習算法構建模型進行預測研究,尤其是能較好解決特征變量間非線性問題的RF已成為應用熱點并取得一定成效[9,17-28]。然而,這些工作并未較好解決RF算法中的類不平衡問題[29-30]。本研究采用先把目標變量樣本進行有序排列,再采用等距離抽樣法拆分出訓練集和測試集,并與隨機抽樣拆分法訓練的預報模型進行比較。經檢驗,在訓練集上,等距離抽樣法訓練的6個預報模型的各項指標均優于隨機抽樣拆分法。在測試集上,等距離拆分法的6個預報模型的決定系數均高于0.85、而隨機抽樣法多在0.65~0.75之間。采用有序等距離法拆分出訓練集和測試集,為解決RF算法用于日期類物候預報中的類不平衡問題提供了一種方案。 特征變量篩選[9,19-24,28,42]是利用機器學習算法進行不同應用場景預測工作的基礎。本研究依據相關研究成果、生產服務經驗和冬小麥生物學特性及環境氣候特點,在盡可能多地篩選出影響花期早遲的前期氣象條件的基礎上,以相關程度高為原則,確定不同時間段的特征變量,進行預報模型訓練。這在目前對決定小麥始花期早遲的氣象因子影響機制尚不清晰的情況下,為最大限度地篩選出影響花期早遲的特征變量提供了思路和方法,也是本研究基于RF算法構建氣象預報模型特征變量的特色,為開展小麥等作物物候氣象預報提供了一種思路。 在隨機森林算法訓練出的6個預報模型中,在入選的特征變量重要性排序中,排在前5位的特征變量并不一致,表明本研究區域內影響小麥花期進程的氣象因子即使有一日之差,對花期早遲的影響也不一樣。由此表明,小麥花期早遲受氣象因子影響的復雜性、非線性特征,尤其是在驅動植物物候變化的各種因素是同時作用或是有序進行至今尚不清晰的當下[7],在難以掌握驅動因素與物候之間的復雜關系時,采用機器學習技術,通過大規模數據挖掘其規律,利用現有氣象數據對小麥等作物物候進行預測是有效技術之一。 不同機器學習任務中數據集的規模和質量是限制機器學習系統性能的重要問題[7-8,17]。作物生育速度的快慢,與作物本身的生物學特性、氣象條件、土壤肥力及耕作栽培技術措施等密切相關[7,35]。對于某一地區來說,土壤條件和耕作技術是相對穩定,作物的生育速度主要取決于作物本身的生物學特性和環境氣象條件的變化[7,38,43]。本研究入選的關鍵氣象因子為溫度和日照時數,且溫度類占入選因子的80%以上,這與學術界公認的溫度是植物物候變化的主要驅動因子[7,43-45]的結論一致。未來隨著監測數據的豐富,引入諸如土壤溫度、冠層溫度[7]等數據作為特征變量,會進一步提升模型的預測精度,這是未來本研究需要改進之處。 (1)采用有序等距離抽樣拆分出訓練集和測試集,基于RF算法,從4月10日到4月15日,逐日訓練1個小麥始花期氣象預報模型,計6個預報模型,實現了逐日滾動氣象預報。2020年和2021年應用模型進行預報,提前7~9 d準確預報出當年始花期,基本滿足了氣象服務需求。 (2)構建的6個逐日氣象預報模型的預報精度均較高,訓練集與測試集誤差在±3 d以內的平均正確率分別為93.3%、80.4%,平均均方根誤差(RMSE)分別為1.860~1.960和2.510~2.709,平均決定系數(r2)分別為0.944和0.841,且6個預報模型的r2均隨著預報日期向始花期的臨近逐漸增大。 (3)以“篩選特征變量+有序等距離抽樣拆分+RF算法訓練模型+模型評估+模型應用”為技術流程,構建的皖北地區冬小麥開花期氣象智能預報技術,可為開展其他作物開花期等關鍵物候的客觀預報技術研究提供了新的思路。
2 結果與分析
2.1 旬尺度氣象要素與小麥始花期的相關性

2.2 不同界限溫度的積溫及其累積日數與始花期相關性

2.3 不同預報日期氣象預報模型入選的特征變量及其重要性分析


2.4 逐日氣象預報模型的誤差比較




2.5 2020年和2021年小麥始花期氣象預報應用檢驗

3 討 論
4 結論