陳彥清 曹永生 林雨楠 方 溈*
(1.中國農業科學院作物科學研究所,北京 100081;2.國家作物種質資源數據中心,北京 100081)
作物種質資源是保障國家糧食安全與重要農產品供給的戰略性資源,是農業科技原始創新與現代種業發展的物質基礎[1]。我國是作物種質資源大國,但還不是種質資源保護與研究利用的強國。我國作物種質資源保護和利用研究雖然取得顯著成績,但在資源利用的前期基礎研究,尤其是資源評價鑒定方面仍然存在鑒定比例小、無系統的鑒定體系、鑒定環境單一等問題。建立全國多環境的作物種質資源評價鑒定體系是解決以上問題的關鍵,為此,中華人民共和國農業農村部于2017 年啟動的農業基礎性長期性科技工作將作物種質資源評價鑒定納入其中[2],為評價體系的建立提供了良好的契機,但如何在全國合理的設置評價站點,布局網絡體系則是需要深入研究的科學問題。
評價鑒定與環境密切相關,而氣候生產潛力可以反映在不同自然環境下作物理想生長情況,可以利用氣候生產潛力的差異性來反映作物生長的差異性,所以,本研究以氣候生產潛力為切入點,通過研究氣候生產潛力的環境因素,確定影響作物生長的主要環境因素。作物氣候生產潛力是指一個地區當土壤肥力和農業技術措施等指標都在最適宜條件下,由太陽輻射、溫度和水分等因素共同決定的單位面積的可能作物產量。針對氣候生產潛力的研究,可追溯到20 世紀50 年代以前,但大規模的研究工作始于20 世紀60年代[3]。作物氣候生產潛力計算模型大致歸為兩類[4],其中經驗概念逐級計算模型是從能量轉化、氣候影響和作物生理的角度,定義作物光合生產潛力、光溫生產潛力和氣候生產潛力,氣候生產潛力是通過利用溫度和水分對光合生產潛力的逐級修正而得到的[5-7]。
對于相似環境下的站點,在布局時需要進行聚類處理。空間聚類作為聚類的一個研究分支,其過程是一個尋找最優劃分的過程,即根據聚類終止條件不斷對劃分進行優化,最終得到最優解。與普通的聚類相比較,空間聚類加入了空間約束,不僅考慮了屬性上的相似性,而且顧及了空間數據的復雜性。評價聚類最優組數的方法有多種,如聚類中心的距離矩陣評價方法,該方法通過聚類中心之間的距離大小判定聚類質量的高低,強調類與類之間的分離度[8];距離方差評價算法則是計算各聚類域中的樣本與聚類中心的距離方差,方差越小聚類效果越好,強調類內的緊湊度[8];Davies-Bouldin 指數可反映集群內部分散度和集群間的相異度,DB 指數越小,聚類效果越好[9-10],與其類似的方法還有DCSCV 算法,該方法是用各簇中心點之間的距離的平均值與各簇簇內各點到各簇心距離的平均值的比值來度量聚類的有效性,評價結果隨著簇數的增加而增大,在增大過程中存在拐點,拐點處為最佳聚類數[11]。此外還有Calinski-Harabasz指數[12]、基于信息論的評價方法[13]、Dunn 指數[14]、RMSSDT 和RS 指數[15]、SD 指數[16]等。以上方法大多是通過聚類樣本的距離進行指數計算,判定類內相似性或類間相異性,尋找指數最大或最小值的方式確定聚類的最優組數。
本研究擬通過尋找與作物生長密切相關的環境因素,利用相關空間分析和基于環境因子的空間聚類方法,研究國家尺度下種質資源觀測鑒定站點體系布局方法。通過建立布局合理、規范科學的種質資源長期觀測鑒定體系,對資源的重要性狀開展綜合鑒定評價,整合觀測鑒定數據,為作物種質資源大數據體系建設提供重要內容,為農業科學研究和現代種業發展提供堅實的基礎數據支撐。
通過前期的自主申報、初步篩選等工作,先后在全國確立了379 個作物種質資源評價鑒定站點,初步形成了全國作物種質資源觀測評價站點體系,基本涵蓋了全國具有作物種質資源評價鑒定能力的省、地市級農科院所,以此為全國評價鑒定區域劃分的基礎站點數據。氣象數據主要來源于中國氣象局網站,計算了1988—2018年近30年的各氣象站點每項指標平均值,主要包括地溫、氣溫、降水、相對濕度、日常時長、風速等指標。通過普通克里金插值方法將所有指標數據插值成全國柵格數據,海拔數據分辨率為500m×500m 的柵格數據,來源于中國科學院計算機網絡信息中心地理空間數據云平臺。最后通過疊加分析、點值提取等方法將各項指標數據賦值給以上379 個站點。
國家作物種質資源觀測鑒定站點體系布局方法整體技術路線可分為主要環境因子選擇、空間聚類方法確定、最優聚類組數判定、各組空間控制區域劃分、站點布設原則設計等5大步驟,具體如圖1所示。
2.2.1 環境因子選擇
根據氣候生產潛力逐級計算模型,首先對光合生產潛力進行溫度修正得到光溫生產潛力,在光溫生產潛力的基礎上進行水分修正,得到氣候生產潛力。光合生產潛力的主要環境影響因素為太陽輻射,而太陽輻射與海拔、日照時長、緯度有關,溫度修正因子主要取決于溫度,水分修正因子的主要影響因素為降水,綜合分析,最終確定影響作物生長的重要環境因素有溫度、降水、日照時長、緯度和海拔。
2.2.2 空間聚類方法及最優聚類組數判定
空間聚類時需要設定聚類的屬性和合適的空間約束,通過環境因素的選擇,本研究選擇溫度、降水、日照時長、緯度和海拔5 個屬性作為聚類屬性字段;空間約束方法的選擇需要根據聚類的目的來確定,本文的最終目的是通過對站點的聚類,從而實現區域的劃分,而相互鄰近的站點在空間上才可劃分到一個區域,基于此,本研究選擇最近鄰聚類方法(KNN 算法)對站點進行聚類,該方法聚類后同一個組中的要素將相互鄰近,每個要素至少是該組中某一其他要素的鄰域,即相鄰的站點且5 個環境因素變量相似的站點被聚類成一類。
在最優聚類組數判定方法選擇方面,結合本研究多因子控制下的最近鄰聚類方法的特點,選擇偽F統計量方法評價聚類組數。該方法中,偽F統計量的計算主要考慮類內多因子的相似性和類間多因子的差異性,每種分組方案均對應一個偽F 統計量,該統計量越大,組內相似性和組間差異性越大,對應的分組方案越好,對應的分組數最優。與其他聚類評價指數相比較,由于聚類方法選擇了最鄰近聚類,在聚類時已經考慮了站點的相互鄰近性,所以偽F統計量的計算主要由多因子的屬性值代替聚類點距離,綜合評價多因子在類內相似性和類間差異性。偽F 統計量計算公式如下:
其中,SST代表組間差異性,SSE代表組內相關性。
其中,n 表示所有參與空間聚類的站點數,ni表示第i組中包括的站點數,nc表示分組數,nv表示參與分組的變量數,表示在第i 組中的第j 個站點的變量k 的值,表示變量k 的均值,表示變量k 在組i 中的均值。
當分別計算每個變量的SST和SSE值時,可得到每個變量對應的R2值,即:
其中,表示變量k 的R2值,SSTk表示變量k 的組間差異性,SSEk表示變量k 的組內相似性,其他符號定義同上。的大小可以反映變量k 對于聚類的貢獻程度,該值越大,表明對應的變量越能更好地對站點進行分組。
2.2.3 空間區域劃分
通過空間聚類后,每個站點擁有了對應的分組類別,且組內的站點具有相互鄰近的特點,但在空間上無法確定每組站點對應的區域邊界,不能完成面域的劃分,為了解決該問題,本研究引入泰森多邊形進行各組區域邊界的界定。泰森多邊形可對空間平面進行剖分,其特點是多邊形內的任何位置離該多邊形的樣點(即本文的站點)的距離最近,且每個多邊形內含且僅包含一個樣點,位于泰森多邊形邊上的點到其兩邊的樣點的距離相等。基于以上特點,首先構建每個站點對應的泰森多邊形,由于組內站點的相互鄰近性,構建后的泰森多邊形在組內將相互鄰接,通過合并這些鄰接的泰森多邊形,就可形成該組站點對應的區域,該區域內的任何一點均能找到距離該點最近的站點,基于空間上越臨近各方面因素越相似的一般性原則,這種區域劃分方法能夠將空間上每個點劃分到合理的區域范圍內。
理論上,站點布設越多,觀測的數據越具有區域代表性,但同時意味著成本投入越大。利用環境因素進行聚類分區后,屬于同一個聚類區域內的站點證明具有相似的環境條件,不同區域環境差異明顯,所以在考慮成本投入最小化和觀測數據代表性的情況下,每個區域內至少布設1 個站點,再根據站點的實際觀測能力和區域作物特點等多方面因素確定是否需要增加額外站點。國家農作物種質資源保護體系中具有10 個國家作物中期庫及43 個國家種質資源圃[17],這些單位均具有較強的種質資源工作基礎、豐富的種質資源及穩定的科研隊伍,可作為站點體系的首選單位,另外,農業農村部于2018年和2019年分兩批確定了100 個國家農業科學觀測實驗站[18-19],其中作物種質資源領域站點9 個,可作為站點體系的備選單位,還可在其它具有條件的單位中進行選擇。
綜上所述,國家作物種質資源觀測鑒定站點體系布局原則為:
(1)每個區域內至少布設一個站點;
(2)區域站點布局數量需根據區域特點、站點能力等條件綜合判定;
(3)綜合考慮國家農業科學觀測實驗站依托單位的工作基礎、作物種質資源持有條件、科研隊伍和區位等因素進行站點選擇;
(4)正式掛牌的國家作物種質資源觀測實驗站作為體系的首選單位;
(5)國家農作物種質資源保護體系中的國家作物中期庫及種質資源圃作為站點體系的第二選擇單位;
(6)其他未納入國家體系但滿足條件的站點作為第三選擇單位。
對于全國的分區研究中,大部分選擇分級區劃,如綜合農業分區,分為10 個一級區和38 個二級區,《農用地質量分等規程》[20]中將標準耕作制度分為12個一級區和51 個二級區,種植業區劃分為11 個一級區和31 個二級區。這是由于隨著區域尺度的變化,分區的主導因素會發生變化,所以,針對本研究的分區同樣采用分級分區的方法進行。
在國家級尺度上,利用最近鄰聚類方法,結合以往類似分區數量,本研究將全國分為2—15 組,通過判定每次分組中對應的偽F 值判定最優組數。各組數對應的偽F 值如表1 所示,從偽F 值的變化趨勢可見(圖2),前9 組的F 值無規律變化,從第10 組開始,呈現逐漸增加的趨勢,但增幅不顯著,當分成2 組時,偽F 值明顯高于其它組數對應的F 值,所以,首先將全國379個站點分成2組。
針對國家尺度上分出的兩組再進行區域尺度的分組,第一小組182個站點,第二小組197個站點。根據分組結果,兩組站點基本上以長江為界進行了劃分,除了四川盆地的部分站點外,長江中下游的站點基本上沿長江兩岸分組分布,第一小組的絕大部分站點位于長江以南,第二小組的絕大部分站點位于長江以北。

表1 各級分組對應的偽F值Table 1 Pseudo F-value of each level group
根據各因素的R2值可判定因素對分組的貢獻程度,R2越大,因素與分組結果關聯性越強。從表2 可以看出,一級分組中,關聯性最強的兩個因素為緯度和降水,其次為氣溫和日照時長,海拔與分組結果關聯性最小,僅為0.001。說明在一級分組中,起決定性左右的分組因素主要為緯度、降水、氣溫和日照時長,海拔則對一級分組幾乎無影響。

表2 各級最優分組中各因素對應的R2值Table 2 R2 value of each factor in each level of optimal group
在二級分組中,同樣利用最近鄰聚類方法對第一小組和第二小組的站點進行空間聚類,對每個小組進行最多15 組的聚類,計算不同分組數對應的偽F 值,如表1 中數據所示。從第一小組中不同組數對應的偽F值折線圖(圖3)可知,分組數小于10時,偽F值呈快速增加趨勢,10 組后趨于平緩,呈緩慢增加趨勢,當分組數為13 時,偽F 值達到最大,隨后降低,由此判定,當第一小組分為13組時分組方案最優。
從表2 的第一小組最優分組后各因素的R2值可知,5 個因素對應的R2值均較高,說明5 個因素與分組結果均具有極顯著的相關性。其中,海拔對應的R2 值最高,降水對應的R2 值最低。說明在第一小組分組中,海拔對分組影響最大,降水影響相對最小。這與一級分組中海拔和降水對分組的影響程度恰好相反,這也驗證了不同尺度下分區主導因素有可能不同的說法,同時說明了本研究分級分組策略的正確性。
從第二小組中不同分組數對應的偽F 值的折線圖(圖4)可知,偽F值可分為三個階段:2—4組,5—12組,13—15組。2—4組時偽F值隨著分組數增加而增大,5—12組時偽F值呈曲線先降低后升高,到13組時偽F 值達到最大,隨后稍有降低并趨于平緩。所以,在第二小組中,同樣分成13組時分組方案最優。
從表2的第二小組最優分組后各因素的R2值可知,5個因素對應的R2值均較高,說明5個因素與分組結果均具有極顯著的相關性。其中,緯度對應的R2值最高,日照時長對應的R2值最低。說明在第二小組分組中,緯度對分組影響最大,日照時長影響相對最小。
根據以上站點分組策略,共將379個站點分為26組,利用ARCGIS 軟件構建每個站點的泰森多邊形,圖5(a)中分別為第14 組站點和第20 組站點的泰森多邊形。每個站點對應一個泰森多邊形,該區域內任意一點距離該站點最近,將屬于同一分組的泰森多邊形進行融合形成各組的空間控制范圍,如圖5(b)。
26組中,站點最多的一組中有35個站點,站點最少的一組有4 個站點,標準差達到8.09,站點數量在不同分組中差異明顯,說明目前站點布局在站點數量上存在區域不均衡的特點;從平均每個站點控制的面積來看,最小6 156平方公里,最大214 991平方公里,標準差為55 321,在站點布局理想狀態下分區后每個區域內站點的平均控制面積應相對一致,而目前不同分區間站點平均控制面積差異顯著,說明目前站點布局在區域間站點密集程度上存在不均衡的特點。所以,從目前的站點布局來看,區域間整體布局差異明顯,水平不一,對于布局過密的地區,應結合實際情況進行適當刪減,對于布局過少的地區,若不能滿足觀測需求,還需繼續新增站點。
根據站點篩選原則對第20 組分區進行站點初篩,第20組分區主要位于湖北省中部和南部,共12個站點,無已認定為國家作物種質資源觀測實驗站的站點,但該區域內具有國家油料作物種質資源中期庫、國家野生花生種質圃、國家果樹種質砂梨圃和國家水生蔬菜種質圃等國家庫圃。前兩者依托單位為中國農業科學院油料作物研究所,砂梨圃依托單位為湖北省農科院果樹茶葉研究所,水生蔬菜圃依托單位為武漢市蔬菜科學研究所,以上三家單位雖均位于武漢市,但主要觀測作物類型差異明顯,各具特色,均具有扎實的作物種質資源相關工作基礎和經驗,可作為該區域觀測站點的選擇對象。
本研究以氣候生產潛力為切入點,確定了影響作物生長的主要自然因素,并通過空間聚類方法進行區域最優分組,最后利用泰森多邊形的特點完成了各區域的劃分,在此基礎上根據站點布設原則進行布局,為站點的科學布局提供了理論依據。
根據以上研究,得出結論如下:
(1)根據氣候生產潛力的逐級修正算法,確定了溫度、降水、日照時長、緯度和海拔5 大影響作物生長的自然因素作為站點空間聚類的聚類因子;
(2)以能夠判定組間差異性和組內相似性的偽F值判定最優聚類組數,將全國379個站點劃分成26個組別;
(3)通過構建站點泰森多邊形的方法劃定各組站點控制區域,完成全國26 個區域的邊界劃定,為站點體系布局提供了分區布設的條件。
站點體系布局關系到未來觀測評價結果的代表性和科學性,站點的選擇是一個非常復雜的過程。另外,作物種質資源觀測鑒定與其他領域觀測相比較具有鮮明的特點,資源的保護、評價和利用等各環節是密不可分的,只有在具有可觀測和值得觀測的資源的前提下,才能夠開展資源的觀測評價工作,通過觀測評價掌握資源特征特性,了解資源的可利用性和利用范疇,提高利用效率。所以,種質資源觀測站點的選擇必須結合站點依托單位的資源持有情況和工作基礎,從現有的國家作物種質資源保護與利用體系中選擇是合理有效的途徑,但具體哪些站點能夠被納入國家體系開展作物種質資源觀測工作還需進行深入的大量的調查研究,通過理論與實際相結合綜合多方面因素進行考慮。因時間和精力有限,文章僅對分區站點布設的原則進行了探討,未對各區的具體站點進行篩選。在未來的研究中,作者將根據需求逐區開展實地調研,選擇最適合的站點進行區域觀測。