高靜 劉一鳴 任芝花 陳京華
(國家氣象信息中心,北京 100081)
作物生長發育數據是根據作物外部形態變化,記載的作物從播種到成熟的整個生長過程中各個發育期的出現日期、生長高度、植株密度、生長狀況等特征性信息。作物的生長發育情況直接影響到產量的高低和品質的優劣。掌握作物的發育速度和進程、分析作物各階段生長發育狀況與氣象條件的關系,為鑒定作物生長發育的農業氣象條件提供基礎[1-2]。規范化、高質量的農業氣象類數據產品在關鍵農時農事氣象服務[3]、作物產量預報[4-5]、氣候變化研究[6]等領域的業務應用與科學研究中發揮著重要作用。
1981—2012年作物生長發育等農業資料以紙質報表為記錄載體,服務形式以報表抄錄為主。為提高服務時效,推進農業氣象資料在氣象業務和科學研究中的應用,2010—2014年期間國家氣象信息中心開展了農業氣象報表的數字化工作。由于數字化資料屬于人工錄入,存在格式不規范、質量情況不明確、用戶使用不方便等問題,因而難以直接服務于氣象業務和科研。本文選擇1981—2010年小麥、水稻、棉花、花生、大豆五種中國主要作物的生長發育要素,通過梳理報表記錄以及數字化過程中的不規范問題,結合《農業氣象觀測資料質量控制》標準以及地面質量檢測[7-8]中相關方法,制定了針對該數字化資料的質量控制技術方法。通過對數據進行完整性檢查、跨年值檢查、觀測時間檢查、值域檢查、內部一致性檢查、人工核查等質量控制以及數據補錄,建立了一套高質量的全國主要作物生長發育數據產品,從而保證數據產品在業務應用和研究分析中的可靠性。
用于建立數據集的資料來源于國家氣象信息中心數字化的農業氣象紙質年報表,要素包括兩種糧食作物(小麥、水稻)和三種經濟作物(棉花、花生、大豆)共五種主要作物的發育期始期、普期、末期、生長高度、總莖數、有效莖數。根據數字化農業氣象年報表數據文件統計了歷年農業氣象觀測臺站數量(圖1),可以看出,1981年全國各省開始上報農業氣象觀測紙質年報表,只有232個臺站。此后開始增加,1990年增加至353個站。這與20世紀90年代初國家氣象局對全國農業氣象站網進行的調整有關。調整后臺站數比較穩定,多數在344~356個。其中,小麥的種植282站,主要分布在華北、華中、西南、新疆等地區。水稻的種植有214站,主要分布在華南、華中、西南地區,在東北地區也有不少分布。棉花的種植有75站,主要分布在新疆、華北、華中地區。花生種植有31站,主要分布在華南、華北地區。大豆種植有75站,主要分布在東北、江淮流域,這與中國作物的地理分布一致[9-11]。圖2是上述作物站點分布圖。

圖1 1981—2010年全國農業氣象觀測站數逐年變化圖Fig. 1 The year-by-year numbers of agro-meteorological observatories for 1981-2010

圖2 全國五大作物種植分布圖Fig. 2 Map of five main crops planting distribution in China mainland
1)規范作物品種類型和發育期名稱
根據《農業氣象觀測規范》將數字化中不規范的作物品種類型及發育期統一化。小麥分為冬小麥、春小麥。通過判斷資料序列中是否有越冬開始、返青、起身期對二者進行區分。水稻分為一季稻、雙季早稻、雙季晚稻。大豆分為春大豆、夏大豆。花生分為春花生、夏花生。依據同一作物同一年播種期日期差值,若差值大于30 d,結合當地的種植制度判斷是否為不同的品種類型。通過整理發現,不規范的發育期名稱占總數據的比例為3.4%。
2)數據補錄
共補錄數據14927個。農業氣象觀測規范要求小麥、水稻乳熟期植株密度觀測應觀測總莖數和有效莖數兩個值,但數字化工作錄入時,僅錄了其中一個值,因此對乳熟期植株密度進行了重新錄入,1981—1993年數據量為687個,1994—2010年數據量7274個;補錄1981—1993年五大作物的播種期數據共6966個。
3)規范資料序列
篩除重復值,補錄缺測值為“999999”,校正存在明顯錯誤的錄入值,使得資料序列整齊。
4)規范跨年特征值
紙質報表中只記錄觀測日期,沒有跨年特征值。在數字化成果數據中,使用了跨年特征值表示該作物跨年。在1981—1993年作物發育期中,把跨年發育期中前一年的日期+5000,如冬小麥出苗1018,則記為6018。在1994—2010年的資料中表示發育期跨年時,數字化成果數據記錄中存在兩種情況:①把發育期中前一年的日期+5000,例如冬小麥播種期1018,記為6018;②把發育期中后一年的日期+2000,例如冬小麥成熟期703,記為2703。兩種特征值的共同存在導致在同一套數據出現兩個參考系,容易引發誤解。為了直觀顯示日期對應的年份,本文將跨年特征值去掉,將年份還原成作物發育期的真實年份.
5)規范數據單位
在不影響數據精度的情況下,統一規定生長高度的單位為cm,植株密度的單位為株/m2。
在評估數據集的報告中,常用實有率評估各要素項的完整性,用正確率、可疑率、錯誤率評估各要素項的質量狀況。實有率、正確率、可疑率、錯誤率的計算方法分別如下:

式中,N為臺站數;i表示第i個站,i=1,2,3,…,N;實有觀測數據量i,第i個站某要素項非缺測的數據量;正確數據量i,第i個站某要素項數據質控碼為“0”的數據量;可疑數據量i,第i個站某要素項數據質控碼為“1”的數據量;錯誤數據量i,第i個站某要素項數據質控碼為“2”的數據量;應觀測數據總量i,第i站某要素項缺測數據量i與實有觀測數據量i之和。
數據集文件的命名格式為:AGME_CHN_CROP_GROWTH-QC-*-YYYY.TXT。其中,AGME表示數據大類為農業氣象和生態氣象資料,CHN表示中國區域,CROP表示作物資料,GROWTH表示生長發育狀況,以上均為固定代碼。*表示作物代碼,當*為RICE,表示水稻;*為WHEAT,表示小麥;*為COTTON,表示棉花;*為PEANUT表示花生;*為SOYBEAN,表示大豆。YYYY為年。
本文中用實有率評估數據集各要素項的完整性,對五大作物逐站逐年的發育期資料按《農業氣象觀測規范》[1]檢查其發育期是否有值,若無記錄,記為缺測“999999”。從表1可以看出,五大作物各要素中除了棉花的總莖數實有率較低之外,其他各要素完整性較好,實有率均73.9%以上,發育期普期、有效莖數的實有率超過了91.1%。因為棉花的總莖數在五真葉、吐絮、停止生長三個時期觀測,其中停止生長期記錄時存在不規范,觀測人員記錄時用拔桿替代,因此缺測率較高。

表1 作物生長發育各要素項數據完整性(實有率%)狀況Table 1 Data integrity (% real rate) of growth elements for each crop
圖3為從時間角度分析的五大作物發育期普期、生長高度、總莖數、有效莖數的實有率時序變化圖。發育期普期、生長高度、總莖數在1993年之后呈現上升的趨勢,這與1993年全國開始使用了新的觀測規范,數據記錄更加規范有關。生長高度實有率在1993年之后均超過90.0%,有效莖數的實有率在1982年之后均在96.0%以上。
圖4是小麥、水稻、棉花、大豆各個發育期普期的實有率圖,對作物各個發育期普期數據實有情況進行了分析。小麥的返青期實有率最低,僅為63.0%,其次是起身、越冬開始期,達65.2%、70.4%,原因是南方冬季日平均氣溫較高,小麥不越冬,因此不記載越冬、返青和起身日期。水稻的拔節期實有率最低,達75.3%,原因是1993年之前報表記錄的不規范。其他發育期實有率均在98.5%以上。棉花的停止生長期實有率最低,僅為66.7%,因為該時期為棉花的最后一個發育期,很多臺站記錄時用拔桿期替代。大豆的鼓粒期和分枝期實有率較低,分別為63.1%和70.0%。鼓粒期的實有率較低是因為該發育期在舊觀測規范里沒有規定記錄,而分枝期實有率較低的原因是觀測員記錄時把日期數據記在始期的位置上。其他發育期的實有率都較高,均在95.0%以上。
本數據集在制作過程中,對五大作物發育期、生長狀況、生長高度、總莖數、有效莖數通過去除重復值、跨年值檢查、站號及臺站信息檢查、觀測時間檢查、值域檢查、內部一致性等方法進行了質量控制,對未通過上述檢查的數據進行修正與標識。質控碼含義:“0”為正確、“1”為可疑、“2”為錯誤、“7”為無觀測任務、“8”為數據缺測、“9”為數據未進行質量控制。

圖3 生長發育各要素數據實有率時序變化圖Fig. 3 Variations of the data integrity rates of growth elements

圖4 四種作物各發育期實有率統計Fig. 4 Real rate (%) in various growth periods for the four major crops

圖5 發育期跨年檢查錯誤率和實有觀測站點數時序變化圖Fig. 5 Variations of the next-year inspection error rate of puberties and of the number of observation sites
判斷作物發育期播種期和成熟期是否為同一年,若為同一年,去除數據中的跨年特征值。圖5給出了通過跨年值檢查結果。發育期普期錯誤量2.4萬個,錯誤率為13.5%。1994—2010年普期錯誤率最高值出現在1995年,錯誤率大于1.0%達13年。
檢查臺站號錯誤的方法:統計不同站號之間的距離,若距離為0,核查對應兩站報表的經緯度信息,找出錯誤站號。經過統計及核查判斷,發現35個臺站號錯誤,部分結果見表2。

表2 臺站號錯誤信息(部分數據)Table 2 Errors about station message (partial data)
檢查經緯度錯誤的方法:根據同一臺站相鄰兩年的經緯度計算其距離,若距離超過25 km,輸出疑誤信息,進一步核查該站前后年份報表,找出錯誤的經緯度信息。經過統計,17個臺站緯度錯誤,12站臺站經度錯誤,部分結果見表3和4。

表3 緯度錯誤的臺站信息(部分數據)Table 3 Errors about the station latitudes (partial data)
檢查觀測場海拔高度錯誤的方法:計算相鄰兩年海拔相對差值,對差值絕對值大于1的臺站進行核查,找出錯誤的海拔高度臺站。經統計,海拔高度錯

表4 經度錯誤的臺站信息(部分數據)Table 4 Errors about the station longitudes (partial data)

表5 海拔錯誤的臺站信息(部分數據)Table 5 Errors about the station elevations (partial data)
檢查作物觀測的時間,規定不在以下規定的時間范圍或時間點(表6—8)的數據為可疑數據,其中缺測的數據,記為無觀測任務“999998”。

表6 發育期始期觀測的時期Table 6 Observations of the initial period for each developmental phases

表7 生長高度觀測時期Table 7 Observational period of the growth height
作物觀測要素值應進行值域范圍檢查,判斷其是否錯誤或可疑。大于要素上限值的數據為錯誤數據、大于其最大值的數據為可疑數據;發育期日期大于等于“1231”為錯誤數據,具體域值詳見文獻[8]。
作物觀測要素值未通過以下一致性檢查時,相應數據為可疑數據。前一發育期觀測日期應在后一發育期觀測日期之前。發育期未跨年時,后一個發育期日期應出現在前一個發育期之后,若反之,為可疑數據。發育期出現跨年時,以自然年為界,前一年和后一年的發育期分別在當年判斷。

表8 密度觀測時期及項目Table 8 Observation periods and terms for the density
前一發育期植株生長高度應小于或等于后一發育期植株生長高度,若反之,為可疑數據。有效莖數應小于或等于總莖數,若反之,為可疑數據。
通過對各要素正確率的統計,得到各要素總正確率均在99.1%以上,數據質量較好。圖6給出了作物發育期普期的正確率,發育期普期小麥185站正確率為100%,所有站的正確率均在95.3%以上;水稻137站正確率為100%,所有站的正確率均在96.2%以上;棉花72站正確率為100%,所有站的正確率均在97.4%以上;大豆45站正確率為100%,所有站的正確率均在92.4%以上;花生26站正確率為100%,所有站的正確率均在98.2%以上。

圖6 作物發育期普期正確率分布圖Fig. 6 Map of accuracy of the crop development period
生長高度小麥224站正確率為100%,所有站的正確率均在87.0%以上;水稻152站正確率為100%,所有站的正確率均在82.3%以上;棉花69站正確率為100%,所有站的正確率均在93.3%以上;大豆70站正確率為100%,所有站的正確率均在96.4%以上;花生29站正確率為100%,所有站的正確率均在85.7%以上。
總莖數小麥264站正確率為100%,所有站的正確率均在95.3%以上;水稻186站正確率為100%,所有站的正確率均在84.8%以上;棉花70站正確率為100%,所有站的正確率均在89.2%以上;大豆68站正確率為100%,所有站的正確率均在95.3%以上;花生30站正確率為100%,所有站的正確率均在96.3%以上。
有效莖數小麥272站正確率為100%,所有站的正確率均在92.5%以上;水稻209站正確率為100%,所有站的正確率除了松江站68.7%,其他都在85.7%以上。
從時間變化上分析(圖7),發育期普期、生長高度在1993年之后數據正確率相比之前有了明顯提高的趨勢。發育期始期小麥、水稻、棉花、花生的準確率較高,大部分年份在99.5%以上。發育期普期小麥、水稻、棉花的準確率較高,也相對穩定,大部分年份在99.0%以上。發育期末期水稻、棉花、花生的準確率較高,大部分年份在99.0%以上。生長高度花生的正確率較穩定,大部分年份為100%。總莖數水稻、小麥正確率較穩定,均在99.0%以上。有效莖數的正確率變化較大,但均在99.0%以上。

圖7 五大作物正確率時序變化Fig. 7 Variations of observation accuracy for five crops
該數據產品在農業氣象服務中得到了廣泛的應用,提升了氣象為農服務能力,為作物各發育階段的農業氣象條件評估和產量預報等提供依據,更好地指導作物生產管理,同時為其他氣象資料數字化成果研制積累了一定的經驗,為氣象檔案現代化管理建設提供信息化數據基礎[12]。以冬小麥資料為例,利用華北平原65個冬小麥農業氣象觀測站近30年來的發育期觀測資料及同期逐日平均氣溫數據,將發育期分為播種-越冬、越冬-返青、返青-抽穗和抽穗-成熟四個階段,采用線性回歸方法計算各階段發育期日數對溫度變化的相對敏感性,得到不同發育階段對溫度的敏感性差異較大。
由圖8可見,不同發育階段的日數對溫度變化的相對敏感性各不相同。其中,播種—越冬期相對敏感性的區域平均值為-0.040 d?℃-1,即溫度每升高1 ℃,日數縮短4%。返青—抽穗期是冬小麥營養生長的主要階段,各站對溫度均較為敏感,區域平均值為-0.074 d?℃-1,即溫度每升高1 ℃,日數縮短7.4%。抽穗—成熟期為冬小麥的生殖生長階段,該階段對溫度較不敏感,溫度每升高1 ℃,日數縮短4.2%。總體上,返青—抽穗期對溫度最為敏感,其次是抽穗—成熟期。播種—越冬期對溫度較不敏感。雖然營養生長期的敏感性仍強于生殖生長期,但二者之間的差距大為縮小。

圖8 四個發育階段的日數對溫度相對敏感性的區域統計(:最大值和最小值;:第99和第1分位數;:上、中、下三橫分別是上四分位數、中位數和下四分位數;:平均值)Fig. 8 The quantile statistics of the relative sensitivity to temperature for four stages
基于1981—2010年農業氣象紙質年報表數字化成果,通過數據質量檢測與規范化處理策略,包括數據完整性檢查、跨年值檢查、觀測時間檢查、值域檢查、內部一致性檢查、人工核查以及數據補錄等過程,建立高質量的全國主要作物生長發育的長時間序列。
1)數字化過程中存在大量的作物品種類型及發育期不規范、播種期及植株有效密度缺錄,新舊資料格式不統一,因此,對數據進行規范化處理是數據集形成關鍵的一步。通過整理,不規范發育期名稱占所有數據比例為3.4%,補錄數據14927個,其中播種期6966個,植株總莖數687個,有效密度7274個。
2)通過跨年值檢查發現發育期始期錯誤量錯誤率為6.8%,普期錯誤率為13.5%,末期錯誤率為0.5%。發育期始期、普期、末期錯誤率最高值出現在1995年,始期出現在0.5%~0.6%的錯誤率達13年,普期錯誤率大于1.0%達13年。發育期末期數據錯誤率最低,均在0.1%以下。
3)對臺站信息的檢查,通過統計及核查相鄰年份報表,對站號錯誤或觀測任務變遷進行區分,共發現35個站號錯誤并進行更正。對于同一個站,其距離大于25 km以上,核查所有年份的經緯度信息,找出錯誤的經緯度,其中緯度錯誤的臺站為17個,經度錯誤12個。相鄰兩年海拔相對差值絕對值大于1的臺站進行核查,找出錯誤的臺站有16個。
4)從作物各個生育期的實有率分析得出:小麥的返青期實有率最低,達63.0%,其次是起身、越冬開始期,達65.2%、70.4%,原因是南方冬季日平均氣溫高于0 ℃時,小麥不越冬,不記載越冬、返青和起身。水稻的拔節期實有率最低,達75.3%,原因是1993年之前的報表記錄不規范造成記錄不全。其他發育期實有率均在98.5%以上。棉花的停止生長期實有率最低,達66.7%,因為該時期為棉花的最后一個發育期,很多臺站記錄時用拔桿期替代。大豆的鼓粒和分枝實有率較低,達63.1%、70.0%,因為鼓粒期在1993年之前的觀測規范里沒有規定記錄,分枝期的實有率較低是由于觀測員記錄時把日期數據記在始期的位置上,其他發育期的實有率都較高,均在95.0%以上。
5)作物發育期、生長狀況、生長高度、總莖數、有效莖數的總實有率均超過了77.1% 。除了發育期末期和有效莖數以外,發育期始期、普期、生長高度、總莖數在1993年之后呈現上升的趨勢,這與1993年全國開始使用了新的觀測規范,數據記錄更加規范有一定的關系。生長高度實有率在1993年之后均超過90%,有效莖數的實有率在1982年之后均在96%以上。
6)作物生長發育各要素正確率均在98.0%以上,數據質量較好。發育期普期、末期、生長高度在1993年之后數據正確率相比之前有了明顯提高的趨勢。發育期始期小麥、水稻、棉花、花生準確率較高,大部分年份在99.5%以上。發育期普期小麥、水稻、棉花的準確率較高,也相對穩定,大部分年份在99.0%以上。發育期末期水稻、棉花、花生的準確率較高,大部分年份在99.0%以上。生長高度花生的正確率較穩定,大部分年份為100%。總莖數水稻、小麥正確率較穩定,均在99.0%以上。有效莖數的正確率變化較大,但均在99.0%以上。
[1]國家氣象局. 農業氣象觀測規范(上卷). 北京: 氣象出版社,1993.
[2]馬樹慶. 現代農用天氣預報業務及其有關問題的探討. 中國農業氣象, 2012, 33(2): 278-282.
[3]劉建美, 吳岵, 管薇薇. 淺析氣象服務與農業服務間的關系. 農業與技術, 2014(9): 179.
[4]林忠輝, 莫興國, 項月琴. 作物生長模型研究綜述. 作物學報, 2003,29(5): 750-758.
[5]信乃詮, 程延年. 氣候變化與我國作物產量. 中國農學通報,1995(1): 1-4.
[6]孫芳, 楊修. 農業氣候變化脆弱性評估研究進展. 中國農業氣象,2005, 26(3): 170-173.
[7]任芝花, 余予, 鄒鳳玲, 等. 部分地面要素歷史基礎氣象資料質量檢測. 應用氣象學報, 2012, 23(6): 739-747.
[8]農業氣象觀測資料質量控制-作物(QX/T 293-2015).四川省氣象局, 2015.
[9]梅方權, 吳憲章, 姚長溪, 等. 中國水稻種植區劃. 中國水稻科學,1988, 2(3): 97-110.
[10]呂世霖, 程舜華, 程創基, 等. 我國大豆栽培區劃的研討. 山西農業大學學報, 1981, 1(1): 10-16.
[11]張承祥, 張勛利, 李矩琛, 等. 我國花生種植區劃——Ⅱ生種植區劃和商品基地. 花生科技, 1984(2): 14-19.
[12]劉熔熔, 封秀燕, 馬仙妹, 等. 浙江省歷史地面氣象報表數字化處理和應用. 浙江氣象, 2011, 32(2): 34-36.
Advances in Meteorological Science and Technology2018年1期