陳凡,景元書*,謝新喬,楊繼周
(1.南京信息工程大學應用氣象學院,南京 210044; 2.江蘇省農業氣象重點實驗室,南京 210044; 3.紅塔煙草(集團)有限責任公司原料部,玉溪 653100)
煙葉品質是生態條件、品種和栽培方式共同作用下的結果,其中,生態條件對煙葉產質量和風格特征具有重要影響,不同煙區煙葉品質與風格特征都有較大差異[1-4]。煙葉物理特性是煙葉品質評價中的重要組成部分,其主要指標如含梗率、填充性、平衡含水率等是卷煙加工性能的重要指標,直接影響著卷煙制造過程中的產品風格、生產成本及其他經濟因素[5-6],此外,煙葉物理指標與外觀質量、化學成分、評吸質量也存在著極顯著性典型相關關系[7-8]。黎根等[9]利用統計分析和系統聚類的方法研究分析了湖北省各煙區的煙葉物理特性指標;楊俊等[10]分析了河南4個主產區煙葉的物理特性上的異同,明確了4個煙區的煙葉厚度均高于適宜標準,多地區煙葉含梗率未達到標準范圍30%~33%。此外,影響煙葉物理特性因素的研究多集中在施肥、采收方式、調制方法對煙葉物理特性的影響中[11-12]。在煙葉物理特性與氣象、土壤等生態因子間的關系研究中多是采用關分析、關聯度分析、偏相關分析或灰色關聯度簡單描述兩者之間的關系[13]。但這些研究只能定性描述煙葉物理指標與影響因子間的關系,從定量角度進行分析預測的研究較少。
為此,根據玉溪煙區物理特性指標與生態因子的相關關系,采用相關分析、Lasso算法等篩選生態因子,并在此基礎上利用多元線性統計與BP(back propagation)神經網絡兩種算法分別構建清香型優質煙葉物理特性預測模型,為不同生態條件下提升煙葉品質、促進煙葉品質評價智能精準化提供科學理論依據。
玉溪地處云南中部地區(23°19′N~24°58′N,101°16′E~103°09′E),南近海洋、北倚高原,光照強,晝夜溫差大,屬于亞熱帶季風氣候。該地區自然條件優越,土壤狀況適宜,是中國優質清香型煙葉種植最適宜區之一,其煙葉種植面積、總產量和總銷售均居全國前列,被譽稱為“云煙之鄉”。該市各鄉鎮地區的煙葉數據、氣象土壤等數據共同組成一套完整的煙葉數據庫。
基于2019—2020年玉溪市115份優質煙葉的物理指標數據及對應的氣象、土壤和海拔數據進行研究分析,其中,煙葉物理特性數據主要選取單葉重、頁面密度、含梗率、平衡含水率、拉力6種煙葉主要物理指標;氣象數據包括煙葉大田期(4月下旬—9月上旬)的平均氣溫、降水量和日照時數;土壤數據包括土壤pH、有機質、全氮、有效磷、速效鉀和氯離子。
1.2.1 模型參數選擇
為充分反映各時段氣象因子對煙葉物理指標的影響,對氣象因子進行膨化處理,即將大田期以旬為單位分為14旬,以第1旬為氣象因子膨化時段組合的起始時間,第14旬作為時段組合的終止時間,將旬平均氣溫、降水量和日照時數依次按照連續1旬,2旬,…,14旬進行不同時段的膨化組合,分別得到105個因子組合,3個氣象因子共得到315個因子組合。
采用相關分析計算物理指標與生態因子之間的相系數,并進行多重共線性檢驗。可知,多數方差膨脹因子(VIF)大于10,部分VIF值超過1 900,一般而言,VIF過大(大于5或10)則有多重共線性問題,即生態因子間存在著明顯的多重共線性,選擇利用Lasso算法篩選出最終的模型參數[14]。Lasso算法是目前處理多重共線性的一種重要方法,在構建方程的過程中,能將參數估計值降為0,更容易產生稀疏解,實現“降維”,可用于做特征篩選。表1為篩選后的生態因子與煙葉主要物理特性指標間的相關系數。

表1 篩選后的生態因子與煙葉主要物理特性指標的相關系數
1.2.2 構建煙葉物理特性統計預測模型
由于影響煙葉物理特性指標的因子較多,因此采用多元線性統計算法進行構建預測模型,計算并分析各生態因子對煙葉物理特性指標的相對貢獻率[15]。
Yj=a0j+a1jx1j+a2jx2j+…+anjxnj
(1)
(2)
式中:Yj為第j項烤煙質量特征;x1j,x2j,…,xnj為選入模型的變量;a0j為第j項烤煙質量特征模型的常數值;a1j,a2j,…,anj為第j項生態因子變量的回歸系數值;gij為第i項生態因子對第j項烤煙特性變化的相對貢獻率;a′ij為第j項烤煙特性標準化回歸方程中的第i項生態因子的回歸系數值;a′1j,a′2j,…,a′nj為相應的回歸系數值。
1.2.3 構建煙葉物理特性神經網絡預測模型
BP神經網絡是一種多層前向型網絡,非線性映射能力強、可以不斷趨近任意連續函數的一種機器學習算法,通常由3層結構(輸入層、隱含層和輸出層)就可以實現映射,每一層有N個神經元[16-17]。
選取生態因子作為BP神經網絡的輸入值,煙葉物理特性指標作為輸出值,根據經驗公式來確定隱含層的神經元數目,其中,選取最大訓練次數為1 000,學習速率為0.01,誤差精度為0.000 01,其余參數設為默認值。
由于輸入層的生態因子數據的單位和數量級方面存在差異,而對于BP神經網絡而言,輸入值和輸出值應限制在一定范圍內,確保即使是較大的輸入值,也能進入網絡轉化函數梯度大的區域,以提高網絡訓練的速度和精準度[18]。常見的數據歸一化方法包括min-max標準化、標準差標準化等。
(1)min-max標準化。可將原始數據經過線性變換轉化為[-1,1]區間內,函數可表示為
(3)
式(3)中:x′i為標準化后的樣本對應值;xi為第i個樣本數據值;xmax、xmin分別為樣本數據的最大值和最小值。
(2)標準差標準化。經過轉換的數據將符合標準正態分布,即標準化后數據均值為0,標準差為1,函數可表示為
(4)
式(4)中:μ、σ分別為原始數據的均值和方差。
采用第一種min-max標準化方法進行數據歸一化處理。
1.2.4 模型檢驗
統計判據中,均方根誤差(root mean square error, RMSE)和歸一化均方根誤差(normalized root mean square error, nRMSE)均是用來衡量觀測值與實測值之間的偏差,反映測量精度的物理量,一般而言,nRMSE<10%,表示模型模擬結果非常好,nRMSE<20%,表示模型模擬結果較好,nRMSE<30%,表示模型模擬結果一般[19],其表達式分別為
(5)
(6)

從表2可以看出,玉溪煙葉主要物理特性指標的標準差、變異程度均較小。其中,2020年煙葉單葉重的變異系數最大(19.39%),2019年的平衡含水率變異系數最小(5.20%);從峰度系數可看出,物理特性指標中,近兩年煙葉葉片密度、拉力和填充針的峰度系數小于0,為平闊峰,其余指標僅2020年厚度指標峰度小于0,其余峰度值均大于0,,為尖峭峰;從偏度系數來看,2020年厚度指標峰度為負偏鋒,其余主要物理特性指標為正偏峰。
為便于描述,將單葉重、葉面密度、含梗率、平衡含水率、拉力、填充值的最適宜范圍分別設置為9.0~11.0 g、70.0~75.0 g/m2、≤25.0%、≥13.5%、1.8~2.0 N、≥4.3 cm3/g,適宜范圍為7.0~9.0 g或11.0~13.0 g、60.0~70.0 g/m2或75.0~85.0 g/m2、25.0%~31.0%、12.0%~13.5%、1.4~1.8 N或2.0~2.4 N、3.9~4.3 cm3/g[20]。從表2可以看出,玉溪市2019年煙葉物理特性指標均處于適宜范圍內,其中單葉重、平衡含水率處于最適宜范圍;2020年的葉片密度、含梗率低于適宜范圍,其余指標處于適宜范圍內,平衡含水率處于最適宜范圍。可見,玉溪煙葉的物理特性整體表現良好,其中平衡含水率表現最為優異。

表2 玉溪煙葉主要物理特性指標描述統計
利用2009—2018年的平均氣溫、降水量和日照時數數據計算得到歷年旬平均氣溫、旬降水量與旬日照時數,并與2019年、2020年的相應數據進行對比分析。從圖1中可以看出,玉溪歷年來平均氣溫變化較小,大田期間溫差不超過5 ℃,整體呈現先升高后降低的趨勢;降水量變化較大,降水量高值區主要分布在7月中旬—8月上旬,而5月中旬降水量最少;日照時數呈現前期高后期低的趨勢,其中最高值出現在5月上旬。分析可知,2019年玉溪煙區大田期間,平均氣溫、降水量和日照時數基本長期略低于歷年數據;而2020年除4月下旬低于歷年旬平均氣溫3.3 ℃外,基本略高于歷年平均氣溫,降水量和日照時數基本低于歷年數據。

圖1 玉溪煙區大田期氣象因素變化特征
依據篩選出的生態因子分別建立煙葉主要物理特性指標預測方程為
Y1=-4.574 4+0.543 4t3-0.000 3p1+
0.022 1p5-0.023 3p7+0.052 1p8+
0.079 6p9-0.033 5r2-0.056 9r5-
0.030 1r7+0.961 4x1-0.049 9x4+
0.014 0x5+0.073 9x6
(7)
Y2=33.202 6-0.022 5p2-0.005 7p4+
0.044 3p5+0.022 8p8+0.092 3p9+
0.034 7p11-0.156 3r5+0.101 7r6-
1.822 9x3+0.231 1x6+0.004 2x7
(8)
Y3=54.354 4-0.576 7t2-0.005p2+
0.005 6p4-0.066 2p6-0.017 5p8-
0.013 3p11+0.033 6r5-0.027 1r6-
0.968 4x1+0.191 1x2-0.022 7x4-
0.013 2x5
(9)
Y4=15.928 6-0.095 4t4+0.000 02p1+
0.002 5p4-0.009 7p5+0.021 8p6+
0.005 4p8+0.021 6p10-0.018 2r1+
0.000 02r6+0.673 9x3-0.003 3x5-
0.019 7x6
(10)
Y5=0.207 5+0.080 1t1+0.000 3p3+
0.002 4p5-0.002p6-0.001 5p9-
0.001 7r2-0.004 2r4+0.002 9r6-
0.001 7r7-0.068 1x1+0.001 1x2+
0.003 6x4-0.000 3x5-0.002 3x6+
0.000 2x7
(11)
Y6=5.047 9+0.021 6t5+0.001 9p2-
0.000 8p3+0.000 8p5-0.001 5p9-
0.033 4p10+0.001 5r1-0.002 7r3-
0.188 9x1-0.026 3x2-0.137 6x3-
0.003 2x4+0.001 7x5
(12)
式中:Y1~Y6分別為單葉重、葉面密度、含梗率、平衡含水率、拉力、填充值;t1~t7分別為8月、8月中旬、5月、5月下旬、4月下旬—5月上旬、7月中旬、4月下旬至6月下旬的平均氣溫;p1~p12分別為8月中旬—9月上旬、8月中旬—8月下旬、8月中旬、5月中旬—8月下旬、7月上旬—8月下旬、8月下旬、4月下旬—6月上旬、5月下旬、5月上中旬、5月上旬、4月下旬、4月下旬—6月中旬的降水量;r1~r7分別為8月下旬—9月上旬、8月上中旬、7月中旬、5月下旬—6月下旬、6月中旬、5月上中旬、4月下旬的日照時數;x1~x7分別為土壤pH、有機質、全氮、有效磷、速效鉀、氯離子和海拔高度。
可以看出,氣象因子中,降水量對煙葉主要物理特性指標的影響較大,而平均氣溫的影響較小;土壤因子中,速效鉀對除葉面密度外的物理特性指標均有明顯影響;海拔因子對葉面密度有正效應,而對拉力有負效應。
將生態因子分為氣象因子和土壤海拔因子兩大類進行計算其對煙葉主要物理特性指標的貢獻率,如表3所示。可以看出,氣象因子對物理特性指標的相對貢獻率明顯大于土壤海拔因子的相對貢獻率,其平均貢獻率分別為71.15%和28.85%。

表3 生態因子對煙葉主要物理特性指標相對貢獻率
隨機選取115組樣本數據中的70%作為網絡模型的訓練樣本,其余30%為測試樣本,根據上述各物理特性指標所選取的生態因子作為輸入值,煙葉物理特性指標作為輸出值,圖2為訓練完成后單葉重、葉面密度、含梗率、平衡含水率、拉力、填充值的驗證樣本模擬值與實測值的統計分析。可以看出,神經網絡算法模擬出的預測值基本符合實測值的變化趨勢,兩者重合程度較高,即模擬效果較好,但仍存在某些值的預測值與實測值相差較大。

圖2 煙葉物理特性的神經網絡預測模型模擬結果
經驗證,統計算法與神經網絡算法的物理特性指標預測模型的均方根誤差RMSE與歸一化均方根誤差nRMSE如表4所示。可以看出,統計模型的物理特性指標的RMSE、nRMSE均低于神經網絡模型,單葉重、葉面密度、含梗率、平衡含水率、拉力、填充值統計預測模型的RMSE分別為2.12 g、12.18 g/m2、3.02%、0.76%、0.31 N、0.47 cm3/g,nRMSE分別為17.40%、13.08%、10.03%、5.58%、24.27%、12.18%、13.76%;神經網絡預測模型的RMSE分別為1.27 g、4.51 g/m2、2.42%、0.76%、0.16 N、0.34 cm3/g,nRMSE分別為10.80%、8.38%、8.00%、5.48%、13.07%、8.74%、9.08%。除統計模型中的拉力模型nRMSE大于20%,模擬效果較差,其余模型模擬效果均較好,其中兩種預測模型中平衡含水率模擬效果最好的且相差不大,RMSE均為0.76%,nRMSE分別為5.58%和5.48%;模擬效果較差的為拉力,nRMSE分別為24.27%和13.07%。

表4 煙葉主要物理特性指標不同預測模型的誤差分析
玉溪地區煙葉物理特性表現較好,各指標的標準差與變異系數均較小,除2020年葉片密度、含梗率低于適宜范圍,其他指標均處于適宜范圍內,其中,2019年單葉重和平衡含水率、2020年平衡含水率處于最適宜范圍。就大田期氣象特征來說,云南煙區平均氣溫偏低,降水量中等偏少,日照時數中等;云南玉溪地區2019年平均氣溫、降水量和日照時數長期略低于歷年數據;2020年略高于歷年平均氣溫,但降水量和日照時數仍低于歷年數據,其氣象要素變化趨勢與李震等[21]的研究結果基本一致。其中,各物理特性指標與降水各因子間的相關系數較大,且降水影響因子較多,即降水量是影響該煙區清香型優質煙葉物理特性品質的關鍵因子。
統計算法的各物理特性指標預測模型nRMSE平均值小于15%,平衡含水率的nRMSE僅有5.58%,說明算法構建的預測模型在實際應用中具有一定的可行性,但葉面密度預測模型的RMSE為12.18 g/m2,拉力預測模型的nRMSE為24.27%,預測效果較差,其原因可能有:①生態因子對煙葉物理特性指標的影響是個復雜的系統[22-23],較難通過確定的數學關系式準確描述兩者之間的關系;②除了生態因子外,自身遺傳特性和栽培手段也是影響煙葉物理特性的重要因素[24-25]。神經網絡算法的煙葉物理特性指標預測模型的nRMSE均小于統計算法模型,其平均值小于10%,表明模型模擬效果很好,模擬結果準確。但統計模型中的各參數值具有明顯物理意義,且能夠準確計算出各生態因子對預測模型的相對貢獻率,所以說兩種算法預測煙葉物理特性指標模型各有優勢和劣勢,今后的研究中可以將神經網絡算法更加優化,可以將統計算法與神經網絡算法結合使用,構建出更便于實際應用、模擬效果更好的模型。
基于云南省玉溪市2019—2020年煙葉物理特性與生態因子(氣候、土壤和海拔)相關數據,建立利用多元線性與神經網絡兩種方法分別構建清香型優質煙葉物理特性預測模型,得出以下主要結論。
(1)玉溪地區煙葉物理特性表現較好,各指標的標準差與變異系數均較小,基本處于適宜范圍內,其中,2019年的單葉重和平衡含水率與2020年的平衡含水率處于最適宜范圍;就大田期氣象特征來說,云南煙區平均氣溫偏低,降水量中等偏少,日照時數中等。
(2)氣象因子對玉溪煙葉物理特性的相對貢獻率均超過了土壤、海拔,平均貢獻率約為71%,其中,氣象因子對拉力的相對貢獻率最高,為80%,對填充值的相對貢獻率最低,為52%。
(3)煙葉物理特性神經網絡預測模型的RMSE、nRMSE明顯低于多元線性預測模型,平衡含水率的nRMSE為5.48%,葉面密度、含梗率、填充值的nRMSE低于10%,模擬效果良好。