楊增沖++劉桂禮++李響

摘要:使用傳統的聚合酶鏈反應技術檢測番茄(Lycopersicon esculentum Mill.)植株是否有黃化曲葉病的抗病基因,進而確定植株是否具有抗病性;采集鑒定后的植株葉片的近紅外漫反射光譜,采用多種方法對原始光譜進行預處理,并將不同預處理后的數據以及原始光譜作為輸入,利用支持向量機建立抗病性的識別模型。采用標準正態變量變換和去趨勢算法預處理后所建立的模型對預測集的識別準確率可以達到96.153 8%。表明通過近紅外光譜技術可以識別番茄植株對黃化曲葉病是否具有抗病性。
關鍵詞:番茄(Lycopersicon esculentum Mill.)黃化曲葉病;抗病性;近紅外光譜;光譜預處理;支持向量機
中圖分類號:S123;O657.33 文獻標識碼:A 文章編號:0439-8114(2017)05-0953-04
DOI:10.14088/j.cnki.issn0439-8114.2017.05.042
Study of Identifying Tomato Yellow Leaf Curl Disease Resistance Based on Near-infrared Spectroscopy Analysis Technique
YANG Zeng-chong,LIU Gui-li,LI Xiang
(School of Instrument Science and Opto Electronics Engineering,Beijing Information Science & Technology University,Beijing 100192,China)
Abstract: Gene of tomato(Lycopersicon esculentum Mill.) yellow leaf curl disease resistance has been detected by using polymerase chain reaction. This method is widely used to determine the disease resistance of tomato plants. The near-infrared diffuse reflectance spectroscopy of the identified samples was collected. Then the original data and the data preprocessed by different methods are used as the input of Support Vector Machine(SVM) to build the model to judge whether a tomato plant is resistant to the disease. Experimental results show that the model which used the correction method of Standard Normal Variate and Detrending had the best performance and the recognition accuracy of the test set can reach 96.153 8%. The result proves that it is feasible to identify the resistance of Tomato Yellow Leaf Curl Disease by Near Infrared Spectroscopy.
Key words: tomato (Lycopersicon esculentum Mill.) yellow leaf curl disease;resistance;NIR;spectral pretreatment;SVM
番茄(Lycopersicon esculentum Mill.)因其營養豐富、高產等特點已經成為中國乃至世界上的重要農作物之一。番茄黃化曲葉病(TYLCD)會使番茄幼苗生長緩慢甚至停滯,后期感染這種病也會影響果實的產量和品質,甚至造成絕收,已成為限制番茄生產的重要病害之一[1]。黃化曲葉病病毒(TYCLV)自然條件下通過煙粉虱傳播和擴散,煙粉虱繁殖能力強,寄主廣泛,易產生抗藥性,難以從寄主方面阻止病毒的傳播和擴散。再加上TYCLD易爆發、擴散迅速[2],選取具有抗病性的番茄植株進行精細化的栽培能夠保障植株后期的發育成長,保證番茄的產量和經濟收益。
國內外已經針對番茄黃化曲葉病抗病性的鑒定提出了多種方法,如嫁接接種鑒定、農桿菌接種鑒定、基因槍轟擊法接種鑒定、煙粉虱浸染接種、田間自然接種等[3],但這些方法都相對費時或者費力,不能夠在大面積栽培前鑒定幼苗的抗病性。目前,廣泛采用的聚合酶鏈反應技術(PCR)經過對番茄DNA的提取、酶切、擴增、電泳、凝膠等步驟,能夠標記識別番茄抗TYCLV的抗病基因,完成對植株是否具有抗TYCLV特性的識別,可靠性強[4]。雖然該技術結果可靠,但其過程繁瑣,對操作者有較高的技術要求,所用部分試劑對人體有危害,仍然存在耗時、污染環境的缺陷。
近紅外光譜分析技術(NIR)能夠快速、無損、高效的對樣品進行定量或定性地檢測識別,已經被廣泛用于食品、農業、醫學等眾多領域。在農業上,利用NIR技術可以測定油菜種子的品質[5],實現對番茄葉片灰霉病病害程度準確、快速的檢測[6],識別番茄細菌性葉斑病的病害程度[7]。但在國內應用NIR識別番茄植株抗病性的研究鮮見報道。通過PCR技術檢測番茄黃化曲葉病的抗病基因,證明抗病基因存在的同時,番茄抗病基因能夠在其光譜特征曲線上體現[8],通過光譜分析技術識別番茄光譜特征曲線上的差異,實現對番茄抗病性的識別。本研究以北京市農林科學院蔬菜研究中心培育的番茄品種佳紅4號為對象,利用NIR技術對番茄黃化曲葉病抗病性進行初步分類研究,獲得了良好的分類效果,為番茄選育提供一種新的有效檢測手段,進而降低農戶的種植風險,保障其經濟收益。
1 材料與方法
1.1 試驗材料
采用荷蘭愛萬提斯生產的近紅外光譜儀,型號為AvaSpec-NIR256-1.7。配套使用的光源為Avalight-HAL,波長范圍360~2 500 nm。采用的光纖是標準型反射探頭FCR-71R400-2-ME,參考瓦為WS-2。所用番茄植株為北京市農林科學院蔬菜研究中心培育的佳紅4號。
1.2 試驗方法
1.2.1 光譜采集 植物的冠層葉片在很大程度上反映植株的健康程度,而抗病性檢測是分析番茄植株因基因差異所產生的最本質的不同,無論冠層還是其他葉片,抗病與感病植株之間的差異都會存在。若只選取冠層葉片,很可能引入反映植株健康程度因子這一干擾,進而影響抗病性識別模型的識別準確度。基于這種考慮,在實際采集番茄葉片的反射光譜時,選取了番茄植株不同部位分別取樣。
在正式開始采集番茄葉片光譜數據前,先對番茄植株進行PCR檢測,判斷植株有無抗性基因(Ty-1、Ty-3a),以此結果作為后期建模和預測時的分類真值。每棵植株不同部位取2~3片葉,共采集了234個葉片樣本,其中具有抗性基因(抗病)的樣本97個,缺少抗性基因(感病)的樣本137個。鑒于番茄葉片也可近似的看作粉狀材料,光譜采集采用漫反射測量法[9]。使用對應的軟件在室溫下采集葉片光譜時,積分時間設置為10 ms,平均掃描數設定為2(即所得光譜是2次掃描的平均值)。對已經測得的光譜按2∶1劃分成訓練集和預測集,其中訓練集156個樣本(感病樣本92個、抗病樣本64個),預測集78個樣本(感病樣本45個、抗病樣本33個)。
1.2.2 數據預處理及建模 由于是漫反射測量,為了消除葉片化學成分濃度和物理特性(固體顆粒大小、表面散射、厚度等)的影響,采用多元散射校正法(MSC)、標準正態變量變換法(SNV)以及標準正態變量變換和去趨勢算法(Detrending)相結合分別對原始光譜進行預處理,原始光譜以及預處理后的光譜如圖1所示。利用支持向量機(SVM)模式識別與回歸的軟件包LIBSVM對訓練集和預測集進行建模和預測[10],選用徑向基函數K(xi,xj)=exp{-?酌||xi-xj||2}為內核。SVM需要解決以下優化問題[11]:
■=■wTw+c■ξi
s.t.yi(wTxi+b)≥1-ξiξi≥0,i=1,…,n
其中,w為權向量,c為懲罰因子,ξ為松弛變量,xi為第i個番茄樣本的近紅外光譜數據,yi∈{-1,1}為第i個番茄樣本的所屬類別(感病樣本為“-1”,抗病樣本為“1”),b為分類閾值。懲罰因子c起到對錯分樣本懲罰程度控制的作用,實現在錯分樣本的比例和算法復雜程度之間的“折衷”,核函數參數 γ的改變實際上是隱含地改變映射函數,從而改變樣本數據子空間分布的復雜程度[12]。
通過網格搜索法并結合交叉驗證法選擇出最佳的懲罰參數c和參數γ,基本思想是將訓練集作為原始數據,利用K重交叉驗證的方法得到分類準確率最高的那組c和γ作為最佳的參數。對于多組最佳參數的處理則是優先選取首次搜索到的參數c最小的那組,以有效地防止過學習狀態的發生[13]。
2 結果與分析
將原始光譜以及不同預處理后的光譜作為輸入,依據網格搜索法,得到最優的模型參數c、γ,并逐步減小搜索范圍,取得不同范圍下的最優參數,建立模型并對訓練集和預測集進行預測,不同預處理后不同參數下,交叉驗證后的平均分類準確率以及模型對訓練集和預測集的預測結果如表1所示。由于SVM分類器的支持向量的數目越小,分類器的泛化能力就越強[14],最后選擇支持向量機分類誤差較小且支持向量數目較少的SVM參數對應的分類模型為最優模型[15]。
由表1可以看出,以原始光譜數據輸入建立的模型,支持向量數較大,預測準確率較低,對番茄TYCLV的抗病性識別度不高。經MSC處理后建立的模型,隨著懲罰因子c的增加,支持向量數隨之減少,預測的準確度有小范圍的浮動,當c=256時,支持向量數最小,有出現過學習的趨勢。與MSC預處理后的模型相比,SNV預處理后建立的模型,懲罰因子c有所減小,預測準確率有所提高。經人為選取c=16、γ=2鄰近范圍的其他參數組合后確認,模型在c=16、γ=2預測準確率最高。光譜經過SNV & Detrending處理后,無論是交叉驗證后的平均分類準確率、支持向量數還是對訓練集和預測集的分類準確率,都要優于前2種模型,模型的性能最好。所以對光譜的預處理方法,SNV & Detrending效果最好,以其預處理后的光譜輸入構建的模型在c=84.448 5、γ=1時,對樣本的分類最為準確,模型的泛化能力也最好。
3 小結與討論
研究以PCR檢測的TYCLV抗性結果為參考值,使用SNV與Detrending相結合的方法對光譜進行預處理,建立的SVM模型對番茄抗病性的預測準確率達到了96.153 8%,初步實現了利用近紅外光譜分析技術識別番茄植株對于黃化曲葉病是否具有抗病性。由于抗性基因的不同、番茄品種的差異,番茄植株對TYCLV的抗病性表現也不同。下一步繼續研究不同基因組合或不同品種下,利用NIR技術對TYCLV的抗病性識別效果。
參考文獻:
[1] 葉青靜,楊悅儉,王榮青,等.番茄抗黃化曲葉病育種研究進展[J].中國農業科學,2009,42(4):1230-1242.
[2] 李小靖,葉志彪.我國番茄黃化曲葉病發生規律和研究進展[J].長江蔬菜,2010(2):1-5.
[3] 葉青靜,周國治,王榮青,等.番茄黃化曲葉病毒病抗性鑒定技術研究[J].分子植物育種,2011,9(2):210-217.
[4] 魏光普,孫瑞芬,尚春明,等.番茄黃化曲葉病毒病抗病基因的PCR檢測[J].種子,2013,32(8):25-27,32.
[5] 朱文秀,趙繼獻,張 品,等.近紅外光譜分析與化學方法檢測油菜種子品質參數的比較[J].安徽農學通報(上半月刊),2010, 16(17):182-183,185.
[6] 吳 迪,馮 雷,張傳清,等.基于可見/近紅外光譜技術的番茄葉片灰霉病檢測研究[J].光譜學與光譜分析,2007,27(11):2208-2211.
[7] JONES C D,JONES J B,LEE W S. Diagnosis of bacterial spot of tomato using spectral signatures[J].Computers and Electronics in Agriculture,2010,74(2):329-335.
[8] 劉興庫,李兆華.多光譜診斷植物病害的初步研究[J].東北林業大學學報,1993,21(2):106-110.
[9] 李民贊.光譜分析技術及其應用[M].北京:科學出版社,2006.
[10] 張小超,吳靜珠,徐 云.近紅外光譜分析技術及其在現代農業中的應用[M].北京:電子工業出版社,2012.
[11] HSU C W,CHAN C C,LIN C J. A practical guide to support vector classification[EB/OL].https://www.csie.ntu.edu.tw/~cjlin/libsvm/,2010-04-15.
[12] 王 睿.關于支持向量機參數選擇方法分析[J].重慶師范大學學報(自然科學版),2007,24(2):36-38,42.
[13] 王小川,史 峰,郁 磊,等.MATLAB神經網絡43個案例分析[M].北京:北京航空航天大學出版社,2013.
[14] NELLO CRISTIANINI,JOHN SHAWE-TAYLOR,李國正,等.支持向量機導論[M].北京:電子工業出版社,2004.
[15] 康松林,周玖玖,李 瓊.入侵檢測中支持向量機參數選擇方法[J].中國科技論文,2012,7(10):762-765.