,,, ,
(1.華東交通大學機電與車輛工程學院,江西南昌 330013;2.江蘇大學食品與生物工程學院,江蘇鎮江 212013;3.贛州出入境檢驗檢疫局,江西贛州 341000)
基于近紅外光譜和LSSVM方法的轉基因大米鑒別研究
郝勇1,2,溫欽華1,羅秋紅3,饒敏3,陳斌2
(1.華東交通大學機電與車輛工程學院,江西南昌 330013;2.江蘇大學食品與生物工程學院,江蘇鎮江 212013;3.贛州出入境檢驗檢疫局,江西贛州 341000)
采用近紅外漫反射光譜結合主成分分析(principal component analysis,PCA)和最小二乘支持向量機(least squares support vector machine,LSSVM)研究轉基因大米的鑒別方法。采用PCA方法分析大米樣品光譜空間分布;不同的光譜預處理方法:5點平滑、多元散射校正(multiplicative scatter correction,MSC)和標準正態變量變換(standard normal variate transformation,SNV)結合LSSVM用于定性判別模型的建立和優化;采用格點搜索方法對LSSVM模型的懲罰因子(c)和徑向基核函數寬度(g)進行優化;正確識別率(correct recognition rate,CRR)用于判別模型的評價。結果表明:MSC結合LSSVM可用于轉基因大米定性判別模型的建立,最優模型的CRR為97.50%。該方法有望成為轉基因食品快速鑒別的一種輔助方法。
近紅外光譜,轉基因大米,主成分分析,最小二乘支持向量機
近些年,轉基因技術得到迅猛發展,大量抗蟲、抗旱及品質改良的轉基因農作物品種問世。中國已成為世界上種植轉基因作物面積最大的國家之一[1-3],轉基因食品對人類健康及生態環境的潛在影響也日益受到人們的普遍關注。世界各國都在加強對轉基因食品的管理,我國政府相關監管部門也在積極努力地修訂和完善轉基因食品安全政策,以加強對轉基因食品安全的管理,因此轉基因食品的快速檢測是十分重要的[4-6]。水稻是我國重要的糧食作物,為全國約2/3的人口提供食物,因此轉基因大米快速檢測方法的研究迫在眉睫。
目前轉基因食品檢測方法主要包括轉基因核酸檢驗法-定性聚合酶鏈反應(polymerase chain reaction,PCR)、適時PCR、熒光定量PCR、多重PCR、基因芯片、等溫核酸擴增及蛋白檢驗法等方法(含印跡法、酶聯免疫吸附、免疫試紙條法)[7-11]。在利用PCR進行檢測時,首先需提取所測目標的高質量DNA基因組并準備合適的引物,再在適宜的反應體系中培養,最后進行凝膠電泳,整個轉基因檢測過程繁瑣、費時、檢測成本高且極易造成交叉污染[12]。上述這些傳統檢測方法均存在類似耗時、高成本等不足,因此,急需探索一種準確、快速、簡便且成本低廉的檢測方法用于轉基因食品的現場快速檢測。
近紅外光譜的波長范圍為780~2500 nm,主要記錄的是有機物分子中一些含氫基團(C-H、O-H、N-H、S-H等)的倍頻和合頻吸收,容易獲得穩定的特征譜圖[13-14]。不同的物質在近紅外區域有特定的、豐富的吸收光譜[15],可以實現復雜物質的定性鑒別和定量分析,具有測試方便、速度快、成本低和無損等優點。近紅外光譜技術已在轉基因作物及轉基因食品的檢測中得到了應用。Aderval[16]等將近紅外光譜技術與SVM-DA(支持向量機-判別分析)和PLS-DA(偏最小二乘-判別分析)方法相結合用于轉基因和非轉基因大豆油的快速鑒別,其中SVM方法的轉基因樣本識別率為90%,PLS-DA方法的識別率為80%;謝麗娟[17]采用近紅外光譜技術結合多種模式識別方法對轉基因番茄進行檢測,轉基因樣本的總體識別率為95.81%;翟亞鋒等[18]應用近紅外光譜技術結合仿生模式識別方法識別轉基因小麥,識別率達到了95.6%;張龍[19]使用近紅外光譜技術結合偏最小二乘法識別轉基因大米(外來基因為OsTCTP和Osmi166),識別率達到了100%;于燕波[20]利用近紅外光譜結合DPLS方法進行轉基因水稻的識別,其中對稻種中含中作321和日本晴轉基因的樣本的識別率為100%,對稻種中含TP309基因樣本的識別率為93.4%。由以上研究可知,基于近紅外的轉基因作物的識別效果與選用的化學計量學算法及轉基因作物所植入的外來基因的類型有關。
本文采用近紅外漫反射光譜技術結合主成分分析法(principal component analysis,PCA)和最小二乘支持向量機(least squares support vector machine,LSSVM)進行抗蟲轉基因大米(含BT基因)判別模型的建立和優化,期望為轉基因大米的快速鑒別提供一種快速準確的參考方法。
1.1材料及儀器
轉基因大米樣本:“Bt汕優63”品系大米 該品系是在原有水稻中導入蘇云金芽胞桿菌(BT)基因使其具有抗蟲特性,由中國檢驗檢疫科學研究院提供;轉基因大米的對照樣本 未導入抗蟲基因的原始品系“汕優63”由市場收集所得;總共收集大米樣本120份,轉基因和非轉基因大米各60份。
MicroNIR 1700型便攜式微型近紅外光譜儀 美國JDSU公司生產,用于大米漫反射光譜的采集。
1.2實驗方法
1.2.1 光譜采集 采用石英玻璃管盛放樣品,裝樣高度約為2 cm,玻璃管直徑與光譜儀圓形檢測窗口相同,檢測時直接將樣品放置于采集窗口進行光譜采集,波長范圍為900~1700 nm。每個樣品采用重復裝樣的方式采集三條光譜,平均光譜作為最終分析光譜。
1.2.2 樣品轉基因成分分析 兩類樣本由贛州出入境檢驗檢疫局采用傳統PCR檢測方法進行驗證。使用CTAB試劑提取樣本水稻基因組DNA,將含有CaMV35S啟動子、NOS終止子和Cry1Ac基因的質粒作為陽性對照,選用對應的引物,然后進行常規PCR擴增并將其擴增產物進行凝膠電泳。實驗結果證實樣本可靠,測試樣本含BT轉基因成分,而原始品系樣本不含抗蟲轉基因成分。
1.3樣品集劃分及光譜預處理
采用Kennard-Stone(KS)方法[21-22]進行樣品集的劃分,將轉基因和非轉基因樣品的光譜分別按2∶1的比例劃分為校正集和測試集,因此兩類樣品的校正集光譜分別有40條,測試集則均各有20條光譜。
在大米樣品光譜的采集過程中,為了消除重復裝樣引起的漫反射光程不一致導致的光譜漂移和噪聲等因素的影響,需要對光譜進行預處理,從而提高校正模型的預測能力。本文采用5點平滑、多元散射校正(multiplicative scatter correction,MSC)[23]和標準正態變量變換(standard normal variate transformation,SNV)[24]3種預處理方法對光譜進行預處理以消除噪聲(隨機誤差)、固體顆粒大小、表面散射以及光程變化等因素對近紅外漫反射光譜的影響。
1.4數據分析及評價指標
PCA是一種常用的數據降維方法,該方法能夠在最大限度地保留光譜原始數據信息的基礎上有效地剔除數據中的冗余信息,便于后續分析。使用PCA對大米樣品的近紅外光譜進行處理,通過光譜主成分的空間分布來判斷能否區分轉基因和非轉基因大米。
LSSVM是基于SVM的一種改進算法。它通過構造損失函數將原SVM中算法的二次尋優變為求解線性方程,其求解速度較快,在各個領域中都得到了廣泛的應用[25-26]。LSSVM方法共有4種核函數進行選擇(包括線性核、多項式核、徑向基函數核和高斯核),其中徑向基函數核(radial basis function,RBF)由于其良好的非線性問題處理能力而被廣泛應用,因此本文使用RBF函數來實現LSSVM建模。
采用正確識別率(correct recognition rate,CRR)對判別模型進行評價。正確識別率可準確的表征定性判別模型的優劣。
CRR計算公式見式(1):
式(1)
CRR越接近于100%,判別模型的精度越高。
2.1大米樣品的近紅外漫反射光譜
轉基因和非轉基因大米的原始近紅外漫反射光譜如圖1所示。從漫反射光譜圖中可知轉基因和非轉基因大米的光譜形狀極其相似,且有部分重疊,肉眼無法從中分辨出是否為轉基因大米。因此需通過光譜預處理方法結合定性判別算法對大米進行定性區分。

圖1 轉基因和非轉基因大米的原始近紅外漫反射光譜
2.2大米光譜的主成分分析
PCA方法能夠在保留原始光譜數據信息的基礎上進行冗余信息的剔除。采用PCA方法對原始大米樣品的近紅外光譜進行處理,樣品前3個主成分空間分布如圖2所示,非轉基因大米和轉基因大米的PCA分布圖中部分樣品互相重疊交織在一起,無法完全分離,而且采用該方法無法準確的計算轉基因和非轉基因大米間的明確界限和CRR值,因此需要進一步采用其它有監督的模式識別方法對樣品進行識別。

圖2 轉基因和非轉基因大米光譜的主成分分布圖
2.3基于最小二乘支持向量機(LSSVM)的轉基因大米定性模型建立
在利用LSSVM方法建立定性模型時,除了核函數的選擇外,需要對算法的懲罰因子(c)和徑向基核函數的寬度(g)進行優化以改善模型的識別效果[27-28]。圖3所示為大米樣品原始光譜采用網格搜索法對c和g的優化示意圖。經優化后的c和g分別為0.177和0.25。

圖3 LSSVM模型參數c和g優化示意圖
采用校正集樣品進行LSSVM模型的建立,測試集樣品用于模型的驗證。在模型構建時,非轉基因大米光譜的目標值定義為1,轉基因大米光譜的目標值則定義為2。分別采用原始光譜、5點平滑、SNV和MSC預處理光譜建立轉基因和非轉基因大米的LSSVM判別模型,并分別對c和g進行優化,計算模型的正確識別率,結果如表1所示。
由表1可知,原始光譜模型的總體正確識別率為95%,其CRR1和CRR2分別為100%和90%。光譜經SNV和MSC方法處理后都得到相同的識別結果,將光譜模型的總體識別率改善為97.5%。然而,采用MSC進行光譜預處理時,需要采用校正集樣品的平均光譜作為理想光譜對未知樣品光譜進行擬合,因此,該方法對未知樣品預處理時充分參考了建模樣品集的光譜信息,模型的預測可靠性和穩定性更好。

表1 最小二乘支持向量機與三種預處理方法結合的識別效果
注:CRR1為非轉基因樣品的識別率;CRR2為轉基因樣品的識別率;CRR為測試集樣品的識別率。

圖4 轉基因和非轉基因大米樣品LSSVM模型識別結果和樣品實際類別比較圖
圖4為測試集樣品光譜經MSC預處理后LS-SVM模型的識別結果和樣品實際類別比較圖,其中22號樣品識別錯誤,將轉基因樣品識別為非轉基因樣本,其余測試樣品均為正確識別。模型對轉基因和非轉基因大米具有較好的識別效果。
論文采用便攜式近紅外光譜儀結合PCA和LS-SVM方法對轉基因大米的快速測定可行性進行了研究,探討了不同光譜預處理方法對模型預測結果的影響。結果表明,PCA方法無法很好地區分轉基因和非轉基因大米,而LSSVM模型的區分效果較好;使用MSC進行光譜預處理,均可以優化LSSVM模型,預測集樣品的總體識別率達到97.5%,其中轉基因和非轉基因樣品的正確識別率分別為100%和95%。近紅外光譜結合LSSVM方法可用于轉基因大米的快速檢測,該方法具有快速、無損、準確以及儀器便攜化的優點,有望為轉基因食品的現場快速鑒別提供參考。
[1]葉敬忠,李華. 關于轉基因技術的綜述與思考[J]. 農業技術經濟,2014(1):11-21.
[2]KOU J P,TANG Q L,ZHANG X F. Agricultural GMO safety administration in China[J]. Journal of Integrative Agriculture,2015,14(11):2157-2165.
[3]CLIVE J. 2014年全球生物技術/轉基因作物商業化發展態勢[J]. 中國生物工程雜志,2015,36(1):1-14.
[4]宋歡,王坤立,許文濤,等. 轉基因食品安全性評價研究進展[J]. 食品科學,2014,135(15):295-303.
[5]HUDSON J. Chapter 27-Genetically modified products and GMO foods:A game of chance?[J]. Developing New Functional Food and Nutraceutical Products,2017(27):481-494.
[6]DUTTA J. Chapter 42-Genetically modified(GM)foods:The food security dilemma[J]. Food Safety in the 21st Century,2017(42):507-514.
[7]王新桐,孫佳芝,高麗麗,等. 轉基因棉花中新霉素磷酸轉移酶(NPTⅡ)雙抗體夾心ELISA定量檢測方法的建立[J]. 農業生物技術學報,2014,22(3):372-379.
[8]張麗,曹應龍,王海英,等. 實時熒光定量PCR(qRT-PCR)檢測轉基因成分的數據分析及其標準化研究[J]. 農業生物技術學報,2015,23(1):126-134.
[9]丁耀魁,沈娟,馬黎黎. 快速檢測試紙條法在大豆轉基因檢測中的應用[J]. 糧油食品科技,2010,18(2):45-46.
[10]魏霜,陳貞,蘆春斌,等. 多重PCR檢測轉基因水稻的轉基因成分[J]. 食品科學,2012,33(12):159-162.
[11]周杰,黃文勝,鄧婷婷,等. 環介導等溫擴增法檢測6種轉基因大豆[J]. 農業生物技術學報,2017,25(2):335-344.
[12]WU G,WU Y,NIE S,et al. Real-time PCR method for detection of the transgenic rice event TT51-1[J]. Food Chemistry,2010,119(1):417-422.
[13]高榮強,范世福. 現代近紅外光譜分析技術的原理及應用[J]. 分析儀器,2002(3):9-12.
[14]石吉勇,胡雪桃,朱瑤迪,等. 基于近紅外光譜技術的醋醅中常見桿菌快速識別[J]. 農業機械學報,2016(2):245-250.
[15]王君,劉蓉. 近紅外光譜技術在液態食品摻假檢測中的應用[J]. 食品工業科技,2016,37(7):374-380,386.
[16]ADERVAL S L,ARNALDO P D S,JESSICA S A. Rapid characterization of transgenic and non-transgenic soybean oils by chemometric methods using NIR spectroscopy[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2013,100(1):115-119.
[17]謝麗娟. 轉基因番茄的可見/近紅外光譜快速無損檢測方法[D]. 杭州:浙江大學,2009.
[18]翟亞鋒,蘇謙,鄔文錦,等. 基于仿生模式識別和近紅外光譜的轉基因小麥快速鑒別方法[J]. 光譜學與光譜分析,2010,30(4):924-928.
[19]ZHANG L,WANG S S,DING Y F. Discrimination of Transgenic Rice Based on Near Infrared Reflectance Spectroscopy and Partial Least Squares Regression Discriminant Analysis[J]. Rice Science,2015,22(5):245-249.
[20]于燕波. 近紅外光譜分析技術在轉基因水稻識別和高油棉籽篩選中的應用研究[D]. 北京:中國農業大學,2014.
[21]李華,王菊香,邢志娜,等. 改進的K/S算法對近紅外光譜模型傳遞影響的研究[J]. 光譜學與光譜分析,2011,31(2):362-365.
[22]HU W H,SUN D W,BLASCO J. Rapid monitoring 1-MCP-induced modulation of sugars accumulation in ripening‘Hayward’ kiwifruit by Vis/NIR hyperspectral imaging[J]. Postharvest Biology and Technology,2017,125(6):168-180.
[23]王動民,紀俊敏,高洪智. 多元散射校正預處理波段對近紅外光譜定標模型的影響[J]. 光譜學與光譜分析,2014,34(9):2387-2390.
[24]樊書祥,黃文倩,李江波,等. LS-SVM的梨可溶性固形物近紅外光譜檢測的特征波長篩選[J]. 光譜學與光譜分析,2014,34(8):2089-2093.
[25]王快妮. 支持向量機魯棒性模型與算法研究[D]. 北京:中國農業大學,2015.
[26]唐舟進,任峰,彭濤,等. 基于迭代誤差補償的混沌時間序列最小二乘支持向量機預測算法[J]. 物理學報,2014,63(5):78-87.
[27]張紅光,楊秦敏,盧建剛. 基于近紅外光譜和最小二乘支持向量機的聚丙烯酰胺類型鑒別[J]. 光譜學與光譜分析,2014(4):972-976.
[28]SUN C,JIAO L C,LIU H Y,et al. New classifier based on compressed dictionary and LS-SVM[J]. Neurocomputing,2016,216(c):617-626.
Studyonidentificationofgeneticallymodifiedricebyusingnear-infraredspectroscopycombinedwithLSSVM
HAOYong1,2,WENQin-hua1,LUOQiu-hong3,RAOMin3,CHENBin2
(1.School of Mechanotronics & Vehicle Engineering,East China Jiaotong University,Nanchang 330013,China;2.School of Food and Biological Engineering,Jiangsu University,Zhenjiang 212013,China;3.Ganzhou Entry-Exit Inspection and Quarantine Bureau,Ganzhou 341000,China)
Near-infrared diffuse reflectance spectroscopy(NIDRS)combined with principal component analysis(PCA)and least squares support vector machine(LSSVM)were used for the identification of transgenic rice. PCA was used to analyze the spectral spatial distribution of rice. Different spectral preprocessing methods including 5-point smoothing,multivariate scatter correction(MSC)and standard normal variate transformation(SNV)combined with LSSVM were used to build and optimize qualitative models. The grid search algorithm was employed to obtain the optimal solution of the penalty factor(c)and the parameters gamma(g)of RBF kernel. The correct recognition rate(CRR)were used to evaluate models. The results showed that MSC combined with LSSVM could be used to establish the qualitative identification model of transgenic rice. The CRR of the optimal model was 97.50%. The method was expected to be an auxiliary method for rapid detection of genetically modified foods.
near-infrared spectroscopy(NIRS);genetically modified rice;principal component analysis(PCA);least squares support vector machine(LSSVM)
2017-04-28
郝勇(1978-),男,博士,副教授,主要從事智能光電無損檢測方面的研究,E-mail:haonm@163.com。
國家自然科學基金項目(21265006)。
TS201.1
A
1002-0306(2017)22-0242-04
10.13386/j.issn1002-0306.2017.22.047