丁學利 戚昌盛 房麗












摘 要:基于某種中藥材的中紅外和近紅外兩種光譜數據,首先運用標準差法分別提取特征波段,將兩種紅外光譜的特征波段數據合并后,采用Fisher判別分析法對245個已知產地的藥材樣本進行訓練,預測了10個未知產地的藥材樣本,判別正確率達到了98.4%,對待判組進行了合理的分類。該研究對具有不同紅外光譜特征、不同產地的中藥材提供了一個快速有效的識別方法。
關鍵詞:Fisher判別分析;紅外光譜;中藥材鑒別;SPSS
中圖分類號:Q949;O212? 文獻標識碼:A? 文章編號:1673-260X(2021)11-0019-04
中藥材的準確鑒別是質量管控的前提,也是安全用藥的保證。近紅外和中紅外光譜分析是一種操作簡單、無損且成本低的分析技術,一直得到中藥材鑒別工作者或研究者的廣泛關注[1-6]。如利用近紅外光譜與模式識別技術可鑒別多種根莖類中藥材[3];采用近紅外光譜一致性檢驗法,可準確鑒別出不同廠家的藥品真偽[4];運用化學計量學結合中紅外光譜可實現對不同產地的中藥材的鑒定與分析[5];采用中紅外光譜數據可對不同產地的金銀花進行快速、準確分類[6]。上述研究大多是對某一種紅外光譜數據的分析(近紅外或中紅外光譜),很少有對兩種紅外光譜數據的綜合分析。本研究將綜合考慮近紅外和中紅外光譜數據的特征,采用Fisher判別分析實現對中藥材的樣本的分類識別,以期為不同產地且具有多種光譜特征的中藥材的鑒別提供一種快速、準確的鑒別參考。
1 數據來源與分析
1.1 數據來源
本研究的數據來自2021年高教社杯全國大學生數學建模競賽[7]E題附件3。附件3中有近紅外和中紅外兩種光譜數據,如表1和表2所示。在表1和表2中No列為藥材的編號,OP列表示該種藥材的產地,其余各列第一行的數據為光譜的波數(單位cm)、第二行以后的數據表示該行編號的藥材在對應波段光譜照射下的吸光度(單位AU)。245個中藥材樣本的產地(產地編號1~17)是已知的,還有10個中藥材樣本的產地是未知的。近紅外的波數范圍4004~10000,其中波段7002缺失,共有5996個波段。中紅外的波數范圍552~3999,共有3448個波段。
1.2 特征波段提取
近紅外的光譜圖,如圖1所示。在4004~7200的波段范圍,主要出現強譜峰,峰的變化劇烈,此光譜區域含有較多的化學信息。在7200~10000的波段范圍內沒有強峰出現,但光譜受噪聲干擾較大。為了更好地區別樣本,采用標準差法[8]選取特征波段。通過計算每列波段下吸光度的標準差,反映樣本的離散程度,如圖2所示。在圖2近紅外吸光度的標準差曲線的極值點附近選取特征波段,如可選取[4004,4008]、[4290,4294]、[4391,4395]、[4673, 4677]、[4798,4802]、[5180,5184]、[5637,5641]、[5794, 5798]、[6032,6036]、[6487,6491]、[6847,6851]、[9996, 1000],共12組,60個波數。
中紅外的光譜圖,如圖3所示。在552~1825的波段范圍,出現多個強譜峰,而在2660~3600的波段范圍,主要有兩個強譜峰。與近紅外特征波段選法類似,計算中紅外吸光度的標準差,如圖4所示。選取7組特征波段:[1059,1063]、[1111,1115]、[1138,1142]、[1300,1304]、[1720,1724]、[2921,2925]、 [3288,3292]。
2 Fisher判別分析模型
判別分析是通過訓練已給類別的樣本,對需要判別的樣本進行分類的一種統計方法,是一種有監督的分類。Fisher判別法[9-11]是判別分析中經常使用的一種分類方法,其基本思想是投影。設在n維空間中某個樣本點X=(x,x,…,x),尋求一個線性函數p(x)=∑ax,能夠將其降為一維數值的,然后應用函數p(x)把n維空間中的所有樣本(包括待判樣本)都變換為一維數據,再根據樣本之間的距離遠近把待判樣本點分到不同的類別。這里使用了一元方差分析的思想,即采用組間均方差與組內均方差之比最大的原則來進行判別。Fisher判別法可以使同類中各個樣本點之間的差異盡可能地縮小,又能讓不同類別中各個樣本點之間的差異盡量地擴大,從而有效地提高判別效率。
3 Fisher判別分析結果
將近紅外提取的特征波段數據與中紅外提取的特征波段數據一塊導入到SPSS軟件中,以特征波數作為判別分析變量,以OP號作為分組變量。用前245個中藥材樣本作為訓練樣本,后10個樣本作為待測樣本(待測樣本編號:4、15、22、30、34、45、74、114、170、209)進行判別分析。表3和表4是對Fisher判別分析的檢驗結果。由表3知,分組需要16個典則判別函數,其中判別函數1~13在顯著性水平0.05上是顯著的(表4),且前13個判別函數就能解釋整體方差的100%,即前13個判別函數就可很好地對樣本集進行分組,因此可以使用Fisher判別法對此數據集進行分類。
圖5是典則判別函數的散點圖。從圖5可看出,類別5、11、12、13、15、16之間的距離較遠,較容易分類;而有些別類別之間的距離較近(如類別1與14;6與7、10;3與8;4與17等)不易分類,易出現判別錯誤,影響判別的正確率。表5是Fisher判別分析結果,一共判錯4個樣本,綜合正確率達到98.4%。表6是對待測樣本的判別結果,結合圖5知判別結果較理想。
4 結語
針對17種產地的中藥材近紅外和中紅外光譜數據,運用標準差法分別提取12組和7組特征波段,并采用所選波段數據建立了Fisher判別分析模型。若單獨使用近紅外(中紅外)數據進行判別分析,不易得到合理的分類。因此,綜合考慮兩種光譜特征,將兩種光譜數據合并后,判別正確率達到了98.4%,且對待判組進行了合理的分類。該研究對不同產地和不同光譜特征的中藥材鑒別提供了一個快速有效的方法,為其它中藥材的識別提供了一種借鑒。
參考文獻:
〔1〕陳士林,郭寶林,張貴君,等.中藥鑒定學新技術新方法研究進展[J].中國中藥雜志,2012,37(08):1043-1055.
〔2〕李玲,丁野,孫輝,等.三組易混淆中藥材鑒別技術研究進展[J].中國藥師,2015,18(01):1959-1962.
〔3〕岑忠用,雷順新,雷蕾,等.近紅外光譜法鑒別6種根莖類中藥材[J].華中農業大學學報,2021,40(03):271-277.
〔4〕梁華倫,譚昌成,江秀娟,等.近紅外光譜快速鑒別不同廠家小柴胡顆粒研究[J].中醫藥導報,2021,27(01):62-64.
〔5〕安淑靜,王婷,牛豆,等.基于中紅外光譜結合化學計量學對不同產地山茱萸鑒定與分析[J].中醫藥學報,2021,49(08):49-54.
〔6〕龔海燕,羅曉,雷敬衛,等.不同產地金銀花中紅外光譜分析[J].中醫學報,2016,31(01):96-98.
〔7〕2021高教社杯全國大學生數學建模競賽賽題[EB/OL].http://www.mcm.edu.cn/html_cn/nod e/4d73a36cc88b35bd4883c276afe39d89.html,2021 -10-07.
〔8〕褚小立,袁洪福,陸婉珍.近紅外分析中光譜預處理及波長選擇方法進展與應用[J].化學進展,2004,14(04):528-542.
〔9〕褚璇,王偉,張錄達,等.高光譜最優波長選擇及Fisher判別分析法判別玉米顆粒表面黃曲霉毒素[J].光譜學與光譜分析,2014,34(07):1811-1815.
〔10〕錢宇,胡雪,孫躍,等.基于指紋圖譜和化學計量學的濃香型白酒分類研究[J].指揮控制與仿真,2021,40(06):152-156.
〔11〕陳敏瓊.利用SPSS進行判別分析的幾個問題的說明[J].現代計算機(專業版),2015,29(05):34-39.