西京學(xué)院理學(xué)院 李建輝 章培軍 任水利
由于中藥材的道地性,鑒別藥材的產(chǎn)地在藥材品質(zhì)鑒別中尤為重要。利用不同中藥材表現(xiàn)出的紅外光譜特征,通常可以通過數(shù)據(jù)分析和分?jǐn)?shù)分類算法對光譜數(shù)據(jù)的特征性和差異性進(jìn)行建模與分析,從而對中藥材的產(chǎn)地及類別進(jìn)行鑒別。本文根據(jù)中藥材的紅外光譜數(shù)據(jù),利用Q 型聚類和K 近鄰算法給出了中藥材的類別和產(chǎn)地的鑒別方法,在此基礎(chǔ)上進(jìn)行了實(shí)證分析,驗(yàn)證了理論模型的可靠性。
中藥材的鑒別和質(zhì)量控制具有重要的現(xiàn)實(shí)意義,是保證藥物療效的關(guān)鍵。中藥材由于其加工和炮制工藝復(fù)雜,導(dǎo)致其外觀容易使人混淆。相同中藥材在不同產(chǎn)地其化學(xué)成分、有機(jī)物的存在具有差異性。在近紅外、中紅外的照射下,不同種類和產(chǎn)地的中藥材也會表現(xiàn)出不同的光譜特征。因此,可利用這特性對其進(jìn)行鑒別,利用中藥材的紅外光譜所表現(xiàn)出來的特征和差異性來解決中藥材的產(chǎn)地和類別的鑒別問題是一中較為科學(xué)的手段。學(xué)者們對相關(guān)問題進(jìn)行了研究,取得一定的成果。劉有菊等(2015)以探索保山市不同產(chǎn)地野生白芨的種類為目的,利用黃外光譜技術(shù)對保山市不同產(chǎn)地野生白芨樣品進(jìn)行了比較和分析。為中藥材市場的鑒別提供技術(shù)支撐和經(jīng)驗(yàn)證據(jù)。劉明地等(2019)運(yùn)用紅外光譜技術(shù)結(jié)合主成分分析和系統(tǒng)聚類分析快速鑒別大葉三七的產(chǎn)地,為中藥材產(chǎn)地鑒別提供了參考。丁海泉等(2020)使用近紅外光譜技術(shù)研究了中藥材鑒定和在線質(zhì)量控制兩類問題,以中成藥制劑在線生產(chǎn)的不同環(huán)節(jié)為區(qū)分點(diǎn),為近紅外光譜技術(shù)在中藥材鑒定和品質(zhì)控制中的應(yīng)用提供參考和方向。本文在前任研究的基礎(chǔ)上,對不同中藥材的吸光度以及波數(shù)進(jìn)行數(shù)據(jù)分析,通過研究表現(xiàn)出不同光譜差異性,利用Q 型聚類分析和k 近鄰算法對中藥材進(jìn)行分析并給出中藥材的鑒別方法。本文是2021 年中國大學(xué)生數(shù)學(xué)建模競賽E 題的再研究,也是科學(xué)研究與科學(xué)技術(shù)反哺教學(xué)重要途徑。
根據(jù)中紅外光譜數(shù)據(jù)可以分析不同類別中藥材的特征和差異性,其中數(shù)據(jù)較大且個別樣本數(shù)據(jù)缺失,可采用Q 型聚類分析,即對多個樣本進(jìn)行定量分類。下面給出算法步驟:

根據(jù)以上算法對中紅外光譜數(shù)據(jù)進(jìn)行計(jì)算和分析,可以得到不同類別中藥材的特征和差異性,進(jìn)而對中藥材進(jìn)行分類。
分析某一種中藥材的中紅外光譜特征,通過K 近鄰算法的分類原理給出同一種中藥材的不同產(chǎn)地的鑒別方法。具體的步驟如下:


對某一種中藥材的近紅外和中紅外光譜進(jìn)行數(shù)據(jù)分析,使用距離判別分析法,給出中藥材的產(chǎn)地鑒定結(jié)果。以下為距離判別分析算法的步驟:
Step1. 對數(shù)據(jù)進(jìn)行判別分析,可以采用距離判別法,假設(shè)x
,y
是從均值μ
,協(xié)方差為Σ
的總體A
中抽取的樣本,其中樣本x
與總體A
的距離和總體A
內(nèi)的兩點(diǎn)x
,y
的距離都用馬氏距離來度量。進(jìn)行計(jì)算,其中W
是d
階對稱方陣,w
是d
的維權(quán)向量。
本節(jié)使用基于紅外光譜分析的中藥材類別與產(chǎn)地的鑒別算法,針對中藥材的紅外光譜數(shù)據(jù),對其類別和產(chǎn)地分別進(jìn)行鑒別。數(shù)據(jù)來源于2021 年中國大學(xué)生數(shù)學(xué)建模競賽E 題中給定中藥材紅外光譜數(shù)據(jù)。
對樣本容量為425,光譜的波數(shù)為3448 的中藥材光譜數(shù)據(jù)得到中紅外光譜曲線圖,如圖1 所示。計(jì)算相關(guān)系數(shù)導(dǎo)出的距離,按最長距離法聚類并繪制聚類圖,如圖2 所示。使用Q 聚類算法分析不同中藥材的中紅外光譜特征,可將樣本大致分為兩類,對較為集中的一類在進(jìn)行細(xì)致劃分,以標(biāo)準(zhǔn)化歐氏距離為準(zhǔn)則,當(dāng)標(biāo)準(zhǔn)歐氏距離的數(shù)值為0.2 時可以將數(shù)據(jù)分為A、B、C、D、E、F,共6 類,詳情如圖3 所示。

圖1 中藥材中紅外光譜曲線圖Fig.1 Mid-infrared spectrum curve of Chinese herbal medicines

圖2 中紅外光譜聚類樹形圖Fig.2 Mid-infrared spectrum clustering tree diagram

圖3 中藥材中紅外光譜分類曲線圖Fig.3 Classification curve of Chinese herbal medicines by mid-infrared spectroscopy
對樣本容量為673,光譜的波數(shù)為3448,來自于10產(chǎn)地的中藥材光譜數(shù)據(jù),根據(jù)K 近鄰算法分析紅外光譜數(shù)據(jù),判斷藥材在不同產(chǎn)地存在差異。針對中藥材的中紅外光譜的數(shù)據(jù)信息的差異性,得到不同產(chǎn)地的藥材鑒定結(jié)果如表1 所示。

表1 某一種藥材不同產(chǎn)地鑒別結(jié)果Tab.1 Identification results of a certain medicinal material from different origins
對樣本容量為399,光譜的波數(shù)為3448,來自于16個產(chǎn)地的3 種不同中藥材光譜數(shù)據(jù),主要以K 近鄰算法結(jié)合距離判別分析法對幾種中藥材的近紅外光譜數(shù)據(jù)進(jìn)行分析,鑒別藥材的類別和產(chǎn)地,如表2 所示,可將藥材劃分成A、B、C 三類。

表2 幾種藥材類別及不同產(chǎn)地鑒別結(jié)果Tab.2 Different types of medicinal materials and identification results of different origins
而運(yùn)用K 近鄰分別計(jì)算這幾種中藥材的類別和產(chǎn)地,鑒別結(jié)果如表3 所示。經(jīng)過測試和分析,可知兩種方法計(jì)算所得的產(chǎn)地存在差異,判別分析計(jì)算產(chǎn)地的誤判率為11.46%,而K 近鄰算法的準(zhǔn)確率為100%,因此以K近鄰法的計(jì)算結(jié)果為準(zhǔn)。

表3 K 近鄰算法鑒別結(jié)果Tab.3 K-nearest neighbor algorithm identification results
為確保數(shù)據(jù)準(zhǔn)確性,對算法進(jìn)行靈敏度分析,如表4所示。從表4 可知,算法較為穩(wěn)定。通過對不同方法的鑒定結(jié)果進(jìn)行對比分析,可以依次鑒別藥材的類別和產(chǎn)地,結(jié)果如表5 所示。

表4 不同K 值的產(chǎn)地鑒別結(jié)果Tab.4 Origin identification results of different K values

表5 幾種藥材類別及不同產(chǎn)地鑒別結(jié)果Tab.5 Different types of medicinal materials and identification results of different origins
中藥材的紅外光譜數(shù)據(jù)反應(yīng)了中藥材的特征,通過數(shù)據(jù)可視化判斷吸收峰的峰高和峰面積的變化趨勢,結(jié)合聚類分析更好的對中藥材劃分種類。而K 近鄰算法的運(yùn)用,使得模型更加可靠,準(zhǔn)確率更高,能夠有效鑒別所給出的中藥材的不同產(chǎn)地。
引用
[1] 劉有菊,楊慶辭,王濤,等.保山市不同產(chǎn)地野生白芨的紅外光譜對比分析[J].中國科技信息,2015(15):19-20.
[2] 劉明地,宋萍,王博.基于大葉三七紅外光譜系統(tǒng)聚類分析的產(chǎn)地鑒別[J].華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,53(2):222-228.
[3] 丁海泉,高洪智,劉振堯.近紅外光譜分析技術(shù)在中藥材鑒定和質(zhì)量控制中的研究進(jìn)展[J].現(xiàn)代農(nóng)業(yè)裝備,2020,41(3):11-16.