秦夢潔 丁學利 王靜
摘? 要:2021年全國大學生數學建模競賽E題附件1提供了425個中藥材樣本數據。針對425個中藥材樣本數據,首先采用標準差法提取中紅外光譜的特征波段數據,再使用因子分析對數據進一步降維,最后利用K-均值聚類模型對藥材樣本進行合理的分類。該模型為中藥材的鑒別提供了一個快速有效的方法。
關鍵詞:中藥材鑒別;特征波;因子分析;K-均值聚類
中圖分類號: O212??? ??????文獻標識碼: A??????????? 文章編號:1672-4437(2022)01-0077-04
中醫藥歷史悠久,中藥材的類別、產地會影響藥效,因而中藥材種類和產地的鑒別一直是大眾比較關心的問題。中藥材大多由專業的質檢部門或者擁有豐富經驗的“老藥工”進行鑒別,主要依靠相關人員的知識儲備和經驗,具有較強的不確定性。隨著現代科技的發展,越來越多的技術與方法應用于中藥材品種與產地的鑒別,比如顯微技術及色譜光譜技術等。紅外光譜技術作為一種高新分析技術,具有分析成本低、不破壞樣本、分析速度快等特點。紅外光按照波數(單位為cm)的不同主要分成三種:遠紅外(波數:10-400 cm)、中紅外(波數:400-4000 cm)、近紅外(波數:4000-14000 cm)。
通過對紅外光譜進行分析可以快速對中藥材進行分類,目前藥材鑒別分類的方法大致可以分為有監督的分類和無監督的分類兩種。有監督的分類常用方法有K-鄰近法、BP神經網絡、支持向量機SVM等。其中K-鄰近法的結果容易受噪聲數據的影響,BP神經網絡的收斂速度慢并且存在局部極小問題,SVM算法對大數據集難以實施且很難解決多分類問題。無監督的分類方法主要是聚類分析,聚類分析包括層次聚類、劃分聚類和K-均值聚類等。其中K-均值聚類具有簡單、高效的顯著特點,且該方法對大數據集也具備較好的處理能力。由于紅外光譜數據量大、冗余度高,單獨使用無監督的分類方法,效果較差。因此本文考慮先利用因子分析降維,再用K-均值聚類分析對中藥材進行合理分類。
1 數據來源與分析
1.1數據預處理
本研究的數據來源于2021年全國大學生數學建模競賽E題的附件1。附件1提供了425個中藥材樣本(No表示藥材編號)數據,分別記錄了每個樣本在波數652-3999cm下的吸光度(見表1)。圖1是425個中紅外光譜數據的曲線圖。從圖1可以看出3個樣本的吸光度數值過高,明顯不符合該藥材的光譜特征。通過篩查確定異常數據編號為64、136和201的藥材,將異常數據剔除,剔除后的光譜數據曲線如圖2所示。
1.2 特征波段選取
本研究將波數視為指標變量,可以發現數據中所給的波數多達3348條,并且所給波數是連續不間斷的,這就需要充分挖掘數據,提取特征波進行降維處理。從圖2可以看出強譜峰出現在652~1780cm區域,這主要與藥材所含官能團有關,也就是說在652~1780cm這個區間里存在較多的化學信息,即652~1780cm的波數內存在較多的特征波段。
在同一波數下,標準差越大,說明數據波動越大,樣本間的差異越大,也就是說該波數可以作為特征波數提取出來。將不同波數下的吸光度標準差繪制成散點圖,如圖3所示。圖3極大值點所對應的波數(單位為cm)分別為:652、758、1030、1048、1245、1383、1463、1734、2850、2918、3274,將這11個波數視為特征波段。
2 因子-聚類分析模型
2.1 因子分析
因子分析是把多個變量歸納為少數幾個綜合因子,使得這些綜合因子所包含的信息無重疊,從而實現降維的目的。因子分析之前必須對原變量進行相關性檢驗,可以采用KMO檢驗和Bartlett球形檢驗。然后根據累積貢獻率提取主因子,計算因子得分和綜合得分。
2.2 聚類分析
聚類分析是一種無監督的分類方法,它將具有相同或相似性質的事物歸為一類,性質差距較大的事物歸入不同類的一種分析方法。
因子-聚類分析本質上就是因子分析和K-均值聚類的綜合,首先需要提取主因子,計算因子得分和綜合得分。再將綜合得分作為分析變量,使用K-均值聚類模型對中藥材進行鑒別分類。這種因子-聚類分析模型很大程度上提高了分類的準確性,為中藥材的鑒別提供了一種新思路。
3 結果分析
3.1 因子分析結果
將11個特征波段分別記為變量,,…,,做因子分析。在做因子分析之前需要判斷一下該數據是否可以進行因子分析,將11個特征波段的吸光度數據導入SPSS軟件,進行相關系數以及KMO和Bartlett球形檢驗,檢驗結果見表2。
從KMO和Bartlett檢驗結果可以看到KMO值為0.865>0.5,顯著性Sig值為0.000,說明可以對其進行因子分析。因子分析的結果見表3和圖4。
表3為總方差解釋表,可以看出前2個主因子的累積貢獻率達到了95.219%,也就是說基本上保留了原數據的大部分信息。
圖4為碎石圖,由圖4可以看出第一個因子的特征值最高,對解釋原有變量的貢獻最大,第二個以后的因子特征值都比較小,對解釋原有變量的貢獻較小。
由表2和圖4,可知用2個主因子來代替11個變量是可行的。記F為第一主因子,F為第二主因子,其表達式為:
F=0.321+0.318+0.327+0.326+0.311+0.296+0.251+0.317+0.299+0.350+0.266(1)
F=0.066-0.233-0.037+0.043-0.281-0.352-0.499+0.192+0.346+0.308+0.485(2)
綜合得分F=0.820F+0.132F。
利用Matlab軟件計算主因子F和F得分以及綜合得分F,結果見表4(由于藥材樣本數量過大,本文只展示部分結果)。
3.2 聚類分析結果
以因子分析的綜合得分F為分類變量進行K-均值聚類分析。K-均值聚類中分類數K值的選取至關重要,很多情況下K值是人為直接給出的,不合適的K值會導致分類結果過“粗”或者過“細”,無法達到理想的分類效果。可考慮采用平均輪廓值作為選取最佳K值的標準,平均輪廓值越大,聚類的結果越準確。不同類別對應的平均輪廓值,如圖5所示。
由圖5可知,當類別數為2時輪廓值最高,但是分為2類過于籠統,實際意義不大。當分為3類時輪廓值相對較大,因此將K值定為3。接著以綜合得分F作為分類變量,使用K-均值聚類模型對樣本進行分類。選取3個初始聚類中心,可以得到每個類別下的藥材樣本編號,繪制三類藥材光譜曲線圖,如圖6所示。
對比三幅光譜曲線圖可以看出,三種光譜曲線的差異性還是比較明顯的。具體特征如下:
(1)當波數在652-1780cm時,第一類的吸光峰個數明顯較多,并且吸光峰強度較大(峰值介于0.2 AU和0.4 AU之間);第二類的吸光峰個數也比較多,但是吸光峰強度較小(峰值小于0.2 AU);第三類存在一個比較明顯的強吸光峰(峰值接近0.4 AU),其余吸光峰的強度都較小。
(2)當波數在2800-3600cm時,第一類有3個吸光峰(2個尖峰,1個坡峰);第二類有2個吸光峰(1個尖峰,1個坡峰);第三類有3個吸光峰(2個尖峰,1個坡峰)且峰的強度明顯高于前兩類峰的強度。
4 結論
針對中藥材鑒別問題,首先采用標準差提取特征波段對原數據進行第一輪降維,再用因子分析提取公因子計算綜合得分,對數據進行第二輪降維。最后使用無監督的分類方法K-均值聚類模型對藥材進行合理分類,這為不同種類的中藥材鑒別提供了一種快捷、高效的方法。但是對某些差異性較小的藥材或者不合格藥材進行鑒別時可能比較困難,今后需進一步分析光譜特征,改進鑒別模型,提高鑒別精度。
參考文獻:
[1]王彬,郭文鑫,劉文濤,等.基于K-鄰近法的電網關鍵斷面在線分布式發現方法[J].電力系統保護與控制,2019,47(07):113-118.
[2]王麗瓊,范琦,易珍奎,等.HPLC指紋圖譜結合反向傳播人工神經網絡和判別分析鑒定不同的麻黃藥材[J].西南師范大學學報(自然科學版), 2012,37(05):73-77.
[3]李懷寶,李紅,婁小平,等.基于支持向量機的光纖光柵反射光譜類型識別方法研究[J].計算機應用與軟件,
[4]楊秀璋,武帥,張苗,等.基于層次聚類和社交網絡的貴州旅游發展文獻主題挖掘[J].現代計算機,2021,27(23):79-85,90.
[5]黃學雨,向馳,陶濤.基于MapReduce和改進密度峰值的劃分聚類算法[J].計算機應用研究,2021,38(10):2988-2933,3024.
[6]王志遠,孫鵬菊,王海波,等.基于聚類分類算法的IGBT健康狀態分類研究[J].電工電能新技術,2021,40(11):1-8.
[7]徐琳,何洪源,劉翠梅,等.芬太尼類物質的振動光譜特征分析研究[J].光譜學與光譜分析,2021,41(09):2829-2834.