謝文涌 柴琴琴 林旎 李祥輝 王武



摘要:?以中草藥中所含成分馬兜鈴酸及其類似物為研究對象,針對傳統中藥鑒定存在的主觀性強、操作復雜等不足以及單一機器學習模型鑒別精度不高的問題,提出多模型融合的Stacking集成學習分類模型,用來實現馬兜鈴酸及其類似物的鑒別。采集馬兜鈴酸、1,10-菲咯啉-4,7-二甲酸、菲醌、β-谷甾醇4種樣品的近紅外光譜數據,對其進行數據預處理與主成分分析降維,基于降維后的數據特征,通過遍歷搜索策略構建了以隨機森林、支持向量機、樸素貝葉斯為基分類器,隨機森林為元分類器的Stacking集成學習分類模型。結果表明,Stacking集成學習分類模型具有最佳表現性能,鑒別正確率最高達到99.38%,比K最近鄰、決策樹、隨機森林、支持向量機、樸素貝葉斯分類模型的平均鑒別正確率高8.23個百分點,并且在精確率、召回率、綜合評價指標(F1值)方面有優異表現。綜上可見,本研究提出的Stacking集成學習分類模型能夠快速有效地鑒別馬兜鈴酸及其類似物。
關鍵詞:?馬兜鈴酸;近紅外光譜;主成分分析;Stacking集成學習
中圖分類號:?TP391??文獻標識碼:?A??文章編號:?1000-4440(2021)02-0503-06
Abstract:?Aristolochic acid and its analogues contained in Chinese herbal medicine were taken as the research objects. Classification model based on Stacking ensemble-learning with multi-model fusion was proposed to identify aristolochic acid and its analogues, aiming at the shortcomings in traditional Chinese medicine identification such as strong subjectivity, complex operations and low accuracy of single classifier model. The near-infrared spectroscopy data of aristolochic acid, 1,10-phenanthroline-4,7-dicarboxylic acid, phenanthraquinone and β-sitosterol samples were collected. The data were preprocessed and principal component analysis was used to reduce dimensionality. Stacking ensemble-learning model was constructed through traversal search strategies based on the data features after dimensionality reduction, with random forest (RF), support vector machine (SVM), naive bayes (NB) as base classifiers and RF as meta classifier. The results showed that classification model based on Stacking ensemble-learning showed the best performance, with a discrimination accuracy rate of 99.38%, which was 8.23 percentage point higher than the average discrimination accuracy rate of classification models like K nearest, decision tree, RF, SVM and NB. Moreover, the proposed method showed excellent performance in precision, recall ratio and comprehensive evaluation index (F1 score). Therefore, the method proposed in this study can quickly and effectively identify aristolochic acid and its analogues.
Key words:?aristolochic acid;near infrared spectroscopy;principal component analysis;Stacking ensemble-learning
關木通、青木香、馬蹄香、細辛等馬兜鈴科的中草藥具有調血壓、抗腫瘤、抗菌、鎮痛、消炎等作用,被廣泛應用于臨床醫學中[1-2]。然而,這些中草藥中含有馬兜鈴酸及其衍生物,長期服用有明顯的腎毒性和致癌性[3]。近年來,國內外發生的多起馬兜鈴酸中毒事件引起了公眾極大的關注。國際癌癥研究中心已經將馬兜鈴酸列為第1類致癌物,多個國家也明確提出要禁止這類中草藥的流通和使用[4]。中國中草藥種類繁多,含有馬兜鈴酸的中成藥就有101種[5],馬兜鈴酸及其類似物在結構上具有很大的相似性,如將馬兜鈴酸誤識別成其類似物用于醫學治療將會造成難以估量的損失。因此,如何準確有效地區分馬兜鈴酸及其類似物,對于維護消費者權益和傳承發展中醫藥具有重大意義。
常用的馬兜鈴酸檢測方法主要有高效液相色譜法、薄層掃描法、熒光分析法、氣相色譜分析法等,這些方法存在主觀性強、靈敏度低、操作過程繁瑣等缺陷[6-7],而近紅外光譜(Near infrared spectroscopy,NIRS)檢測技術[8]具有快速、無損且精度高等特點,因此將該技術與機器學習方法相結合,能有效對中草藥進行定性和定量分析。然而,近紅外光譜數據含有較多冗余信息,需要在建模前對其進行降維處理,以去除無關信息,常用的方法有主成分分析(Principal component analysis,PCA)法[9]、線性判別分析法[10]等。在中草藥鑒別方面,傳統的機器學習方法如K最近鄰(K nearest neighbor,KNN)法[11]、支持向量機(Support vector machine,SVM)法[12]、決策樹(Decision tree,DT)法[13]、極限學習機法[14]、樸素貝葉斯分類器(Naive bayes,NB)法[15]等均要求被測樣本的數據集與訓練樣本的數據集分布一致,其假設的特征分布函數與實際情況最符合。然而,由于中草藥產地、品種多樣,在眾多假設空間中找到一個與實際相符的函數作為分類函數十分困難。由此可見,以上單一分類器往往由于隨機性而導致泛化性能不佳。
為了解決由樣本不確定性帶來的分布函數難以估計的問題,本研究提出了基于分層堆疊式的Stacking集成學習算法[16]。目前,集成學習已經成為機器學習的熱門研究方向之一,集成學習包括并行化集成的Bagging[17]、序列化集成的Boosting[18]和堆疊式集成的Stacking。其中Stacking集成學習由基分類器和元分類器組成,基分類器對原始數據進行訓練預測,元分類器綜合多個基分類器的輸出特征作出最后決策。因此,Stacking集成學習具有更高的模型準確性、魯棒性和整體歸納能力。Stacking集成學習在教育、醫學、社會科學等方面的應用廣泛[19-21]。然而,基分類器和元分類器的組合方式是構造Stacking集成學習的難重點,現有方法大多是對基分類器的多樣性和分類正確率等指標進行權衡來獲得“好而不同”的基分類器[22-23],但是多樣性度量方法多樣,難以找到最佳分類器組合。因此,本研究在基分類器的選擇中設計了遍歷搜索策略,以分類正確率為評價指標選擇Stacking模型的最佳組合方式。
綜上,鑒于目前鮮有關于近紅外光譜技術結合集成學習方法對中草藥進行分類鑒別的研究,本研究使用PCA法進行光譜數據降維,提出基于遍歷搜索策略構建的兩階段Stacking集成學習模型,以期有效提高馬兜鈴酸及其類似物鑒別的精度,解決傳統機器學習模型鑒別效果不佳的問題。
1?材料與方法
1.1?樣品制備
本研究所用樣本為關木通(馬兜鈴酸Ⅰ含量約為0.05%)及其3種馬兜鈴酸類似物(分別為1,10-菲咯啉-4,7-二甲酸、菲醌、β-谷甾醇)。其中,關木通樣品采購于福建省福州市某藥房,1,10-菲咯啉-4,7-二甲酸采購于上海畢得醫藥科技有限公司, 菲醌采購于上海麥克林生化科技有限公司,β-谷甾醇采購于北京索萊寶科技有限公司,藥材關木通經福建醫科大學教授專業認證。將采購的關木通置于中藥粉碎機中粉碎,過60目篩網,得到含馬兜鈴酸的粉末。將上述4種化合物分別與淀粉混合制備成8種質量濃度(1.3×10-3mg/ml、1.2×10-3mg/ml、1.1×10-3mg/ml、1.0×10-3mg/ml、0.9×10-3mg/ml、0.8×10-3mg/ml、0.7×10-3mg/ml、0.6×10-3mg/ml)的中藥制劑樣品,每種質量濃度的中藥制劑制備4個樣本。
1.2?數據采集與劃分
本試驗采用配有高靈敏度InGaAs檢測器、積分球采樣系統及內置自動金箔背景采集方式的ANTARIS 型傅里葉變換近紅外光譜分析儀(Thermo,德國)采集得到樣品的近紅外光譜集。光譜分辨率為8 cm-1,光譜波長掃描范圍為4 000~10 000 cm-1,平均掃描次數為32次。以采集的空白數據作為測量的背景數據來設置儀器的流程參數,在室溫為25 ℃、空氣相對濕度為60%的條件下測定樣品的近紅外光譜,每個樣品采集5條光譜數據。最終,每類樣品得到160組近紅外光譜數據,總共有640組數據。采用隨機劃分樣本數據集的方式,將原始數據集按照3∶1的比例劃分為訓練集和預測集,具體劃分情況如表1所示。
1.3?數據分析方法
1.3.1?主成分分析(PCA)?PCA是一種經典的無監督聚類算法,也是常用的數據降維與特征提取方法。該算法通過正交變換將高維線性相關變量投影至低維空間,由此獲取線性不相關的新變量,即主成分。主成分能夠反映原始數據的主要方差信息,并且去除了大量冗余特征,減少了計算的復雜度,有效避免了由維數災難造成的模型過擬合現象。
1.3.2?Stacking集成學習?Stacking集成學習框架由2級分類器構成,第1層分類器稱為基學習器,第2層分類器稱為元學習器,其基本結構見圖1。
具體的訓練過程如下:將原始數據集按照一定比例劃分為訓練集和預測集,訓練集用于第1層分類模型訓練,并將第1層中各個基分類器的輸出特征作為第2層分類器的輸入特征,預測集用于元分類器的預測,由元分類器輸出最終預測結果。假定原始的數據集為L={(yi,xi),i=1,2,…,N},其中yi為第i個樣本的類別,xi為第i個樣本的特征向量,N為樣本總數,p為特征向量的數量,即xi中包含x1,x2,…,xp。按照K折交叉驗證方法,將原始數據集L劃分為K個大小相等的子集D1,D2,…,DK,DK—=L-DK,其中DK—為交叉驗證中的第K折訓練集,DK為第K折預測集。設基分類器的數量為n,每個分類器對于交叉驗證中的第K折訓練集進行訓練和測試,對于預測集中的樣本xi,基分類器的預測結果為zni,將每個基分類器的K次測試結果合并,與原始數據標簽(yi)一起構成元分類器的輸入向量,即Lnew={(yi,z1i,z2i,…,zni),i=1,2,…,N}。元分類器通過學習新構成的數據特征,輸出最終判別屬性,以此來增強模型的泛化能力。
1.4?模型評價指標
為更加直觀準確地評價本研究構建的Stacking集成學習模型的性能,本研究提出結合鑒別正確率(A)、精確率(P)、召回率(R)和綜合評價指標F1值作為評價指標,計算公式如下:
A=鑒別正確樣本數總樣本數×100%(1)
式中,TP表示實際為正類的樣本預測為正類的數量,FP表示實際為負類的樣本預測為正類的數量,FN表示實際為正類的樣本預測為負類的數量。
2?結果與分析
2.1?光譜分析
用Pycharm集成開發環境對所得樣品的近紅外光譜數據集進行分析,得到馬兜鈴酸及其類似物樣品在4 000~10 000 cm-1的原始近紅外光譜(圖2)??梢钥闯?,馬兜鈴酸、1,10-菲咯啉-4,7-二甲酸、菲醌、β-谷甾醇這4種化合物樣品的近紅外光譜相似度很高,在多個波段出現交叉重疊情況,并在4 800 cm-1、5 100 cm-1、6 900 cm-1附近有明顯的吸收峰。其中,4 800 cm-1附近的特征吸收峰為C-H的二級倍頻與組合頻,5 100 cm-1附近的特征吸收峰為C-H的倍頻,6 900 cm-1附近的特征吸收峰為O-H或N-H的二級倍頻??傮w看出,這4種化合物全光譜吸收波段的形狀與位置都十分相似,無法通過肉眼對其進行區分,需要進一步結合機器學習方法實現有效鑒別。
2.2?PCA法降維處理
本試驗采集的近紅外光譜數據有1 557個特征值,且含有大量噪聲,如果直接將其作為分類模型的輸入向量,會增加模型的復雜度,降低模型的鑒別精度。因此,本研究在建立分類模型之前,先對原始光譜數據進行標準化處理以去除噪聲干擾,再使用PCA法降低數據維度。經PCA法分析得出,前3個主成分的方差貢獻率分別為83.49%、10.97%、3.77%,累計貢獻率達到98.23%,足以解釋原始數據信息。圖3顯示了前3個主成分(PC1、PC2、PC3)的得分分布,可以看出,這4種化合物相互混合,無法通過PCA聚類方法直接得到區分。因此,在PCA法降維的基礎上,本試驗進一步通過建立定性分析模型來實現馬兜鈴酸及其類似物的鑒別。
2.3?Stacking集成學習分類模型分析
由于Stacking集成學習的元分類器訓練集是由基分類器的輸出產生的,如果直接對原始數據進行多折交叉驗證,會導致元分類器與基分類器使用相同的數據集,從而造成嚴重的過擬合。因此,需要在原始數據集劃分為訓練集和預測集的基礎上,再對訓練集進行五折交叉驗證。對于每個單一基學習器,依次使用其中4個數據塊作為訓練子集,將對應的1個數據塊作為驗證子集。經過5次訓練測試,將5次驗證的子集合并,得到與原始訓練集大小相同的新數據集,結合原始分類標簽,一起作為元分類器的訓練集;將5次預測集的結果取平均值,得到與原始預測集大小相同的新數據集,作為元分類器預測集。
此外,對于Stacking集成學習而言,基分類器和元分類器的組合是重點。本研究選擇常見的5個異質分類器KNN、DT、SVM、NB和隨機森林(Random forest,RF)[24]作為待選基分類器,以RF作為元分類器。為了提升模型的分類效果,本研究在待選基分類器的基礎上,設計了遍歷搜索策略,以鑒別正確率(A)作為評價指標,選擇與RF結合且使正確率達到最大值的基分類器。
具體訓練過程如圖4所示,實現了原始數據輸入特征至輸出特征的變換,元分類器的訓練集和預測集均未參與基分類器的訓練過程,大大減少了過擬合風險,并且通過選擇不同分類器組合,獲取了更好的分類精度。不同分類器的具體組合結果見表2。
由表2可以看出,Stacking集成學習通過不同基分類器與元分類器(RF)的組合,最高正確率均達96.25%及以上。當基分類器組合方式為5選3時,與RF一起構成Stacking集成學習分類模型,此時的鑒別正確率達到最高值99.38%,對應的基分類器為RF、SVM、NB。為了充分驗證所構建的Stacking集成學習分類模型的優越性,對于每個類別,使用精確率(P)、召回率(R)和綜合評價指標F1值進行度量評價。由表3可知,Stacking集成學習分類模型具有良好的表現性能,在馬兜鈴酸、1,10-菲咯啉-4,7-二甲酸的鑒別中,精確率、召回率、綜合評價指標F1值均達到97%及以上;在菲醌、β-谷甾醇的鑒別中,精確率、召回率、綜合評價指標F1值3個指標均達100%。
2.4?不同模型分類結果的對比
為了進一步驗證本研究提出的Stacking集成學習分類模型的有效性,將其與使用相同訓練集和預測集的單一分類模型進行對比。從圖5可以看出,KNN、DT、RF、SVM、NB、Stacking各分類模型的鑒別正確率分別為83.13%、93.62%、92.88%、91.25%、94.87%、99.38%。與其他單一分類模型相比,Stacking集成學習分類模型擁有最高的鑒別正確率。相比于單一分類模型KNN,Stacking集成學習分類模型的鑒別正確率提高了16.25個百分點,比各單一分類模型平均高8.23個百分點。
以上結果表明,Stacking集成學習分類模型綜合了基分類器的優勢,擁有比單一分類模型更好的表現性能,在一定程度上提升了鑒別正確率,能夠更加有效地鑒別馬兜鈴酸及其類似物。這是因為單一分類模型在訓練過程中可能陷入局部最優點,局部最優往往導致模型泛化性能不佳,而本研究提出的Stacking集成學習分類模型通過遍歷搜索找到基分類器和元分類器的最佳組合方式,從而有效減少陷入局部最優點的風險。
3?結論
本研究在近紅外光譜技術的基礎上,提出采用多模型融合的Stacking集成學習分類模型對馬兜鈴酸及其3種類似物進行鑒別。首先,對獲取的光譜數據進行數據標準化,使用PCA降維方法去除數據中含有的大量冗余信息,以此降低模型的復雜度。其次,為了充分學習數據特征,通過遍歷搜索策略構建了以隨機森林(RF)、支持向量機(SVM)、樸素貝葉斯(NB)為基分類器的Stacking集成學習分類模型。試驗結果表明,Stacking集成學習分類模型的鑒別正確率最高達99.38%,優于單一分類模型RF、SVM、NB、K最近鄰(KNN)和決策樹(DT)。此外,Stacking集成學習分類模型在精確率、召回率、綜合評價指標F1值方面均達97%及以上,表現出優越性能。在今后的研究中,可以進一步研究改進Stacking集成學習分類模型,使用更多數據集驗證其性能。
參考文獻:
[1]?HOLZBACH J C, NASCIMENTO I R, LOPES L M X. Phenylethylpyranone and aristolochic acid derivatives from Aristolochia urupaensis[J]. Journal of the Brazilian Chemical Society, 2017, 28(11): 2275-2279.
[2]?JIN K, SU K K, LI T, et al. Hepatic premalignant alterations triggered by human nephrotoxin aristolochic acid Ⅰ in canines[J]. Cancer Prevention Research, 2016, 9(4): 324-334.
[3]?薛壽征,曾廣先. 馬兜鈴酸腎病:研究及啟示[J]. 科學(上海), 2018, 70(4): 27-31.
[4]?柏兆方,王春宇,王伽伯,等. 馬兜鈴酸與肝癌相關性的研究及思考[J]. 世界科學技術:中醫藥現代化, 2019,21(7): 1275-1279.
[5]?宋亞剛,苗艷艷,苗明三. 含馬兜鈴酸中藥毒性分析[J]. 中華中醫藥雜志, 2018, 33(5): 1950-1954.
[6]?章?瑩,肖?榕,黃?杰,等. 不同產地馬兜鈴蜜炙前后HPLC指紋圖譜分析[J]. 中國藥學雜志, 2017, 52(16): 1397-1402.
[7]?劉欣欣,王?莉,肖紅斌. 不同產地馬兜鈴藥材中馬兜鈴總酸的含量[J]. 時珍國醫國藥, 2017,28(1):74-76.
[8]?LIN W Q, CHAI Q Q, WANG W, et al. A novel method for geographical origin identification of Tetrastigma hemsleyanum (Sanyeqing) by near-infrared spectroscopy[J]. Analytical Methods, 2018, 10(25): 2980-2988.
[9]?MORAIS C L M, LIMA K M G. Principal component analysis with linear and quadratic discriminant analysis for identification of cancer samples based on mass spectrometry[J]. Journal of the Brazilian Chemical Society, 2018, 29: 472-481.
[10]LI C N, SHAO Y H, YIN W T, et al. Robust and sparse linear discriminant analysis via an alternating direction method of multipliers[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 31(3): 915-926.
[11]CHEN Y W, HU X L, FAN W T, et al. Fast density peak clustering for large scale data based on kNN[J]. Knowledge-Based Systems, 2020, 2020(187): 104824.
[12]馬?娜,李艷文,徐?苗. 基于改進SVM 算法的植物葉片分類研究[J]. 山西農業大學學報(自然科學版), 2018, 38(11): 33-38.
[13]張曉憶,李衛國,景元書,等. 多種光譜指標構建決策樹的水稻種植面積提取[J]. 江蘇農業學報, 2016, 32(5): 1066-1072.
[14]唐云峰,柴琴琴,林雙杰,等. 可見/近紅外光譜的葡萄籽油摻偽檢測系統[J]. 光譜學與光譜分析, 2020, 40(1): 202-208.
[15]陳?曦,張?坤. 一種基于樹增強樸素貝葉斯的分類器學習方法[J]. 電子與信息學報, 2019, 41(8): 2001-2008.
[16]袁培森,楊承林,宋玉紅,等. 基于Stacking集成學習的水稻表型組學實體分類研究[J]. 農業機械學報, 2019, 50(11):144-152.
[17]ANDIOJAYA A, DEMIRHAN H. A bagging algorithm for the imputation of missing values in time series[J]. Expert Systems with Application, 2019, 129(9): 10-26.
[18]WANG B Y, PINEAU J. Online bagging and boosting for imbalanced data streams[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(12): 3353-3366.
[19]ELAYIDOM S, IDIKKULA S M, ALEXANDER J. A hybrid stacking ensemble framwork for employment predicyion problems[J]. Advances in Computational Research, 2011, 3(1): 25-30.
[20]DINAKAR K, WEINSTEIN E, LIEBERMAN H, et al. Stacked generalization learning to analyze teenage distress[C]//Association for the Advancement of Artificial Intelligence. Eighth International AAAI Conference on Weblogs and Social Media. Ann Arbor, Michigan, USA:Association for the Advancement of Artificial Intelligence,2014.
[21]HADDAD B M, YANG S, KARAM L J, et al. Multifeature, sparse-based approach for defects detection and classifification in semiconductor units[J]. IEEE Transactions on Automation Science and Engineering, 2016, 15(1): 145-159.
[22]孫?博,王建東,陳海燕,等. 集成學習中的多樣性度量[J]. 控制與決策, 2014, 29(3): 385-394.
[23]章?寧,陳?欽. 基于AUC及Q統計值的集成學習訓練方法[J]. 計算機應用, 2019, 39(4):935-939.
[24]GUI L, XIA Y, LI H, et al. Prediction of NOX emission from coal-fired boiler based on RF-GBDT[C]//KIM YH. 2017 6th International Conference on Energy and Environmental Protection. Zhuhai, China:KIM YH, 2017.
(責任編輯:徐?艷)