周炳文,朱麗麗,朱 林,趙爽利,李任時, 劉秀峰,劉吉華,戚 進,余伯陽*
(1.中國藥科大學 中藥學院 中藥可追溯與標準化研究中心,江蘇 南京 211198;2.中國藥科大學 中藥學院 江蘇省中藥評價與轉化重點實驗室,江蘇 南京 211198)
中醫藥是我國獨有的醫療體系和文化傳承。我國幅員遼闊,中藥種類繁多,由于歷代本草記載及地區用藥名稱和使用習慣的不同,致使中藥基源混亂現象嚴重,且近緣種屬間性狀及顯微特征十分相似,不易區分。而中藥材作為商品在市場流通中更是來源各異,優劣混雜,一些不法商販為謀取更大利益利用近似藥材或近似藥用部位混摻銷售,嚴重影響中醫臨床用藥的有效性和安全性,并阻礙了中醫藥的現代化和國際化進程[1]。因此實現快速準確鑒別中藥品種對中醫臨床用藥及保障患者生命安全具有重要意義。
目前,傳統的中藥品種鑒定四大方法為基源鑒別、性狀鑒別、顯微鑒別和理化鑒別,在實際鑒別過程中常將幾種方法聯合應用[2-3]。由于傳統的鑒別主要依靠鑒別師的工作經驗積累及藥材鑒別知識的儲備,鑒別者需具備專業的知識和豐富的實踐經驗,且受主觀判斷影響較大,因此鑒別難度大,準確率不高[4]。隨著分析手段的不斷提高,薄層色譜[5]、高效液相色譜[6]、氣相色譜[7]、紫外光譜[8]、紅外光譜[9]及DNA分子生物學[10]等識別方法開始應用于中藥鑒定,衍生出能夠表征化學特征的中藥指紋圖譜,體現遺傳差異的DNA條形碼[11]等,促進了中藥鑒定的發展。但中藥的化學成分受生長環境、采集時間、生長年限、加工及儲藏方法等多種因素的影響,同種也存在多元化現象[12-14],采用上述方法仍不能完全準確鑒別中藥材的摻偽摻假等現象,準確率有待進一步提高。此外,由于不同操作者采用不同標準各自形成相關質量控制方法,不同方法間缺乏統一性,使得這些方法大多難以普及,即使一些已經頒布的標準也存在容錯率低和系統適應性差等缺點。因此,亟待通過標準化設計,建立一種可推廣的、客觀精準的用于多種中藥品種的識別方法。基于此,本文提出一種具有普適性的中藥一法通識品種鑒定新方法,對中藥材進行統一化、標準化處理,并基于高效液相色譜法構建了能夠全面表征中藥化學信息的多元多息指紋圖譜,結合卷積神經網絡對指紋圖譜進行識別,可實現中藥品種快速、準確、高效的鑒別。

表1 50種藥材編號信息Table 1 Information of 50 kinds of medicinal materials
Agilent 1260 Prime UPLC色譜儀(安捷倫科技有限公司);中藥打粉機(南京平崗機械設備有限公司);NV222ZH電子天平(百分之一,奧豪斯儀器有限公司);SK-O180-E震蕩儀(南京拓海自動化科技有限公司);5804R離心機(德國Eppendorf股份有限公司);SB-5200DTD超聲波清洗儀、DK-S24水浴鍋(南京以馬內利儀器設備有限公司)。
乙腈(色譜級,德國Merck公司);甲醇(色譜級,上海星可高純溶劑有限公司);乙酸、甲酸、乙酸銨(色譜級,上海Aladdin試劑公司);超純水(美國Millipore公司)。
50味藥材均為市售或藥材種植基地直銷,經中國藥科大學余伯陽教授鑒定基源準確,可用于實驗研究(表1)。
將50批供試藥材打成粉末,過四號篩(250 μm ± 9.9 μm)。精密稱取1.0 g藥材粉末于50 mL具塞錐形瓶中,加入25 mL 75%乙醇溶液,稱定重量,在功率240 W、頻率40 kHz及25 ℃條件下超聲30 min,于室溫下補足失重,以8 000 r/min在20 ℃下離心15 min后,分離上清液備用。
取上清液2 mL,低溫(≤50 ℃)揮干,用超純水復溶并定容至2 mL,過0.22 μm水系膜,作為分子排阻色譜供試品。
取上清液5 mL,緩慢滴加乙腈,進行有機溶劑沉淀至乙腈濃度達95%,于4 ℃條件下靜置12 h,以8 000 r/min離心10 min,分離上清液與沉淀,沉淀備用。上清液低溫(≤50 ℃)揮干,以現制75%乙腈復溶并定容至5 mL,過0.22 μm有機濾膜,作為反相色譜供試品; 取上述沉淀部分,加入10 mL 70%甲醇溶解,在20 ℃下以8 000 r/min離心10 min,取上清液,低溫(≤50 ℃)揮干,以50%乙腈復溶并定容至5 mL,過0.22 μm有機濾膜,作為親水色譜供試品。
Agilent ZORBAX Extend C18(4.6 mm × 150 mm,5 μm)色譜柱;流動相為乙腈(A)-0.1%冰乙酸水溶液(B),流速1.0 mL/min,梯度洗脫程序:0~30 min,5%~35% A;30~50 min,35%~95% A;50~60 min,95% A。柱溫25 ℃,進樣量5 μL,二極管陣列檢測器檢測,檢測波長為205、230、254、280、305、330、365、420 nm,步長1 nm。
Poroshell 120HILIC-Z(3.0 mm ×100 mm,2.7 μm)色譜分析柱;流動相為含0.1%乙酸的10 mmol/L乙酸銨水溶液(A)-10 mmol/L乙酸銨乙腈溶液(B),流速0.4 mL/min,梯度洗脫程序:0~5 min,100% A;5~10 min,100%~95% A;10~35 min,95%~90% A;35~45 min,90%~75% A;45~60 min,75%~65% A。柱溫30 ℃,分析時間60 min,進樣量5 μL,二極管陣列檢測器檢測,檢測波長同反相色譜,步長1 nm。
Sepax SRT SEC-150?(7.8 mm×300 mm,5 μm)分子排阻色譜分析柱,流動相為5 mmol/L乙酸銨-甲醇(100 ∶1),等度洗脫,流速0.6 mL/min,柱溫30 ℃,分析時間為80~100 min,進樣量5 μL,二極管陣列檢測器檢測,檢測波長同反相色譜,步長1 nm。
1.6.1 數據預處理液相色譜圖以保留時間-信號響應值的形式導出,并按公式(x′=(x-xmin)/(xmax-xmin),式中x為原始值,x′為歸一化后的值,xmin和xmax分別為單張圖譜中最小值和最大值)進行歸一化處理,同一藥材在同一波長下,按照正相色譜、反相色譜以及分子排阻色譜的順序重新合并為新的色譜圖,作為卷積神經網絡的訓練數據集。采用K折交叉驗證[15]策略將所有數據隨機打亂后劃分為5份,每次取其中4份,即80%的數據作為訓練集,剩余20%作為測試集評估神經網絡模型的性能,直到所有數據都分別作為測試集,最后將所得5個模型測試集準確率的平均值作為最后模型的準確率。

圖1 一法通識反相色譜條件考察——色譜柱考察
1.6.2 卷積神經網絡模型超參數的正交優化本試驗采用深度殘差網絡Resnet18作為網絡架構,該網絡架構中提出的殘差結構能夠有效改進卷積神經網絡在深度加深時產生的梯度爆炸與梯度彌散,提升模型的性能[16]。選取學習率(Learning rate:0.01、0.001、0.000 1)、卷積核大小(Kernel size:3、5、7)以及學習次數(Epochs:100、500、1 000)為影響因素,設計3因素3水平的正交實驗對模型參數進行微調。
本研究所建立的判別方法為以一種標準化的樣品制備及色譜數據獲取方法,通過建立識別系統,用于廣泛識別多種中藥材。因此,本實驗以分離度、色譜峰數目為考察指標對液相條件進行優化,綜合考察色譜條件在不同藥材中的表現,確定反相色譜、親水色譜以及分子排阻色譜的最優條件。

圖2 一法通識反相色譜條件考察——流動相條件 考察(以丹參為例)Fig.2 Conditions of reverse chromatography—— mobile phase(salvia) S1:methanol-0.1% formic acid;S2:methanol-water; S3:methanol-5 mmol/L ammonium acetate;S4:methanol- 0.1% acetic acid;S5:acetonitrile-0.1% formic acid; S6:acetonitrile-water;S7:acetonitrile-5 mmol/L ammonium acetate;S8:acetonitrile-0.1% acetic acid
2.1.1 反相色譜條件的優化以陳皮為例比較了7種常用的反相色譜柱對陳皮、黃連、麥冬、丹參、升麻、白芍、荷葉7種藥材的分離效果(圖1)。結果顯示:Dikma Diamonsil C18、Agilent ZORBAX Extend-C18、Phenomenex Luna?C18、Agilent ZORBAX SB-C18、Sepax HP-C18、SHIMADZU Shim-pack VP-ODS、Waters Atlantis?T3 7種不同色譜柱的出峰效果差別較大,綜合黃連等其他六味中藥的色譜圖發現Agilent ZORBAX Extend C18獲得的色譜峰數量較多,且峰高及峰面積較高,分離效果較好,因此選擇Agilent ZORBAX Extend C18作為一法通識方法用色譜柱。
以丹參為例考察了8種不同流動相體系(甲醇-0.1%甲酸水溶液、甲醇-水溶液、甲醇-5 mmol/L乙酸銨水溶液、甲醇-0.1%乙酸水溶液、乙腈-0.1%甲酸水溶液、乙腈-水、乙腈-5 mmol/L乙酸銨水溶液、乙腈-0.1%乙酸水溶液)對分離的影響(圖2)。結果顯示:不同流動相組合對色譜峰的分離度和色譜峰數目影響較大,綜合對比黃連等其他六味中藥的色譜圖發現,以乙腈-0.1%乙酸水溶液為流動相時獲得的色譜圖最佳,因此選取乙腈-0.1%乙酸水溶液為流動相。
以葛根為例比較了常用色譜柱溫度(40、30、25、20 ℃)對7種藥材的分離效果。結果發現,當柱溫為25 ℃時分離效果最好。綜合其他6種藥材的色譜出峰情況,確定25 ℃作為一法通識方法的反相色譜柱溫條件。
2.1.2 親水色譜條件優化通過比較當歸在Poroshell 120 HILIC-Z、Amide-80HR色譜柱的分離情況,結果發現Poroshell 120 HILIC-Z分離的峰形較好,分離效果最佳,故選擇Poroshell 120 HILIC-Z色譜柱作為一法通識親水色譜條件的色譜柱。
以當歸為例比較了不同流動相體系(乙腈-5 mmol/L甲酸銨-0.1%甲酸水溶液、乙腈-5 mmol/L乙酸銨-0.1%乙酸水溶液、乙腈-15 mmol/L甲酸銨-0.1%甲酸水溶液、乙腈-15 mmol/L乙酸銨-0.1%乙酸水溶液、乙腈-10 mmol/L乙酸銨-0.1%乙酸水溶液、乙腈-10 mmol/L甲酸銨-0.1%甲酸水溶液)的分離效果。結果顯示,乙腈-10 mmol/L乙酸銨-0.1%乙酸水溶液具有最好的分離效果,色譜圖基線穩定,色譜峰個數最多,響應最高。
2.1.3 分子排阻色譜條件優化綜合考慮分子排阻柱的分離效果、耐用性、普適性及經濟性,選擇Sepax SRT SEC-150?分子排阻分析柱作為一法通識分子排阻色譜法的分析柱。
以麥冬為例比較了不同流動相體系(5 mmol/L乙酸銨-1%甲醇、5 mmol/L乙酸銨-10%甲醇、5 mmol/L乙酸銨-10%乙腈、10%乙腈、10 mmol/L乙酸銨、5 mmol/L乙酸銨水溶液)的分離效果。結果發現以5 mmol/L乙酸銨-1%甲醇為流動相時,分離效果更好,色譜圖基線穩定,色譜峰數量最多。因此選擇5 mmol/L乙酸銨-1%甲醇為流動相。
實驗還比較了不同流動相流速(0.4、0.6、0.9 mL/min)對液相出峰的影響,并綜合考慮出峰數量、出峰時間及總檢測時長,最終選擇0.6 mL/min作為一法通識分子排阻色譜法的流速。
2.2.1 精密度以陳皮、黃芩、前胡三味藥材為對象考察反相色譜及分子排阻色譜方法,以大黃和當歸藥材為對象考察親水色譜方法,按“1.2”方法制備樣品溶液,分別連續進樣6次。結果顯示,中藥材中各主要色譜峰相對時間及其相對峰面積均滿足相對標準偏差(RSD)<3.0%,相似度均大于0.9,表明各方法均符合指紋圖譜研究技術要求,精密度良好。
2.2.2 穩定性試驗以陳皮、黃芩、前胡三味藥材為對象考察反相色譜及分子排阻色譜方法,以大黃和當歸為對象考察親水色譜方法,按“1.2”方法制備樣品溶液,分別于0、2、4、8、12、24 h檢測各藥材的指紋圖譜。結果顯示,中藥材中各主要色譜峰的相對保留時間及其相對峰面積均符合RSD<3.0%,相似度均大于0.9,表明各提取方法下樣品在24 h內穩定,滿足指紋圖譜研究技術要求。
2.2.3 重現性實驗以陳皮、黃芩、前胡三味藥材為對象考察反相色譜及分子排阻色譜方法,以大黃和當歸為對象考察親水色譜方法,精密稱取6份藥材粉末,按照“1.2”方法制備樣品溶液進樣測定。結果顯示,各藥材中主要色譜峰的相對保留時間及其相對峰面積均符合RSD<3.0%,相似度均大于0.9,表明方法重現性良好,符合指紋圖譜研究技術的要求。

表2 卷積神經網絡超參數正交實驗表Table 2 Orthogonal test factorTable of convolutional neural network hyperparameters
2.3.1 正交試驗優化實驗通過基于Torch的開源python機器學習庫PyTorch構建Resnet卷積神經網絡。再將上述液相色譜條件下所得圖譜作為卷積神經網絡的輸入,通過卷積核提取特征,以神經元計算各特征權重,最后由全連接層通過Softmax函數輸出神經網絡的判別結果(圖3)。判別結果通常是以判別概率的形式輸出,神經網絡判別當前輸入的藥材是某一類藥材的概率,并以概率最大的為最后輸出結果,通過計算輸出結果與給予的標簽之間的差異,并將差異反向傳播反饋給前面的神經元,不斷更正權重系數,從而達到不斷學習的效果。卷積神經網絡的超參數直接影響模型學習性能,本文根據正交試驗優化了模型的3個超參數,并根據K折交叉驗證所劃分的數據集依次帶入模型訓練,對5次模型在測試集上的準確率取平均值作為模型的準確率,以期得到性能更優越的模型,正交實驗結果見表2。由表中數據可見最優的超參數組合為學習率0.001、卷積核大小為3、學習500次,其測試集準確率達92%。

圖3 卷積神經網絡預測概率結果Fig.3 Predicted probability of convolutional neural network
2.3.2 正交試驗結果驗證將上述正交試驗所得卷積神經網絡最佳參數帶入Resnet18網絡結構中,將數據集隨機打亂后按訓練集 ∶測試集=8 ∶2進行劃分(圖4)。由圖可見,人工智能神經網絡在訓練400次后訓練集準確率穩定在100%,在測試集上的準確率為88%,而測試集的準確率在500次時達到最優(92%)。

本研究建立了一種中藥一法通識品種鑒定的新方法,根據中藥材中化學成分的不同性質,將其大致拆分成三個部位,并通過不同的液相色譜體系在多個維度下進行信息采集,對中藥化學成分信息進行全方位展示。通過卷積神經網絡對所得一法通識液相圖譜進行分類識別,這種識別模式在保證準確率的情況下,克服了傳統中藥識別所帶的主觀色彩。本方法的訓練與預測數據主要針對中藥材的化學物質信息,因此對失去原本樣貌的藥材也可鑒別。更為重要的是,卷積神經網絡作為深度學習的代表算法之一,不僅性能強勁,且隨著訓練次數的不斷增多,其模型準確率、容錯率及泛化能力將不斷增強,是一種可持續發展的鑒別新模式。本文目前所展示的神經網絡對于50味藥材的鑒別僅為階段性成果,并不代表該網絡的識別能力僅限于50味藥材,隨著后期標準化實驗數據的不斷增加,中藥鑒別種類的拓寬,中藥品種鑒別的精度與寬度將不斷增加。