顧志榮,毛小文,祁 梅,郭 燕,葛 斌*
數據融合技術在中藥研究領域的應用
顧志榮1,毛小文2,祁 梅1,郭 燕2,葛 斌1*
1. 甘肅省人民醫院 藥劑科,甘肅 蘭州 730000 2. 甘肅中醫藥大學藥學院,甘肅 蘭州 730000
數據融合技術是對多來源的數據信息進行統籌、集成的技術,以提高決策模型的靈敏度、特異性和準確率。數據融合技術結合多變量模型是研究中藥復雜體系的有力工具,目前已應用于中藥的基原鑒別、產地溯源與鑒別、質量控制與評價、加工炮制與制劑研究、資源形成研究等諸多領域。融合所納入的源數據主要是中藥的化學物質信息,包括各類色譜、光譜信息,無機元素及有機成分的含量信息,電子鼻、電子眼、電子舌等傳感器信息以及代謝組學信息等;所采用的多變量模型如主成分分析、層次聚類分析、偏最小二乘-判別分析、正交偏最小二乘-判別分析、支持向量機、人工神經網絡、隨機森林、決策樹、線性判別分析等。未來,數據融合有望與人工智能(artificial intelligence,AI)相結合,源數據中納入生物醫學數據與組學數據,拓展應用于中藥活性物質篩選,預測患者對藥物反應、藥物相互作用、藥物-靶點相互作用,中藥新藥開發以及栽培種植等更多領域,同時應積極開發集數據融合與多變量建模功能于一體的中藥研究相關軟件系統。
數據融合;中藥研究;源數據;多變量模型;人工智能
中藥是典型的復雜化學體系,同時也是復雜生物信息學體系。中藥研究包括了資源學、鑒定學、成分分析、質量評價、加工炮制、物質基礎、作用機制、新藥研發等諸多方面,不同的研究內容、研究方法與研究技術會產生不同的數據信息,同一研究內容的不同研究手段(如不同儀器設備)也會產生不同的數據信息,這些單一來源的數據信息往往只能反映中藥內在信息的一個或少數幾個方面,導致分類、鑒別、識別、評價、決策等的不準確性,而要得到全面、準確、可靠的研究結果則需要統籌盡可能多來源的數據進行綜合分析以得到科學決策[1]。
數據融合(data fusion)技術是對不同來源的數據進行統籌、集成的技術,通過將互補的中藥多源信息進行多級別、多角度、多層次的統籌融合,采用適宜算法剔除不相關和冗余的數據(“臟數據”),盡可能多地提取和保留特征性信息,得到“一譜多息”的一維數據,從而實現數據間的互補性與協同性,獲得比單一來源數據分析更全面、準確、可靠的研究結果。因此,數據融合技術與復雜中藥體系研究與具有較高的契合度,儼然已成為了這方面研究的利器之一。本文首先對數據融合技術進行概述,然后系統歸納和總結該技術在中藥研究領域得到較好應用的幾個方面,最后展望該技術在中藥研究領域可能發揮重要作用的研究思路,以期對未來研究有所啟發。
數據融合技術屬于信息科學領域范疇,該技術通過數學算法將不同時間、不同空間、不同來源、不同表示的數據信息進行有機融合,提高針對基對象(underlying object)的決策模型的靈敏度(sensitivity,SEN)、特異性(specificity,SPE)和準確率(accuracy,ACC),從而產生單一來源數據無法獲得的決策結果,降低決策風險,并得出更全面、準確、可靠的結論[2]。數據融合是新一代智能信息技術的重要基礎,目前已在農業[3]、食品[4]、公共衛生(如新型冠狀病毒肺炎疫情預測)[5]、醫學影像分析[6]、疾病分期[7]、生理狀態評估與預測[8]、分子生物學檢測[9]、情緒識別[10]、交通運輸[11]等領域得到了廣泛應用。
1.2.1 以融合方式分類 數據融合技術按照融合方式可分為低級融合(low-level fusion)、中級融合(mid-level fusion)與高級融合(high-level fusion)[12-15],融合方式示意圖[13]見圖1(以2類數據融合為例)。低級融合不需對數據進行任何處理,在多變量建模分析前將不同來源的數據集直接連接成單一數據集即可,其局限性在于有用信息的增加同時會造成冗余信息的增加。中級數據融合首先從單個數據集中提取潛在特征變量,然后將特征變量連接成單個數據集以進行多變量建模,該策略能有效剔除冗余信息干擾,提取出關鍵信息,從而解決“維度詛咒”(curse of dimensionality)(也稱“維數災難”,即數據量隨著維度呈指數增長)問題,但其缺點是需為每個數據集開發一個特征變量提取模型。高級數據融合最為復雜,需對不同的來源數據進行特征變量提取,并單獨建立多變量模型進行分析,然后對多變量模型分析結果進行統籌分析以做出決策。

a-低級數據融合 b-中級數據融合 c-高級數據融合
1.2.2 以應用方式分類 從應用方式來分類,數據融合可分為物理模型、特征技術推理模型及感知模型3類,分類及相應的算法[16-17]如圖2所示。物理模型將目標對象的實際采樣數據與各物理模型或預先存儲的目標信息進行匹配,以此實現研究對象的識別和分類,多采用仿真、估計及句法等技術。特征技術推理模型是最常用的數據融合技術,該技術把目標對象的特征數據或統計信息映射到識別空間,然后對識別空間中的數據進行分析處理,據此可分為基于參數和基于信息論的2種方法。感知模型通過模擬人類處理問題的過程來實現自動制定策略,常見方法包括邏輯模板、基于知識的專家系統以及模糊集理論。

圖2 按應用方式分類的數據融合技術
算法是數據融合的關鍵核心,目前可選擇的算法較多,常用的有貝葉斯估計、模糊邏輯、卡爾曼(Kalman)濾波、極大似然估計、最小二乘法、聚類分析、人工神經網絡等。貝葉斯估計[18]是數據統計意義上的數據融合算法,其理論基礎是貝葉斯定理,即在給出證據的條件下,計算假設事件為真的條件概率或后驗概率;而古典概率推理是在給定的假設事件下,計算本次量測是來源于某一目標或事件的概率。模糊邏輯[19]基于模糊集合理論,在某一模糊集合中的某一元素的隸屬度是對該元素屬于該集合的一種度量,但一個元素可能屬于多個不同的模糊集合,而模糊邏輯允許在控制語言中包含不精確的狀態變量,因此優勢在于可減少計算時間。卡爾曼濾波[20]是一種最優化自回歸算法,對于解決大部分問題都可以得到最優解,應用方式包括簡單卡爾曼濾波器、擴展卡爾曼濾波器、高斯混合濾波器及交互式多模型濾波器等。極大似然估計[21]是利用已知的樣本結果信息,反推最大概率導致這些樣本結果出現的模型參數值,即先假定其具有某種確定的概率分布,但是其參數未知,然后基于訓練樣本對概率分布的參數進行估計。最小二乘法[22]是一種通過最小化誤差的平方和來尋找數據的最佳函數匹配,簡便地求得未知的數據,并使求得的數據與實際數據之間誤差的平方和為最小的數學優化方法。聚類分析[23]是一組將研究對象分為相對同質的群組的統計分析技術,包括系統聚類、動態聚類、有序樣品聚類、模糊聚類等,常采用K-均值、K-中心點等算法來實現。人工神經網絡[24]是一種模仿動物神經網絡行為特征,進行分布式并行信息處理的算法模型,該模型依靠系統的復雜程度,通過調整內部大量節點之間相互連接的關系,從而達到信息處理的目的。
數據融合方式及算法的選擇通常高度依賴于采集的數據結構、數據屬性和已開發的應用程序,因此沒有一種方法可以通用,并不是高級數據融合一定會優于中級和初級融合,因此在數據融合之前,應針對不同的數據源篩選不同的數據預處理方法及融合算法[7]。
完成數據融合后,開發適宜的多變量模型用于最終的決策非常重要,常用的多變量模型包括主成分分析(principal component analysis,PCA)、層次聚類分析(hierarchical cluster analysis,HCA)、偏最小二乘-判別分析(partial least squares-discrimination analysis,PLS-DA)、正交偏最小二乘-判別分析(orthogonal partial least squares-discrimination analysis,OPLS-DA)、支持向量機(support vector machine,SVM)、人工神經網絡(artificial neural network,ANN)、卷積神經網絡(convolutional neural network,CNN)、隨機森林(random forest,RF)、K最近鄰算法(K-nearest neighbor algorithm,KNN)、C5.0決策樹(C5.0 decision tree)、機器學習(machine learning,ML)、深度學習(deep learning,DL)、線性判別分析(linear discriminant analysis,LDA)、二次判別分析(quadratic discriminant analysis,QDA)、邏輯回歸(logistic regression,LR)等,模型性能多通過SEN、SPE和ACC來評價[25]。其中,SEN表示模型正確識別屬于目標類別樣本的能力;SPE表示模型拒絕屬于其他類別的樣本的能力;ACC也稱為效率,是結合SEN和SPE的度量,表示模型正確識別能力的大小。
SEN=真陽性/(真陽性+假陰性)
SPE=真陰性/(真陰性+假陽性)
ACC=(SEN×SPE)1/2
基原鑒別是對中藥的種屬來源進行鑒別,以確定其正確的學名進而確定其真偽。非正品來源的藥材可能影響臨床用藥安全,大黃就是典型的例子。Sun等[26]基于近紅外光譜(near infrared spectrum,NIR)和中紅外光譜(midlle infrared spectrum,MIR)的數據融合鑒別了正品大黃和非正品大黃,將源數據直接連接完成初級融合,將源數據采用小波壓縮(wavelet compression,WC)和區間偏最小二乘法(interval partial least squares,iPLS)來選取特征向量后再連接完成中級融合,建立PLS-DA、軟獨立模式分類法(soft independent modeling of class analogy,SIMCA)、SVM、ANN 4種模型進行鑒別,結果中級融合明顯優于初級融合及NIR、MIR數據單獨建模,4種模型的ACC分別為97.14%、94.12%、100%及100%。厚樸為木蘭科植物厚樸Rehd. et Wils.或凹葉厚樸Rehd. et Wils. var.Rehd.et Wils.的干燥干皮、根皮及枝皮,無法根據外觀特征來區分,采用擴增片斷長度多態性(amplified fragment length polymorphism,AFLP)分子標記技術鑒別2種基原也未成功[27]。為了解決這一難題,Jing等[28]基于電子鼻(e-nose)、電子舌(e-tongue)和8種指標成分(木蘭花堿、木蘭苷A、木蘭苷B、和厚樸酚、厚樸酚、辣薄荷基厚樸酚、厚樸堿、β-桉油醇)數據進行數據融合,建立LDA和QDA模型來鑒別2種厚樸基原,結果表明低級融合與LDA結合的鑒別能力優于融合前3種方法;中級融合與LDA結合的鑒別能力(ACC達到100%)顯著優于與QDA結合(ACC在96.67%~98.33%),說明電子鼻、電子舌和多指標成分數據的中級融合結合LDA是鑒別2種厚樸基原的有力工具。Qi等[29]采用紫外光譜(ultraviolet spectroscopy,UV)和傅里葉變換紅外光譜(Fourier transform infrared spectrum,FTIR)的低級數據融合結合PLS-DA、KNN、SVM和RF 4種模型鑒別不同種類和來源的牛肝菌,結果表明SVM的鑒別性能最佳,SEN、SPE及ACC均達到100%。孫飛等[30]建立了NIR和MIR中級數據融合結合PLS-DA模型來鑒別姜半夏及其偽品姜虎掌南星,該策略明顯優于NIR和MIR單獨所建PLS-DA模型的鑒別能力,準確率達到100%。
不同產地的中藥品質具有顯著差異,建立特異、靈敏、準確的中藥產地溯源與鑒別方法是目前中藥研究領域的熱點與難點之一。中藥的產地溯源與鑒別方法主要包括基于傳統經驗、顯微特征、指標成分或有效成分差異及色譜、光譜、生物(如DNA)指紋圖譜差異等的鑒別方法,但這些方法的SEN、SPE及ACC均難以令人滿意,目前學術界仍在尋找更佳的中藥產地溯源與鑒別方法。數據融合能夠同時融合多維中藥特征數據,整合各種地理及質量特征來提高產地溯源的準確性。Qi等[31]采用中級融合將余甘子的傅里葉變換近紅外光譜(Fourier transform-near infrared spectrum,FT-NIR)與FTIR光譜進行特征提取,融合成特征數據矩陣,采用調整后的RF算法開發地理溯源模型,SEN、SPE和ACC分別為97.65%、99.85%和97.63%,預測準確率達到100%,實現了17個余甘子產地的地理來源鑒別及快速、無損、綠色質量檢測。張嬌等[32]鑒別云南、四川和廣西的9個產地所產滇黃精,采集衰減全反射-傅里葉變換紅外光譜(attenuated total reflection-Fourier transform infrared spectrum,ATR-FTIR)和紫外-可見吸收光譜(ultraviolet-visible absorption spectrum,UV-Vis)數據并分別進行低、中、高級數據融合,建立RF模型進行產地鑒別,2種融合前光譜及低級融合的RF模型其ACC尚可,但SEN、SPE較低;中級融合RF模型的SEN、SPE均較好,ACC達到97.50%;高級融合的RF模型鑒別效果較差,并存在過擬合現象;因此中級融合RF模型的產地鑒別能力最好。Wu等[33]對比研究了FTIR與UV-Vis的低、中、高級數據融合結合網格搜索支持向量機(grid search-support vector machine,GS-SVM)和RF模型對6個產地野生滇重樓的產地溯源,與中、低級融合結合GS-SVM策略相比,高級融合結合RF模型的溯源結果更令人滿意,SEN、SPE和ACC均超過90%。可以看出,目前學術界研究較多的是融合相同樣品的不同技術來源的數據,而另一個可借鑒的思路是融合不同藥用部位的同一技術或多個技術來源的數據,以提高溯源與鑒別能力。如Shen等[34]基于滇龍膽根莖、莖、葉3個部位的高效液相色譜(high performance liquid chromatography,HPLC)指紋圖譜的低、中級數據融合建立RF與OPLS-DA模型來實現4個不同緯度滇龍膽的產地鑒別,結果低級融合結合OPLS-DA鑒別效果最好,ACC高于99%。數據融合技術用于中藥產地溯源與鑒別的其他典型研究見表1。
總結可知,數據融合結合多變量模型用于中藥產地溯源與鑒別具有明顯優勢,SEN、SPE和ACC均得以大幅提高,相關分析策略是有效和值得推廣的。還可以看出,數據融合依賴于源數據的屬性,并沒有一種融合方法可以通用,并不是高級數據融合一定優于中、初級融合;所建立的多變量模型也會影響決策結果,也沒有一種模型可以通用;不同源數據對于融合結果的貢獻是有區別的,在融合之前應針對不同數據源采用不同的數據預處理方法。
中藥質量控制的核心難點在于確定能夠科學、合理、全面反映其內在質量的質量標志物(quality marker,Q-Marker),目前常用的Q-Marker包括單一或有限的有效成分、指標性成分、有效部位、浸出物等。為了篩選科學、合理、全面的Q-Marker,目前采用的常用方法有藥效成分篩選法、指紋圖譜法、譜效關系法、網絡藥理學法等[51-52]。Liao等[53]為了確定中成藥腦得生(片/膠囊/顆粒)的Q-Marker,采用數據融合技術將5個不同波長(210、238、250、275、322 nm)下的特征多波長超高效液相色譜(ultra-high performance liquid chromatography,UPLC)指紋圖譜生成單一的融合UPLC指紋圖譜,并結合抗氧化活性篩選Q-Marker,所建模型包括HCA和PCA,最終確定了11種成分作為腦得生的Q-Marker。該研究證明了多波長融合UPLC指紋圖譜結合生物活性篩選Q-Marker的可行性,其優勢在于多波長融合UPLC指紋圖譜所反映的化學成分類型更為全面,不容易造成活性成分的遺漏,且結合生物活性較單純基于化學成分的篩選方法更為科學及可靠。多年生中藥普遍存在,不同生長年限中藥的鑒別和質量控制是中藥質量評價的重要內容。當前,由于生長激素、肥料等的過量使用,許多多年生中藥被人為縮短生長年限,雖然產量提高,但質量與安全性備受全社會質疑。數據融合技術在不同生長年限中藥的鑒別與質量控制中具有明顯優勢,其數據來源的多維性能夠使鑒別與評價性能顯著提高。Zhang等[54]基于ATR-FTIR和UV-Vis的中級融合建立PLS-DA與HCA模型,準確鑒定了不同生長年限(2~5年)黃精并進行了質量評價,SEN、SPE和ACC均達到100%,4年生黃精的質量最優,該策略為不同生長年限的中藥鑒別及質量評價提供了新的思路。數據融合技術在快速測定方面也具有顯著優勢,如Wu等[55]分別采用ATR-FTIR、RS及ATR-IR與RS融合光譜建立了聯合區間偏最小二乘法(synergy interval partial least squares,siPLS)、SVM和PCA模型用于快速測定黃酒總抗氧化能力和總酚含量,結果表明基于RS的模型性能優于ATR-IR,融合光譜的SVM模型優于基于相同信息的siPLS模型和基于ATR-IR或RS光譜的siPLS模型,說明融合光譜可以明顯提高測量精度。數據融合技術用于中藥質量控制與評價的其他典型研究見表1。
表1 數據融合技術在中藥研究中的應用
Table 1 Application of data fusion technology in TCM research
類型藥物研究目的源數據融合方式多變量模型模型結果研究結果文獻 中藥產地溯源與鑒別黃芪5個省級產區黃芪的產地溯源可見/短波近紅外光譜(380~1030 nm)、NIR(874~1734 nm)成像中級融合SVM、LR、CNN中級融合結合3種模型的判別效果均較理想可準確鑒別,3種模型的ACC均高于98%35 滇龍膽4個省級產區17個產地的滇龍膽鑒別FTIR、HPLC低、中級融合PLS-DA低級融合結合PLS-DA判別效果最好可準確鑒別,ACC為100%36 茯苓野生和栽培茯苓的產地溯源FTIR、HPLC低、中、高級融合PLS-DA、RF中級融合結合PLS-DA判別效果最好可準確溯源,ACC為95.24%37 茯苓8個茯苓產地的溯源FTIR及2種HPLC(242、210 nm)低、中級融合PLS-DA低級融合結合PLS-DA判別效果最好可準確溯源,ACC為100%25 牛肝菌9個牛肝菌產地的溯源FTIR、ICP-AES中級融合SVM中級融合結合SVM判別效果最好可準確溯源,ACC為90.91%38 牛肝菌11個牛肝菌產地的溯源ICP-AES、UV-Vis、FTIR中級融合PLS-DA、SVMPLS-DA、SVM效果均較好,SVM略優于PLS-DA可準確溯源,ACC在90.63%~100%39 牛肝菌7個牛肝菌產地的溯源FTIR、UV中級融合SVM中級融合結合SVM判別效果最好可準確溯源,ACC為100%40 三七云南5個三七產地的溯源FTIR、NIR低、中、高級融合RF高級融合結合RF溯源效果最好可準確溯源,ACC在98%~100%41 重樓云南5個野生重樓產地的溯源FTIR、NIR低、中、高級融合PLS-DA、RFFTIR比NIR貢獻更多;高級融合結合RF溯源效果最好可準確溯源,ACC為100%13 東方草莓(藏藥直打薩曾)5個東方草莓產地的溯源HPLC、ICP-MS中級融合HCA、PCA、PCA-LDA、C5.0中級融合結合C5.0模型溯源效果最好可準確溯源,ACC為98.9%42 蜂蜜8個植物來源的蜂蜜鑒別FTIR、NIR、RS、PTR- TOF-MS、電子鼻低、中、高級融合PLS-DA高級融合結合PLS-DA鑒別效果最好可準確鑒別,ACC為99%43 中藥質量控制與評價黃連4種黃連基原的鑒別及Q-Marker篩選FT-NIR、FTIR低、中級融合PCA、HCA、PLS基于變量重要性投影提取的中級融合結合PLS效果最佳可準確鑒別4種黃連基原;木蘭花堿、格陵蘭黃連堿、表小檗堿、小檗堿可作為Q-Marker44 橄欖油鑒別優質(特級初榨)和不可食用的劣質橄欖油,特定識別主要異味HS-MS、FTIR、UV-Vis低、中、高級融合PLS-DA中級融合結合PLS-DA是鑒別優質和劣質的最佳策略,低級融合結合PLS-DA是識別主要異味的最佳策略可鑒別質量優劣及識別異味(如霉味、酒味、酸敗味等)45 百合重金屬Pb、Cu、Zn的快速檢測LIBS、NIR低、中級融合PLS中級融合結合PLS效果最佳可準確、快速同時測定重金屬Pb、Cu、Zn含量46 含有舒緩類草藥的復方制劑復方制劑(包括純草藥、輸液袋、片劑、膠囊和滴劑)中洋甘菊、西番蓮、纈草、薰衣草的鑒別HPLC、UV-Vis中級融合PLS-DA中級融合的PLS-DA模型優于單一源數據建模可準確鑒別復方制劑中的洋甘菊、西番蓮、纈草、薰衣草47 小柴胡顆粒外觀性狀的定性識別及指標性成分的定量預測電子鼻、電子眼、電子舌傳感器信號中級融合HCA、PLS-DA中級融合結合HCA、PLS-DA均效果較好可定性識別氣味、顏色、味道,準確預測柴胡皂苷B2和甘草皂苷G2含量48 丹參滴丸評價丹參滴丸的批間穩定性縮酚酸和皂苷的HPLC指紋圖譜中級融合相似度分析、PCA融合的二元HPLC指紋圖譜結合相似度分析和PCA效果較好可實現丹參滴丸質量控制與評價49 參麥注射液6種皂苷和4種糖類的同時快速測定NIR、UV低、中級融合PLS中級融合優于初級融合,皂苷的分析結果優于糖類;NIR與UV具有信息互補的協同效應可準確、快速同時測定6種人參皂苷(Rg1、Re、Rf、Rb1、Rb2、Rd)和4種糖類(D-果糖、D-葡萄糖、蔗糖、麥芽糖)含量50
RS-拉曼光譜 PTR-TOF-MS-質子轉移反應-飛行時間-質譜 HS-MS-頂空質譜 LIBS-激光誘導擊穿光譜
RS-Raman spectrum PTR-TOF-MS-proton transfer reaction-time of flight mass spectrometry HS-MS-headspace mass spectrometry LIBS-laser-induced breakdown spectroscopy
加工炮制對中藥的有效性、安全性均有重要影響,尤其對于含有毒性、烈性成分或通過炮制改變作用的中藥。中藥加工炮制的核心在于嚴格的過程質量控制(in process quality control,IPQC),科學、合理的IPQC是產品質量的重要保證。中藥是多部位、多成分、多機制的復雜體系,加工炮制中IPQC的難點在于同時要兼顧色澤、氣味、味道、質地、含量等多維度的質量要求,因此確定科學、合理同時又操作簡便的質量控制指標尤為重要。但是現有的分析檢測技術往往只能反映IPQC的單一維度指標,導致決策的科學性與可靠性欠佳,而數據融合技術可通過將多維度數據融合為一維數據而解決這一問題。Lan等[56]建立了一種可靠、快速的方法來識別姜黃的顏色、氣味等外觀特征,篩選加工過程的關鍵質量指標,采用中級融合將FT-NIR、電子鼻和色度計數據融合,融合矩陣通過傳感器來精確模擬人的識別方式,對于外觀特征的識別準確率達100%;篩選出去甲氧基姜黃素和姜黃素是IPQC的關鍵指標;加工過程中產生的芳香衍生物與樣品的顏色、氣味等外觀特征的變化密切相關,而蛋白質的變化則無顯著差異。Dai等[57]將NIR和高分辨質譜的中級融合與代謝組學及PCA、PLS-DA模型相結合,闡明了4個不同地理來源的麥冬在硫磺熏蒸前后的產地鑒別及質量變化特征,該研究是較早將代謝組學與數據融合相結合用于中藥產地加工及鑒別的報道。Sun等[58]將色度計數據與NIR進行中級融合,建立PLS-DA模型用于炒梔子的IPQC,SEN、SPE及ACC均達到100%,所開發的方法能夠準確判別出合格與不合格的的炒梔子,顯著優于單獨使用色度參數或NIR的鑒別模型。Dai等[59]采用電子鼻和電子舌的中級融合建立SVM模型,以同時反映金耳在深層發酵中的氣體(電子鼻)和液體(電子舌)特性,以麥角甾醇、還原糖和多糖作為深層發酵的質量控制指標,該策略能夠實現對3個指標進行同時快速測定,為金耳深層發酵的工藝控制提供了技術支持。
與中藥加工炮制的IPQC相似,數據融合技術在中藥制劑工藝研究中也具有很大優勢。吳思俊等[60]引入數據融合技術,提出了一種中藥制備工藝變更(酸水滲漉-氯仿萃取替代苯提取)前后質量一致性評價的新策略,將反映工藝整體質量的NIR與RS光譜分別進行低、中、高級數據融合,利用相似度匹配值和PCA中的Hotelling2和DModX統計量對工藝進行表征,結果表明中級融合效果最佳,酸水滲漉-氯仿萃取后所得鹽酸青藤堿樣品質量和苯提取無顯著差異,而新工藝對降低生產成本和環境保護更有優勢。濕法制粒是制備中藥口服固體制劑的關鍵工序之一,常用的制粒方式有搖擺式制粒、高剪切濕法制粒(high shear wet granulation,HSWG)和流化床制粒。HSWG具有黏合劑用量少、全密閉、產出顆粒圓整、流動性好等優點,但其顆粒增長機制及影響因素多而復雜,至今尚未完全闡明,控制其過程是該研究領域的熱點之一[61]。Wang等[62]采用數據融合技術建立了HSWG過程的“配方-過程-質量(formulation-process-quality)”模型,將HSWG實驗數據通過數據融合技術融合成單一數據,生成了1個HSWG多樣性數據配方庫,基于融合后數據建立的PLS模型能夠顯著降低HSWG過程的預測誤差,該研究策略為HSWG的科學闡釋提供了新思路,并能節省實驗時間和成本。中藥制劑過程是一個受多因素、多變量影響的IPQC系統,具有多個鮮明的關鍵質量屬性(critical quality attributes,CQAs),實時動態監測多CQAs對于IPQC具有重要意義。光譜技術是目前最常用的過程分析工具,也是中藥加工炮制[63]及制劑[64]IPQC中的常用技術與研究熱點,而在這方面光譜融合技術的分析能力明顯優于單一光譜技術。Zhang等[65]通過NIR和FTIR的光譜融合,實現了實時、準確、快速監測小兒消積止咳口服液提取過程的7個CQAs(辛弗林、檳榔堿、綠原酸、連翹酯苷、柚皮苷、橙皮苷和新橙皮苷),中級融合PLS模型優于單光譜PLS模型及低級融合PLS模型,該方法對同類劑型生產過程的快速監測具有較好參考價值。
中藥活性成分(次生代謝產物)的生物合成及中藥資源特性受產地地理環境因子的影響,由此造成不同產地的中藥品質及資源特性具有顯著差異,即中藥具有“道地性”特征。中藥資源形成與道地性研究是中藥研究領域的持續熱點,當前主要從地理環境因子對中藥有效成分、指標性成分、化學或生物指紋圖譜等的影響展開研究,但所能納入的化學物質信息有限,而數據融合技術可以解決這一問題。Zhang等[66]采用HPLC、GC和UPLC-QTOF/MS中級數據融合建立PCA、PLS-DA、OPLS-DA模型研究宿主和環境因素對槲寄生代謝物的影響,發現HPLC、GC和UPLC-QTOF/MS 3種代謝物譜同時受宿主和環境因素的雙重影響,而環境因素起關鍵作用,環境因素引起的主要差異代謝物為高圣草素、高圣草素-7--β--芹菜糖基(1→2)--β--葡萄糖苷、高圣草素-7--β--葡萄糖苷3種成分,研究證實中級融合結合多變量模型是確定宿主和環境因素對代謝物影響的有力策略,為同類研究提供了技術示范。未來,還可將HPLC、GC、MS等化學數據與電子鼻、電子眼、電子舌等性狀的傳感器數據相融合,納入更多維度以科學、全面地揭示中藥品質及資源特性的形成機制。
近年來,中藥研究領域越來越細化,研究的技術手段也得到了長足發展,數據融合技術使得對不同研究領域、不同技術手段、不同分析儀器等所產生的中藥研究數據進行集成分析、穩健分析成為了可能,其應用目的是為了提高鑒別、計算或決策的SEN、SPE及ACC。數據融合技術在中藥研究領域的分析流程如圖3所示。目前的應用領域包括中藥的基原鑒別、產地溯源與鑒別、質量控制與評價、加工炮制研究、制劑工藝研究、資源形成研究等;融合所納入的源數據主要是中藥的化學物質信息,包括UV、UV-Vis、MIR、FTIR、NIR、FT-NIR、RS、HPLC、UPLC、MS、PTR-TOF-MS、ICP-AES等色譜、光譜、波譜信息,無機元素及有機成分的含量信息,電子鼻、電子眼、電子舌等色澤、氣味的傳感器信息以及代謝組學信息等。但是,數據融合僅改善了數據性能和建模簡便性,融合數據仍需要適宜的多變量模型才能完成后續研究,即數據融合與多變量模型是提高SEN、SPE及ACC缺一不可的2個有機組成部分。在其他研究領域廣泛使用的多變量模型仍然適用于中藥研究領域,如PCA、HCA、PLS、OPLS、SVM、RF、C5.0、ANN、KNN、CNN、ML、DL、LDA、QDA等。

圖3 中藥研究中的數據融合分析流程
在中藥分析中,除了提高SEN、SPE及ACC,智能程度也是所極力追求的。未來,中藥相關研究應與ML、DL等AI相結合,在大幅提高SEN、SPE、ACC的同時大幅提高分析的深度、智能程度及應用范圍,并實現研究結果的實用化、產品化與產業化,真正滿足中藥栽培種植及產品研發、生產、質控、市場流通管理等實際需求。極限學習機(extreme learning machine,ELM)是一類基于前饋神經網絡(feedforward neural network,FNN)的ML方法,目前在計算機視覺、生物信息學、環境科學等方面得到了廣泛應用[67]。有報道將UV-Vis、NIR數據融合與ELM相結合用于農藥殺蟲劑的快速質量控制,取得了較好的效果[68]。也有報道可通過多特征數據融合結合DL技術,能夠從微生物組數據中預測人類疾病[69]。
目前中藥數據融合研究主要納入的是中藥化學物質信息及少量的電子舌、電子眼、電子鼻等外觀性狀方面的傳感器信息,尚未有納入中藥生物醫學信息的相關報道。目前,可納入的中藥生物醫學信息包括細胞顯微圖像信息、性狀圖像信息、生物效應信息、藥理藥效信息、毒性反應信息等。當然,在數據融合中納入生物醫學信息,融合的難度將隨之提升,因此可能需要引入或開發更先進的融合算法。
組學技術屬于系統生物學范疇,主要包括代謝組學、蛋白組學、基因組學、轉錄組學等,目前在中藥研究領域以代謝組學研究最多,但將數據融合與代謝組學等組學技術相結合的報道較少。中藥組學研究具有顯著的整體性、系統性特征,這與中藥的整體性、系統性不謀而合。以代謝組學為例,中藥的代謝輪廓(譜)、代謝指紋體現為數千條可分辨的代謝譜線,代表了數以千計的代謝物,融合這些數據無疑會使中藥的內在信息得到更為全面、準確、可靠的展現,從而增強決策的SEN、SPE、ACC及智能程度。
譜效關系法是重要的中藥活性物質篩選方法之一,數據融合技術在中藥譜效關系研究中的應用目前暫無相關報道。采用譜效關系篩選活性物質的可靠性與篩選效率在很大程度依賴于所建“譜”(化學物質譜)的質量,如“譜”所包含的成分數量、成分可識別性、成分代表性等。數據融合在中藥譜效關系研究中的優勢在于,相較融合前的單一技術來源的化學物質譜,融合后的“譜”代表了多層次、多角度、多部位的化學物質,具有更明顯的“一譜多息”的功能,可通過一次建模達到從多個維度篩選中藥活性物質的目的。另外,受相關研究啟發,數據融合技術還可用于從數以萬計的中藥中篩選具有明確治療作用的中藥及其活性成分,但此類研究的難點在于基于大數據建立中藥的“性-效-成分-靶點”多源信息數據庫。Liu等[70]基于多源數據融合和CNN模型識別治療帕金森病的潛在藥物,結果令人滿意,對中藥相關研究具有一定借鑒意義。
目前在中藥研究領域,數據融合需借助于MatLab等進口商業軟件,普遍存在版權、編程等問題,限制了研究的便捷性與普及性。目前尚無中藥研究專用的數據融合軟件系統及相關的儀器設備,已有研究也極少涉及軟件系統、儀器設備等的開發,研究成果也未見產業化應用。此外,目前所用的算法也較為傳統,距離AI等新興技術尚有較大距離。未來應大量采用多學科交叉技術,加快開發集數據融合與多變量建模功能于一體的中藥研究相關軟件系統和儀器設備,使得數據融合在中藥研究領域實現工具化與智能化。
預測患者對中藥的反應(patient’s response to drug,PRD)是個性化醫療中的關鍵問題,其中基于多組學數據融合的PRD預測是相關研究的一個熱點方向。Yu等[71]采用多組學與多層網絡模型上的低維特征向量融合數據來建立ML模型用于預測藥物反應,并將這種新方法命名為“基于多組學數據融合的藥物反應預測”(drug response prEdiction based on multiOmics data fusion,DREMO)。DREMO融合了細胞系之間的相似性和藥物之間的相似性,首先基于基因表達譜、細胞突變、拷貝數變異(copy number variation,CNV)、藥物化學結構和藥物靶點等數據構建了與細胞系和藥物相關的多層相似性網絡,再使用低維特征向量融合多層網絡的生物信息,然后應用ML模型來預測新的藥物-細胞系關聯,結果表明DREMO顯著提高了預測能力。
藥物/中藥聯合治療中的藥物-藥物相互作用(drug-drug interaction,DDI)問題也是中藥研究中一個具有挑戰性的問題。近年來,使用DL技術來預測DDI的報道較多,但這些方法只考慮藥物的單一信息,在穩健性和可擴展性方面存在不足。He等[72]提出了一種基于圖神經網絡模型(graph neural network model,GNN)的多類型特征數據融合方法用于DDI預測,可有效融合分子圖中的拓撲信息、藥物之間的相互作用信息以及SMILES(simplified molecular input line entry system,即簡化分子線性輸入規范,是一種用ASCII字符串明確描述分子結構的規范)序列中藥物與局部化學環境之間的相互作用信息,結果表明GNN結合數據融合可以準確預測DDI,穩健性和可擴展性優于其他方法。
數據融合技術結合ML、DL等還可用于預測藥物/中藥-靶點相互作用(drug-target interaction,DTI),對于發現新的中藥活性成分及新用法具有借鑒價值。如Song等[73]提出了一種基于DL的多尺度特征融合方法——深度融合,用于預測DTI,該方法基于相似性理論與CNN生成全局結構相似性特征,并使用變壓器網絡(transformer network)分別生成藥物和蛋白質的局部化學的子結構特征,取得了令人滿意的預測效果。
目前,中藥的PRD、DDI、DTI研究尚處于探索階段,網絡藥理學方法作為目前的研究熱點,在中藥“藥效-成分-靶點”預測方面具有一定優勢,但對中藥PRD、DDI、DTI研究則涉及較少且無能為力,這與其基礎數據庫內容涉及的多組學信息、中藥之間的相互作用信息、中藥的人用信息等較少,以及軟件算法不涉及數據融合等原因有關,因此積極開發一種集相關基礎數據庫與數據融合功能于一體的軟件系統是極為必要的。
數據融合在中藥新藥開發中的應用涉及2個方面,即工藝開發和質量控制,數據融合在這2個方面均具有較好的應用前景,尤其在開發中藥新劑型方面,如固體分散體、緩控釋制劑、靶向制劑等。中藥制劑是多組分復雜化學體系,制劑工藝及成分的物理、化學表征是一大難題,目前多借助各類色譜、光譜技術盡可能做到完整、科學的表征,而數據融合可將多種表征方法所得的數據進行融合,通過融合后的單一數據即可完成表征。目前,數據融合在質量控制中的報道較多,而在工藝研究中的報道較少。Fan等[49]基于數據融合提出的多有效部位中藥制劑質量控制與評價的新思路與新方法,可推廣應用于其他制劑。Casian等[74]開發了一個由4種互補儀器組成的過程分析技術(process analytical technology,PAT)工具,用于表征電紡制備的美洛昔康無定形固體分散體,4種儀器分別提供了NIR、RS、比色法和圖像分析數據,通過中級融合,PAT工具的互補性顯著提高了模型性能,該研究是數據融合在PAT領域的首次應用,可有效處理高通量儀器提供的大數據分析,這對中藥制劑研究是一個非常好的啟示。目前,已有研究者將PAT理念引入中藥制藥研究中,但在實際應用中仍存在許多技術和儀器設備方面的難題。
中藥栽培種植中的產量預測對于藥農作出肥料、水、儲存、現金流等方面的合理決策具有重要的現實意義。傳統的產量預測多采用抽樣調查法,需進行破壞性抽樣,時間、人力成本較大。受相關研究的啟發,可采用基于衛星、無人機遙感數據的數據融合并結合多變量建模、ML、DL等進行中藥種植面積與產量的預測。如Xu等[3]建立了基于時間序列無人機遙感數據的棉花產量估算模型,結合多光譜圖像和棉鈴像素覆蓋,使用貝葉斯正則化反向傳播神經網絡來預測棉花產量,結果令人滿意。此類研究能夠為中藥種植面積與產量的預測提供有價值的借鑒。
利益沖突 所有作者均聲明不存在利益沖突
[1] Zhang H, Chen R Y, Xu C,. An integrated approach to discriminate the quality markers of traditional Chinese medicine preparation based on multi-dimensional characteristic network: Shenqi Jiangtang Granule as a case [J]., 2021, 278: 114277.
[2] Borràs E, Ferré J, Boqué R,. Data fusion methodologies for food and beverage authentication and quality assessment-A review [J]., 2015, 891: 1-14.
[3] Xu W C, Chen P C, Zhan Y L,. Cotton yield estimation model based on machine learning using time series UAV remote sensing data [J]., 2021, 104: 102511.
[4] Jiang S, Ni C D, Chen G L,. A novel data fusion strategy based on multiple intelligent sensory technologies and its application in the quality evaluation of Jinhua dry-cured hams [J]., 2021, 344: 130324.
[5] Aljaaf A J, Mohsin T M, Al-Jumeily D,. A fusion of data science and feed-forward neural network-based modelling of COVID-19 outbreak forecasting in IRAQ [J]., 2021, 118: 103766.
[6] DeRamus T P, Wu L, Qi S,. Multimodal data fusion of cortical-subcortical morphology and functional network connectivity in psychotic spectrum disorder [J]., 2022, 35: 103056.
[7] Zheng H, Cai A M, Zhou Q,. Optimal preprocessing of serum and urine metabolomic data fusion for staging prostate cancer through design of experiment [J]., 2017, 991: 68-75.
[8] Li D Z, Gao W. Physiological state assessment and prediction based on multi-sensor fusion in body area network [J]., 2021, 65: 102340.
[9] Liu Q, He D, Xie L. Prediction of off-target specificity and cell-specific fitness of CRISPR-Cas System using attention boosted deep learning and network-based gene feature [J]., 2019, 15(10): e1007480.
[10] Maithri M, Raghavendra U, Gudigar A,. Automated emotion recognition: Current trends and future perspectives [J]., 2022, 215: 106646.
[11] Ounoughi C, Ben Yahia S. Data fusion for ITS: A systematic literature review [J]., 2023, 89: 267-291.
[12] Robert C, Jessep W, Sutton J J,. Evaluating low- mid- and high-level fusion strategies for combining Raman and infrared spectroscopy for quality assessment of red meat [J]., 2021, 361: 130154.
[13] Pei Y F, Zuo Z T, Zhang Q Z,. Data fusion of Fourier transform mid-infrared (MIR) and near-infrared (NIR) spectroscopies to identify geographical origin of wildvar.[J]., 2019, 24(14): 2559.
[14] Stavropoulos G, van Vorstenbosch R, Jonkers D M A E,. Advanced data fusion: Random forest proximities and pseudo-sample principle towards increased prediction accuracy and variable interpretation [J]., 2021, 1183: 339001.
[15] Li Y, Xiong Y M, Min S G. Data fusion strategy in quantitative analysis of spectroscopy relevant to olive oil adulteration [J]., 2019, 101: 20-27.
[16] Lawrence A. Klein著. 戴亞平譯. 多傳感器數據融合理論及應用 [M]. 北京: 北京理工大學出版社, 2004: 115-130.
[17] 黃小紅. 傳感器網絡數據融合技術研究及在溫室控制中的應用 [D]. 成都: 電子科技大學, 2009.
[18] Ge L Z, Zou K L, Zhou H,. Three dimensional apple tree organs classification and yield estimation algorithm based on multi-features fusion and support vector machine [J]., 2022, 9(3): 431-442.
[19] Zhao G Z, Chen A G, Lu G X,. Data fusion algorithm based on fuzzy sets and D-S theory of evidence [J]., 2019, 25(1): 12-19.
[20] Zhang J, Liu H B, Sun X J,. Processing of building subsidence monitoring data based on fusion Kalman filtering algorithm [J]., 2021, 60(3): 3353-3360.
[21] Song R, Chen X Y, Fang Y C,. Integrated navigation of GPS/INS based on fusion of recursive maximum likelihood IMM and Square-root Cubature Kalman filter [J]., 2020, 105: 387-395.
[22] Ren M J, Sun L J, Liu M Y,. A weighted least square based data fusion method for precision measurement of freeform surfaces [J]., 2017, 48: 144-151.
[23] 馮建英, 石巖, 王博, 等. 基于聚類分析的數據挖掘技術及其農業應用研究進展 [J]. 農業機械學報, 2022, 53(S1): 201-212.
[24] Qiu J J, Shi M L, Li S Q,. Artificial neural network model- and response surface methodology-based optimization ofpolysaccharide extraction, kinetic modelling and structural characterization [J]., 2023, 95: 106408.
[25] Wang Q Q, Huang H Y, Wang Y Z. Geographical authentication ofby a data fusion method combining ultra-fast liquid chromatography and Fourier transform infrared spectroscopy [J]., 2019, 24(7): 1320.
[26] Sun W J, Zhang X, Zhang Z Y,. Data fusion of near-infrared and mid-infrared spectra for identification of rhubarb [J]., 2017, 171: 72-79.
[27] He J S, Chen L, Si Y,. Population structure and genetic diversity distribution in wild and cultivated populations of the traditional Chinese medicinal plantsubsp.(Magnoliaceae) [J]., 2009, 135(2): 233-243.
[28] Jing W G, Zhao X L, Li M H,. Application of multiple-source data fusion for the discrimination of two botanical origins ofcortex based on E-nose measurements, E-tongue measurements, and chemical analysis [J]., 2022, 27(12): 3892.
[29] Qi L M, Li J Q, Liu H G,. An additional data fusion strategy for the discrimination of porcini mushrooms from different species and origins in combination with four mathematical algorithms [J]., 2018, 9(11): 5903-5911.
[30] 孫飛, 陳雨, 王凱洋, 等. 基于紅外光譜數據融合的姜半夏鑒別方法研究 [J]. 北京中醫藥大學學報, 2019, 42(10): 862-868.
[31] Qi L M, Zhong F R, Chen Y,. An integrated spectroscopic strategy to trace the geographical origins of emblic medicines: Application for the quality assessment of natural medicines [J]., 2020, 10(4): 356-364.
[32] 張嬌, 王元忠, 楊維澤, 等. ATR-FTIR和UV-Vis結合數據融合策略鑒別滇黃精產地 [J]. 光譜學與光譜分析, 2021, 41(5): 1410-1416.
[33] Wu X M, Zhang Q Z, Wang Y Z. Traceability of wildSmith var.based on data fusion strategy of FT-MIR and UV-Vis combined with SVM and random forest [J]., 2018, 205: 479-488.
[34] Shen T, Yu H, Wang Y Z. Assessing geographical origin ofusing untargeted chromatographic fingerprint, data fusion and chemometrics [J]., 2019, 24(14): 2562.
[35] Xiao Q L, Bai X L, Gao P,. Application of convolutional neural network-based feature extraction and data fusion for geographical origin identification ofby visible/short-wave near-infrared and near infrared hyperspectral imaging [J]., 2020, 20(17): 4940.
[36] 王琴琴, 沈濤, 左智天, 等. 基于數據融合和多指標定量對滇龍膽產地鑒別和質量評價 [J]. 中國中藥雜志, 2018, 43(6): 1162-1168.
[37] Wang L, Wang Q Q, Wang Y Z,. Comparison of geographical traceability of wild and cultivatedwith different data fusion approaches [J]., 2021, 2021: 1-13.
[38] Li Y, Zhang J, Li T,. Geographical traceability of wildbased on data fusion of FT-MIR and ICP-AES coupled with data mining methods (SVM) [J]., 2017, 177: 20-27.
[39] Qi L M, Liu H G, Li J Q,. Feature fusion of ICP-AES, UV-vis and FT-MIR for origin traceability ofmushrooms in combination with chemometrics [J]., 2018, 18(1): 241.
[40] Yao S, Li T, Li J Q,. Geographic identification ofmushrooms by data fusion of FT-IR and UV spectroscopies combined with multivariate statistical analysis [J]., 2018, 198: 257-263.
[41] Li Y, Zhang J Y, Wang Y Z. FT-MIR and NIR spectral data fusion: A synergetic strategy for the geographical traceability of[J]., 2018, 410(1): 91-103.
[42] 張旭超, 黨藝航, 付藝萱, 等. 數據融合法結合決策樹優化東方草莓全草的地理溯源性研究 [J]. 藥物分析雜志, 2022, 42(5): 845-855.
[43] Ballabio D, Robotti E, Grisoni F,. Chemical profiling and multivariate data fusion methods for the identification of the botanical origin of honey [J]., 2018, 266: 79-89.
[44] Qi L M, Ma Y T, Zhong F R,. Comprehensive quality assessment forbased on quantitative and qualitative metabolic profiles using high performance liquid chromatography, Fourier transform near-infrared and Fourier transform mid-infrared combined with multivariate statistical analysis [J]., 2018, 161: 436-443.
[45] Borràs E, Ferré J, Boqué R,. Olive oil sensory defects classification with data fusion of instrumental techniques and multivariate analysis (PLS-DA) [J]., 2016, 203: 314-322.
[46] Zhao Q, Yu Y, Hao N,. Data fusion of laser-induced breakdown spectroscopy and near-infrared spectroscopy to quantitatively detect heavy metals in lily [J]., 2023, 190: 108670.
[47] Pérez-Ràfols C, Serrano N, Díaz-Cruz J M. Authentication of soothing herbs by UV-vis spectroscopic and chromatographic data fusion strategy [J]., 2023, 235: 104783.
[48] Zhang X, Wu H W, Lin L N,. The qualitative and quantitative assessment of xiaochaihu granules based on e-eye, e-nose, e-tongue and chemometrics [J]., 2021, 205: 114298.
[49] Fan X H, Cheng Y Y, Ye Z L,. Multiple chromatographic fingerprinting and its application to the quality control of herbal medicines [J]., 2006, 555(2): 217-224.
[50] Jiang C, Liu Y, Qu H B. Data fusion strategy based on near infrared spectra and ultraviolet spectra for simultaneous determination of ginsenosides and saccharides in Chinese herbal injection [J]., 2013, 5(17): 4467-4475.
[51] Zhang H B, Zhang Y, Zhang T J,. Research progress on quality markers of traditional Chinese medicine [J]., 2022, 211: 114588.
[52] 陽長明, 楊平, 劉樂環, 等. 中藥質量標志物(Q-Marker) 研究進展及對中藥質量研究的思考 [J]. 中草藥, 2021, 52(9): 2519-2526.
[53] Liao J C, Wu Y S, Xu F F,. Comprehensive evaluation of NAODESHENG by combining UPLC quantitative fingerprint and antioxidant activity [J]., 2021, 193: 113636.
[54] Zhang J, Wang Y Z, Yang M Q,. Identification and evaluation ofwith different growth ages based on data fusion strategy [J]., 2021, 160: 105662.
[55] Wu Z Z, Xu E B, Long J,. Comparison between ATR-IR, Raman, concatenated ATR-IR and Raman spectroscopy for the determination of total antioxidant capacity and total phenolic content of Chinese rice wine [J]., 2016, 194: 671-679.
[56] Lan Z W, Zhang Y, Sun Y,. A mid-level data fusion approach for evaluating the internal and external changes determined by FT-NIR, electronic nose and colorimeter inprocessing [J]., 2020, 188: 113387.
[57] Dai S Y, Lin Z Z, Xu B,. Metabolomics data fusion between near infrared spectroscopy and high-resolution mass spectrometry: A synergetic approach to boost performance or induce confusion [J]., 2018, 189: 641-648.
[58] Sun F, Zhong Y C, Meng J,. Establishment of an integrated data fusion method between the colorimeter and near-infrared spectroscopy to discriminate the stir-bakedEllis [J]., 2018, 51(10): 547-553.
[59] Dai C X, Huang X Y, Huang D M,. Detection of submerged fermentation ofusing data fusion of electronic nose and tongue [J]., 2019, 42(3): e13002.
[60] 吳思俊, 王龍, 吳紅根, 等. 基于多源數據融合技術的鹽酸青藤堿制備工藝一致性評價方法研究 [J]. 分析測試學報, 2022, 41(1): 121-127.
[61] 王政, 王雅雯, 曹君杰, 等. 中藥高剪切濕法制粒過程物料可制造性分類研究 [J]. 中國中藥雜志, 2021, 46(19): 4969-4977.
[62] Wang Z, Cao J J, Li W T,. Using a material database and data fusion method to accelerate the process model development of high shear wet granulation [J]., 2021, 11: 16514.
[63] Gao M L, Zhang Y, Cheng F F,. A gradient-based discriminant analysis method for process quality control of carbonized TCM via Fourier transform near infrared spectroscopy: A case study on carbonized Typhae Pollen [J]., 2022, 265: 120363.
[64] Zhao J E, Zhou Z M, Zhao F,. Development and validation of global prediction models for monitoring the manufacturing process of herbal medicine by ultraviolet spectroscopy [J]., 2022, 2(2): 118-129.
[65] Zhang J, Xu X H, Li L,. Multi critical quality attributes monitoring of Chinese oral liquid extraction process with a spectral sensor fusion strategy [J]., 2022, 278: 121317.
[66] Zhang R Z, Zhao J T, Wang W Q,. Metabolomics-based comparative analysis of the effects of host and environment onmetabolites and antioxidative activities [J]., 2022, 12(2): 243-252.
[67] Huang G, Huang G B, Song S J,. Trends in extreme learning machines: A review [J]., 2015, 61: 32-48.
[68] Li Q Q, Huang Y, Zhang J X,. A fast determination of insecticide deltamethrin by spectral data fusion of UV-vis and NIR based on extreme learning machine [J]., 2021, 247: 119119.
[69] Chen X J, Zhu Z F, Zhang W T,. Human disease prediction from microbiome data by multiple feature fusion and deep learning [J]., 2022, 25(4): 104081.
[70] Liu J E, Peng D D, Li J L,. Identification of potential Parkinson’s disease drugs based on multi-source data fusion and convolutional neural network [J]., 2022, 27(15): 4780.
[71] Yu L, Zhou D D, Gao L,. Prediction of drug response in multilayer networks based on fusion of multiomics data [J]., 2021, 192: 85-92.
[72] He C X, Liu Y R, Li H,. Multi-type feature fusion based on graph neural network for drug-drug interaction prediction [J]., 2022, 23(1): 224.
[73] Song T, Zhang X D, Ding M,. DeepFusion: A deep learning based multi-scale feature fusion method for predicting drug-target interactions [J]., 2022, 204: 269-277.
[74] Casian T, Farkas A, Ilyés K,. Data fusion strategies for performance improvement of a Process Analytical Technology platform consisting of four instruments: An electrospinning case study [J]., 2019, 567: 118473.
Application of data fusion in field of traditional Chinese medicine research
GU Zhi-rong1, MAO Xiao-wen2, QI Mei1, GUO Yan2, GE Bin1
1. Department of Pharmacy, Gansu People’s Hospital, Lanzhou 730000, China 2. School of Pharmacy, Gansu University of Chinese Medicine, Lanzhou 730000, China
Data fusion is a technology that coordinates and integrates data information from multiple sources to improve the sensitivity, specificity and accuracy of decision models. Data fusion combined with multivariable model is a powerful tool to study the complex system of traditional Chinese medicine (TCM), which has been applied to many research fields such as species identification, origin tracing and identification, quality control and evaluation, processing and preparation, and resources formation research. The source data included in the fusion is mainly chemical substance information of TCM, including various types of chromatographic and spectral information, content information of inorganic elements and organic components, sensor information such as e-nose, e-eye and e-tongue, and metabolomics information, etc. The multivariate models used are principal component analysis (PCA), hierarchical cluster analysis (HCA), partial least squares-discriminant analysis (PLS-DA), orthogonal partial least squares-discriminant analysis (OPLS-DA), support vector machine (SVM), artificial neural network (ANN), random forests (RF), decision trees, linear discriminant analysis (LDA), etc. In the future, data fusion is expected to be combined with artificial intelligence (AI), incorporate biomedical and omics data into source data, and expand applications in more fields such as screening of active substances in TCM, prediction of patient’s response to drug, drug-drug interactions, drug-target interactions, development of new TCM, and cultivation of TCM, etc. At the same time, software systems related to TCM research that integrate data fusion and multivariate modeling function should be actively developed.
data fusion; traditional Chinese medicine research; source data; multivariate model; artificial intelligence
R28;TP391
A
0253 - 2670(2023)18 - 6159 - 13
10.7501/j.issn.0253-2670.2023.18.033
2023-05-10
甘肅省青年科技基金計劃項目(21JR7RA634);甘肅省自然科學基金資助項目(20JR5RA154)
顧志榮(1988—),男,碩士研究生,主管中藥師,研究方向為中藥藥效物質基礎及作用機制。E-mail: guzr8817@163.com
葛 斌(1965—),男,教授,主任藥師,碩士生導師,從事中藥藥效物質基礎及作用機制研究。E-mail: gjy0630@163.com
[責任編輯 潘明佳]