潘杰,劉德勝,顏貴明
(安徽中醫藥大學,安徽 合肥 230012)
傳統中藥方劑常常是多種中藥配伍而成,具有成分復雜、不明確和藥理作用機制不明等特點。這些特點使得中藥藥效飽受爭議,難以在國際上進一步推廣。近年來,中藥學研究者們致力于中藥藥理藥效的研究。大部分研究集中在通過對藥材的有效成分進行提取和分離得到單個有效成分,如人參皂苷[1]和青蒿素[2]等,再對提取出來的單個有效成分進行藥理和藥效學研究。雖然這樣的研究克服了中藥方劑成分復雜的問題,并且在一定程度上解釋了單個有效成分的藥理學活性及作用機制,但是其作用療效相對于原本的中藥方劑卻大打折扣,即使在劑量加倍的條件下,其作用效果依舊不佳。于是越來越多的研究者提出不同藥理機制已明確的有效成分之間是否可以協同作用的概念。中藥譜效關系已經被廣泛地運用到了中藥藥效研究、藥物配伍、炮制工藝改良和藥效預測等領域[3-4]。該方法是指將已獲得的中藥指紋圖譜與中藥的藥理藥效學研究成果,通過各種生物信息學方法,建立兩者的線性或非線性相關關系,最終得到“譜-效”映射關系,用于預測單味藥物或中藥復方制劑的藥效和藥理機制[5]。不可否認的是,數據分析在“譜-效”建模過程中發揮了重要的作用。而數據分析手段的科學性和合理性影響著“譜-效”建模的準確性和有效性。近年來,隨著大數據時代的來臨,越來越多譜效分析研究開始出現,對不同的數據分析算法的了解和選擇決定了最終“譜-效”建模的有效性。本文將就近十幾年以來的譜效分析的數據分析算法進行綜述,使讀者能充分認識這些數學建模方法,擇優選擇。
對各有效成分與藥效之間的相關性預測可采用人工神經網絡、灰關聯度分析和相關分析等方法,這些數據分析方法可以建立中藥圖譜與藥物有效性的關系,為中藥藥效預測提供可能。
關聯度是指兩個變量的隨時間或其他的實驗條件的變化趨勢的相關性,若兩個變量的同向變化趨勢程度高,則兩個變量的關聯度高,反之則關聯度低。灰關聯度分析即通過度量變量的發展趨勢的相同或相異程度,來衡量相關性。這類相關分析是對單一觀察對象表現現象的表觀評估,這些具有關聯性的變量其本質上常常是互相影響,具有因果關系、協同關系或者是拮抗關系的。通過相關關系在一定程度上可以預估變量內部本質的互作關系。灰關聯度分析用于樣本的信息量單一,影響因素復雜的圖譜,可以客觀地體現各成分間的影響和互作。其基本分析步驟為:①分析中藥圖譜,仔細對比獲得共有峰,用相應的藥效學參數指標來作為評估標準,無量綱化處理參考數列和比較數列,消除不同計量單位引起的差異;②計算得到藥效指標和共有峰之間的絕對差值;③計算得到藥效指標與每個特征峰間的關聯系數,以平均值法求得關聯度[6]。如果兩個研究變量在隨實驗加載條件變化而變化過程中的一致性程度較高,那么就定義為兩者關聯度比較大,相反,變化一致程度低則兩者關聯度小。梁建欽等[7]從芒果葉中利用不同極性溶劑提取到了有效物,已知這些提取物的抗炎特性差異很大,通過 HPLC 法建立指紋圖譜。將昆明小鼠隨機分為三組,對照組給予生理鹽水作為陰性對照,地塞米松組作為陽性對照,實驗組給予芒果葉提取物,經二甲苯誘導炎癥后,通過測定耳腫脹度作為抗炎藥效指標。數據經統計分析,把芒果葉不同極性提取物的抗炎藥效作為參考序列,把芒果葉不同極性溶劑提取物圖譜中特征峰峰面積數據作為比較序列,先對兩組數列進行無量綱化處理,求得兩組數列的灰色關聯系數,分別計算各個指標與參考序列對應元素的關聯系數的均值,稱之為為關聯序,最后對關聯序進行排序,排序靠前則為重要藥效物質。最終發現了芒果葉提取物抗炎作用的部分物質基礎是芒果苷及X1(關聯系數=0.901 6),X3(關聯系數=0.955 8)峰。
ANNs是一種模擬人類神經元網絡信號傳遞方式的并進行信息化處理的數學建模算法。通過模仿大腦信號處理和記憶信號等方式進行信號歸納處理。它具有以下幾個特點(1)非線性,(2)非局限性,(3)非常定性,(4)非凸性。它的優點在于其非線性擬合能力,且不需要實現建立數學模型,充分考慮了事物內部作用的復雜性及關系的模糊性,對復雜的信息進行簡化建模處理。其研究程序一般為:①利用已有的光譜/色譜提取化學組分信號;②對信號進行轉換和壓縮,用來提取特征峰的有效信號;③將特征峰的有效信號與相對應的藥效學指標建立一定的映射函數關系,同時預測特征峰的綜合藥效。許雯雯等[8]在建立氣滯胃痛顆粒全時段多波長融合指紋圖譜分析方法的基礎上,對6味藥材隨機配比成不同比例,用LPS誘導小鼠單核巨噬細胞釋放TNF-α,IL-6,NO,檢測各配比對這些細胞因子產生的抑制率作為抗炎藥效指標,先用灰色關聯度分析將藥效指標與各組HPLC指紋圖譜關聯得出各色譜峰對抗炎活性的關聯程度,再用BP神經網絡進行擬合:先通過程序算法得到BP網絡預測值,再對測定值和預測值進行線形回歸,最后得到回歸系數為0.983,說明本次實驗的預測性能較佳。
相關分析是通過對樣本原始數據進行統計學分析,計算其相關性系數來衡量兩組或幾組數據之間的關系的一種算法[9]。其基本步驟為:①兩組變量的正態性驗證;②兩組數據一個作為橫坐標,一個作為縱坐標做散點圖,直觀判斷兩組數據是否相關和相關類型;③求得相關系數;④對相關系數進行假設檢驗,得出結論。劉旭等[10]通過結扎大鼠冠狀動脈造急性心肌缺血大鼠模型,利用HPLC獲得川芎提取物指紋圖譜,將各有效成分提取出來并給模型大鼠給藥,測定血清SOD活性、MDA含量作為抗心肌再灌注損傷藥效評估指標。最后將川芎提取物藥效數據與指紋圖譜的共有峰的相對峰面積相關聯,運用雙變量相關分析,最終發現阿魏酸、川芎嗪可顯著降低血清中丙二醛(MDA)等的含量,可顯著升高血清超氧化物歧化酶(SOD)活力,均屬于中藥川芎抗心肌缺血再灌注損傷的主要有效成分。
通過傳統的藥理學和藥效學研究,我們明確了有效成分的藥效作用。再通過有效成分與藥效的關聯度預測,我們可以得到藥物的譜效關聯性。但具體有效成分的分析需要通過多元線性回歸和偏最小二乘回歸分析等統計學數據分析進行進一步闡明。構建準確科學的回歸模型,可以初步衡量各有效成分對藥效的貢獻程度。
多元線性回歸是通過建立多個自變量和單個因變量的回歸模型,對每個自變量對因變量的影響程度進行參數評估的統計學經典算法。MLR是研究單個因變量與多個自變量間的線性回歸模型構建的統計學方法[11]。通常用于構建非表數據與部分表觀易分析測得指標的統計學算法,從而實現通過易測指標對難測指標進行預測分析。其主要想法是:①先量化處理數據,選取并引入影響程度較大的變量;②計算逐步回歸方程;③對回歸方程進行假設檢驗并評價其有效性。吳尤嬌等[12]利用HPLC分析方法得到廣西不同產地的10批毛郁金藥材的指紋圖譜分析。通過高脂飼料喂養建立高脂血癥大鼠模型,連續3周給藥,設正常組、高脂模型組、辛伐他汀組和10批不同產地毛郁金乙醇提取物給藥組,以對高脂大鼠血清CHOL、TG含量降低程度作為降脂藥效指標,采用多元線性回歸分析研究各色譜與降血脂作用的相關性。
偏最小二乘回歸分析是綜合了多因變量對多自變量的回歸建模分析和主成分分析在內的多元數據降維分析方法[13]。特別當各變量內部高度線性相關時,用偏最小二乘回歸分析更有效。另外,偏最小二乘回歸較好地解決了樣本個數少于變量個數等問題。其主要方法步驟為:①對自變量與因變量進行線性組合;②轉變成無相互關系的綜合變量;③對新構建的綜合變量進行回歸分析。鄧書鴻等[14]通過 HPLC 獲得三類黃芪提取物指紋圖譜,以小鼠自入水后到沉入水中 8 s 不能浮出水面的時間來作為衡量抗疲勞藥效的指標。采用偏最小二乘回歸分析方法分析黃芪提取物 HPLC 指紋圖譜與抗疲勞藥效作用之間的譜效關系。最終結果發現對譜效關系有重要貢獻的變量共有36個(包括黃芪多糖和35個色譜峰)。
隨著越來越多的中藥化學成分的指紋圖譜的闡明,信息多樣的中藥圖譜所包含的信息也越來越多樣化。由于中藥成分的復雜性,我們希望找到最主要的藥效成分來進一步進行新藥開發。但往往重要的有效成分并不是簡單地配比,而是多個變量以不同的效率去影響總體的藥效。通過主成分分析及典型相關分析的多因素降維算法,將原來多個維度的數據降維成二維或三維數據進行分析,用以初步判斷各個化學成分對藥效的貢獻效益大小。
主成分分析法是經典的聚類分析方法之一。主成分的確定由累計貢獻率和以特征值決定, 累計貢獻率以>85%且特征值以λi≥1為佳[15]。其基本建模步驟是:①原始指標數據標準化,并求得各成分間的相關系數矩陣R;②求得R矩陣的特征值、特征向量和貢獻率,用貢獻率與特征值確定主成分個數并解釋主成分含義;③合成主成分,并得到綜合評定。劉青萍等[16]采用HPLC法獲取了12批補陽還五湯全方和14批補陽還五湯精簡方的指紋圖譜數據,采用大腦中動脈線栓法建立大腦中動脈閉塞模型,檢測腦干濕重和腦梗死面積作為腦損傷保護藥效評估指標,運用主成分分析法對采集的數據進行降維處理,再運用灰色關聯度法將指紋圖譜特征峰和腦損傷的保護藥效關聯起來,最終發現保留時間為tR=6.47、20.65、26.40 min的化學成分,調控腦梗死面積、腦水腫的貢獻度最佳。
典型相關性分析利用典型的相關系數對兩組變量線性相關程度進行定量描述,是一種簡化數據結構的分析方法[17]。他的特點是可以通過研究相關關系較大的幾對典型代表變量,替代了兩組變量之間的復雜相互關系。分析的步驟:①確定相關分析中的幾組貢獻率較大的典型變量;②提取典型變量;③正態性檢驗分析;④估計典型模型,評價擬合情況,計算相關系數;⑤解釋典型變量;⑥顯著性檢驗。于海帥等[18]利用HPLC方法得到了7種產地漏蘆的指紋圖譜,采用噻唑藍法檢測了幾種漏蘆對胃癌細胞的抑制增殖作用作為藥效研究指標,利用典型相關分析對漏蘆成分、藥效數據進行相關分析。
中藥譜效關系的建立的核心在于建立中藥指紋圖譜與中藥藥理藥效的映射關系,當然這也是它的難點所在。中藥指紋圖譜包括生物指紋圖譜和化學指紋圖譜,生物圖譜包括DNA圖譜和蛋白圖譜,主要用于中藥的鑒定,而化學指紋圖譜則包括了色譜圖譜和光譜圖譜,也就是我們傳統意義上的譜效分析中的“譜”[19]。中藥藥理藥效學研究與傳統意義上的藥效學研究的方法一致,通過離體細胞實驗和在體動物實驗兩種實驗方法進行研究,最終目的在于確定目標藥物制劑的藥物效應和藥物作用靶點。值得注意的是,中藥指紋圖譜的研究和藥理藥效的研究通常是分開獨立進行的,在研究過程中兩者是互相獨立的,要找到兩者的相關聯系需要選擇合適的數據處理技術來建立兩者之間的相互映射關系。
第一步需要找到指紋圖譜與藥物之間的相關關系。自然界中各個對象之間常常存在許許多多的互作關系,比如協同、拮抗或者因果關系等,兩個對象之間可能存在幾種以上的互作關系,所以當很多事物聯系成一個網絡的時候,其復雜程度顯而易見。相關關系是通過估量兩個事物的變化趨勢和走向的一致性,來初步推測兩者之間關聯性的一種算法,通過容易觀測到的指標之間的變化來對對象內部聯系進行推測。建立初步確定一般相關關系之后,需要開始第二歩,即通過簡單的回歸分析進行線性或非線性擬合,初步判斷多個自變量對同一個因變量作用的比重。但我們都知道,自然環境中的因素并不是簡單的配比,它具有數量多且關系復雜的特點,因此這時候我們需要進行第三步,即對數據進行降維分析,將復雜且多的數據降成二維或三維的數據,并尋找到配比最合理,擬合最佳的方式,更加全面地評估各組分對于總體藥效的奉獻比重。
當然所有的數據處理算法都有各自的優勢和劣勢,為了能更加準確合理的對藥效關系評估,需要多種算法的結合和相互驗證,以建立最為科學合理的“譜-效”數學模型。隨著信息化時代的來臨,各個領域都面臨著大數據的革新,在生命科學領域和藥物研究領域更是如此。其實隨著時代的進步,如何更加高效和科學的開展科學研究已經成為一個我們不能回避的問題。比如在如今的中藥藥效關系研究當中就存在這樣一個問題,每個進行藥物成分研究的研究人員在進行有效成分提取過后都會對藥效進行研究,然后建立相應的中藥效譜關系。但研究者們所選用的數據算法常常參差不齊,直接影響了最后效譜關系的有效性。是否可以構建一個數據庫,做藥理藥效研究的研究者將數據上傳,然后統計分析專家從數據庫下載數據,最終建立合理的中藥效譜關系,它是一個一對多的關系,可以有效地將這些藥理藥效研究進行多次利用,在很多領域已經實現了這種平臺搭建,比如癌癥的基因組學和蛋白組學數據庫。總的來說,高效準確的數據處理和分析方法的科學使用必將推動中藥譜效關系研究的蓬勃發展。