李思洋,朱芝嫻,董 杰
(南京中醫藥大學附屬醫院 南京 210001)
咳喘是呼吸道系統疾病的一種最基本的癥狀,可見于多種呼吸系統的疾病中,比如常見的呼吸道感染、支氣管哮喘、肺心病、職業性肺病以及肺結核、肺癌等。隨著氣候環境的惡化以及當今社會生活習慣的改變,呼吸系統疾病的發病率逐年升高,而小青龍湯作為經驗方劑常被用于治療呼吸系統疾病[1]。隨著祖國醫學走上世界舞臺,越來越多的國內外學者關注于中醫藥治療疾病的分子機制,這就需要我們探明各種中藥成分的潛在藥理學基礎。本文中我們使用了一種基于信號通路模式的方法,將小青龍湯中所涉及的化合物成分以及相關基因的效能進行了評分比較,并對該方在治療咳喘中發揮主要藥理作用的成分進行預測。此研究方法可以作為探索和規范中藥現代化應用的一種新思路。
小青龍湯最早見于東漢張仲景所著中醫經典著作《傷寒論》,主治外感風寒、內停水飲?!秱摗返?0條曰:“傷寒表不解,心下有水氣,干嘔,發熱而咳,或渴,或利,或噎,或小便不利,少腹滿,或喘者,小青龍湯主之。”第41條曰:“傷寒心下有水氣,咳而微喘,發熱不渴。服湯已渴者,此寒去欲解也,小青龍湯主之?!睆闹倬霸目矗∏帻垳靼Y應以咳喘為宜,至于咳和喘孰輕孰重,則臨床表現不一。在后續多本著作中均有記載,如《宋·太平惠民和劑局方》、明·方賢著《奇效良方》等,甚至日本的“漢方藥”中亦有小青龍湯。該方也是目前臨床應用比較多的方劑之一[2]。但小青龍湯及其類方的相關文獻報道仍主要集中在中醫方證研究、臨床治療和整體動物藥效學評價等,少量的藥理學研究也僅限于對其中麻黃堿、偽麻黃堿、甲基麻黃堿、芍藥苷、肉桂酸等若干含量較高的成分進行定性、定量分析,尚未見對小青龍湯進行系統性的化學成分辨識研究報道[3]。
中藥中通常包含了大量的化學物質,所以如果能夠系統性的研究某首方劑或者某味中藥,尋找到復方當中的有效單體成分,對于闡明中藥治療疾病的機理意義重大。為此,許多研究人員試圖建立一種研究策略來探索各種藥物成分如何影響藥物的效用[4]。目前已有多種方法用于分析藥物成分和預測藥物效用。這些方法大致可分為兩種,第一種是將化合物的生物活性與其化學結構和化學特征聯系起來,被稱作定量結構活性相關性的研究(Quantitative Structure-Activity Relationship analysis)[5]。但是應用此種方法的缺陷是目前不能獲得非常準確的中藥藥物結構信息。第二種是將復雜化學系統的生物活性與其化學組成相聯系,被稱為定量組份活性相關性的研究(Quantitative Composition-Activity Relationship analysis)[6,7]。但是這種方法缺乏精確的計算模型來量化化學成分與其生物活性的關系。
本研究中我們使用一種基于通路模式的分析方法(見圖1)[4],從藥物組成中分析活性成分,并預測其基因靶點,在其中尋找疾病發病機制中起著重要作用的基因靶點。再從選定的基因相關的KEGG通路經過數據挖掘進行檢索,從而排定各基因在疾病發病過程中的重要性,提示這些活性成分可能在小青龍湯治療咳喘中發揮主要作用。

圖1 藥物活性成分和靶基因預測流程
中藥的成分復雜,要想系統了解某首方劑的藥理基礎,首先要收集該藥方中各味草藥包含的所有化合物信息。這里我們所選用的小青龍湯方中包含了8味中草藥,通過查詢中醫藥資料庫@Taiwan(http://tcm.cmu.edu.tw/zh-tw/index.php)收集了他們各自目前已知的所有化合物成分(共335個,見附表1)。
為了確定上述這些化合物成分中哪些是對于治療咳喘有作用的活性成分以及預測其相應的靶基因,我們首先通過搜索CTD數據庫(http://ctdbase.org)找到可以與這些化合物有相互作用的相關基因。CTD數據庫收錄了幾乎所有FDA批準藥物和PubMed收錄的小分子化合物及其作用的相關基因和信號通路。由于有些化合物比較罕見,CTD數據庫中并沒有錄入或者沒有提供相關信息,我們去掉這些化合物。最終我們在CTD數據庫中發現上述335個化合物中有詳細分子結構、基因和相關通路的共有50個。這50個化合物能夠與被機體細胞識別并產生基因的變化,說明其具有潛在藥物活性。進一步分析50個化合物的相關基因有5 133個(詳見附表2),這些基因涉及的信號通路有11 740條。
上一步驟中所發掘出來的50個化合物的所有相關基因可以排出一個候選的靶基因列表。在這個列表中,我們記錄下所有的這些基因和他們的出現次數。由于有很多基因是偶然發生,因此可以說其和疾病聯系不大,需要設定一個最低閾值來將這些基因排除。因此我們利用DAVID生物分析系統(https://david.ncifcrf.gov/)對哮喘相關基因進行富集[8,9]。將基因出現頻次相同的作為一組,每組基因號通過ENTREZ_GENE_ID進行校正后,以“哮喘”為關鍵詞,由系統計算每組基因與疾病的相關性(由P值反映)。將基因與疾病相關性最為密切的一組基因的頻次設定為閾值,出現頻次小于閾值的基因將被舍棄。通過設定閾值篩選之后剩余的基因便可以進行通路信息的收集和研究了。這里我們通過搜索KEGG數據庫(http://www.genome.jp/kegg/)將每一個基因對應所有的通路找出來。每一個基因對應一個通路的數據集。在這些數據集中,如果某些通路單獨或成組地多次出現,那么這一對或一組信號通路便應該與我們所感興趣的疾病有著莫大的關聯[4]。同時,我們人為地將與咳喘明顯不相關的信號通路提出,保留與肺部疾病,細胞生長和周期以及免疫相關的信號通路。在一定的支持度和置信度設定下,利用clementine 12.0統計軟件的Apriori模型對信號通路進行關聯分析。這些在強雙向關聯規則下的通路被認為是高度相關的,并組成了我們所謂疾病通路模式。
通過疾病通路模式便可以計算出一種相關基因的得分。而如果一個基因處于更多上述的強雙向關聯規則中,那么它理應在疾病的發病機制中發揮更重要的效用,此時它的得分便更高。假設強關聯規則中存在兩個、三個...k個信號通路相關,或單個疾病相關信號通路的高頻出現。疾病通路模式中單個、兩個、三個...k個信號通路關聯規則包含的通路數目分別為N1、N2、N3...Nk。
則某基因得分的計算公式為:

其中hi表示在某一項關聯規則中涉及的所有通路中,該基因所對應的通路個數。通過這個計算得分的辦法,便可以將之前找到的基因根據在咳喘中的重要程度進行量化,而得分高于0的這些基因便是后面所謂的候選靶基因,并做成候選靶基因列表。
為了衡量各種化合物的效用,我們定義了一個效能指標。該指標包括功能性與特異性兩個方面。功能性方面,我們假設某種化合物涵蓋了越多的上述得分較高的候選靶基因,那么其功能就越好。使用函數計算。m為化合物對應的基因集中含有的候選靶基因數,S是所有靶基因得分之和,IJ表示候選靶基因列表中的第 j個基因是否是化合物對應的基因集中含有的基因,是則為1,否則為0,Sgj是第j個基因的基因得分。特異性方面,我們假設化合物對應的基因集中不在上述候選靶基因列表中的基因越少,特異性就越高。因此,可以使用函數計算特異性。N是該化合物相關基因的總數量,而Ngt是相關基因中包含在上述候選靶基因列表中的數量。最終得到的功效指標定義為當一個化合物的相關基因與候選靶基因列表完全重合的話,那么其 func=1、spec=1,EI的得分也是最高分1。 func和spec的下降,都會造成EI的分值下降。依據EI的進行排名,便可整理出方劑中高得分的那些化合物即為所要尋找的有效成分。這些最后得出的有效成分與上面所得到的靶基因一起便可以看作是小青龍湯在治療咳喘病中潛在的基礎藥理機制。
首先通過查找中藥數據庫@Taiwan,將小青龍湯中單味藥所包含的小分子化合物列出(以芍藥為例如表1所示)。藥物成分所包涵的各種化合物相關基因數量非常龐大,因此需要通過挖掘通路模式來進行篩選。我們將50個化合物所有的相關基因羅列出來,共5 133個。將這些基因根據他們的發生頻數進行排列。如同我們在圖2中所展示出來的,發生頻數高的基因數量是相對很少的,而可能因為偶然因素發生一次兩次的這些基因卻數量龐大。進一步使用DAVID生物分析系統對這些基因進行富集分析[10]。即選擇該系統中“GENETIC_ASSOCIATION_DB_DISEASE_CLASS”的分析,以“哮喘”為關鍵詞,從而找出與我們要研究的哮喘以及肺部相關疾病高度相關的基因。該系統所提供的這種分析方法可以計算出這些基因的一個相關性指標P值(P值越低,說明關系越密切)。隨著基因發生頻數的降低,基因與哮喘的發生關系越來越密切(-InP值越高),最后發現在頻數為4處的這組基因與哮喘關系最為密切,如圖3所示。發生頻率在4以下的基因與哮喘關系逐漸疏遠。所以我們將頻數4設為閾值,即將基因頻數為3或以下的基因舍棄。通過這種方式對所有的這5 133個基因進行篩選,最終得到了106個候選基因。

表1 芍藥中的化合物單體成分
將通過篩選得到的106個候選基因在KEGG數據庫搜索,其中有著詳細通路信息的基因有98個。這些基因的所有相關通路均記錄在附表3中。這98個基因所對應的化合物也減少到47個。利用這些基因在KEGG數據庫中所查到的通路信息,并設定了對應的支持度0.09與置信度0.9后,我們得到了包括了25個單項目通路、1個雙項關聯規則與6個多項關聯規則的通路模式(見表2)。
通過上面步驟所挖掘得出的通路模式,我們便可以計算所有這98個候選基因的基因得分(見附表4)。表3以CASP3基因為例,展示了根據公式計算基因得分的過程。其中有75個基因的得分在0分以上。將基因得分在前20的基因列在表4中,得分最高的三種基因分別為MAPK1、MAPK3與RELA。這些高得分的基因便被認為與咳喘高度相關,同時也有可能就是小青龍湯在治療咳喘時所作用的靶基因。
經過之前的篩選最后剩下來的候選化合物只剩下47個(見附表5)。根據這些化合物相關基因的基因得分,我們可以計算出這些化合物的功能函數值 func與特異函數值spec,并最終得出他們的效能指數EI。表5以蘿卜硫苷(Glucoraphanin)為例,展示了化合物效能的計算過程。將這些化合物的EI值進行排名后我們在表6中列出了其中的前十名,以及包含了這些化合物成分的草藥。其中效能最高的3種化合物為Paeonol(丹皮酚)、Glycyrol(甘草醇)、Geraniin(老鸛草素)。
本文中我們使用了一種基于所謂通路模式的方法對小青龍湯治療咳喘的有效成分及其發揮藥效的靶基因進行了預測。通過使用數據挖掘的方式搜集所有的成分、相關基因、通路等等大量的信息。再使用諸如戴維富集分析等方法設定一定的閾值來對所有的信息進行篩選,將很多偶然發生的基因和無關的信號通路剔除。最終得到需要的化合物成分和靶基因,并作為最后的預測結果。

圖2 50個化合物對應的相關基因出現的頻數

圖3 通過DAVID生物分析系統進行基因的富集分析

表2 疾病相關的通路模式
在我們最后得到的結果中,有一些在以前的相關研究中已經報道過。比如我們計算的出EI分值較高,在所有化合物排名第九的山柰酚(Kaempferol),就被發現可以通過調節NF-κB信號通路可以減輕流感造成的呼吸系統損傷,同時有效降低了小鼠肺損傷模型血液中腫瘤壞死因子(TNF)、白細胞介素6(IL-6)的含量,二者也正是我們所預測小青龍湯發揮藥效靶基因(即基因得分排名前二十)[11]。同樣的結論在一些慢性阻塞性肺疾病和慢性支氣管炎的研究中也有報道[12,13]。當然這些呼吸系統的疾病均包含在中醫的咳證與喘證中[14]。而沒有文獻報道的這些化合物與靶基因也可能成為以后對于小青龍湯治療咳喘的基礎藥理機制研究的方向。
本研究中也獲得了一些既與小青龍湯中的小分子化合物相關聯,又與咳喘發生相關的基因,小青龍湯對咳喘的治療作用可能依賴于這些信號分子和相關信號通路,如絲裂原活化蛋白激酶(MAPK)信號通路。實際上,已經有研究發現,一些中藥方劑主要是通過抑制MAPK信號,改善小鼠咳喘癥狀[15]。

表3 CASP3(ID:836)基因得分

表4 排序前二十的相關基因

表5 蘿卜硫苷(Glucoraphanin)效能(EI)計算
當然這種研究方法也有很多缺陷,比如所建立的通路模式缺乏生物學價值。這種通路模式其實是通過數據挖掘的方式,從大量的信息中統計出來的,它更多的是符合統計學意義,而在生物學上還不能找到合適的解釋。所以尋找其生物學意義也可作為后面研究的一個重點和方向。并且由于所研究化合物的詳細成分組成和基因資料并不完全,研究過程中排除的很多化合物在治療疾病的過程中可能也起到了很重要的作用,但以現在的資料儲備水平我們也不得而知了。另外在本研究的基礎上,還需進一步進行動物實驗,探索本研究中預測為治療效能較高的化合物單獨或者聯合使用,闡明其是否能夠治療或改善哮喘癥狀。

表6 效能指數EI前十名的化合物
總的來說,這項研究通過數據挖掘這一利用當今網絡大數據的方法,成功預測了小青龍湯治療咳喘病的很多有效成分及其作用的靶基因。未來,如果可以使用這種方法探索更多的傳統中藥名方,那對于中藥治療基礎藥理研究的標準化有著重要意義。
1 張立山,戴雁彥.小青龍湯應用之我見.中華中醫藥雜志,2008,23(09):847-848.
2 朱曉宏.小青龍湯現代藥理研究及臨床應用概況.國醫論壇,2007,22(6):52-53.
3 范驍輝,肖舜,艾妮,等.基于網絡方劑學的小青龍湯類方功效物質組研究.中國中藥雜志,2015,40(13):2634-2638.
4 Dai W,Chen J,Lu P,et al.Pattern-based prediction of active drug components and gene targets from H1N1 influenza's treatment with maxingshigan-yinqiaosan formula.Mol Biosyst,2013,9(3):375-85.
5 Burbidge R,Trotter M,Buxton B,et al.Drug design by machine learning:support vector machines for pharmaceutical data analysis.Comput Chem,2001,26(1):5-14.
6 Wang Y,Wang X,Cheng Y.A computational approach to botanical drug design by modeling quantitative composition-activity relationship.Chem Biol Drug Des,2006,68(3):166-172.
7 Cheng Y,Wang Y,Wang X.A causal relationship discovery-based approach to identifying active components of herbal medicine.Comput Biol Chem,2006,30,148-154.
8 Huang da W,Sherman B T,Lempicki R A.Bioinformatics enrichment tools:paths toward the comprehensive functional analysis of large gene lists.Nucleic Acids Res,2009,37(1):1-13.
9 Huang da W,Sherman B T,Lempicki R A.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources.Nat Protoc,2009,4(1):44-57.
10 Chen L,Tai J,Zhang L,et al.Global risk transformative prioritization for prostate cancer candidate genes in molecular networks.Mol Biosyst,2011,7(9):2547-2553.
11 李妍,王春富,張瑞華,等.山柰酚通過下調NF-κB信號通路減輕豬源甲型H9N2流感病毒所致小鼠急性肺損傷.中國病理生理雜志,2017,33(2):315-321.
12 劉禹翔,王峰,曲敬來,等.小青龍湯對慢性阻塞性肺疾病急性發作期患者細胞因子及肺功能的影響.新中醫,2013,45(7):24-26.
13 孟學峰,范曄,薛連峰.小青龍湯加味改善慢性支氣管炎急性發作期患者血清IL-6和TNF-α的研究.中醫研究,2009,22(6):27-29.
14 王有奎.呼吸病的中醫診治與調理.北京:人民軍醫出版社,2007.
15 羅永峰,吳壯,徐軍.天龍咳喘靈改善慢性哮喘小鼠氣道重塑的機制.遼寧中醫雜志,2011,38(2):357-359.