張皓旻,楊 波,郭 斌,于睿莉,遲小華,陳紅飛,席義博,陳錫勐,賀培鳳,盧學春
生物信息學是20世紀80年代興起的一門新的應(yīng)用生物學學科,在過去的30年里有了長足的發(fā)展,在生物學、基礎(chǔ)醫(yī)學、農(nóng)學和法醫(yī)學等領(lǐng)域都有了深入和廣泛的應(yīng)用,但在指導(dǎo)臨床醫(yī)學教學和臨床轉(zhuǎn)化研究方面應(yīng)用相對不足。
臨床生物信息學與經(jīng)典生物信息學不同,側(cè)重于臨床密切相關(guān)的生物信息學內(nèi)容,包括疾病的診斷、治療、預(yù)后評估等組學數(shù)據(jù)庫、分析平臺具體應(yīng)用,是一門生物信息學與臨床醫(yī)學的交叉學科,是大數(shù)據(jù)研究的一個新分支。一言以蔽之,臨床生物信息學是將組學大數(shù)據(jù)作為研究對象,結(jié)合臨床具體問題,經(jīng)數(shù)據(jù)挖掘,獲得能夠指導(dǎo)臨床診斷、治療及預(yù)后評估的知識。當前,隨著計算機科學的進步,出現(xiàn)包括數(shù)據(jù)庫分析、機器學習以及人工智能等一系列新技術(shù),極大的豐富了臨床生物信息學方法學。我們自2003年以來,利用臨床生物信息學方法進行了一系列臨床轉(zhuǎn)化研究,并在國內(nèi)多所醫(yī)學院校主講了有關(guān)臨床生物信息學方法及應(yīng)用的課程,在這些實踐基礎(chǔ)上,論述臨床生物信息學在臨床醫(yī)學教育中的作用。
隨著基礎(chǔ)研究的不斷深入,基因組學、轉(zhuǎn)錄組學、表觀基因組學和蛋白質(zhì)組學的數(shù)據(jù)不斷增多,全球范圍內(nèi)每天產(chǎn)生海量的DNA、RNA、蛋白質(zhì)以及由此產(chǎn)生的二級數(shù)據(jù)庫等生物信息數(shù)據(jù)。臨床醫(yī)生如何利用這些基礎(chǔ)研究的數(shù)據(jù),解決臨床實踐過程中診斷、治療和預(yù)后評估的疑難問題,為患者服務(wù),這是每一個基礎(chǔ)研究和臨床工作者所面臨的難題。高效實用且容易掌握的生物信息學方法,是突破這些數(shù)據(jù)快速轉(zhuǎn)化為臨床信息的橋梁。臨床生物信息學就是在此背景條件下應(yīng)運而生的一門新的學科[1]。
在當今轉(zhuǎn)化醫(yī)學逐漸引起學者們廣泛關(guān)注,國外在這方面研究起步較早,方法相對成熟,而國內(nèi)則剛剛起步,研究方法欠缺,且多數(shù)學者對此并不了解。為此,盡早開展有體系的臨床生物信息學教學,以解決目前臨床醫(yī)生科研方法單一、臨床研究缺乏創(chuàng)新性以及實用性等現(xiàn)實問題迫在眉睫。
在經(jīng)典的生物信息學教學當中,對計算機技術(shù)的掌握往往要求很高,一個優(yōu)秀的生物信息學學者應(yīng)當掌握大量的生物信息學數(shù)據(jù)庫,能夠熟練應(yīng)用多種計算機編程語言進行數(shù)據(jù)的建庫、清洗、處理等工作。但是,對醫(yī)學生或臨床醫(yī)生而言,在學習高深的生物醫(yī)學知識、處理繁雜的臨床工作的同時,熟練掌握計算機技術(shù)顯然是很難的。因此,對于生物醫(yī)學工作者更重要的是掌握大量的生物信息學數(shù)據(jù)庫及在線分析平臺等工具,并能夠利用這些工具對自己的醫(yī)學研究、臨床科研甚至于臨床疑難病癥的診治進行指導(dǎo),尤為重要。
臨床生物信息學數(shù)據(jù)庫根據(jù)其數(shù)據(jù)源可以分為一次數(shù)據(jù)庫、二次數(shù)據(jù)庫和在線分析工具。其中,存儲有DNA序列、蛋白質(zhì)序列、結(jié)構(gòu)等信息的數(shù)據(jù)庫構(gòu)成了一次數(shù)據(jù)庫。二次數(shù)據(jù)庫是在一次數(shù)據(jù)庫的基礎(chǔ)上經(jīng)實驗驗證及數(shù)據(jù)分析得到的,其中部分二次數(shù)據(jù)庫還具有特有的分析工具。在線分析工具是以一次數(shù)據(jù)庫和二次數(shù)據(jù)庫為背景參照,運用自主設(shè)計的算法來提供在線分析功能。一般而言,一次數(shù)據(jù)庫具有種類多樣、數(shù)據(jù)更新和增長快、結(jié)構(gòu)復(fù)雜且層次深、高度計算機化和網(wǎng)絡(luò)化等特點;二次數(shù)據(jù)庫則針對性強,大多提供檢索及開源下載,使用方便;在線分析工具除具有一定的在線分析功能外,還具有原始數(shù)據(jù)檢索和可視化功能,同時可供用戶下載分析結(jié)果[2]。
2.1 一次數(shù)據(jù)庫 GenBank數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov)、歐洲分子生物學實驗室(The European Molecular Biology Laboratory,EMBL)核酸庫(http://www.ebi.ac.uk/ena/)和日本的DNA數(shù)據(jù)庫(DNA Data Bank of Japan,DDBJ)(http://www.ddbj.nig.ac.jp/)是著名的核酸序列數(shù)據(jù)庫。GenBank數(shù)據(jù)庫是美國國立生物技術(shù)信息中心建立的,包含所有已知的DNA和蛋白質(zhì)序列,以及與其相關(guān)文獻和注釋。EMBL核酸庫是由歐洲生物信息學研究所維護的。DDBJ數(shù)據(jù)庫可與GenBank數(shù)據(jù)庫、EMBL核酸庫交互,也是一個非常全面的DNA序列數(shù)據(jù)庫。
蛋白質(zhì)序列數(shù)據(jù)庫有Swiss-Prot(http://www.ebi.ac.uk/uniprot)、PIR-PSD(http://pir.georgetown.edu/)和蛋白質(zhì)數(shù)據(jù)庫(Protein Data Bank,PDB)(http://www.rcsb.org/)等。Swiss-Prot是歐洲最大的蛋白質(zhì)序列數(shù)據(jù)庫,它的序列準確率高,注釋完善,但與其他數(shù)據(jù)庫相比數(shù)據(jù)量較小,現(xiàn)在已整合進UniProt數(shù)據(jù)庫中。PIR-PSD是國際上最大且有注釋信息的開源蛋白質(zhì)序列數(shù)據(jù)庫。PDB是國際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)庫,其數(shù)據(jù)來源于X光晶體衍射和核磁共振,經(jīng)過整理和確認后存檔而成。
2.2 二次數(shù)據(jù)庫 二次數(shù)據(jù)庫數(shù)量很多,如基因表達綜合數(shù)據(jù)庫是目前完全公開的最大的高通量基因表達數(shù)據(jù)庫;人類基因綜合數(shù)據(jù)庫GeneCards提供了全部基因、蛋白質(zhì)在轉(zhuǎn)錄、遺傳和功能上所有已知信息。GeneCards中的信息功能包括某一基因與疾病的關(guān)系,基因多態(tài)性、表達、功能、分布,蛋白質(zhì)與蛋白質(zhì)相互作用等,且提供各數(shù)據(jù)庫及分析工具鏈接,操作簡單;miRBase數(shù)據(jù)庫是一個提供包括miRNA序列數(shù)據(jù)、注釋、調(diào)控基因等信息的數(shù)據(jù)庫;蛋白質(zhì)數(shù)據(jù)庫,它包含提供全部24 000種人類蛋白質(zhì)的組織和細胞分布信息。
此外,尚有一些關(guān)于化合物或代謝物數(shù)據(jù)庫,如代謝物、藥物和毒性分子數(shù)據(jù)庫fragmentstore(http://bioinf-applied.charite.de/fragment_store);在實驗基礎(chǔ)上建立的,提供與癌癥有關(guān)的蛋白和化合物相互作用的Cancer Resource數(shù)據(jù)庫(http://data-analysis.charite.de/care/)等。
2.3 在線分析工具 在所有在線分析數(shù)據(jù)庫當中,DAVID(the Database for Annotation,Visualization and Integrated Discovery,http://david.ncifcrf.gov/)是臨床生物信息學最常用的聚類分析數(shù)據(jù)庫,它整合了生物學數(shù)據(jù)和分析工具,幫助用戶從中獲取有用的生物學信息。該工具在2003年發(fā)布,目前版本是v6.8。與其他分析工具相似,都是利用統(tǒng)計方法,在數(shù)千個基因關(guān)聯(lián)的注釋中,找出關(guān)聯(lián)度最高的的生物學注釋,最主要是功能注釋和信息鏈接。
Reactome(https://reactome.org/)是一個開源的、開放的、手動策劃和同行評議的途徑數(shù)據(jù)庫,是一個直觀的生物信息學工具。用于可視化、解釋和分析通路知識,以支持基礎(chǔ)和臨床研究、基因組分析、建模、系統(tǒng)生物學和教育。用戶可從中直接檢索生物學通路,查看生物學進程中發(fā)生的具體事件,也可以對用戶輸入的基因列表進行聚類,查看輸入基因在各通路中的具體作用。
STRING數(shù)據(jù)庫(https://string-db.org/)是一個檢索已知蛋白質(zhì)相互作用的工具。蛋白質(zhì)相互作用既包括蛋白質(zhì)之間理化性的直接相互作用,也包括蛋白質(zhì)之間功能性的間接相互作用。它不僅有實驗結(jié)論、還有對PubMed進行文本挖掘得出的結(jié)論,同時綜合其他數(shù)據(jù)庫信息,利用生物信息學的方法進行分析。該工具會對不同來源的結(jié)果基于一定的評分方式給出不同的權(quán)值,最終根據(jù)其特有的評分方式給出一個最終打分。
隨著各種類型和層次大數(shù)據(jù)的不斷出現(xiàn),基因組學和二代測序技術(shù)的發(fā)展,組學大數(shù)據(jù)以指數(shù)級增長。各種類型、功能各異的數(shù)據(jù)庫層出不窮。對于一個醫(yī)學生、醫(yī)學科研和臨床工作者來說,如何選擇合適的數(shù)據(jù)庫和方法指導(dǎo)醫(yī)學研究,如何從數(shù)據(jù)庫中繁雜的信息中提取出有價值的知識,是每一個醫(yī)學生、醫(yī)學科研和臨床工作者應(yīng)當具備的能力。
3.1 利用生物信息學數(shù)據(jù)庫對序列進行檢索 對于許多未知生物學功能的新序列,研究人員從數(shù)據(jù)庫中檢索出與新序列同源的已知序列,根據(jù)已知同源序列推測出新序列生物學功能。而臨床工作者則需要知道該序列在不同組織,不同狀態(tài)下的表達情況。這也是二者面對同一序列,但研究目的截然不同的主要原因。前者屬于經(jīng)典生物信息學的研究內(nèi)容,而后者則是臨床生物信息學的研究方向。在分子生物學中,DNA或蛋白質(zhì)的相似性是多方面的,可能是結(jié)構(gòu)相似,也可能是功能相似。所以在進行序列相似性分析時,希望從一些普遍規(guī)律中推測出新序列的結(jié)構(gòu)或功能,從而發(fā)現(xiàn)生物分子的新內(nèi)涵。這種方法在大多數(shù)情況下是成功的,當然也有例外,因此這種基于相似性的分析方法仍然需要不斷改進[3]。
3.2 利用生物信息學數(shù)據(jù)庫進行轉(zhuǎn)化研究的淺層次數(shù)據(jù)挖掘 數(shù)據(jù)挖掘就是從大量、不完全、有噪聲、模糊的數(shù)據(jù)中,提取隱含在其中未知但又有效、新穎、有潛在價值、并且最終轉(zhuǎn)化為信息和知識的過程。目前,隨著多種組學的出現(xiàn),數(shù)據(jù)量不斷增加,數(shù)據(jù)庫日益增多,組學大數(shù)據(jù)分析方法的出現(xiàn)為序列分析、基因表達分析、蛋白質(zhì)結(jié)構(gòu)預(yù)測以及新藥研發(fā)等領(lǐng)域的數(shù)據(jù)挖掘提供了廣闊的應(yīng)用前景。利用數(shù)據(jù)挖掘技術(shù),將幫助人們更好地認識組學大數(shù)據(jù)所蘊涵的生命信息,探究生命的奧秘,并將此應(yīng)用于臨床,為更多患者解除病痛的折磨,為醫(yī)學的進步注入新的活力。
對此,本研究團隊早在2003年就開始了探索。早期,我們通過應(yīng)用簡單的臨床生物信息學方法對基因組及轉(zhuǎn)錄組學數(shù)據(jù)進行數(shù)據(jù)挖掘,獲得了一系列喜人的原創(chuàng)成果,且多數(shù)成果已成功應(yīng)用于臨床,為后續(xù)臨床研究提供寶貴經(jīng)驗。例如,篩選并分析了急性淋巴細胞白血病復(fù)發(fā)相關(guān)基因[4];預(yù)測并驗證了去甲基化和組蛋白去乙?;D(zhuǎn)移酶抑制劑對腫瘤細胞的影響[5];觀察氨磷汀聯(lián)合重組人紅細胞生成素對高齡骨髓增生異常綜合征的療效[6];結(jié)合中醫(yī)“辨證施治”思想利用臨床生物信息學分析對免疫性血小板減少性紫癜進行分型施治[7]。
3.3 利用生物信息學數(shù)據(jù)庫進行轉(zhuǎn)化研究的深層次知識發(fā)現(xiàn) 隨著組學數(shù)據(jù)的日漸增多,簡單的臨床生物信息學挖掘方法已不能適應(yīng)大數(shù)據(jù)量、大運算量、多層次組學數(shù)據(jù)的深層次分析。隨著計算機技術(shù)的不斷進步,國內(nèi)外先后有研究團隊將機器學習、人工智能等方法應(yīng)用于臨床生物信息學研究,實現(xiàn)對多組學數(shù)據(jù)的更深層次分析,以期指導(dǎo)醫(yī)學研究、臨床診治和新藥研發(fā)。機器學習的目的是實現(xiàn)在海量數(shù)據(jù)中由計算機自動的對潛在知識進行挖掘,因此,海量數(shù)據(jù)是實現(xiàn)機器學習以及確保所獲取知識準確性的必要前提。
為此,本研究團隊建立了疾病多組學數(shù)據(jù)庫、藥物多組學數(shù)據(jù)庫以及醫(yī)學文獻數(shù)據(jù)庫,以此為基礎(chǔ)利用機器學習等大數(shù)據(jù)分析技術(shù)自主建立了“疾病-藥物多組學大數(shù)據(jù)臨床生物信息學平臺”,進行血液病及腫瘤治療藥物和方案的系列研發(fā),并成功應(yīng)用于臨床[8]。利用這種方法,我們最先對依硫磷酸聯(lián)合方案治療骨髓增生異常綜合征進行優(yōu)化[9-10]。隨后,陸續(xù)在國際上,率先報道6種創(chuàng)新治療技術(shù)體系:①反復(fù)多療程自體免疫細胞治療技術(shù)體系[11];②超低劑量表觀遺傳藥物聯(lián)合免疫治療技術(shù)體系[12-16];③含祛脂向分化藥物的再生障礙性貧血聯(lián)合治療技術(shù)體系[17-20];④靶向活化性免疫細胞治療技術(shù)體系[21-23];⑤靶向細胞周期素D1陽性腫瘤的治療技術(shù)體系[24];⑥泛細胞保護劑聯(lián)合造血生長因子方案治療骨髓增生異常綜合征及免疫性血小板減少癥的技術(shù)體系[25-26]。此外,本研究團隊在多所醫(yī)學院校進行臨床生物信息學教學中發(fā)現(xiàn):①各類疾病指南過多,限制醫(yī)學生創(chuàng)新思維;②生物醫(yī)學數(shù)據(jù)量大,但被利用轉(zhuǎn)化為臨床可用的信息少,不利于大數(shù)據(jù)時代下醫(yī)學教育的發(fā)展。正如古人所說,授人以魚不如授人以漁,作者認為,當務(wù)之急在臨床醫(yī)學教育中開展臨床生物信息學教學及方法研究。
隨著人類基因組計劃的完成和二代測序技術(shù)的發(fā)展,運用機器學習等前沿技術(shù)針對爆炸式增長的組學大數(shù)據(jù)進行深度挖掘成為可能。面對傳統(tǒng)治療方案難以解決臨床疑難重癥的嚴峻現(xiàn)實,醫(yī)學本科畢業(yè)生有必要開展臨床生物信息學教學,有體系地學習臨床生物信息學方法,了解并熟練掌握臨床生物信息學常用的數(shù)據(jù)庫。使得每一位臨床醫(yī)學研究生、醫(yī)學工作者對現(xiàn)有醫(yī)學研究和臨床工作中難以解決的醫(yī)學問題進行合理分析并能有效解決。最終使臨床生物信息學能滿足現(xiàn)代醫(yī)療和醫(yī)學研究發(fā)展的需要,促進臨床轉(zhuǎn)化,為現(xiàn)代醫(yī)學的發(fā)展提供新途徑。
【參考文獻】
[1]Trent RJA.臨床生物信息學[M].盧學春,楊波,張峰,譯.北京:軍事醫(yī)學科學出版社,2014.
[2]劉銀鳳,張雷.生物信息學數(shù)據(jù)庫在醫(yī)學研究中的應(yīng)用[J].中國病原生物學雜志,2014,9(10):附頁1-2,封三.
[3]姜鑫.生物信息學數(shù)據(jù)庫及其利用方法[J].現(xiàn)代情報,2005,25(6):185-187.
[4]盧學春,樓方定,徐周敏,等.急性淋巴細胞白血病復(fù)發(fā)相關(guān)基因的篩選及生物信息學分析[J].軍醫(yī)進修學院學報,2004,25(2):81-83.
[5]盧學春,樓方定,徐周敏,等.去甲基化和組蛋白去乙?;D(zhuǎn)移酶抑制劑對K562細胞增殖和腫瘤相關(guān)基因表達的影響[J].中國實驗血液學雜志,2004,12(1):44-47.
[6]盧學春,朱宏麗,姚善謙,等.氨磷汀聯(lián)合重組人紅細胞生成素治療高齡骨髓增生異常綜合征近期療效觀察[J].中國實驗血液學雜志,2005,13(3):440-442.
[7]盧學春,朱宏麗,姚善謙.免疫性血小板減少性紫癜分型施治的基礎(chǔ)與臨床研究進展[J].中國實驗血液學雜志,2008,16(5):1232-1236.
[8]中國癌癥基金會《中國腫瘤臨床年鑒》編輯委員會.2016中國腫瘤臨床年鑒[J].北京:中國協(xié)和醫(yī)科大學出版社,2017,578-579.
[9]盧學春,楊波,朱宏麗,等.生物信息學方法優(yōu)化依硫磷酸聯(lián)合方案治療骨髓增生異常綜合征的應(yīng)用研究[J].中華醫(yī)學雜志,2009,89(26):1834-1837.
[10]楊波,蔡力力,遲小華,等.依硫磷酸調(diào)控人類基因表達譜的預(yù)測及生物信息學分析[J].中國實驗血液學雜志,2011,19(3):711-716.
[11]Yang B,Lu XC,Yu RL,et al.Repeated transfusions of autologous cytokine-induced killer cells for treatment of haematological malignancies in elderly patients: a pilot clinical trial[J].Hematol Oncol,2012,30(3):115-122.
[12]盧學春,楊波,朱宏麗,等.自體細胞因子誘導(dǎo)的殺傷細胞聯(lián)合IL-2治療老年人血液系統(tǒng)惡性腫瘤的臨床經(jīng)驗探討[J].解放軍醫(yī)學雜志,2010,35(10):1270-1272.
[13]Lu XC,Yang B,Yu RL,et al.Clinical study of autologous cytokine-induced killer cells for the treatment of elderly patients with diffuse large B-cell lymphoma[J].Cell Biochem Biophys,2012,62(1):257-265.
[14]蔡力力,楊波,盧學春,等.免疫功能檢測對評估細胞因子誘導(dǎo)的自體殺傷細胞治療老年血液腫瘤療效的研究[J].中國實驗血液學雜志,2010,18(5):1250-1255.
[15]Yang B,Wang HT,Cai LL, et al.Successful management of acute myeloid leukemia transformed from myelodysplastic syndromes in an elderly patient aged over 80 years old by ultralow dose decitabine combined with amifostine and autologous CIK cells[J].Ann Hematol,2013,93(7):1233-1235.
[16]Yang B,Yu R,Cai L,et al.A comparison of therapeutic dosages of decitabine in treating myelodysplastic syndrome:a meta-analysis[J].Ann Hematol,2017,96(11):1811-1823.
[17]盧學春,遲小華,楊波,等.重型再生障礙性貧血發(fā)病相關(guān)T淋巴細胞基因表達譜的生物信息學分析及作為藥物篩選新方法的探索[J].中國實驗血液學雜志,2010,18(2):416-420.
[18]盧學春,楊波,遲小華,等.含鹽酸二甲雙胍聯(lián)合方案治療再生障礙性貧血的短期療效觀察[J].解放軍醫(yī)學雜志,2012,37(3):229-233.
[19]盧學春,楊波,遲小華,等.再生障礙性貧血病因?qū)W的新探索:異常免疫誘導(dǎo)骨髓間充質(zhì)干細胞的過度脂肪化(英文)[J].解放軍醫(yī)學雜志,2014,39(3):173-179.
[20]盧學春,遲小華.含鹽酸二甲雙胍和維生素b12的組合藥物:中國,CN 101716182 A[P].2010-06-02.
[21]蔡力力,楊洋,楊波,等.含胸腺肽增強免疫的自體CIK細胞輸注聯(lián)合小劑量IL-2方案治療老年人B-CLL的近期療效觀察[J].中國實驗血液學雜志,2012,20(3):564-570.
[22]Yu R,Yang B,Chi X,et al.Efficacy of cytokine-induced killer cell infusion as an adjuvant immunotherapy for hepatocellular carcinoma:a systematic review and meta-analysis[J].Drug Des Devel Ther,2017,11:851-864.
[23]楊洋,楊波,脫帥,等.含胸腺肽免疫增強的自體CIK細胞聯(lián)合IL-2方案治療高齡彌漫大B細胞淋巴瘤[J].軍醫(yī)進修學院學報,2012,33(5):441-443.
[24]楊波,盧學春,遲小華.氨磷汀在細胞周期素D1高表達類型腫瘤中的應(yīng)用:中國,201510142245.2[P].2015-10-14.
[25]中國癌癥基金會《中國腫瘤臨床年鑒》編輯委員會.2015中國腫瘤臨床年鑒[J].北京:中國協(xié)和醫(yī)科大學出版社,2016,200-208,669-670.
[26]于睿莉,楊波,蔡力力,等.老年骨髓增生異常綜合征的臨床病理特征及氨磷汀聯(lián)合造血生長因子方案的長期療效觀察[J].中國藥物應(yīng)用與監(jiān)測,2017,14(2):75-80.