陳罡 何融泉 馬劼 馮振博
【中圖分類號】R259 【文獻標識碼】A 【文章編號】2095-3089(2018)11-0233-02
近年來,在精準醫學推動下,深度測序技術不斷普及,測序成本不斷降低,海量的數據不斷涌入臨床醫學領域[1]。醫療大數據不斷沖擊傳統醫學,也不斷更新和呼吁新的醫學教學、科研教學和臨床醫學行為模式,作為生物學分支的——計算生物學由此得以迅速發展,大數據挖掘分析已成為基礎醫學和臨床醫學發現問題的重要途徑,分子病理學是臨床醫學中采用高通量技術最頻繁的主力,因此,緊跟前沿技術,培養能夠正確處理、充分解讀、全面應用醫學大數據的臨床人才,將對我國新世紀醫療人才培養產生積極推動作用。本課題組前期通過結合臨床大數據,初步嘗試探索分子病理科研教學新體系,旨在推動符合時代需求的新型教學模式。
1.從大數據本體論到分子病理科研教學的任務
古希臘哲學家畢達哥提出“數是萬物的始基”。早在1988年《科學》首先提出大數據概念, 2008年《自然》設立了專刊介紹大數據,大數據正逐步發展和受到重視。人體本身就是一個數字化的整體,臨床診療的行為最大的特點是以人為對象,在精準醫學的背景下,得益于深度測序技術的普及,臨床行為正日益產生大量數據。一方面,大數據產生不斷挑戰著傳統的臨床醫學模式,另一方面,大數據也正引導臨床研究邁向更加高層次的整體觀照。大數據使得人類活動進入了一個新階段,在大數據基礎上,世界的一切關系均可用數據表征。具體到臨床醫學,大數據本體論需要我們回答臨床數據本質是什么?數據與疾病之間有何因果關系?大數據如何解釋疾病等問題?
傳統分子病理學作為臨床醫學診斷的前沿學科,也是臨床科研問題發現的最基本的途徑。在過去由于技術和檢測手段的限制,對疾病描述的數據結構以疏松和零散為主要特點。大數據時代下,分子病理對疾病本身的描述進入密集型高分辨率型的時代。這些由分子病理產生的臨床大數據正賦予分子病理科研更多的可能性,而如何解讀密集型數據的本質?如何將大數據有機結合到疾病本身的科學問題上來?如何解釋疾病數據的差異?這便是大數據對分子病理科研教學提出的時代新要求。
2.從大數據思維模式到分子病理科研教學的模式
傳統分子病理技術,如顯色原位雜交、熒光原位雜交、聚合酶鏈反應等,在精度上給予分子病理科研極大的便利。隨著基因芯片、基因測序等技術普及,使得數據在精度和廣度上都有了新的突破。大數據不僅是對一種臨床科學問題研究和認識的存在形式,也是臨床科學研究的一種方法和途徑,這種新的認識論范式與傳統分子病理科研推斷邏輯式表現形式不同,它是一種數據模型的思維模式,這種思維模式基本的目標有兩個——描述和預測:通過描述刻畫大數據的潛在模式,通過利用這些數據潛在模式,進行科研問題的預測,從而發現數據中有具有臨床價值的模型和規律。
具體說來,從方法論層面看,大數據思維模式對傳統的機械還原論進行了深入批判,提出了多樣與整體、關聯與動態分析的大數據思維,這些新思維具有復雜性思維特征。分子病理的大數據實現了還原論與整體論的融貫,首先承認疾病和科學問題本質是復雜的多樣性,強調了疾病表征和基因型的關聯性,認為存在比因果關系更加重要。通過對疾病和具體科學問題的數據化,實現了定性定量的綜合集成;因此如何實現描述和預測的功能,成為分子病理科研教學的大挑戰。
2.1大數據重新認識疾病的復雜性
分子病理產生的臨床大數據是指導臨床精準醫療和開展前沿醫學研究的前提,指導學生正確認識大數據便是首要的問題。本課題組緊跟大數據趨勢,在2013年起在傳統分子病理教學中引入大數據教學模式,幫助學生理解疾病和尋找科研問題。
大數據之大,在于深度和廣度。以肺癌為例,肺癌驅動基因的研究一直是攻克肺癌的關鍵所在,目前越來越熱的表觀遺傳學的研究揭示了非小細胞肺癌發生發展更多的可能性。在肺癌分子病理科研教學上,我們首先以傳統分子病理科研教學為切入點,帶領學生了解具體有特色的肺癌特點,比如臨床上對非小細胞肺癌常規檢測的EGFR、ALK等基因的情況。眾所周知,腫瘤是異質性極大的疾病,為了讓學生更加深入的了解腫瘤的復雜性,我們引入大數據,我們從傳統教學幾十例的患者,過渡到TCGA公共數據庫及GEO,CaArray, ArrayExpress數據庫等上千例非小細胞肺癌患者中來[2],從廣度上讓學生對非小細胞肺癌的特點有了全面的了解。從傳統教學的有限的研究成熟的基因數,到大宗病例分析產生的海量差異表達的基因數及其它分子事件,使得分子病理教學從已知向未知過渡,從傳統認知型教學向科研型教學過渡。
分子病理科研教學中,善于利用大數據可以更加高分辨率的展示疾病與臨床表型之間的聯系。以非小細胞肺癌為例,個人史、吸煙史對非小細胞肺癌的發生和發展至關重要,EGFR不同突變型的患者臨床治療策略和生存預后也都不一樣。我們整合分析了患者基本臨床參數,包括性別、年齡、吸煙史、治療史、病理類型等,我們還分析了非小細胞肺癌中可能存在的轉錄調控和表觀遺傳學機制,包括甲基化信息、miRNA表達譜,lncRNA表達譜,CNV,可變剪切等。區別于傳統分子病理科研教學,通過上述嘗試,我們將分子病理科研教學引導至一個信息更加全面,事件更加精確,機制更加復雜的高分辨率科研教學模式中,這樣的模式使得對疾病的了解更加全面,賦予研究對象更多的可能性,碰撞出更多的火花。
2.2循證法評價大數據的可靠性
大數據帶來分子病理科研教學的思維模式的變革,其優勢是改變了傳統分子病理尋找科學問題的模式。在以往,現象知識驅動徑路下,尋找具體科學問題需要看到具體現象,有已知知識支撐作為前提。而如今,大數據驅動徑路下,科學假說都可以先從公共數據進行驗證。大數據在深度給了我們全面的信息,我們能夠通過加大疾病樣本來力求接近事實真相。盡管如此,由于高通量測序本身技術的限制,隨機抽樣誤差是客觀存在的,導致很有可能假陽性的信息被我們選取。因此,本課題組在分子病理科研教學過程中將循證醫學的理念整合到大數據應用中,審慎的評價用于臨床研究和基礎研究中大數據的可靠性。
高通量提供給我們海量的數據是受人為因素的影響,離不開敏感度和特異度問題。在分子病理科研教學中,我們從多渠道獲取數據來評價大數據的可靠性:以原發性肝細胞癌為例,我們對TCGA的數據進行整合分析獲得原發性肝細胞癌差異表達微小RNA后,我們從GEO,CaArray, ArrayExpress等多個芯片及測序數據庫獲取數據,對TCGA的數據進行初步驗證;同時,我們也進行相應的臨床檢測,體內體外實驗來驗證TCGA數據的可靠性,從而獲取全面的信息,同時保證信息的高敏感度高和準確性、特異性[3]。
2.3 學科交叉,更高分辨率解讀大數據
疾病臨床表征和基因型的聯系,是數據科研價值的體現。而具體的科研問題能夠解決臨床問題,則需要余多學科互補交叉。從大方向上來看是基礎醫學和臨床醫學的優勢互補,在方法學上,大數據的分析更加依賴于多學科。例如,在我們非小細胞肺癌的病理科研教學中,我們有機融合了生物信息學、分子生物學、臨床腫瘤學的內容。生物信息學將大數據可視化展示,使得具體描述和預測更加直觀;通過分子生物學理論分析和實驗驗證,使得大數據預測更為精準;而通過結合臨床腫瘤學,使得分析所得的數據更加富有臨床應用價值。使得學生在了解疾病普遍的規律和現象的同時,看到了每個案例的獨特之處,進而發現和理解科研問題和臨床治療問題,理解分子病理學數據的潛在價值。
綜上,高通量技術正改變人們在認識自身和疾病的方式,大數據使得人們能夠更加的深入和精確理解自身,科學有效的利用大數據來解碼臨床具體問題,指導科學研究更好的更精確的服務臨床問題,也設計新興的生物信息學、計算生物學的內容,這些將是分子病理科研教學面臨的新任務和挑戰。
參考文獻:
[1]Chin-Yee B, Upshur R. Clinical judgement in the era of big data and predictive analytics. J Eval Clin Pract. 2017. [Epub ahead of print].
[2]Cohen AL, Piccolo SR, Cheng L, et al. Genomic pathway analysis reveals that EZH2 and HDAC4 represent mutually exclusive epigenetic pathways across human cancers. BMC Med Genomics. 2013,6:35.
[3]Liang HW, Yang X, Wen DY, et al. Utility of miR?鄄133a?鄄3p as a diagnostic indicator for hepatocellular carcinoma: An investigation combined with GEO, TCGA, meta?鄄analysis and bioinformatics. Mol Med Rep. 2018,17(1):1469-1484.