王東妮,東野枚枚,張栩琳,楊子英 綜述 林浩添,2 審校
(1.中山大學中山眼科中心,眼科學國家重點實驗室,廣州 510060;2.中山大學精準醫學科學中心,廣州 510080)
疾病生物樣本庫是建設數量最多且普遍存在于各級醫療機構的生物樣本庫,樣本由患有相關疾病的患者捐獻。醫院的電子病歷系統(electronic medical record,EMR)、醫院信息系統(hospital information system,HIS)、實驗室信息系統(laboratory information system,LIS)、影像歸檔和通信系統(picture archiving and communication systems,PACS)等已廣泛應用于各級醫療機構[1],存儲著大量的臨床信息。將這些系統通過接口連接到生物樣本庫信息系統是生物樣本庫信息化建設的關鍵步驟,也是注釋樣本屬性的數據提取方式,但各管理系統中儲存的數據類型種類繁多,包含結構化數據、以自然語言描述的非結構化數據、影像數據、檢查報告等,單純抓取原始數據到生物樣本庫信息系統只會重復儲存,造成數據冗余,浪費人力、物力和財力[2],生物樣本庫急需利用智能化的數據處理方式來應對這一難題。由于機器學習技術的進步,人工智能(artificial intelligence,AI)在醫學上的應用引起了廣泛關注[3-4]。自然語言處理技術在信息檢索中的應用[5]、深度學習技術在自然語言處理和在圖像識別中的應用以及區塊鏈技術均有望成為解決生物樣本庫信息化建設與信息共享的核心技術。
臨床生物樣本蘊藏著許多與疾病相關的信息,是不可復制的科學研究資源。20世紀90年代以來,歐美等發達國家紛紛建立了大規模人群樣本庫,如擁有70萬例樣本的美國國家癌癥研究所建立的國家級腫瘤生物樣本庫(Cooperative Human Tissue Network,CHTN)[6]、招募了50萬名40~69歲志愿者并記錄其醫療健康數據的英國生物樣本庫(United Kingdom Biobank,UK Biobank)[7]、囊括了歐洲30多個國家的200多個機構的泛歐洲生物樣本庫與生物分子資源研究平臺(Biobanking and Biomolecular Resources Research Infrastructure,BBMRI)[8]。為了保護我國各民族基因組并供永久性研究,中國科學院在1994年建立了中華民族永生細胞庫,是目前國內規模最大的各民族永生細胞庫[9]。自此,國內各類生物樣本庫應運而生,在早期的生物樣本庫建設過程中,建設者都更加注重樣本數量建設,生物樣本得到快速積累,但由于對樣本信息疏于管理,導致信息錯漏,對樣本的應用及共享產生了極大的限制。如何深入挖掘樣本信息,加速科學的共享與利用,是當前生物樣本庫建設的重要方向。
國內生物樣本庫立足于我國豐富的遺傳資源、多樣化的疾病類型,建設與發展模式漸趨成熟,在疾病防控、精準醫療、早篩早診中的作用日益增加。標準化的樣本和數據管理作為生物樣本庫的重要一環,是獲取高質量樣本和數據的基礎,也是促進轉化醫學和精準醫學發展的基石。然而,龐大的臨床資源卻由于數據結構化程度低、電子信息化建設水平參差不齊,導致利用率較低[2]。如何有效地整合、挖掘現有臨床資源,是生物樣本數據庫建設的基礎問題。
隨著A I 的發展、深度學習模型的開發和優化,語義分析有望成為解決上述問題的鑰匙。語義分析是A I 的一個分支,將自然語言轉化為計算機能夠理解的語言,通過如循環神經網絡(Recurrent Neural Networks,RNNs)、長短時記憶模型(Long Short-Term Memory,LSTMs)及其他模型訓練機器學習、“理解”,并以自然語言給出分析結果[10]。目前,語義分析的信息處理已從表層特征向深層語義分析轉變,并在多個領域內應用。在輿情分析方面,通過抓取社交媒體的相關信息,語義識別應用于包括欺詐交易識別等的犯罪活動檢測[11];在生物醫學方面,自然語言處理和關系提取已應用于文獻整合、構建疾病的全蛋白質譜及基因序列標記[12]等。
在生物樣本庫信息化建設中,整理樣本捐獻者的臨床信息是必不可少的環節,如患者的基本信息、門診信息和住院信息可以從HIS系統里獲取;患者的檢驗信息可以從LIS系統里獲取;患者的影像信息可以從PACS系統中獲取;患者的病歷信息可以從EMR中獲取。語義分析的文本信息提取可以幫助研究者提取與樣本相關的關鍵信息,即通過對文本信息的抽取,精煉龐雜的臨床數據,為樣本帶上多個“標簽”,方便研究者進行樣本的篩選和統計分析;文本分類和聚類可以實現樣本的自動分類,方便研究者進行大型隊列研究和數據分類;智能檢索可以協助研究者在臨床信息數據池中挖掘和提取有效信息,在將信息結構化處理后,建立語義化描述疾病資源相關特征的模式,進一步提高臨床數據的可用性、共享性。
高度信息化建設的生物樣本庫會全面保留樣本捐獻者的基本信息、臨床信息、樣本信息、科研數據等,其中就包含X線、CT、MRI、裂隙燈照片、眼底照片、病理圖片、細胞與組織照片等圖像數據。從這些非結構化的圖像中提取有效信息,往往依賴于科研人員的臨床經驗,準確性與一致性都得不到保證。
圖像識別是指在計算機系統的輔助下對圖像進行處理與分析,識別并提取目標區域的技術[13]。在實際工作中,HIS,LIS系統中大部分是結構化數據,比較方便獲取,但PACS系統內的數據和電子病歷數據為圖片和文本數據,想從中提取信息需要研究者逐個查看并整理關鍵信息。將AI技術與PACS系統集成開發[14],將AI診斷結果反饋在樣本庫系統中,可以對患者的臨床診斷進行驗證,減少誤診漏診,使樣本使用者在選擇樣本時對患者的診斷進行二次核查,提高科研的嚴謹性。基于深度學習的圖像識別技術在放射學、超聲學、病理學、皮膚科學、眼科學等一些需要影像數據分析的醫學學科中成果繁多[15-19]。特別是在眼科學領域發展迅猛。中山大學中山眼科中心AI團隊研發了通過收集、分析患者的裂隙燈圖片,開發了集篩查、危險度評估和輔助治療為一體的先天性白內障智能診斷與決策系統CC-Cruiser[20]。并以該系統為核心完成了全球首個AI多中心隨機對照臨床研究,提出了醫學AI臨床應用評判標準,推動了AI臨床轉化和落地應用的進程[21]。
近日,該團隊研發的一種基于解剖學和病理學特征的醫學圖像密集標注技術Visionome問世,該技術比傳統圖片分類標注方法多產生12倍標簽,可準確識別多種眼前段病變,準確率高達93.75%,且在20種未經過學習的眼病大規模篩查場景中準確率達84.00%,實現了AI跨專科、多病種應用[22]。Visionome所產生的標簽正是生物樣本庫呈待結構化的圖像數據。與常規的AI診斷不同的是,生物樣本信息數據庫內本身就包含患者確切的臨床診斷,提取圖像對應的診斷結果,可以作為重要的參考標準提高Visionome識別各類標簽的準確性,將這些標簽存儲在生物樣本庫系統內作為對樣本屬性的注釋,更加細化的區分了樣本分析前變量,有望成為未來科學研究的新模式。
生物樣本庫旨在為基礎科研和臨床醫學研究提供合適的樣本及數據,“只存不用”、“樣本私有化”、無法實現樣本資源的應用和共享,只會發展成“私庫”或“垃圾庫”,令生物樣本庫失去其存在的意義[23]。我國生物樣本庫在共享方面普遍存在的問題主要有:1)“私庫”比較泛濫,樣本擁有者共享意愿低;2)缺乏完善的共享機制平臺;3)樣本基本信息及其關聯信息沒有統一標準,不利于數據結構化和共享;4)存在知情同意、隱私泄露、“生物剽竊”等倫理問題和法律問題。如何通過技術手段解決樣本共享問題,是實現生物樣本價值最大化的根本途徑。
區塊鏈和AI同屬于近年來炙手可熱的新興技術,但區塊鏈不屬于AI技術,它們之間是相輔相成的關系。區塊鏈能夠為數據安全、數據管理、數據共享提供強大的技術保障,同時為數據來源的真實性和生物樣本的倫理問題提供更好的解決方案。進一步而言,區塊鏈下的生物樣本信息集成數據庫,或能成為大數據時代中生物信息數據挖掘和AI應用的先決條件。
我國生物樣本的主要獲取渠道包括醫學檢驗、病理檢驗、手術診療等,這一系列行為過程所涉及的隱私保護和倫理問題貫穿生物樣本庫建設始終,存在捐獻者知情同意、數據保密、捐獻者和樣本庫間的相互信任、樣本庫商業化運營、國際合作等核心倫理挑戰[24]。區塊鏈技術作為一個由多方共同維護、去中心化的分布式記賬技術,核心在于通過對等網絡協議、共識算法、非對稱加密、哈希等關鍵技術解決數據傳遞與交換過程中的信任問題。區塊鏈的鏈式結構在于將不同的數據區塊按時間戳順序相連來進行數據存儲與驗證;區塊鏈網絡中的每個節點都可以共享數據,并且同步條件下的所有副本都與其他節點完全相同;訪問者需要獲得唯一的私鑰解密公鑰進行區塊內容的訪問[25-26]。因此,即使黑客獲得私鑰企圖篡改單一數據區塊,將無法使攻擊生效,黑客必須同時攻擊與該數據區塊相連的所有節點中的所有副本,由此產生的技術難度極大,目前仍無法實現。
區塊鏈的可溯源、不可篡改、高冗余、安全透明及成本低廉等屬性,可有效解決生物樣本數據泄露、捐獻者隱私保護和倫理問題,使人們愿意信任和樂意共享數據。在區塊鏈技術能帶來各方信任的基礎上,建立相關問責制、樣本和數據流向公開和捐獻者自主決策的治理體系,將適應并保護所有利益相關者的需求和權利,包括捐獻者、研究人員及樣本庫基金贊助者[27-28]。Mamo等[28]率先做出嘗試,創立了一個“動態同意”的門戶網站Dwarna,作為生物樣本庫不同利益相關者的樞紐,Dwarna連接生物樣本庫管理者、研究人員、捐獻者和公眾。參與者可在研究過程中根據自己的意愿進行同意/撤銷同意的操作。而同意變更的記錄將保存在區塊鏈中,區塊鏈會為其附加一個時間戳。通過在區塊鏈中托管同意變更,使研究過程更為透明。
智能合約是基于可信和不可篡改的數據,自動化驗證和執行預先定義好的規則和條款。智能合約允許在沒有第三方的情況下進行可信交易,并具有可追蹤且不可逆轉的特性。這對于生物樣本庫的信息化管理具有高度適用性,通過智能合約控制鏈流程,有助于實現生物樣本從采集到出入庫的全流程智能化管理[29]。
生物樣本攜帶的基因信息對疾病預防有重要指導作用。對個體生物信息進行縱向對比,能追蹤個人身體健康的變化;若進行橫向對比,可進行大數據挖掘,這些數據的價值不言而喻。但現實中,這些數據往往存儲在孤立的醫療或科研機構里,機構與機構之間無法進行數據流通,個體本身也無法真正實現對數據的擁有權和使用權。Nebula Genomics公司推出了一項業務,消費者花費999美元(項目代幣)測試自己的基因信息,并使用區塊鏈技術保障其數據和交易記錄的安全性。消費者可以對自己的數據進行管理,自主決定把數據有償或無償分享給他人。國外私人企業先于公立機構利用區塊鏈技術在生物樣本信息的共享上做出了嘗試,對于第三方樣本庫的運營提供一定的參考意義。
除了個人生物信息,生物樣本庫之間也可以利用區塊鏈技術實現安全的信息交換。Evangelatos等[30]開發出一個生態系統,在生物銀行和免費/自由開源軟件(free/libre open source software,FLOSS)之間利用區塊鏈技術實現數據接口,保護信息共享空間免受搭便車問題的影響,并在不妨礙其運營框架的情況下保證其可持續性。
隨著互聯網技術的發展,生物樣本庫將發展為生物銀行,其運營目標是通過線上數據共享,線下實現生物樣本的分享,以實現資源的合理利用和價值提升。大數據時代下的生物樣本庫需要發展新的數據管理技術來為日常運營、信息共享提供有力的支撐,令生物樣本庫真正成為分享型樣本庫,能支持樣本存儲的核心業務,支撐樣本分享和數據共享的業務模式。Dwarna門戶網站、Nebula Genomics公司、Nikolaos Evangelatos團隊等展示了區塊鏈面向生物銀行的應用,設計實現這樣的系統的可能性。但在不同國家不同國情不同研究領域的樣本庫,需要針對具體情況設計個性化的信息化管理系統。生物樣本庫的信息化系統應秉承“分類適用”的理念,與領域和應用緊密結合,故其架構也與應用相對應,可能是去中心的,也可能是弱中心或多中心的。信息化是業務發展和改革的基礎,很多時候也是改革的先鋒,甚至引領應用創新。區塊鏈技術的應用前景甚好,但需要醫療行業規范和醫療數據知識產權規范等宏觀設計與規范執行,在我國的探索依然任重道遠,但我們相信,與區塊鏈促進了金融技術的演進一樣,生物樣本庫將伴隨新的共享模式煥發出新的生命力。
本文分析了A I 技術在生物樣本庫信息化建設中可能的應用場景,通過使用語義識別、圖像識別技術輔助科研人員快速檢索到更加符合條件的目的樣本,利用區塊鏈技術促進樣本的應用共享。但AI技術本身還處在發展階段,雖可以節省科研數據收集時間,卻存在許多技術上的瓶頸,不能充分提取原始數據的有效信息。此外,生物樣本庫還處在標準化建設的初級階段,尚未建立統一的標準數據集,導致AI技術在生物樣本庫建設中的應用存在異質性,不利于廣泛應用。未來AI技術和生物樣本庫標準化建設的共同發展可以促使生物樣本庫信息化建設的統一,促進數據與樣本的共享和合理使用。