石鎮維,劉再毅
廣東省醫學科學院 廣東省人民醫院放射科, 廣州 510080
近年來,隨著醫療條件的不斷改善以及醫院信息化程度的不斷提高,醫學影像數據呈現暴發式增長。據《2018年醫療人工智能技術與應用白皮書》[1]統計,目前我國醫療數據的年增長率約為30%。 互聯網數據中心(Internet Data Center,IDC)的統計數據顯示,2020年全球醫療數據量已達到2010年的40倍,其中醫學影像數據(包括X線、超聲、CT、MRI、PET、病理圖像等)約占80%[2- 3]。目前,醫療影像數據具有大規模(volume)、高增速(velocity)、多種類(variety)、高價值(value)和真實準確(veracity)五大特點,符合當代大數據5V特征,因此促進了醫學影像人工智能(artificial intelligence,AI)的發展[4]。醫學影像大數據在為醫學影像AI帶來良好發展前景和機遇的同時,亦面臨著數據方面的巨大挑戰。
隨著全球學者在醫學影像AI領域的積累,醫學圖像智能分析與處理算法愈發成熟,醫學影像因此也成為AI在醫療行業中最有潛力落地的領域。然而,在醫學影像AI科學研究中,數據是首要難題。首先,目前普遍缺乏高質量的訓練數據,雖然國際上有很多高質量的公開數據庫,但數據量和多樣性依然十分有限,且存在患者人種差異;其次,缺乏行業統一標準,數據采集標準多樣,系統誤差較大,缺乏對醫學圖像和疾病征象的統一認識;最后,整個行業缺乏對醫療數據使用標準的判斷依據和監管,且由于存在法律和倫理問題,很大一部分醫學影像數據未能發揮最大價值,導致醫學影像AI發展受阻。
目前醫學影像AI在數據方面的困難阻礙了科研人員對數據的有效使用,包括:無法獲取醫學影像數據集信息;缺乏對醫學影像數據準確的描述信息(如本體[5]);無法獲知數據的真實含義而導致錯誤使用;無法獲知使用者的基本權利和義務等。為克服上述困難,需要政策與科學理論相結合,以推動醫學影像AI標準化數據庫的建立。2016年《二十國集團領導人杭州峰會公報》第12條指出:“我們支持采取適當措施促進開放科學,推動在可找尋、可訪問、可交互、可再用的原則下,提高獲取公共財政資助的研究成果的便利性?!?018年我國頒布了《科學數據管理辦法》,目的在于進一步加強和規范科學數據管理,保障科學數據安全,提高開放共享水平,更好地支撐國家科技創新、經濟社會發展和國家安全。但目前,由于相關責任與權利不清晰,導致科研人員(包括醫務人員)參與科學數據使用與管理工作的動力不足;而因對于數據隱私安全及其危害缺乏清晰、明確的定義,導致數據公開以及共享困難;此外,醫學影像數據具有獨特的性質,例如復雜多樣、隱私敏感、長尾突發、類型復雜和分散度高等[6],因此,亟需建立符合醫學影像數據特點的使用和管理標準與規范,并在此基礎上建立醫學影像AI標準化數據庫,以實現基于標準化醫學影像數據促進醫療AI的發展。
在醫學領域,The Cancer Imaging Archive (TCIA)[7]和The Cancer Genome Atlas (TCGA)[8]是兩個被廣泛使用的公開數據庫。前者包含常見腫瘤的醫學影像數據與相應的臨床信息;后者則包含腫瘤的病理圖像數據與基因信息。TCIA與TCGA對數據審查十分嚴格,具有數據質量高、對疾病描述準確、數據來源清晰、使用條件規范等特點,為全球醫學影像AI的發展作出了巨大貢獻。使用公開數據集進行醫學影像AI模型的訓練與驗證已經成為一種發展趨勢。
除此之外,TCIA為部分影像數據提供了符合FAIR[findable(可查詢),accessible(可訪問), interoperable(可交互),reusable(可再用)]數據管理準則的DICOM-SEGMENTATION文件,實現對影像標注數據的FAIR化與結構化,進而提升了醫學影像數據與AI技術之間的交互性,更有益于AI模型之間的比較與泛化。2016年國際組織FORCE11正式提出了FAIR數據科學管理準則,目的在于對數據進行科學管理。FAIR數據準則詳細描述了如何通過科學的方法進行數據管理[9- 11]。首先,提升數據的交互性有助于打破數據與AI算法之間的交互壁壘,對于機器學習至關重要;其次,FAIR數據準則著重強調數據結構化,進而提升數據的可再用性。該準則被提出以來,受到科學數據管理領域的廣泛認可。在構建醫學影像標準化數據庫方面,FAIR數據準則通過對醫學影像數據的采集、處理、使用以及管理等方面進行標準化描述,可為醫學影像AI科研提供標準化數據保障。因此,FAIR數據準則為長久以來醫學影像領域標準化提供了新的機遇。
過去10年,我國臨床所產生的醫學影像數據呈現暴發式增長,但真正規范且可被用于臨床科學研究的醫學影像數據卻極度匱乏,導致很大一部分科學研究仍然依賴于國際醫學影像數據庫,尤其是一些公開數據庫。因此,構建符合我國國情、法律/法規以及科研人員使用習慣的標準化醫學影像數據庫勢在必行。通過建立標準化醫學影像AI數據庫,可提升醫學影像數據質量、實現科學數據價值的最大化、促進醫學影像AI的發展。FAIR數據準則所倡導的科學使用和管理原則恰好符合上述目標。若基于該準則構建我國醫學影像AI標準化數據庫:首先,需要建立完備的醫學影像數據行業標準,并為科研人員提供便捷的標準醫學影像數據信息平臺和服務;其次,需要清晰描述醫學影像數據產生、處理、使用、管理以及發布等各個環節,明確各方的權利、責任以及義務;再次,需要科研人員和醫務人員在數據采集、數據庫構建及醫學影像數據術語描述等方面達成共識(可參照國際標準構建符合中國國情的醫學本體語義庫);最后,計算、存儲等硬件設備與軟件對構建醫學影像AI數據庫同樣重要,亟需開發相應的計算機軟件以實現醫學影像數據的實時轉化及存儲,并最終實現醫學影像AI標準化數據庫的建設,促進醫療AI的發展。
作者貢獻:石鎮維負責查閱文獻、撰寫初稿及文章修訂;劉再毅提出修改意見并審校文章。
利益沖突:無