◆郭 磊 賀宏偉 劉 露
(山東第一醫(yī)科大學(xué)(山東省醫(yī)學(xué)科學(xué)院)現(xiàn)代教育技術(shù)中心 山東 271016)
醫(yī)學(xué)影像是進(jìn)行醫(yī)療診斷的重要依據(jù)。腫瘤等疾病診療過程中產(chǎn)生了以醫(yī)學(xué)影像為主的海量醫(yī)療數(shù)據(jù)。當(dāng)前醫(yī)學(xué)影像的數(shù)據(jù)存儲(chǔ)及組織管理,多依賴于傳統(tǒng)的PACS 系統(tǒng)。隨著大數(shù)據(jù)技術(shù)的成熟及推廣,世界范圍內(nèi)的相關(guān)機(jī)構(gòu)逐步意識(shí)到醫(yī)學(xué)影像大數(shù)據(jù)研究的重要性。美國國立衛(wèi)生研究院通過SEER 項(xiàng)目實(shí)現(xiàn)了涵蓋全美典型人群的癌癥年度報(bào)告、癌癥治療與生存的年度報(bào)和大數(shù)據(jù)基礎(chǔ)上的腫瘤特征與預(yù)后分析。中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院牽頭成立腫瘤影像大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)國內(nèi)部分省份腫瘤醫(yī)院腫瘤數(shù)據(jù)的數(shù)據(jù)共享和挖掘分析,以及基于平臺(tái)的遠(yuǎn)程醫(yī)療。
近年來深度學(xué)習(xí)在模式識(shí)別、圖像分割等方面取得優(yōu)異成果。國外研究機(jī)構(gòu)將深度學(xué)習(xí)應(yīng)用于醫(yī)學(xué)圖像中疾病的檢測(cè)識(shí)別,如斯坦福大學(xué)將卷積神經(jīng)網(wǎng)絡(luò)應(yīng) 用于皮膚癌的識(shí)別,谷歌將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于視網(wǎng)膜病變的識(shí)別,診斷結(jié)果均達(dá)到專家級(jí)水準(zhǔn)。北京協(xié)和醫(yī)院、西安交通大學(xué)第一附屬醫(yī)院等合作啟動(dòng)中國人“數(shù)字肺”研究[1],將深度學(xué)習(xí)等方法引入胸部影像分析,以實(shí)現(xiàn)肺癌的早期檢測(cè)、輔助診斷和術(shù)前評(píng)估規(guī)劃。
健康醫(yī)療大數(shù)據(jù)、新一代人工智能等領(lǐng)域正成為國內(nèi)外研究熱點(diǎn),交叉學(xué)科的前瞻性探索正不斷取得突破。可見,醫(yī)學(xué)影像大數(shù)據(jù)的平臺(tái)架構(gòu)和分析方法將日臻成熟。結(jié)合深度學(xué)習(xí)方法,基于醫(yī)學(xué)影像大數(shù)據(jù)進(jìn)行輔助診斷、預(yù)后預(yù)測(cè)和決策分析的模型將逐步涌現(xiàn)。本文以下部分將對(duì)醫(yī)學(xué)影像大數(shù)據(jù),結(jié)合深度學(xué)習(xí)的輔助診斷、預(yù)后預(yù)測(cè)模型進(jìn)行探討。
當(dāng)前研究中,Apache Hadoop 分布式架構(gòu)常用于構(gòu)建醫(yī)學(xué)影像大數(shù)據(jù)平臺(tái)[2],依據(jù)制定的數(shù)據(jù)標(biāo)準(zhǔn),實(shí)現(xiàn)醫(yī)學(xué)影像等醫(yī)療數(shù)據(jù)的采集和存儲(chǔ)。
根據(jù)醫(yī)學(xué)影像大數(shù)據(jù)平臺(tái)的功能需求,需要采集的數(shù)據(jù)有醫(yī)學(xué)影像、電子病歷、數(shù)據(jù)化檢驗(yàn)報(bào)告等。平臺(tái)制定人員信息、病情信息、檢查報(bào)告、診療方案等主題庫。主題庫標(biāo)準(zhǔn)的建立,將對(duì)平臺(tái)后期數(shù)據(jù)建模效果起到?jīng)Q定性作用。
主題庫基于Hadoop 的Hive 數(shù)據(jù)倉庫進(jìn)行構(gòu)建,數(shù)據(jù)倉庫規(guī)定每個(gè)字段數(shù)據(jù)類型,操作Hive 表的HQL 語句,將執(zhí)行基于Map/Reduce 的數(shù)據(jù)處理語句,完成數(shù)據(jù)清洗等預(yù)處理,還可以按照特定維度完成每日數(shù)據(jù)統(tǒng)計(jì)。
醫(yī)學(xué)影像大數(shù)據(jù)平臺(tái)搭建完成后,采用VPN 技術(shù)實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)和接入平臺(tái)的臨床醫(yī)院的網(wǎng)絡(luò)連通。按照制定的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)采集,數(shù)據(jù)采集可以通過提供API 接口、FTP 傳輸、日常錄入、數(shù)據(jù)批量遷移等方式實(shí)現(xiàn)。
涉及的平臺(tái)接入醫(yī)院擁有海量醫(yī)學(xué)影像數(shù)據(jù),并且每天產(chǎn)生大量的增量數(shù)據(jù)。文件系統(tǒng)和存儲(chǔ)服務(wù)器需要具備可伸縮、高容錯(cuò)、高吞吐量、可水平擴(kuò)展這些特點(diǎn),能夠滿足醫(yī)學(xué)影像大數(shù)據(jù)的數(shù)據(jù)管理需求。
(1)HDFS 分布式文件系統(tǒng)
Hadoop HDFS 使用虛擬服務(wù)器集群搭建,提供可水平擴(kuò)展的高配置資源管理節(jié)點(diǎn)和數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn),影像數(shù)據(jù)以Block 方式存儲(chǔ),單個(gè)影像數(shù)據(jù)的各個(gè)Block 分布式地存儲(chǔ)于不同節(jié)點(diǎn),自動(dòng)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的負(fù)載均衡。HDFS 為每個(gè)節(jié)點(diǎn)配置備份節(jié)點(diǎn),一方面實(shí)現(xiàn)訪問的負(fù)載均衡,更重要的是實(shí)現(xiàn)了分布式集群的高可用,一旦某個(gè)節(jié)點(diǎn)宕機(jī),將使用剩余可訪問節(jié)點(diǎn)。
(2)FastDFS 分布式文件服務(wù)器
平臺(tái)部署FastDFS 作為文件服務(wù)器集群,存儲(chǔ)醫(yī)學(xué)影像、壓縮文件等。該文件服務(wù)器能夠提供高效的醫(yī)學(xué)影像數(shù)據(jù)存儲(chǔ)、上傳和下載等服務(wù),實(shí)現(xiàn)醫(yī)學(xué)影像的數(shù)據(jù)管理及負(fù)載均衡,適于醫(yī)學(xué)影像等文件的在線服務(wù),適于文件大小在5KB 至500MB 醫(yī)學(xué)影像的文件存儲(chǔ)。
為進(jìn)行醫(yī)學(xué)影像大數(shù)據(jù)平臺(tái)快速高效查詢檢索,需要使用ElasticSearch 全文檢索引擎,實(shí)現(xiàn)醫(yī)學(xué)影像數(shù)據(jù)等的智能檢索。
ElasticSearch 是基于Lucene 的文件服務(wù)器,是企業(yè)級(jí)搜索引擎,支持實(shí)時(shí)搜索,支持橫向擴(kuò)展,服務(wù)器可以從一臺(tái)擴(kuò)展到上百臺(tái)。ElasticSearch 中的醫(yī)學(xué)影像數(shù)據(jù)以分片方式存儲(chǔ)至各個(gè)節(jié)點(diǎn)。提供Java API 開發(fā)接口,還有Http Rest API。數(shù)據(jù)以Json格式返回,方便開發(fā)。數(shù)據(jù)是以索引、類型、文檔的方式組織的。平臺(tái)為醫(yī)學(xué)影像數(shù)據(jù)建立索引,然后在每類索引下建立對(duì)應(yīng)的類型,類型中保存醫(yī)學(xué)影像的相關(guān)文檔數(shù)據(jù)。完成數(shù)據(jù)的索引以后,可以跨索引、跨類型、多字段、以相關(guān)性得分、數(shù)值字段排序等方式,實(shí)現(xiàn)數(shù)據(jù)快速讀取搜索。
深度學(xué)習(xí)在包括醫(yī)學(xué)圖像在內(nèi)各類圖像的處理中表現(xiàn)出當(dāng)前最佳性能。例如,相關(guān)研究采用多個(gè)深度神經(jīng)網(wǎng)絡(luò)組成的SDFN模型對(duì)胸部醫(yī)學(xué)圖像進(jìn)行處理,實(shí)現(xiàn)胸部疾病的分類判定[3],涉及的深度神經(jīng)網(wǎng)絡(luò)包括U-Net 和DenseNets,實(shí)現(xiàn)胸部14 類疾病的自動(dòng)判定。相比當(dāng)前研究采用的其他模型,SDFN 模型取得更高的AUC 值,平均值高達(dá)0.815,自動(dòng)識(shí)別能力達(dá)到專家級(jí)水準(zhǔn)。
另一方面,當(dāng)前醫(yī)學(xué)影像診斷僅依靠醫(yī)生讀片,不僅增加醫(yī)生工作量,而且存在誤判和漏判。例如,有數(shù)據(jù)顯示一家腫瘤專科醫(yī)院平均每天接待肺部疾病患者可達(dá)百例,每位患者檢查會(huì)產(chǎn)生200-300 張左右的CT 影像,放射科醫(yī)生每天要將大量時(shí)間用于繁多的影像診斷任務(wù)。因此,為醫(yī)學(xué)影像篩查診斷的準(zhǔn)確率和自動(dòng)化程度,有必要將深度學(xué)習(xí)引入到醫(yī)學(xué)影像大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)智能化的醫(yī)學(xué)影像輔助診斷。
醫(yī)學(xué)影像大數(shù)據(jù)平臺(tái)采用深度學(xué)習(xí)方法進(jìn)行醫(yī)學(xué)圖像處理,如醫(yī)學(xué)圖像中成像部位分割,病灶部位的識(shí)別、定位、分割等,進(jìn)一步進(jìn)行良惡性判定。采用TensorFlow 深度學(xué)習(xí)框架,實(shí)現(xiàn)醫(yī)學(xué)影像輔助診斷模型。搭建用于醫(yī)學(xué)圖像處理的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練、測(cè)試環(huán)境。對(duì)比國內(nèi)外醫(yī)學(xué)圖像處理的研究成果,結(jié)合具體訓(xùn)練和測(cè)試結(jié)果,確定用于醫(yī)學(xué)圖像處理任務(wù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括網(wǎng)絡(luò)層數(shù),網(wǎng)絡(luò)層間連接方式,通道數(shù)目,各網(wǎng)絡(luò)層類型、神經(jīng)元數(shù)目和卷積核大小等,以及防止網(wǎng)絡(luò)過擬合的訓(xùn)練方法策略等。
國內(nèi)研究對(duì)深度學(xué)習(xí)在預(yù)后預(yù)測(cè)中的應(yīng)用現(xiàn)狀進(jìn)行綜述,指出深度學(xué)習(xí)在臨床診斷和公共衛(wèi)生領(lǐng)域尚未得到足夠應(yīng)用。傳統(tǒng)的回歸預(yù)測(cè)模型如logistics 回歸、cox 回歸等描述了自變量和因變量之間的線性關(guān)系,不能對(duì)非線性的變量如醫(yī)學(xué)圖像特征和疾病風(fēng)險(xiǎn)因素之間關(guān)系做較好描述。相關(guān)研究將深度學(xué)習(xí)應(yīng)用于結(jié)合腫瘤影像的腫瘤患者生存分析[4],預(yù)測(cè)結(jié)果較傳統(tǒng)回歸模型有顯著提升。
醫(yī)學(xué)影像大數(shù)據(jù)平臺(tái)可采用深度學(xué)習(xí)算法,基于醫(yī)學(xué)影像并結(jié)合不同分期的確診年齡、生存率和治療模式分布等,進(jìn)行預(yù)后評(píng)估,為規(guī)范化治療提供支持;結(jié)合深度學(xué)習(xí)和傳統(tǒng)回歸模型,針對(duì)不同年齡段、不同性別和不同民族的疾病發(fā)病和死亡狀況,分析誘發(fā)疾病的危險(xiǎn)因素。
平臺(tái)可采用Hadoop Spark 實(shí)現(xiàn)預(yù)后預(yù)測(cè)模型。Spark 包括Spark SQL、Spark Streaming、Spark MLlib 和GraphX 四個(gè)組件。Spark 除了以 Standalone 方式運(yùn)行以外,還能夠直接構(gòu)建在Hadoop YARN 資源管理器之上。數(shù)據(jù)計(jì)算任務(wù)提交至Hadoop 集群任務(wù)節(jié)點(diǎn),實(shí)現(xiàn)集群CPU 和內(nèi)存的資源重復(fù)利用。避免數(shù)據(jù)在不同集群不同機(jī)柜的服務(wù)器網(wǎng)絡(luò)節(jié)點(diǎn)之間的移動(dòng)傳輸,直接將計(jì)算發(fā)送到數(shù)據(jù)存儲(chǔ)的節(jié)點(diǎn)進(jìn)行計(jì)算,并將結(jié)果匯總。使用Spark SQL 完成各主題庫數(shù)據(jù)查詢,使用Spark Streaming 實(shí)現(xiàn)日志實(shí)時(shí)分析,使用Spark MLlib 完成大數(shù)據(jù)分析建模。Spark MLlib 中的Pipeline 可以用來保存一個(gè)完整的模型訓(xùn)練、評(píng)估流程,并支持將訓(xùn)練好的模型輸出保存,需要使用的時(shí)候直接加載模型,并給模型輸入,即可得到模型輸出。
本文討論了醫(yī)學(xué)影像大數(shù)據(jù)平臺(tái)的構(gòu)建方法,以及深度學(xué)習(xí)在醫(yī)學(xué)影像大數(shù)據(jù)平臺(tái)中的應(yīng)用模型,包括醫(yī)學(xué)影像輔助診斷和預(yù)后預(yù)測(cè)模型。隨著醫(yī)學(xué)影像大數(shù)據(jù)應(yīng)用場(chǎng)景的逐步成熟,大數(shù)據(jù)平臺(tái)的構(gòu)建和深度學(xué)習(xí)的應(yīng)用融合將成為該領(lǐng)域研究的關(guān)鍵方面。