陸婷娟,戚小平
解放軍第一一七醫(yī)院信息科,杭州 310004
*論著——移動(dòng)健康*
基于Hadoop的醫(yī)學(xué)影像數(shù)據(jù)平臺(tái)應(yīng)用研究
陸婷娟,戚小平
解放軍第一一七醫(yī)院信息科,杭州 310004
基于醫(yī)學(xué)影像數(shù)據(jù)的特點(diǎn)和目前醫(yī)學(xué)影像數(shù)據(jù)管理存在的問(wèn)題,我們?cè)O(shè)計(jì)了醫(yī)學(xué)影像數(shù)據(jù)平臺(tái)的架構(gòu),并對(duì)關(guān)系數(shù)據(jù)和非關(guān)系數(shù)據(jù)的存儲(chǔ)和管理進(jìn)行了設(shè)計(jì)。尤其是對(duì)影像數(shù)據(jù)的分布式存儲(chǔ)進(jìn)行了研究,我們利用Hadoop技術(shù)、結(jié)合分布式文件系統(tǒng)(HDFS)和集中存儲(chǔ)(FCSAN)兩者的優(yōu)點(diǎn)和醫(yī)學(xué)影像的特點(diǎn)設(shè)計(jì)了一套兩者相結(jié)合的醫(yī)學(xué)影像“在線一歸檔”二級(jí)存儲(chǔ)架構(gòu),解決了PACS系統(tǒng)的擴(kuò)展性和可用性問(wèn)題。最后,基于上述的研究?jī)?nèi)容,設(shè)計(jì)了實(shí)驗(yàn),驗(yàn)證了本文所提方法的醫(yī)學(xué)影像數(shù)據(jù)平臺(tái)具有的諸多優(yōu)勢(shì)。
Hadoop;醫(yī)療大數(shù)據(jù);分布式存儲(chǔ);海量影像數(shù)據(jù)
隨著醫(yī)院信息化的建設(shè),醫(yī)院影像管理系統(tǒng)(PACS)的應(yīng)用,醫(yī)療影像數(shù)據(jù)正在以驚人的速度增長(zhǎng)[1]。對(duì)于醫(yī)療機(jī)構(gòu)而言,要實(shí)現(xiàn)最高數(shù)據(jù)經(jīng)濟(jì)效益,關(guān)鍵是能夠?qū)ΠńY(jié)構(gòu)性和非結(jié)構(gòu)性數(shù)據(jù)在內(nèi)的所有影像大數(shù)據(jù)進(jìn)行集成[2],實(shí)現(xiàn)集中管理和更好的資源配置。在文中我重點(diǎn)研究基于Hadoop技術(shù)的醫(yī)學(xué)影像數(shù)據(jù)平臺(tái)架構(gòu),結(jié)合醫(yī)院信息化發(fā)展的現(xiàn)狀,設(shè)計(jì)了醫(yī)學(xué)影像數(shù)據(jù)平臺(tái)的架構(gòu),并對(duì)關(guān)系數(shù)據(jù)和非關(guān)系數(shù)據(jù)的存儲(chǔ)和管理進(jìn)行了設(shè)計(jì)。
根據(jù)對(duì)醫(yī)院影像系統(tǒng)的分析,可以總結(jié)出其核心應(yīng)用系統(tǒng)的數(shù)據(jù)特點(diǎn)[3]:
數(shù)據(jù)類型:文件(以靜態(tài)醫(yī)學(xué)影像圖像和動(dòng)態(tài)醫(yī)學(xué)影像為主);
性能要求:同時(shí)訪問(wèn)人數(shù)少,但傳輸數(shù)據(jù)量大,帶寬要求高;
數(shù)據(jù)量:很大且增長(zhǎng)很快,從幾TB到幾百TB;
數(shù)據(jù)安全性:要求長(zhǎng)期保存。
醫(yī)學(xué)影像數(shù)據(jù)地長(zhǎng)期積累,必然給運(yùn)行維護(hù)方面帶來(lái)各種問(wèn)題,因此需要從長(zhǎng)遠(yuǎn)的角度考慮運(yùn)行維護(hù)方面的問(wèn)題,主要包括以下幾個(gè)方面[3]:
交互性:要與醫(yī)院現(xiàn)有的信息系統(tǒng)實(shí)現(xiàn)信息傳遞;
實(shí)用性:從醫(yī)院的實(shí)際情況出發(fā),滿足醫(yī)院管理者,醫(yī)生,病患以及研究人員的需求;
可擴(kuò)展性:根據(jù)實(shí)際使用情況,能夠增加相應(yīng)的功能模塊;
穩(wěn)定性和可恢復(fù)性:數(shù)據(jù)平臺(tái)要具有很高的穩(wěn)定性,并且在容災(zāi)數(shù)據(jù)備份,在出現(xiàn)問(wèn)題時(shí)能夠及時(shí)地恢復(fù)數(shù)據(jù);
保持?jǐn)?shù)據(jù)的一致性:不同的系統(tǒng)之間采用相同的字段,為系統(tǒng)之間保持互聯(lián)提供保障;
成本合理性:影像數(shù)據(jù)的激增,造成醫(yī)院信息部門的存儲(chǔ)擴(kuò)容壓力,如果一味地購(gòu)買服務(wù)器只會(huì)不斷增加存儲(chǔ)成本。
根據(jù)以上所分析的醫(yī)學(xué)影像數(shù)據(jù)的特點(diǎn)和管理問(wèn)題,我結(jié)合Hadoop技術(shù),設(shè)計(jì)了醫(yī)學(xué)影像數(shù)據(jù)平臺(tái),結(jié)合分布式文件系統(tǒng)(HDFS)和集中存儲(chǔ)(FCSAN)兩者的優(yōu)點(diǎn)和醫(yī)學(xué)影像的特點(diǎn)設(shè)計(jì)了一套兩者相結(jié)合的醫(yī)學(xué)影像“在線一歸檔”二級(jí)存儲(chǔ)架構(gòu)。
Hadoop 是Apache 開源組織的一個(gè)分布式計(jì)算框架,也是最知名的開源云計(jì)算系統(tǒng),可以在大量廉價(jià)的硬件設(shè)備組成的集群上運(yùn)行應(yīng)用程序,并為應(yīng)用程序提供一組穩(wěn)定可靠的接口,可以構(gòu)建一個(gè)具有高可靠性和良好擴(kuò)展性的分布式系統(tǒng)。分布式存儲(chǔ)構(gòu)架上,Hadoop基于每個(gè)從節(jié)點(diǎn)上的本地文件系統(tǒng)[4],構(gòu)建一個(gè)邏輯上整體化的分布式文件系統(tǒng),以此提供大規(guī)模可擴(kuò)展的分布式數(shù)據(jù)存儲(chǔ)功能。
3.1 整體架構(gòu)
在系統(tǒng)架構(gòu)方面,醫(yī)學(xué)影像數(shù)據(jù)服務(wù)平臺(tái)采用了混合式架構(gòu),即分布式架構(gòu)和集中式架構(gòu)相結(jié)合的影像數(shù)據(jù)共享交換模式。分布式架構(gòu)是指醫(yī)院的各類影像資料保存在各系統(tǒng)的服務(wù)器中,影像中心只保存影像資料的索引信息。需要調(diào)閱影像資料時(shí)再到各系統(tǒng)中調(diào)閱。這種結(jié)構(gòu)要實(shí)現(xiàn)全面的數(shù)據(jù)整合是非常困難的。集中式架構(gòu)是指對(duì)醫(yī)院所有的醫(yī)學(xué)影像(圖像和結(jié)構(gòu)化報(bào)告等)數(shù)據(jù)、索引信息都采用集中式存儲(chǔ)。但是,這種做法對(duì)網(wǎng)絡(luò)帶寬要求高,存儲(chǔ)空間要求大。
醫(yī)學(xué)影像平臺(tái)采用了“1:2:N”的系統(tǒng)設(shè)計(jì)方案,如圖1所示。

圖 1 醫(yī)學(xué)影像平臺(tái)系統(tǒng)設(shè)計(jì)
“1”是指一個(gè)中心,是指設(shè)立于醫(yī)院信息部門的醫(yī)學(xué)影像數(shù)據(jù)服務(wù)中心。為醫(yī)院的各部門和病患提供影像數(shù)據(jù)存儲(chǔ)、應(yīng)用協(xié)同和運(yùn)營(yíng)管理等服務(wù)。
“2”是指兩個(gè)平臺(tái),是指虛擬化硬件平臺(tái)和SaaS模式的軟件平臺(tái)。醫(yī)學(xué)影像協(xié)同應(yīng)用涉及的用戶數(shù)量龐大,應(yīng)用類型復(fù)雜,對(duì)服務(wù)器的處理能力有很高的要求。服務(wù)器虛擬化技術(shù)目前已比較成熟,通過(guò)虛擬化技術(shù)將不同的應(yīng)用分散到不同的虛擬服務(wù)器上運(yùn)行,服務(wù)器的CPU利用相率將得到大大的提高。同時(shí),服務(wù)器虛擬化可以方便得實(shí)現(xiàn)動(dòng)態(tài)遷移、HA(高可用)和負(fù)載均衡,大大提高系統(tǒng)的可用性。
“N”是指基于中心和平臺(tái)的多種服務(wù),為各部門和人員提供管理、醫(yī)療、教學(xué)和科研等應(yīng)用服務(wù),包括基礎(chǔ)、系統(tǒng)決策、影像會(huì)診、影像轉(zhuǎn)診、影像教學(xué)、視頻示教和病案調(diào)閱等服務(wù),可以根據(jù)用戶的需求,不斷增加服務(wù),成熟一個(gè)推出一個(gè)。
a.基礎(chǔ)服務(wù)
基礎(chǔ)服務(wù)是其他各種服務(wù)的基礎(chǔ)。包括用戶授權(quán)、認(rèn)證管理、流程管理、病人ID管理和圖像索引管理。
b.醫(yī)療服務(wù)
為醫(yī)生、病患提供與醫(yī)療業(yè)務(wù)相關(guān)的服務(wù),包括遠(yuǎn)程影像轉(zhuǎn)診、會(huì)診、影像資料的檢索與調(diào)閱,影像歸檔存貯、遠(yuǎn)程備災(zāi)等服務(wù)。
c.系統(tǒng)決策
主要為院領(lǐng)導(dǎo)和醫(yī)院衛(wèi)生管理機(jī)構(gòu)提供分析數(shù)據(jù)、醫(yī)院運(yùn)行情況實(shí)時(shí)監(jiān)控和管理等服務(wù)。
d.科研服務(wù)
為醫(yī)學(xué)研究人員提供與醫(yī)學(xué)影像相關(guān)的科研服務(wù),包括圖像內(nèi)容檢索、典型病例查詢、數(shù)據(jù)挖掘等服務(wù)。
e.教學(xué)服務(wù)
為醫(yī)院的醫(yī)學(xué)導(dǎo)師、學(xué)生、進(jìn)修生等相關(guān)人員提供醫(yī)學(xué)影像資料,視頻示教等服務(wù)。
在應(yīng)用模式方面,采用最常見的前置服務(wù)器方式接入云服務(wù)平臺(tái),以減少對(duì)醫(yī)院現(xiàn)有架構(gòu)的改動(dòng),實(shí)現(xiàn)系統(tǒng)平滑升級(jí),快速部署和實(shí)施醫(yī)院影像的應(yīng)用。降低了硬軟件系統(tǒng)安裝和維護(hù)的難度,降低對(duì)信息人員的技術(shù)要求。
3.2 核心影像數(shù)據(jù)的存儲(chǔ)與處理
單純的HDFS分布式文件系統(tǒng)不適合實(shí)時(shí)應(yīng)用,但是具備低成本、易擴(kuò)展、高性能、高可靠的特點(diǎn)[5]。而傳統(tǒng)的集中存儲(chǔ)((FCSAN)雖然成本、擴(kuò)展性和傳輸帶寬受到限制,但是非常適合需要低時(shí)延快速讀寫大量小文件的實(shí)時(shí)應(yīng)用。因此,結(jié)合兩者的優(yōu)點(diǎn)和醫(yī)學(xué)影像的特點(diǎn)設(shè)計(jì)了一套HDFS和FCSAN相結(jié)合的醫(yī)學(xué)影像“在線一歸檔”二級(jí)存儲(chǔ)架構(gòu)。整個(gè)架構(gòu)分成兩個(gè)層次:底層是數(shù)據(jù)文件存儲(chǔ)層,上層是文件訪問(wèn)組件層。系統(tǒng)架構(gòu)如圖2所示。

圖2 系統(tǒng)架構(gòu)圖
數(shù)據(jù)存儲(chǔ)層是醫(yī)學(xué)影像資料的實(shí)際存儲(chǔ)位置,它包含兩個(gè)部分:基于FCSAN的一級(jí)“在線庫(kù)”和基于HDFS的二級(jí)“歸檔庫(kù)”。
a.一級(jí)“在線庫(kù)”
醫(yī)學(xué)影像數(shù)據(jù)中心保留一年內(nèi)的原始DICOM圖像文件,存儲(chǔ)在高性能的FC SAN中。超過(guò)一年的圖像則轉(zhuǎn)換成S-DICOM文件轉(zhuǎn)存到由HDFS集群構(gòu)成的二級(jí)“歸檔庫(kù)”中[6]。同時(shí)需要長(zhǎng)期保存的可調(diào)用的數(shù)據(jù)以及遠(yuǎn)程災(zāi)備的數(shù)據(jù)也轉(zhuǎn)換成S-DICOM文件,轉(zhuǎn)存到HDFS分布式存儲(chǔ)集群中。SAN(Storage Area Network,存儲(chǔ)局域網(wǎng)絡(luò)),主要目的是在計(jì)算機(jī)和存儲(chǔ)元素之間傳輸數(shù)據(jù)[7]。
b.二級(jí)“歸檔庫(kù)”
“歸檔庫(kù)”的影像資料按照“以病人為中心”的原則存儲(chǔ),將病人生命周期內(nèi)的全部醫(yī)學(xué)影像S-DICOM文件[8]按照Modality(成像設(shè)備)、檢查標(biāo)識(shí)(Study UID)分類存儲(chǔ)在同一個(gè)PatientID目錄結(jié)構(gòu)下,便于病人相關(guān)圖像的分類檢索和預(yù)讀緩存,提高圖像的訪問(wèn)速度。
c.SDFO
數(shù)據(jù)存儲(chǔ)層之上是文件訪問(wèn)組件層。其核心是SDFO(S-DICOM File Operator)組件[9],主要用于屏蔽底層DICOM圖像文件的操作細(xì)節(jié),為上層的SaaS模式醫(yī)學(xué)影像應(yīng)用系統(tǒng)和DICOM應(yīng)用組件提供統(tǒng)一的圖像查詢、讀取和寫入接口。SDFO的核心主要由SDFO Locator, SDFO Reader, SDFO Writer,SDFOConverter, SDFO Client五個(gè)部分組成:
· SDFO Client:提供HDFS和本地文件系統(tǒng)訪問(wèn)的客戶端接口;
· SDFO Locator:用于檢索DICOM文件的存儲(chǔ)位置;
· SDFO Reader:用于讀取DICOM文件;
· SDFO Writer:負(fù)責(zé)將從影像設(shè)備獲取的圖像寫入集中存儲(chǔ)((FCSAN);
· SDFO Converter:負(fù)責(zé)定時(shí)將FC SAN中的DICOM圖像轉(zhuǎn)換為S-DICOM格式,合并后存儲(chǔ)到HDFS中。
根據(jù)醫(yī)院數(shù)據(jù)特點(diǎn),設(shè)計(jì)了一個(gè)9.8G的文件數(shù)據(jù)包,包括:數(shù)據(jù)文件0.31G;視頻文件2.70G;影像圖片6.82G。運(yùn)行環(huán)境,如表1所示。

表1 實(shí)驗(yàn)環(huán)境配置表
實(shí)驗(yàn)步驟:
數(shù)據(jù)入庫(kù):文件包上傳到平臺(tái),并導(dǎo)入HDFS;
文件通過(guò)百兆以太網(wǎng)上傳到平臺(tái)并導(dǎo)入HDFS中共用時(shí)4分鐘38秒

圖 3 數(shù)據(jù)包導(dǎo)入HDFS時(shí)序
數(shù)據(jù)處理:對(duì)影像圖片數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理并再次存儲(chǔ)到HDFS,對(duì)關(guān)系數(shù)據(jù)進(jìn)行插入;
影像圖片數(shù)據(jù)處理用時(shí)14秒,如圖4所示:

圖 4 影像圖片處理時(shí)間
關(guān)系數(shù)據(jù)插入HBASE用時(shí)26.5秒,如圖5所示:

圖5 關(guān)系數(shù)據(jù)導(dǎo)入時(shí)間
數(shù)據(jù)讀取:讀取“二級(jí)歸檔庫(kù)”的S-DICOM圖像以及將DICOM圖像合并轉(zhuǎn)換成S-DICOM圖像。
根據(jù)測(cè)試情況來(lái)看,客戶端同時(shí)讀取和轉(zhuǎn)換一個(gè)病人一次檢查的S-DICOM文件時(shí)間約為1-2s左右,這樣的延時(shí)對(duì)PACS系統(tǒng)的操作是可以忽略的。
測(cè)試結(jié)果表明MapReduce集群可以有效利用各存儲(chǔ)節(jié)點(diǎn)的計(jì)算能力,通過(guò)提高水平擴(kuò)展的方式提高醫(yī)學(xué)影像海量數(shù)據(jù)處理的性能。實(shí)驗(yàn)表明,與傳統(tǒng)的數(shù)據(jù)平臺(tái)技術(shù)相比,基于Hadoop技術(shù)的醫(yī)學(xué)影像數(shù)據(jù)平臺(tái)具有諸多優(yōu)勢(shì):分布式存儲(chǔ),沒有單點(diǎn)服務(wù)器瓶頸,由系統(tǒng)中所有服務(wù)器一起提供數(shù)據(jù)服務(wù);分布式數(shù)據(jù),支持每秒萬(wàn)次以上讀寫;分布式數(shù)據(jù)庫(kù)支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)并存,保證高度數(shù)據(jù)一致;支持不停機(jī)擴(kuò)容,同步增加存儲(chǔ)能力和計(jì)算能力。該系統(tǒng)經(jīng)過(guò)測(cè)試使用,取得了比較滿意的效果,能夠滿足大型醫(yī)院影像中心的功能和性能要求。
通過(guò)模擬醫(yī)院數(shù)據(jù)特性,在實(shí)驗(yàn)平臺(tái)環(huán)境下,驗(yàn)證了平臺(tái)將數(shù)據(jù)從數(shù)據(jù)庫(kù)導(dǎo)入Hadoop大數(shù)據(jù)平臺(tái)的能力,驗(yàn)證了HDFS對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和管理能力、驗(yàn)證了復(fù)雜結(jié)構(gòu)醫(yī)療數(shù)據(jù)包基于Hadoop大數(shù)據(jù)[10]平臺(tái)從導(dǎo)入到檢索、分析、交換的性能。因此,將Hadoop技術(shù)應(yīng)用到醫(yī)院信息化中可以幫助醫(yī)院解決諸多的現(xiàn)實(shí)問(wèn)題,日后還可以進(jìn)一步將Hadoop技術(shù)應(yīng)用到發(fā)展區(qū)域醫(yī)療平臺(tái)中[11]。
(References)
[1] 李志強(qiáng),康立軍,王文翠.面向醫(yī)療信息的大數(shù)據(jù)安全管理策略探究[J].計(jì)算機(jī)安全,2014,04(2):84-86.
[2] 黃楓.醫(yī)療健康大數(shù)據(jù) - 萬(wàn)億行業(yè)[C]. 大數(shù)據(jù)全球技術(shù)峰會(huì),北京:IT168文庫(kù),2013 .
[3] 柏志安,朱立峰,孫輔,等.醫(yī)院集團(tuán)內(nèi)醫(yī)學(xué)影像檢查協(xié)同服務(wù)模式和實(shí)現(xiàn)[J].中國(guó)數(shù)字醫(yī)學(xué),2010,5(6):27-29.
[4] Wildani, Avani. The Promise Of Data Grouping In Large Scale Storage Systems[J].Computer Science,2013,36(8):72-75.
[5] 張迪,霍妍.云計(jì)算技術(shù)在醫(yī)院信息化中的應(yīng)用[J].信息技術(shù), 2011(5):171-173.
[6] 黃曉云.基于HDFS的云存儲(chǔ)服務(wù)系統(tǒng)研究[D].大連:大連海事大學(xué)管理科學(xué)與工程系,2010.
[7] 張洪娜.云計(jì)算平臺(tái)中數(shù)據(jù)存儲(chǔ)與文件管理的研究[D].廣州: 廣東工業(yè)大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)系,2011.
[8] Cashcow.麥肯錫:醫(yī)療行業(yè)的大數(shù)據(jù)革命[EB/ OL].2014-11. http://www.ctocio.com/reports/12037.html.
[9] 鄭西川.區(qū)域醫(yī)療醫(yī)學(xué)影像信息共享方案進(jìn)展與面臨的挑戰(zhàn)[J].中國(guó)醫(yī)療器械信息,2009,15(10):57-61.
[10] 俞夢(mèng)孫,曹征濤,楊軍,等.關(guān)于盡快創(chuàng)立中國(guó)健康醫(yī)學(xué)模式的思考與解讀[J].世界復(fù)合醫(yī)學(xué),2015,1(2):99-102.
[11] 馬光志,張曉祥,周彬.大數(shù)據(jù)時(shí)代的詢證醫(yī)學(xué)[J].世界復(fù)合醫(yī)學(xué),2015,1(2):120-124.
Medical image data with hadoop
LU Tingjuan, QI Xiaoping
Information Technology Office, No.117 Hospital of PLA, Hangzhou 310004
Based on the characteristics of medical image data and problems of management, We designed a novel framework for medical image data process, designed the architecture of medical imaging data platform include managements of relational data and non-relational data., and especially studied on the solution for distributed storage of image data. A medical image oriented ‘online -archive' two-level hierarchical architecture was developed based on Hadoop, HDFS and FCSAN technology. It addressed 2 issues:the scalability and the availability of PACS. Finally, based on the research above I built a pilot system to verify the advantages of the proposed method in this paper.
Hadoop; medical big data; distributed storage; massive image data
TP3
A
10.11966/j.issn.2095-994X.2015.01.03.06
2015-07-26;
2015-08-10
國(guó)家自然科學(xué)基金(81472861)
陸婷娟,工程師,研究方向?yàn)獒t(yī)院信息化管理,電子信箱:ltj.1212@163.com
引用格式:陸婷娟,戚小平.基于Hadoop的醫(yī)學(xué)影像數(shù)據(jù)平臺(tái)應(yīng)用研究[J].世界復(fù)合醫(yī)學(xué),2015,1(3):223-226