王洪洋 張 穎 朱海波 高碧海
隨著我國(guó)工業(yè)發(fā)展、環(huán)境污染和人口老齡化加快,肺部疾病發(fā)病率也呈現(xiàn)逐年上升的趨勢(shì),成為威脅人類健康的主要因素之一。肺部疾病起病急,進(jìn)展快,嚴(yán)重威脅著人類健康,并隨著年齡的增長(zhǎng),其發(fā)病率逐漸增大[1]。臨床上,高效的影像學(xué)檢查和精準(zhǔn)的臨床診斷能夠及時(shí)發(fā)現(xiàn)早期病變并采取治療,從而有效避免病情惡化,降低病死率。
CT作為肺部疾病的常規(guī)檢查方法,具有無侵入性、成像快、圖像分辨率高等優(yōu)點(diǎn),成為篩查的重要手段[2]。較之傳統(tǒng)X射線檢查,在解剖結(jié)構(gòu)上能夠呈現(xiàn)出高對(duì)比度。如CT能夠檢測(cè)出直徑<3 cm,圓形輪廓,邊緣模糊的肺結(jié)節(jié),甚至<1 cm的微結(jié)節(jié)[1-2]。但從CT圖像產(chǎn)生的臨床決策卻往往與閱片醫(yī)生經(jīng)驗(yàn)、知識(shí)水平及臨床主觀判斷密切相關(guān),漏診與誤診難以避免,人為因素也成為了影響此類疾病診斷的重要因素[3]。
圖像計(jì)算機(jī)輔助診斷(computer aided diagnosis,CAD)系統(tǒng)可提高肺部1 cm左右病灶的確診率,輔助醫(yī)師提高早期肺癌診斷率約15%[1-4]。CAD系統(tǒng)能夠提高不同大小肺部組織的檢測(cè)靈敏度,因此構(gòu)建CAD系統(tǒng)并應(yīng)用于肺部CT輔助檢查具有現(xiàn)實(shí)意義[1-2,5-6]。目前,CAD系統(tǒng)功能主要集中在圖像增強(qiáng)、濾波、重建等方面,雖然能夠提高圖像質(zhì)量,卻未能根本解決肉眼觀察帶來的診斷誤差問題;而肺部結(jié)節(jié)由于受到圖像質(zhì)量、圖像背景及胸腔組織實(shí)質(zhì)等干擾以及血管遮擋,難以直接定位[2,6]。因此,需要借助于CAD系統(tǒng),定量分析圖像信息,快速捕獲臨床感興趣區(qū)域(region of interest,ROI),為臨床決策提供量化依據(jù)和決策支持,降低醫(yī)生工作量,提高診斷效率和患者就醫(yī)體驗(yàn)。
基于肺部CT圖像構(gòu)建CAD系統(tǒng),實(shí)現(xiàn)圖像讀取、圖像預(yù)處理、圖像基本操作、圖像宏觀信息描述、ROI輪廓分析、ROI特征提取、ROI圖像分類器等模塊功能,為肺部疾病的診斷和研究提供量化分析和輔助決策。
讀取、解析醫(yī)學(xué)數(shù)字成像及通信(digital imaging and communication of medicine,DICOM)圖像文件,并導(dǎo)出常規(guī)文件類型。
圖像采集過程由于移動(dòng)、噪聲、拍攝位置等問題,會(huì)影響后續(xù)圖像分類效果[1,4]。因此需要通過預(yù)處理方法消除無關(guān)信息,矯正運(yùn)動(dòng)偽影、噪聲及介質(zhì)衰減而導(dǎo)致的失真,增強(qiáng)信息的可檢測(cè)性,從而提高圖像特征提取和分類的可靠性,包括幾何變換、歸一化、平滑及增強(qiáng)等[7]。
(1)幾何變換。用于修正圖像采集系統(tǒng)中的系統(tǒng)誤差及移動(dòng)誤差。
(2)歸一化。通過歸一化可以消除或降低環(huán)境噪聲。
(3)平滑。降低圖像中產(chǎn)生的隨機(jī)噪聲,針對(duì)圖像灰度驟變的部分進(jìn)行增強(qiáng),突出圖像細(xì)節(jié)。
(4)增強(qiáng)。通過選擇性的增強(qiáng)及抑制,調(diào)整圖像效果,便于圖像特征抽取或識(shí)別。
(1)圖像空間變換。圖像插值、圖像縮放、圖像旋轉(zhuǎn)、圖像剪切、旋轉(zhuǎn)、大小調(diào)整、裁剪、定位和幾何測(cè)量[7-8]。
(2)圖像變換。包括傅里葉變換、離散余弦變換、Radon變換、沃爾什-阿達(dá)瑪變換以及離散卡夫納-勒維變換等功能,為后續(xù)處理提供支持[4,9]。
讀取CT圖像綜合信息,包括患者信息(姓名、CT號(hào)、性別、年齡等)、圖片信息包括掃描序號(hào)、管電壓(kV)、管電流(mAs)、層厚、掃描架轉(zhuǎn)角、平掃和(或)增強(qiáng)掃描、窗技術(shù)、關(guān)注區(qū)及CT值等信息[2,10]。
(1)輪廓分析。從待分析圖像中分割出ROI,如CT影像中疑似結(jié)節(jié)區(qū)域。
(2)輔助診斷。通過將預(yù)先選擇的圖像特征參數(shù)輸入分類算法,構(gòu)建分類模型,實(shí)現(xiàn)ROI區(qū)域輔助診斷決策。
系統(tǒng)構(gòu)建采用B/S架構(gòu),后臺(tái)編碼采用java開發(fā)實(shí)現(xiàn),便于跨平臺(tái)部署和多用戶訪問。設(shè)計(jì)MVC采用模式,MVC框架采用Spring MVC,可將系統(tǒng)業(yè)務(wù)邏輯、數(shù)據(jù)模型及用戶交互界面分離實(shí)現(xiàn),便于系統(tǒng)服務(wù)開發(fā)、升級(jí)及遷移。數(shù)據(jù)庫存儲(chǔ)采用MySQL5.7,持久化框架采用MyBatis3.4.7;前端采用Bootstrap3及jQuery1.10實(shí)現(xiàn)。系統(tǒng)功能主界面如圖1所示。

圖1 系統(tǒng)功能主界面圖
圖像采集后存儲(chǔ)入庫,經(jīng)數(shù)據(jù)預(yù)處理,獲得圖像宏觀描述信息;在ROI分割算法處理后,形成各個(gè)ROI。根據(jù)特征提取算法提取對(duì)應(yīng)域的特征信息并保存,將特征信息及宏觀描述信息帶入分類模型,獲得分類信息產(chǎn)生輔助決策信息(如圖2所示)。

圖2 圖像處理流程框圖
各功能模塊包括圖像讀取和預(yù)處理。
(1)圖像讀取。CT圖像符合DICOM標(biāo)準(zhǔn),讀取采用dcm4che3庫處理圖像,實(shí)現(xiàn)圖像讀寫及保存。
(2)預(yù)處理。為降低圖像噪聲、眩光等不利因素,需要對(duì)圖像進(jìn)行預(yù)處理,提高圖像對(duì)比度。系統(tǒng)開發(fā)預(yù)處理過程可通過設(shè)置選擇對(duì)應(yīng)的預(yù)處理方法,其中包括降采樣、局部對(duì)比增強(qiáng)、自適應(yīng)維納濾波、自適應(yīng)直方圖均衡、增強(qiáng)濾波、快速傅立葉變換、小波變換、噪聲矯正、Gabor濾波、直方圖增強(qiáng)、偽彩色增強(qiáng)、灰度窗增強(qiáng)、拉普拉斯濾波及蝶形模糊濾波等[1-2,10-11]。
(1)為從待分析圖像中分割出ROI,需要分別消除背景、骨骼肌肉、肺血管、心臟及肝臟等部分。首先胸部CT圖像包含部分噪聲信息,如背景以及骨骼和肌肉等高密度組織,影響了肺血管和肺實(shí)質(zhì)的顯示,同時(shí)也對(duì)肺結(jié)節(jié)特征的提取分析造成了干擾。因此,系統(tǒng)采用閾值法分割出圖像背景、體腔及肺實(shí)質(zhì),考慮到Web項(xiàng)目需要適應(yīng)多種應(yīng)用場(chǎng)景,為了實(shí)現(xiàn)快速分割,加快數(shù)據(jù)加載,系統(tǒng)可結(jié)合應(yīng)用需求選用自動(dòng)區(qū)域增長(zhǎng)算法。該算法通過選擇閾值組,分割圖像,獲得肺實(shí)質(zhì)輪廓圖像;結(jié)合位置信息,分別于兩側(cè)主肺葉選擇起始點(diǎn),設(shè)定區(qū)域生長(zhǎng)及終止條件,即根據(jù)CT值轉(zhuǎn)換為灰度后,設(shè)定相似性準(zhǔn)則作為生長(zhǎng)條件,以及當(dāng)未能發(fā)現(xiàn)符合生長(zhǎng)條件的點(diǎn)后停止生長(zhǎng),實(shí)現(xiàn)左右兩側(cè)肺葉區(qū)域分割[12](如圖3所示)。

圖3 肺部CT原始圖像
(2)由于存在機(jī)械牽拉、血管橫截面重疊及肺部結(jié)節(jié)等原因,分割獲得的肺實(shí)質(zhì)伴有缺損,需要形態(tài)學(xué)修補(bǔ)。系統(tǒng)使用形態(tài)學(xué)的腐蝕和膨脹算法,實(shí)現(xiàn)肺實(shí)質(zhì)空洞的填補(bǔ)和邊緣平滑,分割后得到完整的肺部區(qū)域[1,12-13](如圖4所示)。

圖4 提取肺實(shí)質(zhì)圖像
(3)由于ROI(如結(jié)節(jié))通常易于受到血管及其橫斷面等遮擋,對(duì)ROI顯示造成影響,通常對(duì)醫(yī)生的讀片經(jīng)驗(yàn)有較高的要求。因此,CAD系統(tǒng)不僅需要自動(dòng)標(biāo)記ROI輪廓,還應(yīng)當(dāng)降低相似組織干擾,提高讀片效率及診斷的準(zhǔn)確率(如圖5所示)。

圖5 血管及肺結(jié)節(jié)分割圖像
(4)系統(tǒng)設(shè)置了多種ROI分割模塊選擇:Seedfilling定位法、閾值法、大津法、Rosin法、正則分布法、高斯參數(shù)法、矩量保持法、Kapur和熵法、Kittler聚類、拓?fù)浞€(wěn)定狀態(tài)法、模糊聚類(fuzzy c-means,F(xiàn)CM)。系統(tǒng)默認(rèn)采用Seed-filling定位法分割ROI[4,14](如圖6所示)。

圖6 Seed-filling定位法獲得ROI分割步驟圖
為了判斷ROI類型是否為結(jié)節(jié)、良性組織病變或惡性組織,系統(tǒng)根據(jù)已明確診斷的標(biāo)注樣本庫訓(xùn)練算法模型,結(jié)合已有的臨床知識(shí)和文獻(xiàn)記載,從幾何形狀、紋理密度、社會(huì)環(huán)境等角度在候選區(qū)域上選擇提取了36種特征值,為后續(xù)分類診斷提供條件[1,15](見表1)。

表1 特征選擇參數(shù)列表
為了簡(jiǎn)化分類器,目前系統(tǒng)實(shí)現(xiàn)了ROI二分類,即:將ROI分類為結(jié)節(jié)及非結(jié)節(jié)。可選擇的分類器有支持向量機(jī)(support vector machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)及隨機(jī)森林等[15]。分類器采用Apache spark mlib實(shí)現(xiàn),spark基于內(nèi)存的計(jì)算模型,較為擅長(zhǎng)圖像迭代計(jì)算,而mlib是Spark對(duì)常用的機(jī)器學(xué)習(xí)庫,其目標(biāo)是使實(shí)用的機(jī)器學(xué)習(xí)算法可擴(kuò)展并容易使用。提供的工具包括:①機(jī)器學(xué)習(xí)算法,常規(guī)機(jī)器學(xué)習(xí)算法有分類、回歸、聚類和協(xié)同過濾;②特征工程,即特征提取、特征轉(zhuǎn)換、特征選擇以及降維;③管道,構(gòu)造、評(píng)估和調(diào)整的管道的工具;④存儲(chǔ),保存和加載算法、模型及管道;⑤實(shí)用工具,線性代數(shù)、統(tǒng)計(jì)及數(shù)據(jù)處理等。包含了系統(tǒng)所需實(shí)現(xiàn)的分類器算法,使用便捷。
系統(tǒng)樣例采用了朝陽市第二醫(yī)院2012-2017年共208例肺部CT[SIEMENS SOMATOM Definition AS+型CT(德國(guó)西門子公司)及UCT 760型CT(上海聯(lián)影公司)]影像,共分割出ROI的513例。
將臨床醫(yī)生診斷結(jié)果作為標(biāo)簽,分割ROI診斷結(jié)果可分為結(jié)節(jié)和非結(jié)節(jié)。按性別、年齡組指標(biāo)進(jìn)行平衡后按照5∶2的比例隨機(jī)分為訓(xùn)練組和測(cè)試組,分別用于訓(xùn)練及測(cè)試。其中訓(xùn)練組結(jié)節(jié)110例,非結(jié)節(jié)256例;測(cè)試組結(jié)節(jié)44例,非結(jié)節(jié)103例。
3.2.1 SVM分類模型
模型參數(shù)設(shè)置:設(shè)置s為C-SVC,c選擇1,方法選擇序列最小最優(yōu)化(sequential minimal optimization,SMO),當(dāng)核函數(shù)為rbf時(shí),選擇sigma為:{-1,-0.8,0.6,0.8,1};當(dāng)核函數(shù)為mlp時(shí),sigma選擇:{-1,1};weights和bias均為1。模型訓(xùn)練中,訓(xùn)練組分別選擇linear、quadratic、rbf及mlp的4種核函數(shù),將訓(xùn)練組結(jié)節(jié)和非結(jié)節(jié)數(shù)據(jù)輸入訓(xùn)練;訓(xùn)練完成后將測(cè)試組結(jié)節(jié)和非結(jié)節(jié)數(shù)據(jù)輸入模型進(jìn)行測(cè)試。選擇linear為核函數(shù),獲得最高測(cè)試準(zhǔn)確率(94.04%)及真陽性率(true positive rate,TRP)(96.96%),選取rbf作為核函數(shù)時(shí),且Sigma設(shè)置為1,獲得P值最高(100.00%),見表2。

表2 SVM模型分類效果
3.2.2 隨機(jī)森林模型
設(shè)置ntree為316,mtry為6,將訓(xùn)練組結(jié)節(jié)和非結(jié)節(jié)數(shù)據(jù)輸入訓(xùn)練;獲得測(cè)試準(zhǔn)確率為95.23%,TPR為96.96%,假陽性率(false positive rate,F(xiàn)PR)為5.88%,P值為91.42。
3.2.3 ANN模型
設(shè)置ANN模型輸入層為36,隱蔽層為6,預(yù)測(cè)分類結(jié)果設(shè)置為二分類,即:0-0.5,0.5-1,分別對(duì)應(yīng)結(jié)節(jié)與非結(jié)節(jié)。訓(xùn)練算法分別選用彈性梯度下降(flexible gradient descent,F(xiàn)GD)法、共軛梯度法fletcher-reeves(FR)、共軛梯度法ploakribiere(PR)、共軛梯度法powell-beale(PB)、量化共軛梯度(quantized conjugate gradient,QCG)法、步進(jìn)割線(step secant,SS)法、萊文貝格-馬夸特方法(levenberg-marquardt,LM)以及擬牛頓(Quasi-Newton,QN)法,目標(biāo)誤差設(shè)為0.01,學(xué)習(xí)率為0.1,最大訓(xùn)練周期為2000,網(wǎng)絡(luò)測(cè)試集達(dá)到最小均方誤差結(jié)束。經(jīng)過訓(xùn)練的ANN模型擬合效果,測(cè)試準(zhǔn)確率可以達(dá)到98.07%,TRP(100.00%),QN模型(隱層節(jié)點(diǎn)設(shè)置為7)可以得到最高的P(97.06%),見表3。

表3 分類效果比較(%)
ANN(QN,7)是具有最佳擬合效果和TPR的模型,測(cè)試準(zhǔn)確率可達(dá)98.81%。SVM的準(zhǔn)確率(rbf,rbf_sigma為1)可以達(dá)到100%。其所有受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)可達(dá)0.97,這可能是由于圖像中紋理對(duì)分類結(jié)果相關(guān)性較高所致。同時(shí),數(shù)據(jù)集本身可能會(huì)影響結(jié)果,如數(shù)據(jù)集來源單一,樣本不平衡以及正例樣本不足,見表4。

表4 模型分類效果評(píng)測(cè)(%)
隨機(jī)森林的表現(xiàn)不盡如人意,但外推預(yù)測(cè)效果和交叉驗(yàn)證有差異,穩(wěn)定性略差,這可能是由于選取較多反映紋理特征參數(shù)所致,在今后的研究中,可以嘗試降維,觀察分類效果。SVM的假陽性率高于其他算法,這可能是由于一些敏感數(shù)據(jù)缺失以及訓(xùn)練和測(cè)試集缺乏平衡,但其交叉驗(yàn)證結(jié)果更穩(wěn)定,即AUC達(dá)到1,進(jìn)一步的研究可嘗試與隨機(jī)森林結(jié)合。ANN具有較高的容錯(cuò)性,并且可以結(jié)合spark stream實(shí)現(xiàn)實(shí)時(shí)分析系統(tǒng)。在本研究中,當(dāng)訓(xùn)練方法選擇QN和隱藏層節(jié)點(diǎn)設(shè)置為7,整體性能較好。分析ANN三層模型具有較強(qiáng)的預(yù)測(cè)精度和穩(wěn)定性,對(duì)于整體訓(xùn)練結(jié)果,當(dāng)樣本有限時(shí),該模型受到影響較小[15-16]。
據(jù)統(tǒng)計(jì),醫(yī)學(xué)影像的疾病誤診率可達(dá)到10%~30%,在本研究中采用基于圖像ROI分割、分類器為基礎(chǔ)的CAD系統(tǒng)能夠?qū)永\斷錯(cuò)誤率降低至8%以下,其中假陰性率低于5%,假陽性率低于3%[17]。同時(shí),通過調(diào)整分類算法及參數(shù)能夠構(gòu)建出假陰性率較低(測(cè)試樣例為0.00%)的CAD系統(tǒng)模型。在臨床篩查中,假陰性率往往更值得關(guān)注,但在確定的模型訓(xùn)練方法及樣本狀況下,假陰性率和假陽性率是此消彼長(zhǎng)的關(guān)系,需要結(jié)合使用場(chǎng)景,兼顧二者,選擇合理的算法及初始化參數(shù)構(gòu)建模型,提高診斷質(zhì)量。
隨著肺部疾病發(fā)病率逐年攀升,該病已逐漸成為我國(guó)人民身心健康的重大威脅,給患者生活和醫(yī)療環(huán)境帶來巨大挑戰(zhàn)。如何快速發(fā)現(xiàn)早期病變、及時(shí)采取治療、從而有效避免病情惡化及降低病死率已成為當(dāng)前新的挑戰(zhàn)。作為肺部疾病檢查的常規(guī)手段,CT以其無創(chuàng)、便捷及精準(zhǔn)的特性,在臨床上被廣泛采用。然而,高強(qiáng)度的閱片工作,不僅要求醫(yī)生具備較高的臨床經(jīng)驗(yàn),同時(shí)需要具備高效的閱片效率[18-19]。而通過人工智能技術(shù)構(gòu)建CAD系統(tǒng),能夠定量分析圖像信息,快速捕獲ROI,為醫(yī)生決策提供量化依據(jù)和決策建議,從而確保了診斷效果和診斷效率[20]。CAD系統(tǒng)采用Web可視化界面,操作簡(jiǎn)便,并可降低使用門檻,增強(qiáng)用戶體驗(yàn),為類似系統(tǒng)的開發(fā)提供借鑒。