何校棟 邢海群 王 瞳 霍 力 李 方 張 輝*
基于Adaboost算法的多特征融合肺部PET-CT圖像的腫瘤分類方法*
何校棟①邢海群②王 瞳②霍 力②李 方②張 輝①*
目的:提出并設計使用PET-CT影像定位肺部病灶區域并輔助判斷病灶點的自動化流程,并對整個算法流程進行評價和分析,以提高臨床工作效率。方法:選取北京協和醫院核醫學科20例肺部腫瘤患者的PET-CT影像,使用圖像尺度變換等圖像處理方法,去除CT圖像中的床位,用等高輪廓線在PET-CT影像中提取樣本區域,并依據預先標記的病灶區域信息對樣本區域進行類別劃分,提取每個樣本區域的圖像特征。應用Adaboost算法進行訓練,建立相應的分類模型,利用訓練好的分類模型對測試集進行測試,對比弱分類器構成的集成分類模型的準確率,用檢出率、誤檢率、感興趣區域(ROC)曲線以及病例分類的正確率對分類結果進行評估。結果:對20例患者的PET-CT圖像預處理后,共產生125088個樣本,其中正樣本22720個,負樣本為102368個,用等高輪廓線進行區域劃分,使用Adaboost.M2算法融合多種特征訓練出來的強分類器的樣本分類正確率為97%左右,20例肺部腫瘤患者的粗分類結果全部正確,細分類結果正確率為100%。結論:將等高輪廓線區域技術與Adaboost算法相結合,融合多個特征構建分類器提取并識別肺部腫瘤區域的方法能有效改善弱分類器的過擬合現象,有效的提高弱分類器的準確率,該算法實現了從PET-CT影像到診斷結果的自動化,為臨床醫生提供更清晰的診斷結果,極大提高臨床工作效率。
自動化診斷;Adaboost算法;PET-CT;多特征融合分類;等高輪廓線;肺癌
當前,肺癌已成為人類癌癥死亡的主要原因之一,我國肺癌病患的發病率和病死率也在逐年攀升,其中大約80%的肺部腫瘤患者就診時已經屬于肺癌晚期[1];而經過早期篩查、診斷和及時治療的肺癌患者5年生存率達到35%~80%[2]。正電子發射斷層顯像(positron-emission tomography,PET),X射線計算機斷層成像(computed tomography,CT),PET-CT影像診斷則是進行肺部腫瘤早期篩查的有效工具。
目前,在臨床影像診斷中醫生大多通過手工圈定患者感興趣區域(region of interest,ROI)來確定醫學圖像中的ROI,由于國內患者眾多、醫生的工作量和工作壓力大等因素導致診斷的準確率降低。近年來,人們越來越多地嘗試將計算機技術應用到臨床檢查和診斷上來。
本研究采用數字圖像處理技術對PET-CT影像進行一系列自動化處理,不需要醫師或者研究人員手動設定ROI,能有效的減少臨床工作人員的工作量。
1.1 方法流程
算法先用數字圖像處理技術處理獲取的PET-CT影像,確定肺部的樣本區域,然后提取樣本區域的特征,構建數據集合,接著劃分數據集,用劃分出來的訓練集訓練分類器,再用測試集測試訓練好的分類器,最后對實驗結果進行分析解讀,算法流程如圖1所示。

圖1 算法流程圖
1.2 臨床數據描述
使用從北京協和醫院核醫學科獲取的20例肺部腫瘤患者的PET-CT影像,核醫學科2名經驗豐富的醫師已在圖像中標記出病灶區域;患病結果分別有良性(benign)和惡性(malignancy),其中良性又細分為良性腫瘤(benign Tumor)和炎癥(inflammation)兩種情況,而惡性腫瘤又根據分化程度的不同,細分為低分化(poor differentiated)、中分化(moderate differentiated)和高分化(well differentiated)三種情況。研究中使用的20例PET-CT圖像粗分類良性腫瘤8例,惡性腫瘤12例,細分類則良性腫瘤、炎癥、低分化、中分化和高分化各4例。北京協和醫院核醫學科2名醫師對上述20例患者的PET-CT圖像進行病灶點的標記,標記病灶點37個,病灶所在切片共152層。
1.3 確定樣本區域
對每個病例的CT和PET肺部圖像使用等高輪廓線進行區域劃分,然后對每個等高輪廓線劃分出來的區域進行二值圖像孔洞填充,經過填充之后的每個連通的區域即是一個樣本。若樣本50%的區域面積為病灶區域,則該樣本就標記為正樣本(病灶樣本),病灶區域面積低于樣本面積的50%,則標記該樣本為負樣本(None-非病灶區域)。
對20例患者的PET-CT圖像預處理后,共產生125088個樣本,其中正樣本22720個,負樣本102368個,其結果見表1。

表1 病例樣本數量(個)
1.4 樣本特征提取
目前X射線胸片、CT掃描能幫助醫師對大部分肺癌做出診斷和分期判定,但對于一些早期病變的判定幫助有限。PET在腫瘤的早期診斷、分期和療效評估方面有較高的敏感性和特異性,但其空間分辨力較差。PET-CT的出現彌補了這兩方面的缺憾,其融合專用的PET掃描儀和CT掃描儀的技術,提供了來自兩種顯像方式的獨特信息[3]。本研究主要對PET-CT在肺癌診斷中的應用進行了研究,PET和CT影像信息互相參考,互為印證,可以彌補CT定性困難的缺陷和PET定位不精確,以及由于生理性攝取造成假陽性率的缺陷,極大提高診斷效能[4]。
PET圖像中通常用于診斷肺癌的指標為最大標準化攝取值(maximum standard uptake value,SUVmax),PET影像中的SUVmax與腫瘤大小、病理類型等相關[5];病灶最大徑、最小徑及病灶密度均與SUVmax呈明顯正相關關系,將各影響因素扣除后,不同組織學類型及不同分期非小細胞肺癌的SUVmax特征無明顯差異[7]。也有學者引入如表觀彌散系數(apparent diffusion coefficient,ADC)、平均標準攝取值(mean standard uptake value,SUVmean和最小標準攝取值(minimum standard uptake value,SUVmin)[5][1]等指標用于診斷癌癥,但目前臨床中仍使用SUVmax作為診斷癌癥的首選指標[8]。
參考臨床上的應用、PET-CT影像的特點以及其他學者在PET-CT影像輔助診斷肺癌課題上的研究,實驗提取PET-CT圖像中樣本區域的13個特征作為數據輸入,每一個樣本區域產生一個13個特征數據表示的向量,作為數據集合的輸入;13個樣本特征以及特征的說明見表2。

表2 樣本特征具體說明
樣本特征中的胸膜距、質心距是樣本區域的位置特征,用于描述樣本區域的位置,如圖2所示。

圖2 樣本位置特征示意圖
研究中的分類器使用Adaboost.M2算法[9]。該算法是Adaboost算法[10]針對多分類問題的一個擴展算法,使用加權分類錯誤率來衡量分類器的準確率。分類器的輸入是數據樣本的特征向量;分類的結果有兩種,粗分類則分別是無病灶、惡性腫瘤及良性腫瘤;細分類則是無病灶、良性腫瘤、炎癥、中分化、低分化以及高分化。
2.1 Adaboost.M2算法訓練分類器流程
準備好訓練樣本集合后,Adaboost.M2算法首先初始化樣本權重,然后經過N次迭代,選出N個弱分類器,每次迭代過程中,需要計算加權分類錯誤率,樣本的觀測權重以及弱分類器的權重,訓練流程如圖3所示。

圖3 Adaboost.M2算法訓練分類器流程圖
2.2 Adaboost.M2算法參數
Adaboost.M2算法訓練分類器的流程圖顯示,其中Adaboost.M2算法加權分類錯誤率計算為公式1[10]:
式中ht(xn,k)是第t步產生的分類器將第n個樣本分到第k類時所獲取的可信度,0≤ht(xn,k)≤1,0代表可信度較低,1代表可信度較高;為第t步類別k的觀測權重;yn是第n個樣本的真實類別。
Adaboost.M2算法在訓練分類器時,主要用到以下幾個參數:①迭代次數N(也是弱分類器的個數);②樣本的權重;③弱分類器。在實驗過程中設置迭代次數N為100,若迭代次數太小則最后訓練出的強分類器會出現過擬合現象;設置迭代次數太大,則分類器的正確率不會隨著迭代次數的增加而提高,也會增加分類器的訓練時間。
權重在Adaboost.M2算法中能使弱分類器誤分類樣本的權值增大,減小正確分類樣本的權值。通過此方式,Adaboost算法能重點關注或聚焦于那些較難分的樣本上。此外,可以通過調整權重來影響不同樣本分類錯誤帶來的“懲罰”值,本研究將正樣本的權重調整為負樣本權重的5倍,可以理解為正樣本分為負樣本,帶來的“懲罰”比較大,而負樣本分為正樣本,得到的“懲罰”比較小。這樣設計權重,能夠符合臨床的需要,在保證正確率的情況下,盡可能減少被誤分的正樣本的數量。
在Adaboost.M2算法中主要使用判別式分類器和決策樹分類器進行對比分析。判別式分類器,估計的是條件概率,直接為條件概率假設一個函數形式,從訓練的數據集中估計函數的參數,是樣本到條件概率的映射[11]。決策樹分類器CART方法是由Breiman等人在1984年提出的一種決策樹分類方法[12]。
實驗中的總樣本量為125088個,其中22720個正樣本(包含病灶區域的樣本),102368個負樣本(不包含病灶區域的樣本)。
3.1 劃分數據集
使用總樣本的80%作為訓練集,總樣本的20%作為測試集。訓練集和測試集的詳細數量分布見表3。

表3 訓練集和測試集樣本分類數量及比例
3.2 訓練集和測試集的檢出率
通過數據的對比顯示,判別式分類器的檢出率在88%左右,而決策樹分類器的檢出率在97%左右,表明弱分類器為決策樹分類器的情況下,準確率高于判別式分類器,因此在后續的病例分析中,使用決策樹構造的集成分類器對病例進行分類。此外,訓練集和測試集的檢出率非常接近,Adaboost算法基本不存在過擬合(over-fitting)現象;在使用相同的弱分類器的情況下,粗分類的準確率和細分類的準確率相差不大,檢出率相差≤2%,這表明實驗樣本能提供足夠多的信息來進行準確分類。使用Adaboost.M2算法對分類器進行100輪訓練和測試后,分類器的檢出率和誤檢率見表4。

表4 訓練集和測試集檢出誤檢率(%)
3.3 ROC曲線
無論是粗分類還是細分類,各個分類ROC曲線下面積(area under the curve,AUC)都比較接近,表明Adaboost算法分類比較均衡,不會“犧牲”數量較少的樣本類別,來追求分類準確率的提升,在圖4的子圖(B)中,細分類決策樹分類非病灶樣本的ROC曲線下方面積明顯少于其他曲線,表明算法將一定數量的非病灶點分為了病灶點。Adaboost算法集成分類器的ROC曲線如圖4所示。

圖4 Adaboost算法集成分類器測試集ROC曲線
3.4 病例分類正確率
使用訓練好的分類器,對每個病例中的樣本點進行分類,然后統計該病例肺部區域的病灶面積,病灶面積最大的類別就是該病例的分類結果,若病例的分類結果和病例的標記結果相同則該病例分類正確。如圖5所示,(A)為測試結果的示意圖,其中六個樣本的分類結果均為高分化,但是其病灶區域面積只計算一次;(B)為對應切片上預先標記出的病灶區域,從(A)中右上角的子圖中可以看出,多個樣本(每一個輪廓線包圍的區域產生一個樣本)覆蓋了同一個病灶區域,即使一兩個樣本分類錯誤,對該區域的最終分類結果也不會有太大的影響。

圖5 切片分類結果示意圖
Adaboost算法集成的決策樹分類器對20例肺部腫瘤患者的粗分類結果全部正確,細分類結果正確率為100%。詳細分類結果見表5。

表5 弱分類器為決策樹的Adaboost算法對20例患者的細分類結果
本研究使用判別式分類器訓練出來的集成分類器的正確率為86%左右,可能是因為研究中使用的數據包含負樣本(非病灶區域)較多,R使用等高輪廓線自動提取的ROI,其準確率沒有臨床醫師手動勾畫的ROI精度高[13]。此外,PET和CT圖像配準的精確度對算法的分類準確率也會有影響。本研究使用Adaboost算法,融合多個特征構建分類器提取并識別肺部腫瘤區域的方法能有效改善弱分類器的過擬合現象,并能將多個特征融合在一起,有效的提高弱分類器的準確率。實驗過程中,除了訓練集成分類器的時候,需要標記好的PET-CT影像,測試過程中未用到預先標記的數據,在測試病例的過程中,不需要人為的標記和干預,提高了整個診斷流程的自動化程度,動態示蹤模型(Tracer kinetics model)能夠從PET動態圖像中獲取更多的信息,并提供更有價值的診斷結果。然而,國內人口基數大,病患數量多,PET-CT設備數量較少,獲取PET-CT動態圖像的時間長等客觀因素都限制了動態掃描在臨床中的應用。
本研究實現了一個從PET-CT影像到診斷結果自動化的流程,不需要醫師勾畫ROI,在臨床中能有效減少醫生的工作量,使用分類的概率來描述患者的分類結果,為醫生提供一個更加清晰可靠的結果。此外,由于算法的研究尚處于初級階段,在后續的研究中可以嘗試尋找更加準確的特征、優化ROI的自動提取的流程,減少負樣本(非腫瘤區域)的比例來提高算法的分類準確率。
[1]席雯,穆新林.肺癌篩查方法與早期診斷[J].中國臨床醫生雜志,2013,41(9):7-9.
[2]金河,徐世東.肺癌的診斷方法[J].實用腫瘤學雜志,2012,26(3):285-288.
[3]楊吉剛,馬大慶.PET-CT在肺癌診斷中的應用[J].首都醫科大學學報,2007,28(6):717-720.
[4]孫海輝,喬智紅,邱書珺,等.PET/CT在肺癌診療中的應用價值[J].武警后勤學院學報(醫學版),2009,18(11):993-996.
[5]Goo JM,Im JG,Do KH,et al.Pulmonary Tuberculoma Evaluated by Means of FDG PET:Findings in 10 Cases1[J].Radiology,2000,216(1):117-121.
[6]Turkington TG,Coleman RE.Clinical oncologic positron emission tomography:an introduction[J]. Seminars in Roentgenology,2002,37(2):102.
[7]李建南,馮洪波,蔡博文,等.非小細胞肺癌病灶大小及密度與PET/CT標準攝取值相關性研究[J].大連醫科大學學報,2012,34(1):56-59.
[8]關志偉,姚樹林,田嘉禾,等.PET診斷肺部腫瘤的SUV值與靈敏度分析[J].中國臨床醫學影像雜志,2003,14(3):169-172.
[9]Ho TK.The random subspace method for constructing decision forests[J].IEEE Trans. Pattern Analysis and Machine Inteligence,1998,20(8):832-844.
[10]Freund Y,Schapire RE.A decision-theoretic generalization of on-line learning and an application to boosting[C]//European Conference on Computational Learning Theory.Springer Berlin Heidelberg,1995:23-37.
[11]Guo Y,Hastie T,Tibshirani R.Regularized linear discriminant analysis and its application in microarrays[J].Biostatistics,2007,8(1):86-100. [12]Loh WY,Shih YS.Split Selection Methods for Classification Trees[J].Statist Sinica,1997,7(4): 815-840.
[13]周飛華,王宏,魏光明,等.胸部疾病FDG PET、PET/CT顯像的假陽性和假陰性陷阱[J].現代生物醫學進展,2012,12(29):5792-5797.
[14]Staff TPO.Correction:Correlation of the Apparent Diffusion Coefficient(ADC)with the Standardized Uptake Value(SUV)in Lymph Node Metastases of Non-Small Cell Lung Cancer(NSCLC)Patients Using Hybrid18F-FDG PET/MRI[J].Plos One,2015,10(1):922-926.
[15]Tong S,Shi P.Tracer Kinetics Guided Dynamic PET Reconstruction[M].Information Processing in Medical Imaging,Springer Berlin Heidelberg,2007:421-433.
[16]鄒建,何校棟,朱文佳,等.一種(11)C-acetate肝臟PET動態成像的逐像素參數估計算法[J].中國醫學影像技術,2016(7):1124-1129.
A classification method for tumor of PET-CT image of multi feature fusion for lung based on Adaboost algorithm/
HE Xiao-dong, XING Hai-qun, WANG Tong, et al// China Medical Equipment,2017,14(8):5-10.
Objective: To propose and design an automated process for localization of lesion region of lung and for assisted judgment of lesion sites by using PET-CT images, and to evaluate and analyze the whole algorithm flow so as to increase efficiency of clinical work. Methods: PET-CT images of 20 patients with lung tumor were selected and series of image processing methods including transforming of image scale were used to remove the bed of CT images. The contour line of equal altitude was used to extract region of sample in the image of PET-CT, and the region of sample was classified as category depended on pre-marked information of lesion region, and then the future of image in each region of sample was extracted. The Adaboost algorithm was applied to train and establish corresponding classification model. Finally, the classification model that has been trained was used to examine the test set, and the accuracy rate of integrated classification model consisted of weak classifiers was compared. Besides, the detectable rate, false detecting rate, ROC curve of interesting and the correct rate of the classification for cases were used to evaluate the results of classification. Results: There were 125088 samples were produced after the PET-CT images of 20 patients were pre- processed, and the positive samples and negative samples were 22720 and 102368, respectively. The correct rate of classification for sample of strong classifier, that was trained by using equal altitude contour line to classify region and using Adaboost. M2 algorithm to fuse with multi future, was around 97%. The results of rough classification of 20 patients with lung tumor were correct, and the correct rate of results of fine classification was 100%. Conclusion: The new method that combines the region technique of equal altitude contour line with Adaboost algorithm and that fuses multi futures to establish classifier and identify region of lunge tumor can efficiently increase the accurate rate of weak classifier. This method realizes the automation from PET-CT images to diagnosis results and provides clearer diagnosis results for clinicians, and increase the efficiency for clinical work.
Automatic diagnosis; Adaboost algorithm; PET-CT; Multi feature fusion classification; Contour line of equal altitude ; Lung cancer
Department of Biomedical Engineering, School of Medicine Tsinghua University, Beijing 100084, China.
1672-8270(2017)08-0005-06
R734.2
A
10.3969/J.ISSN.1672-8270.2017.08.002

何校棟,男,(1989- ),碩士研究生。清華大學醫學院生物醫學工程系,研究方向:醫學圖像處理與模式識別。
2017-05-21
國家自然科學基金(81571713)“肝細胞癌乙酸鹽PET動態顯像的動力學分析與臨床應用研究”
①清華大學醫學院生物醫學工程系 北京 100084
②中國醫學科學院北京協和醫院核醫學科 北京 100005
*通訊作者:hzhang@tsinghua.edu.cn