丁建睿,黃劍華,劉家鋒,張英濤
(哈爾濱工業大學計算機科學與技術學院,150001哈爾濱)
特征選擇是圖像識別系統中的重要組成部分,根據特征選擇準則是否依賴于學習算法,特征選擇方法可以分為:Filter模型、Wrapper模型和混合模型[1].最小冗余最大相關(mRMR)[2]是基于互信息(Mutual Information)的特征選擇方法,它根據最大統計依賴性準則來選擇特征.支持向量機(SVM)[3]在很大程度上解決了過學習、非線性及維數災難等模式識別中存在的問題,是目前針對小樣本估計和預測的最佳分類方法[4].mRMR與SVM結合的特征選擇與分類方法已成功應用到地表分類[5]、遙感圖像分類[6]和X光圖像分類中[7].
彈性成像是測量生物組織的彈性信息并將其可視化的一項新技術,其概念最早由Ophir[8]于1991年提出,經過算法的不斷改進,目前已成功應用于臨床.T.Shiina等[9]提出的彩色彈性成像技術將彈性圖像上的像素根據其彈性幅值編碼到256級偽彩色,顏色從紅到藍,代表組織從軟到硬,彩色彈性圖像半透明的疊加到超聲圖像上.
本文針對目前臨床上評價彈性圖像存在的問題,利用CAD技術對彈性圖像進行分析,提出了一種新的客觀、定量評價彈性圖像的方法.首先從彩色圖像中解碼得到彈性信息,然后提取病變區域的彈性特征,包括一階統計特征和紋理特征,為選取與分類最相關且相互間冗余度低的特征子集,采用最小冗余最大相關(mRMR)特征選擇算法,獲得優化特征子集,最后采用帶有核函數的SVM分類器對樣本進行訓練和測試.實驗結果表明該方法具有高準確性和魯棒性.
生物組織的彈性信息是衡量病變中良、惡性的一個重要標準.然而目前的醫學影像手段,包括X射線成像、超聲成像、磁共振成像等都無法反映病變的這一生物力學特性.彈性成像技術的出現解決了這一問題,為醫生臨床診斷提供了有效的參考依據.目前利用CAD技術對彈性圖像進行分析尚處于起步階段,部分學者將直方圖特征,如:均值、方差、以及病變區域與正常組織的彈性差和比值作為彈性圖像的特征[10-11],利用這些特征對彈性圖像進行分析和分類,但這些特征都比較簡單,且未能反映病變區域彈性信息的空間分布.本文選擇提取彈性圖像上病變區域的一階統計特征來反映彈性信息的總體分布,提取紋理特征來反映病變區域的彈性信息的空間分布.另外根據圖1,將Hue歸一化到[0,1],選取Hue處于藍色區域的像素為硬度大的組織區域,其與病變區域面積的比值定義為硬組織占病變區域的面積比.
本文將彩色彈性圖像從RGB彩色空間變換到HSV彩色空間,其中Hue分量反映色彩信息,可以用來表示彈性信息.從RGB中獲取Hue分量的計算方法可表示為

Hue從0~360°分別對應著顏色從紅,黃,綠,藍到紅,由于對彈性信息的彩色編碼為從紅到藍,其中:藍色代表組織的彈性小,紅色代表組織的彈性大,而從式(1)中可以看出300°~360°和0~60°的紅色部分有重疊,為了準確的獲取彈性信息,需要進行處理,對于R≥B>G的像素,將其對應的Hue賦值為0,效果如圖1所示.

圖1 反映病變區域的彈性圖像
在圖1(b)中由于Hue分量的重疊問題,造成一些在圖1(a)中為紅色的像素具有較高的Hue,沒有正確的反映彈性信息,而在圖1(c)中由于進行了處理,圖1(a)中所有的紅色像素在圖1(c)中均為低Hue.
一階統計特征反映了病變區域全局的彈性信息,本文采用均值(Mean)、眾數(Mode)、方差(Variance)、偏斜率(Skewness)、峰度(Kurtosis)、熵(Entropy)、能量(Energy)、光滑度(Smoothness)作為一階統計特征(特征編號為F1-F8).
硬組織區域面積比定義為病變區域內Hue>0.5的像素之和與病變區域面積之比,相比對彈性圖像的評分法,該特征定量的給出了病變區域內部軟硬組織的比例(特征編號為F9).
圖像的紋理特征提供了像素灰度的空間分布信息,對于彈性圖像來說,病變區域的紋理特征反映了該區域彈性信息的空間分布,即病變區域組織的軟硬分布以及生長、浸潤狀況.對圖像紋理特征的描述分為統計描述方法和結構化描述方法,由于統計描述方法計算簡單而被廣泛使用,共生矩陣是一種常用的圖像紋理統計描述方法.
共生矩陣[12]定義為距離為d,方向為θ的灰度級i和j的聯合概率密度,它不僅反映了灰度的分布特性,也反映了具有相同灰度級的位置分布特性,是有關圖像灰度變化的二階統計特征,其元素Cd,θ(i,j,d,θ)定義為

式中:(x1,y1)、(x2,y2)分別為彈性圖像中病變區域的像素;Ⅰ(·)為像素的Hue;‖·‖為滿足條件的像素對的個數.本文提取4個方向上(θ=0°,45°,90°,135°),4個距離(d=1,2,3,4)的16個共生矩陣,為減少計算復雜性并保留圖像細節,64個Hue用來計算共生矩陣.從共生矩陣中提取對比度(contrast),相關(correlation),能量(energy)和一致性(homogeneity)4個特征,為減少特征空間的維數,對同一距離的特征進行平均,一共從共生矩陣中提取16個特征(特征編號為F10-F25).
本文從彈性圖像的病變區域總共提取了25個特征,特征之間的相關性和冗余性會降低分類的準確率,同時醫學圖像通常屬于小樣本學習,特征過多將提高分類器的復雜度,造成過擬合,降低分類器的泛化能力,因此需要對特征集合進行選擇和優化.
本文采用“最小冗余最大相關”(mRMR)方法進行特征選擇.特征選擇的目的是從特征空間中尋找與目標類別有最大相關性且相互之間具有最少冗余性的m個特征[13],最大相關和最小冗余的定義為

式中:S為特征集合;c為目標類別;Ⅰ(xi;c)為特征i和目標類別c之間的互信息;Ⅰ(xi,xj)為特征i與特征j之間的互信息.
給定兩個隨機變量x和y,它們之間的互信息根據其概率密度函數p(x),p(y)和p(x,y)分別定義為

對于多元變量Sm和目標類別c,互信息定義為

將式(2),(3)進行組合,可以得到“最小冗余最大相關”(mRMR)的特征選擇標準為

式(4)表示應該選擇與類別最大相關而與候選特征最小冗余的特征.假定已確定一個有m個特征的數據集Sm,下一步需要從數據集{S-Sm}中選擇使得式(4)最大化的第m+1個特征為

本文采用帶有核函數的SVM(KSVM)分類器對彈性圖像進行分類,訓練樣本被KSVM分類器映射到高維空間以獲得優化的分類平面,KSVM具有泛化能力強和可以通過將樣本映射到高維空間以解決非線性分類問題的優點.

兩類問題可以通過利用KSVM最小化來進行求解其中:?ξl≥0,wxl+b≥1-ξlif yl=-1;且
wxl+b≤-1+ξlif yl=-1.
式中:w為需要求解的分隔平面;ξ為軟邊緣;xl為訓練樣本;yl為xl的已知類別;L為訓練樣本的個數;C為常數.
上述問題可以利用拉格朗日方法變換為尋找參數向量α0以最大化為

滿足

式中K(xi,xj)為核函數,對于每個訓練樣本xi,有與之對應的參數α0i,如果≠0,該訓練樣本稱為支持向量(support vector).訓練結束后,對于測試樣本x的類別為

式中:xS為支持向量;NSV為支持向量的個數;K(x,xS)為核函數.
本文采用RBF核函數,其定義為

通過網格搜索法,最終選擇性能最優的C和γ值.
為了驗證本文的方法在彈性圖像上應用效果,本文對125例甲狀腺彈性圖像進行了分析處理.本文采用的所有甲狀腺彈性圖像由哈爾濱醫科大學附屬第二醫院提供,并由哈爾濱醫科大學附屬第二醫院超聲科專家對圖像中的病變區域進行手工標注,所有病例均經過病理檢驗,其中:56例惡性,69例良性.超聲圖像和彈性圖像均采用配備線性探頭,中心頻率為6-13MHz的日立Vision900商用超聲設備獲得.
圖2(a),(b)分別為一例惡性腫瘤和一例良性腫瘤的彈性圖像.

圖2 一例惡性腫瘤和一例良性腫瘤的彈性圖像

表1 分類準確率
由于特征之間存在冗余和相關,當選取所有特征進行分類時并不能達到最佳效果,當選擇由mRMR算法所選擇的前5位特征進行分類,在實驗所用的樣本集合上達到最佳效果,可見mRMR算法有效的去除了特征之間的冗余和相關.
為進一步測試方法的魯棒性,從相同病例中選取125幅未經訓練的圖像作為測試樣本,利用已經訓練好的分類器進行分類,測試結果如表2所示.

表2 相同病例不同圖像的測試結果
首先,影像醫師在超聲圖像上勾勒病變區域,該區域被自動映射到對應的彈性圖像上;彩色彈性圖像從RGB空間變換到HSV空間,特征提取自病變Hue分量圖像中的病變區;采用mRMR算法進行特征選擇后,取排名前5位的特征作為樣本采用KSVM進行訓練和測試,這些特征分別為F9:硬區域面積比;F20:共生矩陣(d=3)的能量(Energy)特征;F21:共生矩陣(d=3)的同質(Homogeneity)特征;F5:一階統計特征中的峰度(Kurtosis)特征;F23:共生矩陣(d=4)的相關(Correlation)特征.其中硬區域面積比可以認為是評分法的一種量化形式,而共生矩陣的特征及一維統計特征反映了彈性信息的空間分布和總體分布,這些特征反映了病變區域的軟硬程度及硬度分布情況.
在實驗中采用“留一”(leave-one-out)測試法[14],一幅圖像用來測試,其他圖像用來訓練,該過程不斷迭代,直至所有圖像都被測試過為止.
方法的性能采用分類準確率來評價,定義正確分類和錯誤分類的惡性病例個數為真陽性(True Positive,TP)和假陰性(False Negative,FN),正確和錯誤分類的良性病例個數為真陰性(True Negative,TN)和假陽性(False Positive,FP),分類準確率定義為:(TP+TN)/(TP+TN+FP+FN).
為了證明5個特征是否為最佳特征集合,分別對4個特征和6個特征的情況進行了實驗,實驗結果如表1所示.
由于125例用作測試的圖像未參加訓練,性能有所下降,但仍然達到了88%的準確率,證明采用優化特征集合所得到的分類器具有良好的泛化能力,驗證了方法的穩定性和可靠性.
VISION 900可以根據影像醫師勾勒的正常組織區域和病變區域自動計算兩區域的平均彈性比值,稱為彈性計算(strain ratio),該值越大說明病變區域與正常組織的彈性差異越大,病變為惡性的可能性就越大.用該值進行分類的結果和采用本文方法分類的結果比較如表3所示.

表3 與儀器計算的彈性比值的比較
彈性比值法試圖用定量的方法來評價彩色彈性圖像,但由于病變區域與正常組織區域需要影像醫師手動進行選擇,同樣具有主觀性,容易造成假陽性和假陰性.實驗結果表明,本文提出的方法可以客觀、定量的評價彈性圖像,分類性能優于彈性比值法.
彈性圖像評分法是影像醫師根據彈性圖像病變區域的色彩分布,人為主觀給出的分值,用來評價圖像的良惡性程度,甲狀腺彈性圖像中通常采用4分評分法,分值越高,其惡性程度越高.為了與該方法進行比較,超聲專家對125例甲狀腺彈性圖像分別進行了評分,評分法得到的結果與本文提出方法的結果比較如表4所示.

表4 與評分法的比較
由于評分法對醫師要求很高,并且與環境、心理等眾多因素有關,因此具有很強的主觀性,而本文提出的方法可以對彈性圖像進行客觀、定量的評價,性能遠遠高于評分法的結果.
1)實驗結果表明該方法達到了預期的效果,與現存的方法相比,具有更高的準確率和可靠性.
2)有效特征的選擇降低了分類器的復雜度,減少了計算量,提高了泛化能力,為本方法在實時醫學圖像處理系統中的應用奠定了基礎.
3)利用該方法對甲狀腺彈性圖像進行定量的分析,能夠幫助醫生客觀、準確的判斷病變的性質,為進一步的診斷提供了有效的參考依據.
[1]LIU Huan,YU Lei.Toward integrating feature selection algorithms for classification and clustering[J].IEEE Transactions onKnowledgeandDataEngineering,2005,17(4):491-502.
[2]DING C,PENG H.Minimum redundancy feature selection from microarray gene expression data[J].Journal of Bioinformatics and Computational Biology,2005,3(2):185-205.
[3]VAPNIK V.The nature of statistical learning theory[M].New York:Springer Verlag,2000.
[4]顧志偉,吳秀清,荊浩,等.一種基于特征選擇的醫學圖像檢索方法[J].中國生物醫學工程學報,2007,26(1):30-34.
[5]李士進,陶劍,林林,等.面向宏觀地表分類的特征選擇算法比較研究[J].計算機工程與應用,2008,44(21):130-132.
[6]劉峰,龔健雅.一種基于多特征的高光譜遙感圖像分類方法[J].地理與地理信息科學,2009,25(3):19-22.
[7]YOON Sejong,KIM Saejoon.Mutual information-based SVM-RFE for diagnostic classification of digitized mammograms[J].Pattern Recognition Letter,2009,30(16):1489-1495.
[8]OPHIR J,CESPEDES I,PONNEKANTI H,et al.Elastography:a quantitative method for imaging the elasticity of biological tissues[J].Ultrasonic imaging,1991,13(2):111-134.
[9]SHIINA T,YAMAKAWA M,NITTA N,et al.Clinical assessment of real-time,freehand elasticity imaging system based on the combined autocorrelation method[C]//Proceedings of the IEEE Ultrasonics Sympos.Washington:IEEE Xplore,2003:664-667.
[10]Shirley SELVAN M K,SHENBAGADEVI S,SURESH S.Feature extraction for characterization of breast lesions in ultrasound echography and elastography[J].Journal of Computer Science,2010,6(1):67-74.
[11]Huang Chiun-Sheng,MOON Woo-Kyung,SHEN Wei-Chih,et al.Analysis of elastographic and B-Mode features at sonoelastography for breast tumor classification[J].Ultrasound in Medicine and Biology,2009,35(11):1794-1802.
[12]NEWELL D,NIE K,CHEN J H,et al.Selection of diagnostic features on breast MRI to differentiate between malignant and benign lesions using computer-aided diagnosis:differences in lesions presenting as mass and nonmass-like enhancement[J].European Radiology,2010,20(4):771-781.
[13]PENG H,LONG F H,DING C.Feature selection based on mutual information:criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[14]CHANGMing-wei,LINChih-jen.Leave-one-out bounds for support vector regression model selection[J].Neural Computation,2005,17(5):1188-1222.