吳爽
(河海大學計算機與信息學院,江蘇南京211100)
身體的各個器官和組織都與血液密切相關,甚至全身各組織的疾病都可以表現在血液中。血液中包含白細胞、紅細胞、血小板和其他雜質,其中白細胞在血液中的作用尤其重大,因為白細胞能吞噬異物產生的抗體,在機體損傷治愈、抗御病原的入侵和對疾病的免疫方面起著重要作用。通過對血液中的各類白細胞數量的統計,來幫助醫生診斷疾病。因此,白細胞的識別分類在醫學臨床檢測上有著重要的實際意義。目前國內大多數醫院的血液白細胞的檢驗以人工操作為主,使得白細胞的檢測質量和效率受到一定的影響。而將計算機圖像處理和模式識別理論用于白細胞的檢測,可以提高白細胞檢測質量和效率,因此,提出基于支持向量機SVM的白細胞識別研究算法。
白細胞大致分成淋巴細胞、單核細胞、中性粒細胞、嗜酸性粒細胞、嗜堿性粒細胞等5大類。假定已經得到一幅預處理過的血液細胞圖像,識別其中的白細胞的步驟:首先是分割細胞核,并進一步以細胞核的中心為基礎,分割出細胞漿,從而提取出完整的單個白細胞;然后根據需要,對提取得到的白細胞圖像進行統計和計算,得到相應的白細胞特征,最后由分類器根據細胞特征確定該細胞的所屬類別,完成細胞識別的任務。由此,可以得到如圖1所示的完整的細胞識別流程[1]。

圖1 白細胞分類識別流程Fig.1 Flow chart of classification and recognition of white blood cell
從圖1可以看出,白細胞的準確分割是保證后續工作的前提,它是最基本、最關鍵的一環,其準確性和穩定性直接影響到白細胞的分類。
支持向量機SVM是由Vapnik[2]等人在統計學習理論(SLT)和結構風險最小化原理的基礎上根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折衷,通過選擇適當的選擇函數子集及其函數子集中的判別函數,使學習機器的實際風險降到最小,保證了通過有限訓練樣本得到的小誤差分類器對獨立測試集的測試誤差仍然較小。因而,SVM是一個具有最優分類能力和推廣能力的學習機器,其基本思想:把在輸入空間中的線性不可分的數據集,通過內積核函數,非線性映射到高維特征空間后,變為線性可分的數據集,隨后在高維特征空間建立一個不但能將兩類正確分開,而且使分類間隔最大的最優分類面。目前,支持向量機SVM[3]已廣泛應用于各個領域,包括模式識別、回歸分析、密度估計和時間序列預測等。SVM原理圖[4-5]如圖2所示。

圖2 SVM原理圖Fig.2 Principle figure of SVM
給定一個樣本集x=(x1,y1),(x2,y2),…,(xn,yn),其中xi∈Rd,yi∈{-1,1},是兩類問題的標簽,n是樣本數,SVM的基本思想就是為了尋找一個兩類之間的最優分類面w·x+b=0,如圖3所示。

圖3 最優分類面Fig.3 The optimal classification surface

訓練數據的約束條件為:

式中,αi為Lagrange系數。
αi>0的樣本稱為支持向量,由此得到支持向量機(即判決函數)為

式(3)中的求和實際上只對支持向量進行。b*是分類閾值,可以用任意一個支持向量求得,或通過兩類中任意一對支持向量取中值求得。
對于分類問題線性不可分的情況,引入一個松馳變量ξi≥0,使得目標函數Q(w,ξ懲罰參數,約束條件變為0≤αi≤C就可以解決樣本點線性不可分的情況了,預測函數的形式與式(3)一樣。
對于這種情況,可將其輸入向量經非線性變換映射到一個高維空間,使其線性可分。在變換后的空間中尋找一個最優超平面,使其推廣能力最好,然后進行線性分類。引入的核函數只需要滿足Mercer條件即可,常用的核函數是徑向基核函數。
白細胞的分割,即是將白細胞與周圍的紅細胞、血小板、雜質等背景分離。傳統的分割方法[6]有閾值分割、經典迭代法、形態學和分水嶺分割方法、區域生長與分裂合并以及近年來提出的基于最大信息熵法分割方法等,這些方法雖然有的達到了分割的要求,但其魯棒性和分割的完整性不能達到很好的要求。因此,本文利用SVM的方法分割白細胞,其速度和準確率都達到了保證。由于所獲取的圖片是RGB彩色圖片,不符合人的視覺特性,應將其轉換為符合人眼視覺的HSI彩色空間中[7]。根據HSI空間中色調分量對光照的變化不敏感,對用不同顏色的染色劑得到的細胞圖像能夠保持良好的一致性,有助于后續處理。
其算法步驟:
1)將彩色圖像轉換為灰度圖像;
2)構造SVM分類器。由于白細胞區域圖像色彩顏色比周圍背景的顏色較深,并且灰度變換比較明顯,而背景區域的灰度變化比較平穩(與前景區比較),因此選取對比度(即灰度標準差和均值的比值)以及由當前像素鄰域的灰度共生矩陣導出的一組局部紋理參數作為SVM的輸入向量。為了獲取局部特征,需要將當前像素的鄰域形成一個子圖像,然后在子圖提取相應的局部灰度統計特征和局部紋理特征作為當前像素的特征向量。將血液細胞圖像分成9×9大小的圖像塊,對每個圖像塊B(i,j)按式(4)計算對比度[8]:

式中,分子分母分別是由圖像塊B(i,j),B(i,j+1),B(i+1,j),B(i+1,j+1)組成的灰度標準差和均值,w是小塊的邊長。
紋理特征[9-11]選取如下:


考慮到圖像紋理的方向性,θ分別取0°、45°、90°及135°當前像素的灰度共生矩陣的局部紋理特征的均值。由于所提取的特征可能在量值上有很大的差異,對所提取的特征進行歸一化非常重要,采用式(9)對特征進行歸一化:

經過歸一化處理后,各特征值的范圍被限制在[-1,1]之間。以圖像各塊的對比度和紋理特征為特征,構造特征向量,作為訓練SVM的輸入向量。對于輸入的特征向量,如果SVM的輸出g(x)=1,則表示背景;若g(x)=-1,則表示前景。以上構成的SVM的樣本數據集,經訓練得到α*,b和支持向量SV表示的SVM模型,用于白細胞圖像分割。
本文主要采用的是由臺灣大學林智仁教授編寫的LIBSVM工具箱,在MATLAB平臺上對圖像進行分割實驗的,并與經典迭代法、最大信息熵法[12]進行了對照。為了很好的對比,恢復了檢出區域的彩色信息。實驗結果如圖4所示。

圖4 各種方法分割圖Fig.4 Several ways of segmentation
圖4中,圖像從左至右分別為:原圖像,經典迭代法,最大信息熵法和SVM法。用經典迭代法即是根據迭代計算得出閾值來進行分割圖像,最大信息熵法是根據香農定理求熵最大以此來獲得閾值,SVM法是根據提取特征向量構造分類器來獲得分割圖的。根據第一組圖像,可以得出:基于SVM的分割效果比經典迭代法、最大信息熵法效果要好。而第二組圖像,這3種方法的差別不大。通過比較可以看出不同的算法適用于不同的圖像對象,并且即使同一種算法對不同的圖像的分割效果也有好壞。由于圖像的分割效果沒有統一的判斷標準,所以最終結果的評價主要采用主觀判斷作為分割質量的評價標準。
基于統計學習理論,提出了應用SVM方法對白細胞圖像進行分割的方法,為后續的白細胞識別分類奠定基礎。縱觀近幾年來出現的白細胞圖像分割的各種算法與研究,可以看出目前圖像分割領域的發展趨勢,將其他學科的新技術應用于該領域,力求尋找一種通用的算法,對于環境具有較好的魯棒性,結合應用現有不同的算法,優勢互補。雖然SVM等一些其他方法對白細胞圖像分割都取得了比較理想的結果,但由于白細胞圖像檢測主要應用于臨床,準確性非常重要,所以今后還必須繼續尋找更適合于白細胞圖像的分割方法。
[1]吳建斌,李家志,李太全.基于支持向量機的白細胞自動識別[J].計算機工程與設計,2008,29(1):184-186.
WU Jian-bin,LI Jia-zhi,LI Tai-quan.Based on support vector machine automatic classification[J].Computer Engineering and Design,2008,29(1):184-186.
[2]Vapnik V N.Statistical learning theory[M].New York,W iley,1998.
[3]鄧乃揚,田英杰.支持向量機——理論、算法與拓展[M].北京:科學出版社,2009.
[4]Omar Selmi,Pinti A,Abdelmalik Taleb-Ahmed,et al.Use of support vector machines for color image segmentation[C]//IMACS Multiconference on“Computational Engineering in Systems Applications”(CESA),2006:574-577.
[5]Jerdnimo Arenas-Garcia,Fernando Ptrez-Cruz.Multi-class support vector machines:a new approach[J].IEEE,2003:781-784.
[6]Gonzalez R C,Woods R E,Eddins S L.數字圖像處理:MATLAB版[M].阮秋琦,譯.北京:電子工業出版社,2008.
[7]王敏,儲榮,曾曉勤.基于邊界支持向量的白細胞檢出新方法[EB/J].中國科技論文在線,2009,4(2):146-151.
WANG Min,CHU Rong,ZENG Xiao-qin.New method for white blood cell detection based on boundary support vectors[EB/J].Chinese scientific papers online,2009,4(2):146-151.
[8]魏鴻磊,歐宗瑛,張建新.采用支持向量機的指紋圖像分割[J].系統仿真學報,2007,19(10):2362-2364.
WEI Hong-Lei,OU Zong-Ying,ZHANG Jian-xin.Using support vector machines for fingerprint image segmentation[J].System Simulation,2007,19(10):2362-2364.
[9]張德豐.MATLAB數字圖像處理[M].北京:機械工業出版社,2009.
[10]ZHI Zheng-liang,TUO Zhao.Feature selection for linear support vector machines[C]//The 18th International Conference on Pattern Recognition(ICPR'06),2006.
[11]XU Peng,DAI Min,Chan A K.Texture classification using optimized support vector machines[J].IEEE,2004:544-547.
[12]嚴學強,葉秀清,劉濟林.基于量化圖像直方圖的最大熵閾值處理算法[J].模式識別與人工智能,1998,11(3):352-358.
YAN Xue-qiang,YE Xiu-qing,LIU Ji-lin.Quantization histogram based on the maximum entropy thresholding algorithm[J].Pattern Recognition and Artificial Intelligence,1998,11(3):352-358.