蔣先剛,何曉嶺,范自柱
華東交通大學 理學院,南昌 330013
糞便鏡檢圖像分析是指通過對糞便中各種有形物的光學影像分析,來檢驗一個人的內消化系統是否有疾病、損傷和潛在病灶。糞便鏡檢圖像中的有形物體具有比尿沉渣圖像中的有形物體更復雜的背景和模糊的邊界,在國內對糞便鏡檢圖像的分析仍然主要依靠人工目檢。
基于邊緣的圖像分割考慮的是局部圖像的梯度變化,邊緣檢測通過確定灰度值的突變點來區分不同的區域,但是局部區域的弱邊界使邊緣檢測方法往往不能獲取完整的有形物區域[1]。對于復雜背景的糞便鏡檢圖像,白細胞的胞核不清楚,胞漿呈顆粒狀,紅細胞呈現為雙圓環結構,紅白細胞的邊緣比較模糊,單獨采用閾值分割和邊緣分割方法不能兼顧所有有形物體的分割[2]。紅白細胞的透明性使以能量平衡為主要分割思想的Chan-Vese分割模型仍然不能有效分割出紅白細胞區域,需要研究基于Chan-Vese模型的兼顧邊緣加強和紋理屬性保留的信息互補的分割方法,在對有形物體分割的基礎上,基于隨機決策森林的分類方法具備良好的數據泛化作用,對糞便鏡檢圖像的分類具備更強的魯棒性。
可利用多向Sobel算子求取圖像的梯度邊緣而得到分割區域,或者用迭代法或大津法直接得到二值區域,再結合各種形態學而獲得比較規整的有形物體區域,但考慮到糞便鏡檢圖像的特點,需采用對模糊邊界區域分割的自適應性比較強的方法,包括高低閾值自適應的Canny邊緣檢測和基于Chan-Vese模型的分割方法。
高低閾值自適應Canny邊緣檢測的主要思路是將經過非模極大值抑制后的梯度幅值分為L級,將模極大值分成三類C2,C1,C0[3]。設定ni為模數為i的像素的總數,pi為該模級像素數占整個圖像像素的比率:pi=,pi≥0,設 C0包含模級為[1,2,…,k]的像素,C1包含模級為[k+1,k+2,…,m]的像素,則C2包含模級為[m+1,m+2,…,L-1]的像素,如設總像素梯度幅值的期望為:

則三類點的對比率和類內期望為:

各類類內方差為:

通過對類內方差取得最大而確定雙閾值的評價函數為:

由此求解得到的m,k即為自適應的Canny邊緣檢測的最佳高低閾值參數[4]。對這兩個閾值取對應于最大抑制和邊緣跟蹤時的比例權重,γ1,γ2為不同的參數時可得到不同的邊緣分割效果,圖1為對尿液鏡檢圖取不同權重參數下自適應高低閾值的Canny邊緣檢測效果,隨著這些參數的增加,細弱的邊緣將被放棄。通過空洞填充等形態學處理將能分割出紅、白細胞區域,但對如圖1左上方模糊邊界的有形物體,無論邊緣權重參數取多大的范圍,仍不能勾勒出完整的圓形區域[5-6],對于具備更多模糊邊界和透明細胞壁的紅白細胞的糞便鏡檢圖像需借助于與區域內外屬性有別的分割模型。

圖1 取不同權重參數下自適應的Canny邊緣檢測效果
2001年Chan和Vese提出了簡化M-S的分割模型,即Chan-Vese分割模型[7],它設原圖I(x,y)被活動輪廓c劃分為目標wa和背景wb兩個區域,設這兩個區域的平均灰度分別為ca和cb,Chan和Vese提出簡化 M-S圖像分割模型的擬合能量函數如下:

式中,c是表示分割區域的閉合輪廓線;ca、cb是依賴于c的兩個常數。很顯然,只有當閉合活動輪廓線c位于兩個同質區域的邊界時,函數F(c)才能達到最小值。據此,Chan和Vese提出了如下的圖像分割能量函數:

式中,L(c)為閉合輪廓c的長度;νs0(c)是c的內部區域面積;實參數 μ、ν≥0;λa、λb>0是函數各項的權重系數。
通過優化F(c,ca,cb)就可以求得最終分割曲線以及區域內外平均灰度值ca、cb,而且由此保證分割的結果是最優的。由于此模型利用了圖像的全局信息,因此通過最優化能量函數可以得到全局優化的圖像分割結果[8-9]。
設?0是根據初始化輪廓線c0構造的符號距離函數(Signed Distance Function,SDF),即 {c0|?0(x,y)=0} ,并令 ?0(inside(c))>0,?0(outside(c))<0。可以證明,以水平集函數表達的輪廓線c的長度和輪廓內部的面積分別為:

式中的Ω是水平集函數的定義域,Heavisdie函數H(?)表示如下:

Dirac函數 δ(?)是取 Heaviside函數 H(?)的導數,故水平集函數?可表示為:

Chan和Vese用歐拉-拉格朗日方法推導出求解式,并采用梯度下降法,得到Chan-Vese模型的水平集演化方程為:

由于紅、白細胞灰度值區域分布的不均勻性,將同時考慮邊緣與灰度值空間分布的紋理屬性作為最優化能量函數對象,將獲得更適應圖像狀態的分割。如果根據對圖像中每個像素不同方向的求導表示紋理的方向信息,用它們的組合代表結構張量來進行基于紋理的分割[10],將結構張量定義為高斯平滑算子Kp和圖像梯度的卷積:

采用計算Tp各個分量總和的均值作為紋理圖像的均值,則有:

這樣使用紋理均值T圖像代替原來的灰度圖像I,公式(10)轉變為公式(14),則基于Chan-Vese模型的張量場的最小化能量函數表示為:

公式(14)中的Ta和Tb與公式(10)中的ca、cb類似,表示每次水平集更新迭代過程中域內和域外的平均張量。實驗中,μ是約束周長幾何的參數,ν是約束面積幾何的參數,λa,λb是約束區域內部和背景的幾何參數[11]。圖2是將欲分割區域屬性增強的比較,圖2(b)是原圖經高斯過濾的效果如公式(13)中的Tp(12),圖2(c)是各向梯度圖像經高斯處理的效果如公式(13)中的Tp(11),Tp(21),Tp(22)綜合效果,圖2(d)是 Tp(11),Tp(12),Tp(21),Tp(22)共同融合效果,此時圖像的背景更加平滑均勻,以暗黑色為分割目標區域,以淺灰色為背景的顏色塊聚群更加明顯,這更有利于Chan-Vese的分割模型的構造。

圖2 灰度圖像及各種增強屬性的比較
取灰度、邊緣、張量等屬性或它們的組合作為Chan-Vese能量平衡模型分割區域會得到不同的分割效果。圖3是基于Chan-Vese模型而采用不同屬性和參數對糞便鏡檢圖像進行分割的效果比較。圖3(b)中采用原圖灰度為屬性的Chan-Vese分割將無法分割出有形物區域,以已兼容邊緣和域中灰度分布的金標準圖像為參考進行規定化處理后的圖像灰度為屬性的Chan-Vese分割也能得到較好的分割效果,但圖3(d)采用Sobel邊緣為屬性的Chan-Vese分割基本能分割出有形物區域,但會產生過多的邊緣噪聲,紅白細胞的透明部分仍不能得到有效分割,而圖3(h)以張量屬性表示的Chan-Vese分割模型能有效分割出有形物且不會帶出更多的邊緣噪聲雜點,分割的區域更加均勻飽滿。參數的不同選擇將按參數的意義分割出強調周長、面積、面積周長比和區域與背景的屬性比例關系的分割效果。

圖3 基于Chan-Vese模型取不同屬性和參數的分割效果比較
綜合比對各種經典的分割方法,對糞便鏡檢圖像采用各種邊緣和區域分割的效果比較如圖4所示。其中圖4(a)為一幅糞便鏡檢圖像,由于圖像中紅、白細胞中含透明的胞核等,這樣在它們的邊緣存在與背景非常相近的紋理和顏色,屬于弱邊界或部分無邊界的狀態,圖4(b)是采用多向Sobel邊緣加強取得的效果,雖然兼顧了各個方向的梯度變化,這種以邊緣特性為對象的濾波方法仍然無法處理部分非常弱的邊界,圖4(c)是雙閾值Canny分割的結果,雖然對正常態的紅、白細胞有較好的圓形區域邊界探測效果,但仍然存在分割后圓形細胞不閉合的輪廓,對弱邊界物體區域的分割仍然缺乏魯棒性,圖4(d)是直接用迭代法閾值分割的鏡檢圖像,這是基于圖像灰度分布而自動選擇閾值而進行的分割,這只適應類似尿液鏡檢圖像的分割,圖4(e),圖4(f)是采用Chan-Vese和改進型Chan-Vese模型而進行的分割,這主要依據分割的內部區域和外部區域的能量平衡方程而進行的區域調整和劃分,這種方法更注重圖像的全局信息,適應于邊界模糊或無邊界區域的分割,改進型Chan-Vese模型更注重圓形區域內部和邊界的融合信息,使分割的紅、白細胞連通域更加具備幾何區域的完整性。圖4中的分割圖像將繼續經過腐蝕、膨脹、開運算、閉運算、空洞填充和雜質消除等形態學處理方法而得到更規整的區域劃分。依據糞便鏡檢圖像中分割后目標區域像素數與實際目標區域像素數之比來衡量,采用雙閾值Canny的分割率為74%,迭代法閾值的分割率為72%,Chan-Vese的分割率為80%,改進型Chan-Vese的分割率為86%。
糞便鏡檢圖像中的紅、白細胞具備一定的特異性,將紅、白細胞進行有效的分類識別,需在完成紅、白細胞的分割以后,進一步提取兩種細胞的各自特征。表1是將圖像按1 024×768尺寸縮放,且處理的圖像按金標準圖像進行規定化處理后,對擬選擇的紅、白細胞、植物纖維和脂肪滴等有形物體的幾何、灰度分布和紋理特征的相關描述和范圍,作為對比分析需要,表中數據進行了量綱規一處理,在對圖像的紋理特征計算時,以計算方向θ=0°的灰度共生矩陣為主,取相隔像元距離d為3,灰度層次為8。

圖4 對糞便鏡檢圖像進行分割的效果比較
表1中的 pi(x,y)表示灰度在0~255級出現的概率,p(i,j|d,θ)表示相隔像元距離為d,方向為θ時共現灰度i和 j的概率。“相關”特征計算中的 μx,μy,σx,σy為在X、Y方向的相關計算參數。實驗證明表中的各種特征有重復表達和對正確分類貢獻不大的特征,采用Relief和遺傳算法可去除與分類不太相關的特征,保留對紅、白細胞等區域的正確判斷起到關鍵作用的特異性特征。利用Relief算法為各個幾何、灰度統計和紋理特征賦予分類貢獻的權重,根據權重的大小選出更有利于分類的特征,實驗中采用的特征組合為Φ1:Φ1=[S L C G R E H I LS]T。
由Leo Breiman和Adele Cutler提出的隨機森林分類算法,結合了Breimans的Bootstrap聚合思想和Ho的隨機子空間方法,其實質是構建一個樹型分類器的集合{h(x,θk),k=1,2,…,n}[12-13]。每棵樹的訓練樣本和采用的特征小集合都采用了隨機的方法,形成的每棵決策樹之間不存在關聯[14],每一棵樹構成的輸入樣本都不是全部的樣本而不容易出現過擬合現象,且從總的M個特征中隨機選擇m個子集對每一棵決策樹進行學習,這樣構成的不同訓練條件下的隨機森林決策模型對測試數據具備廣泛的適應性和精確歸類。

表1 紅、白細胞等有形物體的特征計算及特征分布范圍
圖5列出采用不同訓練特征數和森林樹棵數對應的識別誤差曲線,總的特征組合為M=9,在構造每棵數時,選擇不同訓練特征子集數量m時,決策森林樹分類真陽性率會不同。訓練過程中采用非常少的特征的組合,如采用m=(1~3)/9×M 比采用適當的特征組合m=(4~6)/9×M 的決策森林具備較差的分類效果,由過少的特征組合訓練將產生過于簡單的隨機決策森林樹,而過少的特征數分集將使決策邊界的位置不能正確地被確定[15]。過少的訓練特征使得需選擇更多的樹的棵數才能達到最小識別誤差。采用如m=(8~9)/9×M等會產生過大的網絡,由于隨機性小而產生的決策森林也沒在最佳狀態。同時決策樹的棵數對分類的精確性也有較大的影響,決策樹的數量在選擇87棵左右時取得最低的識別誤差,決策樹數量的進一步增加將增加計算時間且還不能使識別精度有大的提高。

圖5 不同訓練特征數和森林樹棵數與分類誤差關系
尿沉渣和糞便鏡檢圖像分析系統的軟件開發環境為Delphi 7,主機采用I7-3770 CPU,主頻3.40 GHz,內存為8 GB。實驗的圖像來自相關分析化驗診室。實驗和測試圖片的規整尺寸分辨率為1 024×768,訓練圖像數為600幅,測試圖像數為200幅,考慮到細節分析的需要,實驗中采用的糞便鏡檢圖像為截取的部分區域塊圖,所有圖片為未染色顯微圖片,檢測的紅細胞用藍色圈定,白細胞用白色圈定,而其他有形物用綠藍色標定。圖6(a)為對尿液鏡檢圖像的分類處理過程,由于該類圖的背景紋理比較同質且有形物體的邊緣比較清晰,采用雙閾值Canny分割基本上從背景中提取了有形物體所占區域的邊緣,用改進型Chan-Vese模型則完全摳取了有形物體所占區域,通過隨機決策森林基本上對紅白細胞等進行了精確的識別。圖6(b)為對糞便鏡檢圖像的分類處理過程,由于該類圖的背景復雜且有形物的邊界比較模糊,背景上還包含許多暗黑模糊區域,且紅、白細胞的部分胞壁是透明的,細胞周圍存在模糊邊界或無邊界現象,采用過大權重的雙閾值Canny分割以加強透明區域的邊緣,必然引入許多雜亂的邊緣,使邊緣交錯嚴重而仍無法正確提取有形物的區域,而用改進型Chan-Vese模型分割則兼顧了鄰近區域邊緣和紋理的綜合信息而使紅白細胞得到有效的分割,左上部分的半圓區域通過鏈碼差的分析而修補成完整圓區域,在有效分割的基礎上,通過形態學處理和區域鏈碼描述得到對應的有形物區域特征,再用特征組合Φ1作為隨機森林決策的測試樣本輸入參數而得到紅、白細胞的正確分類。作為分析比較,各種分類方法的檢測精確度如表2所示,由于RF的數據泛化能力使糞便鏡檢圖像紅白細胞的誤檢率明顯減少。

圖6 對尿液和糞便鏡檢圖像進行分割和識別的過程比較

表2 各種分類方法對紅白細胞檢測精確度比較%
本文結合糞便鏡檢圖像有形物邊界難以用一般分割方法摳取的特點,采用高斯分布的張量描述有形物區域的綜合屬性,調整隨機決策森林方法中合理的特征子集組合、決策森林訓練特征數及決策樹的數量的合理選擇使隨機決策森林的分類效果明顯提高。對糞便鏡檢圖像的紅、白細胞分割精度達到了95.3%。對尿沉渣圖像的有形物的識別精度達到了97.2%,實驗結果表明,基于全局統計屬性的Chan-Vese分割模型與隨機決策森林的數據泛化能力的結合能有效提升對糞便鏡檢圖像中有形物的辨別和分類精度。進一步的研究將采用深度學習的方法構建糞便鏡檢圖像中紅白細胞的模型與分類機制。