楊偉杰 薛河儒 白潔
(內蒙古農業大學信息與工程學院,內蒙古呼和浩特 010018)
奶牛養殖的源頭環節就是要保障乳品的質量安全,奶質受損主要的原因就是奶牛患乳腺炎引起的,奶牛乳腺炎的診斷與治療主要是依據牛奶中所含體細胞的類別與數量。體細胞由巨噬細胞、中性粒細胞、淋巴細胞和上皮細胞組成[1],要想對奶牛患乳房炎進行防治,就需要進一步的研究體細胞種類的分類情況。目前國內外對細胞檢測有直接和間接兩種計數方法,直接計數法中顯微鏡計數法是國際標準方法,但是該方法費時費力不適宜對大樣本量的數據檢測[2];間接計數法中加利福尼亞細胞數測定法是最常用的,但是該方法得到的細胞數測定值是估算值,準確率偏低[3]。牛乳體細胞與人體血液細胞存在很大的區別,目前國內外對于細胞的研究中大部分是面向人體器官的細胞圖像,在研究牛乳體細胞分類識別方法占比較小。牛乳體細胞與血液細胞相比干擾信息更多,因此在分類上又增加了一定的難度[4]。本文針對牛乳體細胞構造分類器進行識別,對每一類分類器分類結果進行對比分析,分類結果顯示本文構建的四類分類器分類結果精度較高并且可行。
KNN(K-Nearest Neighbors,KNN)是一種較為簡單的分類算法的一種。在距離的計算上,一般采用歐幾里得距離或者馬氏距離。K的取值很重要,假設一個M值,要判斷它歸屬于哪一種類別,就要在樣本特征空間中找到距離最鄰近K距離的值,將樣本中的多數情況作為依據,看屬于哪一類別,則M就屬于這一類別。K值選取太大會導致分類模糊,K值選取太小會導致受個例影響,波動較大[5]。使用交叉驗證的方法來確定K的取值。本文是對四類細胞進行分類,所以使用的方法是ML-KNN多標簽K近鄰算法。它是在單標簽KNN的基礎上延伸的,主要的思想是在每一類樣本中都包括了多個標簽,然后對樣本進行測試,在訓練集中找到它的K近鄰值,結合最近樣本的綜合信息,看和最近樣本的信息是否一致,如果一致則歸屬同一類樣本的數量。最終對樣本標簽集合進行測試采用的方法是最大后驗概率原則[6]。
支持向量機(Support Vector Machine,SVM)在圖像分類、人臉識別中應用廣泛,并且還擴展出一系列的算法改進和融合[7]。傳統的SVM是一種二類分類方法,對數據只有兩類的情況較為適用。本文有四類細胞,用到的是SVM的多類分類。成對分類方法是在每兩個類之間都構造一個二類分類SVM。對于第i類和第j類數據,訓練一個二類分類 SVM即求解二次規劃問題如公式(1-3)所示:

式中,i和j代表SVM的二分類參數,t代表i和j的樣本索引,Φ代表非線性映射在輸入空間到特征空間。
隨機森林的主要思想是學習的集成,也就是說集成多棵樹進而實現最終目的一種算法[8]。一組相同的數據,使用同樣的算法僅會產生一棵樹,在這種情況下Bagging策略則應運而生,它能夠生成存在差異的數據集[9]。Bootstrap aggregation是Bagging策略來源,基本原理是如果一份樣本集中包括了P個數據點,要在這份樣本集中進行重采樣,在重采樣的過程中選擇PB個樣本[10]。在樣本集中,基于PB個樣本創建分類器,在這個基礎上一直重復重采樣和創建分類器,直到最終創建了F個分類器,判斷數據屬于哪一類,依據是看F個分類器給出的投票結果[11]。
BP神經網絡(Back Propagation Neural Network,BPNN)在1986年提出,屬于有監督的學習算法。對權值和閾值的調整訓練通過反向傳播算法來完成,盡量將誤差平方降低到小于指定的誤差值,則訓練完成。對取得最小誤差的權值和閾值進行保存。BPNN模型有輸入層、輸出層和隱含層三層。
BP神經網絡具體運行過程描述如:(1)進行初始化對網絡,明確各層的節點數量,對各層之間權值初始化。(2)計算隱含層的輸出。公式(4)所示:wij表示輸入層與隱含層之間連接的權值,a表示隱含層的閾值。(3)計算輸出值。根據Q,對權重和閾值進行連接,預測輸出進行計算。公式(5)所示。(4)計算誤差。用預測輸出值減去期望輸出值。(5)對權值和閾值進行更新。根據誤差對權值和閾值進行更新。(6)判斷誤差是否達到標準,即小于指定的誤差值。若小于則結束,若沒達到則繼續進行迭代。

本文用于實驗的圖像來自對牛乳體細胞中采集的120張細胞圖像。包括四類體細胞,分別是巨噬細胞(30張)、淋巴細胞(30張)、中性粒細胞(30張)和上皮細胞(30張)。在四類細胞中共提供形態和紋理兩種特征。本文利用灰度共生矩陣(GLCM,Gray-Level Co-Occurrence Matrix)對牛乳體細胞圖像進行紋理特征的提取。本文共提取了六種紋理特征分別是對比度、差異性、逆方差、熵、相關性以及二階矩,因為紋理特征之間差距小,所以又在這六種紋理特征的基礎上分別提取了四個方向的值,共計24個紋理特征。提取了六種形態特征分別是面積、最小外接圓面積、周長、質面積、圓形度以及細胞核質比。一共提取的特征總計30種。
30類特征中紋理特征有24類,避免影響分類結果,利用隨機森林對紋理特征進行優選,我們將優選出的貢獻率排在前十的紋理特征和形態特征再次進行分類識別。紋理特征貢獻率最后選取的是:0°、45°和90°的逆方差、0°的熵、45°和90°的對比度、0°和45°的差異性、0°和90°的二階矩。優選特征之后的分類結果以及各分類器分類結果的標準差如表1所示:

表1 基于優選特征識別的準確率(%)Tab.1 Accuracy rate based on preferred feature recognition(%)
分析表1得到經過優選之后的形態和紋理特征以及總特征準確率較高。其中隨機森林分類器準確率達到96.84%,準確率最低的是K近鄰分類器,準確率僅有90.98%。隨機森林分類器的準確率明顯高于其他的分類器,標準差最低,準確率最高且結果最穩定。SVM分類器相較于神經網絡分類器分類的準確率最為接近。所有的分類器中,標準差最大是SVM分類器,其測試準確率結果的不穩定性最高。
本文針對牛乳體細胞構建單一分類器進行分類識別,發現不同分類器對于不同的牛乳體細胞分類效果不同,且每一個分類器均具有各自的特點。四類分類器中最好的單一分類器是隨機森林分類器。實驗結果證明本文構建的四類單一分類器針對牛乳體細胞進行分類識別精度較高且可行。