新疆維吾爾草藥圖像特征提取及分類研究
木拉提·哈米提1, 孔喜梅1, 嚴傳波1, 阿布都艾尼·庫吐魯克1, 孫靜1,
艾賽提·買提木沙2, 員偉康1, 楊芳1, 伊利扎提·阿力甫1, 張歲霞1
(新疆醫科大學1醫學工程技術學院;2公共衛生學院, 烏魯木齊830011)
摘要:目的探討決策樹C4.5算法及主成分分析法在新疆維吾爾草藥圖像分類中的應用。 方法選取新疆維吾爾草藥圖像450張,其中花類、葉類、果類圖像各150張。對圖像進行去噪、尺度歸一化和空間轉換等預處理;利用顏色直方圖與顏色矩法分別提取3種草藥的特征;采用主成分分析(PCA)法對所提取的特征進行篩選;構造一個基于C4.5決策樹算法的圖像分類器,使用決策樹C4.5算法,對顏色直方圖、顏色矩、14個綜合特征及主成分分析獲取的特征進行分類,以驗證特征的分類能力。結果顏色直方圖特征分類準確率為63.11%,顏色矩特征分類準確率為65.11%,14個綜合特征分類準確率為54.76%,PCA選擇的特征分類準確率為72.00%。結論綜合特征的分類準確率較單一特征低,表明在進行分類時,冗余特征可能會降低分類準確率;利用PCA選擇后的特征分類準確率較高,表明該算法能有效減少冗余特征,彌補單一特征分類的局限性,從而提高整體分類效率,為提高后續基于內容的圖像檢索系統的檢索效率奠定了基礎。
關鍵詞:新疆維吾爾草藥; 主成分分析(PCA); 綜合特征; 決策樹C4.5; 圖像分類
中圖分類號:R318.04; TP751.1文獻標識碼:A
doi:10.3969/j.issn.1009-5551.2015.07.004
[收稿日期:2015-04-19]
基金項目:新疆少數民族科技人才特殊培養計劃科研項目(201323122)
作者簡介:祖麗菲亞·吾斯曼(1986-),女(維吾爾族),碩士,實習研究員,研究方向:維藥藥效物質基礎研究。
基金項目:國家自然科學基金(81160182,81460281,61201125); 江西民族傳統藥協同創新項目(JXXT201401001-2); 留學人員科技活動擇優資助項目(2013-277)
作者簡介:木拉提·哈米提(1957-),男(維吾爾族),教授,碩士生導師,研究方向:醫學圖像處理及生物醫學信號分析,E-mail:murat.h@163.com。
Feature extraction and classification of Xinjiang Uygur herbal images
Hamit Murat1, KONG Ximei1, YAN Chuanbo1, Kutluk Abdugheni1, SUN Jing1, Matmusa Asat2,
YUAN Weikang1, FANG Yang1, Alip Elzat1, ZHANG Suixia1
(1CollegeofMedicalEngineeringTechnology;2CollegeofPublicHealth,
XinjiangMedicalUniversity,Urumqi830011,China)
Abstract:ObjectiveThis paper details the application of decision tree C4.5 and principle component analysis for Xinjiag uygur herbal images. MethodsWe selected 450 Xinjiang Uygur Herbal images, among which there were 150 flower type images, the leaves type images and fruit type images respectively. We processed the images by removing the noise by median filter, normalizing scale and conversing type. Then we used color histogram and color moment method to extract the characteristics of the three kinds of Herbs respectively, and integrated two kinds of feature extraction, then used PCA method for the selection of the characteristic value, and C4.5 decision tree algorithm to construct classifier for color histogram, color moment, the characteristics of comprehensive and characteristics of principal component and then we evaluated the classification capability. ResultsThe color histogram classification accuracy rate reached 63.11%; Color moment classification results accuracy reached 65.11%; Characteristics of comprehensive classification accuracy reached 54.76%; characteristics of the PCA to choose classification accuracy rate reached 72.00%. ConclusionComprehensive characteristics of the classification accuracy rate was lower than those of single feature, while the classification, redundant features can reduce classification accuracy; after using PCA to select the characteristics, the classification accuracy goes higher, which shows that the algorithm can effectively reduce the redundant features. It compensates for the limitations of single feature classification and thus improving the overall classification efficiency. It can lay a foundation for the subsequent content-based image retrieval system to a certain extent.
Key words: Xinjiang of Uygur Herbal images; principal component analysis; comprehensive feature; decision tree C4.5; image classification
數據挖掘是數據庫系統應用最新和最活躍的學科前沿,是從龐大的數據集或數據庫中提煉有用信息的新興交叉學科,匯集了統計學、機器學習、數據庫、模式識別、人工智能等學科的內容[1]。在數據挖掘的研究與應用中,分類(Classification)算法作為圖像處理和分析的重要工具一直受到學術界的關注,分類算法是一種有監督的學習,通過對已知類別訓練集的分析,從中發現分類規則,以此預測新數據的類別。在很多領域特別是數據挖掘中,決策樹是一種經常要用到的技術,它可以用于分析數據,也可以用來進行預測,常用的算法有ID3,C4.5及CART等[2]。
顏色特征是圖像的基本特征之一。顏色特征描述了圖像或圖像區域所對應的景物的表面性質。一般顏色特征是基于像素點的特征,此時所有屬于圖像或圖像區域的像素都有各自的貢獻[3]。由于顏色對圖像或圖像區域的方向、大小等變化不敏感,所以顏色特征不能很好地捕捉圖像中對象的局部特征。顏色特征的提取方法主要有顏色直方圖[4]、顏色矩[5]、主色調法及顏色聚合矢量等[6]。顏色特征對圖像本身的尺寸、方向和視角的依賴性較小,顏色特征的提取也相對容易,因而基于顏色特征的圖像檢索的研究受到了廣泛的研究和應用,已提出了許多算法。
本研究采用顏色直方圖和顏色矩方法對新疆維吾爾草藥圖像進行特征提取,運用主成分分析法(PCA)進行特征的選擇,最后對特征的分類能力進行對比評價。
1圖像特征提取
1.1決策樹算法簡介決策樹(decision tree)方法起源于概念學習系統,采用自頂向下的分治策略進行分類,最著名的決策樹算法是J.Ross Quinlan提出的以信息增益作為選擇測試屬性標準的ID3算法[7]。ID3方法是其發展的高峰,后來又演化為能處理連續屬性的C4.5方法,主要優點是描述簡單、分類速度快,適合大規模的數據處理。
通常情況下,1棵決策樹由決策節點、葉子和分支3個部分組成。在決策樹中頂端的節點稱之為根節點,整棵樹也是從這里開始。其中每個分支都是1個節點或者葉子[8]。每個節點又代表一個問題或者決策。與之相對應的是屬性值。單個葉節點對應的是分類結果。C4.5決策樹算法的核心思想是利用信息熵原理。選擇信息增益率最大的屬性作為分類屬性,遞歸地構造決策樹的分枝,完成決策樹的構造[9]。
(1)
其中,信息增益Gain(S,A)與ID3算法中的信息增益相同,而分裂信息SplitInfo(S,A)代表了按屬性A劃分數據集S的廣度和均勻性[10]。信息增益率將分裂信息作為分母,屬性A取值數目越大,分裂信息值,從而部分抵消了屬性取值數目所帶來的影響。
(2)
C4.5引入屬性的分類信息來調節信息增益。其中,Si到Sc是c個不同值的屬性A分割S而形成的c個樣本子集。
1.2圖像預處理分類算法要求分類數據必須由特征向量組成,不能直接在原始圖像上進行數據挖掘,所以在實施挖掘之前必須先要對圖像進行預處理及特征提取2個子過程。
圖像預處理的目的是將獲得的圖像進行處理,去除由于外界干擾出現的噪聲,增強圖像的對比度,圖像的質量得到明顯改善,圖像的細節更加清晰。本研究參照文獻[11]對新疆維吾爾草藥圖像進行圖像濾波增強、尺度歸一化、空間轉換等預處理操作過程。
圖1、圖2、圖3分別表示花類、葉類、果類圖像預處理的結果,a為原始維吾爾草藥圖像;b為去噪后的圖像;c為尺寸歸一化后的圖像;d為空間轉換后的圖像,將RGB模式轉換到HSV模式。從圖中可以看出,預處理后的圖像細節更加清晰,這為后續的特征提取工作奠定良好基礎,從而能夠進一步提高圖像的分類正確率。

a: 原始圖像 b: 圖像去噪 c: 尺寸歸一化 d: 空間轉換
圖1新疆維吾爾草藥花類圖像預處理結果

a: 原始圖像 b: 圖像去噪 c: 尺寸歸一化 d: 空間轉換
圖2新疆維吾爾草藥葉類圖像預處理結果

a: 原始圖像 b: 圖像去噪 c: 尺寸歸一化 d: 空間轉換
圖3新疆維吾爾草藥果類圖像預處理結果
1.3特征提取從經過預處理后的新疆維吾爾草藥圖像中抽取與分類相關的圖像特征。本研究對圖像的特征提取方法:(1)顏色直方圖:對于圖像的顏色直方圖,將3個顏色分量合成為一維特征向量,統計其方差(T1)、偏斜度(T2)、峰度系數(T3)、能量(T4)、熵值(T5),形成5個的特征向量;(2)顏色矩:對于圖像的顏色矩,在RGB空間和HSV空間分別對3個分量統計了其一階矩(h1、s1、v1)、二階矩(h2、s2、v2)、三階矩(h3、s3、v3),形成9個的特征向量(表1)。對這些提取的特征向量結果應用主成分分析操作進行特征選擇,從而對新疆維吾爾草藥圖像進行分類。
1.4特征選擇由于圖像的復雜性一般會得到維數較高的特征向量,或者所獲得的特征向量是通過多種類型的提取方法獲取的,以期望能盡可能全面地反映紋理的特征[12]。此時,特征選擇環節就變得非常重要,通過特征的選擇一方面可以有效降低特征向量的維數;另一方面可以減少無關的特征分量在特征向量中的比重,從而有利于提高特征紋理的效率和效果。

表1 3類圖像特征提取結果的綜合特征

(3)

(4)
在(2)式中,系數lij由下列原則來決定:(1) zi與zj(i≠j;i,j=1,2,…,m)相互無關;(2) z1是x1、x2、…、xp的一切線性組合中方差最大者;z2是與z1不相關的x1、x2、…、xp的所有線性組合中方差最大者;……;zm是與z1、z2、……、zm-1都不相關的x1、x2、…、xp的所有線性組合中方差最大者。
這樣決定的新變量指標z1、z2、…、zm分別稱為原變量指標x1、x2、…、xp的第1、2、…、第m主成分。其中,z1在總方差中占的比例最大,z2、z3、…、zm的方差依次遞減。通過找主成分確定原變量xj(j=1、2、…、p)在諸主成分zi(i=1、2、…、m)上的載荷lij(i=1、2、…、m;j=1、2、…、p)它們分別是x1、x2、…、xp的相關矩陣的m個較大的特征值所對應的特征向量。
1.4.2提取主分量將顏色直方圖提取的5個特征向量和顏色矩提取的9個特征向量進行綜合,共計14個特征向量。然后利用主成分分析法提取表l中的14個特征向量進行降維,可以選取貢獻率較大的一些特征進行圖像的分類。本研究在計算過程中前4個主成分累計貢獻率達到了76.758%,因此將這4個主成分作為本試驗的新疆維吾爾草藥圖像的新特征,見表2。

表2 新疆維吾爾草藥花類、葉類、果類圖像的新特征
2結果與分析
采用花類、葉類和果類圖片各150張,共計450張植物藥圖片。利用決策樹C4.5算法對表2中新疆維吾爾草藥圖像特征結果進行分類,隨機選取3類植物藥部分圖片作為訓練樣本,剩余的作為測試樣本。構造一個基于決策樹算法的圖像分類器,將提取到的特征輸入到分類器中,綜合特征PCA法分類正確率為72.00%,顏色直方圖分類正確率為63.11%,顏色矩分類正確率為65.11%,直接使用14個綜合特征分類正確率為54.76%,結果見表3。

表3 3種顏色特征提取方法的比較
3結論
本研究以花類、葉類和果類3種新疆維吾爾草藥圖像為研究對象,采用顏色直方圖法和顏色矩法對其進行特征提取,利用主成分分析法對所提取的特征進行篩選,得到分類能力較強的特征,通過決策樹C4.5算法構造分類器以驗證特征的分類能力。結果顯示,利用顏色直方圖和顏色矩特征進行分類時,分類準確率分別為63.11%和65.11%;利用綜合顏色特征進行分類時,分類準確率為54.76%;利用PCA算法選擇后的特征進行分類時,分類準確率為72.00%。由分類結果可知,綜合特征的分類準確率較單一特征低,表明在進行分類時,特征量并不是越多越好,冗余特征可能會降低分類準確率;利用PCA選擇后的特征分類準確率較高,表明PCA算法能有效減少冗余特征,該算法彌補了單一特征分類的局限性,從而提高整體分類效率,為提高后續基于內容的圖像檢索系統的檢索效率奠定了基礎。
參考文獻:
[1]李舒,吳磊.數據挖掘在醫學圖像分類中的應用[J].醫學信息學雜志, 2014,35(8):39-42.
[2]李燕.海量數據與數據挖掘技術[J].醫學信息學雜志,2008,29(12):23-25.
[3]李薇,李秉茂.基于顏色、形狀和紋理的多特征融合圖像檢索[J].航空計算技術,2013,43(6):88-107.
[4]Sander KE,Gevers T,Snoke CG. Evaluating color descriptors for object and scene recognition[J].TPAMI,2010,32(9)1582-1596.
[5]Shi JI,Chen LH.Color image retrieval based on primitives of color moments[J].Lect Notes Comput Sci,2002,149(6):88-94.
[6]Yang NC,Chang WH. A fast MPEG-7 dominant color extraction with new similarity measure for image retrieval[J]. J Commun Image Represent, 2008,19(2):92-105.
[7]李懷慶.決策樹算法在醫院數據挖掘中的應用探索[J].醫學信息學雜志,2009,30(8):11-13.
[8]李玲俐.數據挖掘中分類算法綜述[J].重慶師范大學學報:自然科學版,2011,28(4):44-47.
[9]黃愛輝.決策樹C4.5算法的改進及應用[J].科學技術與工程, 2009,9(1):34-42.
[10]陳麗萍,武文波.基于決策樹C4.5算法的面向對象分類方法研究[J].遙感信息,2013,28(2):116-120.
[11]木拉提·哈米提,楊芳,孔德偉,等.新疆高發病哈薩克族食管癌圖像紋理特征的分類研究[J].新疆醫科大學學報,2014,37(3):273-276.
[12]馬莉,范影樂.紋理圖像分析[M].北京:科學出版社,2009:55-60.
(本文編輯施洋)
通信作者:麥合蘇木·艾克木,男(烏孜別克族),碩士,副教授,研究方向:維藥藥效物質基礎研究及新藥開發,E-mail:mahsum008@126.com。
·維醫維藥·