徐昌 王瑤 舒福舟



摘要:為了實現對圖像的分類,提出了一種基于多種特征的樸素貝葉斯方法。從數據圖像集中提取灰度直方圖特征、SIFT特征、SURF特征以及對數據集裁減的方式降低維度等四種特征,求取每一種特征下的圖像的精確率、召回率、F1值以及對應的混淆矩陣。本文在數據集進行了分類實驗,結果表明,采用SIFT特征描述的圖像表示能夠取得更好的分類結果。
關鍵詞:圖像分類;特征提取;樸素貝葉斯
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)30-0194-03
隨著人工智能的來臨,機器學習在各個領域的應用占據主要的成分。在大數據時代,面對海量的圖像處理,傳統的圖像分類模式需要大量的人力資源,而且在圖像分類上的精度不高,這種模式已經跟不上時代的步伐。為了節約成本和資源,提高圖像分類的精度,從而轉向人工智能的領域,希望找到更加有效的算法處理海量的圖像,如樸素貝葉斯分類器算法、支持向量機算法和神經網絡算法等。
本文通過樸素貝葉斯算法,分別采用四種特征提取_5_的方式,如:灰度直方圖、SIFT特征、SURF特征和裁剪圖像,來分析各個特征的平均精確率、平均召回率、平均Fl值以及混淆矩陣,從而判斷分類效果的好壞。
1特征提取的方法
本文采用四種方式的特征方法對樸素貝葉斯分類器進行分析:
1)灰度直方圖:灰度圖像由256個灰度級,然后利用openCV庫中的函數calcHist函數統計出每個灰度級上的像素個數。
2)SIFT特征:SIFT特征對于圖像的尺度大小、旋轉角度和明暗程度變化具有不變性特點,通過微分向量的方向和大小來確定一個主方向,求取主方向有關的特征并與圖像的特征匹配,在圖像的分類上獲得了良好效果。
3)SURF特征:SURF特征基于行列式的局部斑點特征檢測方法。利用圖像的積分在不同的尺度上近似的計算出Hart小波值。
4)裁剪圖片:先將圖片做灰度化處理,在將灰度圖像裁剪成64*64像素的圖像。
2樸素貝葉斯算法原理
樸素貝葉斯算法先根據給定的訓練數據集進行訓練,生成一個貝葉斯模型,然后通過這個模型,把測試集數據帶人這個模型進行測試。求出每一個測試數據在各個類別中的概率,在比較各個類別的概率,哪個概率最大就認為測試數據就屬于這個類別,進而生成預測的標簽,然后跟真實的標簽進行比對,計算出每一個種類的識別精度以及混淆矩陣,采用如圖1所示的方法進行圖像分類。
3實驗結果與分析
3.1數據描述
本實驗所用的數據集的名稱是color_1000,有1000張圖像,總共分為10類,種類的樣本圖像如圖2所示,每一類都含有100張圖像。實驗過程中隨機抽取每個樣本類別總數的80%作為訓練數據樣本,剩余的20%數據作為測試樣本。
3.2實驗結果分析
實驗過程中提取四種特征即裁剪圖片、灰度直方圖、SIFT特征、SURF特征,通過樸素貝葉斯算法進行圖像的分類,在提取不同特征后,通過每個類別的精確率、召回率、F1值、以及混淆矩陣判斷分類效果的好壞。不同的特征提取在樸素貝葉斯算法上運行的結果不同。圖像集分別進行僅裁剪圖片、灰度直方圖、SIFT特征、SURF特征的10類圖片的召回率、準確率、F1值的平均值如表1所示。
從表中可以看出使用SIFT特征,圖片的分類效果最好,將每張圖片僅裁剪64*64個像素的分類效果最差。
圖像集分別進行僅裁剪圖片、灰度直方圖、SIFT特征、SURF特征的10類圖片精確率如圖3所示,從圖中可以看出僅裁剪圖片和提取灰度直方圖精確率的跳變比較大,而采用SIFT特征和SURF特征的方法在圖像分類的效果比較好。
圖片集分別進行僅裁剪圖片、灰度直方圖、SIFT特征、SURF特征的10類圖片召回率如圖4所示,從圖中可以看出采取SIFT特征的方法在分類的效果是最好的。
圖片集分別進行僅裁剪圖片、灰度直方圖、SIFT特征、SURF特征的10類圖片F1值如圖5所示。從圖中可以看出采取SIFT特征的分類的效果在整體上是最好的。
表2、表3、表4分別是僅裁剪圖片、灰度直方圖、SIFT特征、SURF特征的10類圖片的混淆矩陣,每一行數據代表每類圖片經過算法預測后的標簽的概率。其中對角線上的數據是每一類正確分類的精確率。
4結論
本文研究了一種基于多特征提取的樸素貝葉斯圖像分類的方法,運用該方法對1000張圖像數據集,使用四種特征的方式僅裁剪圖片、灰度直方圖、SIFT特征和SURF特征通過貝葉斯分類器進行分類,分析實驗的精確率、召回率、F1值和混淆矩陣,結果表明在四種特征下采用SIFT特征的貝葉斯分類器的圖像分類效果最好。