林凌 許然
摘 要: 傳統基于圖像內容的圖像數據挖掘算法,對海量圖像特征的分類效率低,對圖像數據的挖掘準確率受樣本數量影響較大。因此,提出一種基于圖像特征細化的海量數據挖掘系統,其中的人機界面可賦予系統較高的交互性。圖像搜索引擎能夠智能地從互聯網海量的圖像數據中,采集有價值圖像數據和特征。圖像預處理模塊對圖像格式進行變換,完成圖像噪聲因素的過濾等操作,并對采集圖像特征進行細化。數據挖掘模塊依據采集的圖像特征細化結果塑造CMQL語句,從圖像數據庫中挖掘出有價值的圖像數據。系統實現部分給出了數據挖掘查詢語言CMQL進行圖像數據的挖掘過程。實驗結果表明,所設計系統具有較高的查準率和查全率。
關鍵詞: 圖像特征細化; 海量數據挖掘; 圖像數據挖掘; 圖像噪聲過濾
中圖分類號: TN911.73?34; TP311 文獻標識碼: A 文章編號: 1004?373X(2016)24?0113?03
Design and implementation of mass data mining system based on
image feature refinement
LIN Ling1, XU Ran2
(1. Fujian Institute of Education, Fuzhou 350025, China; 2. Zhejiang Sci?Tech University, Hangzhou 310018, China)
Abstract: The traditional image data mining algorithm based on image content has low classification efficiency of the mass image features, and high influence on the image data mining accuracy affected by the sample quantity. Therefore, a mass data mining system based on image feature refinement is proposed, in which the man?machine interface endows the system with the high interactivity. The image search engine can intelligently collect the valuable image data and features in mass Internet image data. The image preprocessing module is used to transform the image format, complete the image filtering of noise factors, and refine the acquired image features. The data mining module is used to model the CMQL statements according to the collected image feature refinement results, and mine the valuable image data in the image database. The image data mining process performed with the data mining query language CMQL is given in the system implementation section. The experimental results show that the system has high precision ratio and recall ratio.
Keywords: image feature refinement; mass data mining; image data mining; image noise filtering
隨著網絡技術的快速發展和計算機性能的不斷增強,不同行業對圖像應用的不斷增加,導致監視相機、醫療影像系統、衛星遙感系統等圖像采集部件的應用領域逐漸擴大。而這些部件采用圖像挖掘技術對采集的數據進行自主分析,從中挖掘出有價值的圖像數據的需要也逐漸增加[1?3]。
傳統基于圖像內容的圖像數據挖掘算法,對海量圖像特征的分類效率低,對圖像數據的挖掘準確率受樣本數量影響較高。因此,尋求有效的海量圖像數據挖掘算法,具有重要的應用意義[4?6]。
1 海量數據挖掘系統設計與實現
1.1 系統總體結構
基于圖像特征細化的圖像檢索,通過數據庫保存圖像數據,并且對圖像的顏色、紋理、形狀等特征進行細化,進而完成圖像數據的挖掘。塑造基于圖像特征細化的海量圖像數據挖掘系統,系統總體結構如圖1所示。
該系統包括人機界面、圖像檢索引擎、圖像數據預處理模塊、數據挖掘模塊、數據庫系統和知識庫系統。
1.2 人機界面設計
僅靠數據挖掘系統自身挖掘圖像數據,容易形成大量用戶不關心的模式。因此,需要用戶通過交互方式,參與到具體的數據挖掘。設計的人機界面結構如圖2所示。
檢索模塊用于完成圖像的檢索,用戶采用瀏覽器給出圖像特征,進而產生對應的圖像檢索申請。智能代理是一個動態的檢索接口,若用戶未在當前的數據庫中檢索到有價值圖像數據,則智能代理存儲用戶申請,采用圖像獲取系統自主在網絡中進行檢索,并且將檢索結果反饋給用戶。
1.3 圖像搜索引擎設計
圖像搜索引擎的結構見圖3,其可在網上采集圖像,并對圖像進行相似性運算,執行用戶圖像數據檢索需求。
1.4 數據挖掘模塊設計
數據挖掘模塊是系統的關鍵,系統通過模塊化方法,將圖像數據挖掘部分的不同功能設計成規范的組件,并且依據相應的組裝規則和約束條件,塑造成完整的圖像數據挖掘模塊,其結構如圖4所示。
2 實驗分析
通過實驗驗證本文設計的基于圖像特征細化的海量數據挖掘系統的性能。實驗采用圖像檢索引擎,分別輸入bird,bike,car,flower,plane關鍵詞,并將待檢索圖像中的前50幅圖像存儲到機器硬盤內,并且分別設對應的圖像庫。
實驗1采用bird圖像庫,并采集顏色特征和形狀特征,采用基于圖像內容的挖掘系統和本文挖掘系統對圖像進行分類挖掘。具體的挖掘結果如表1、表2所示。
從表1中的數據可以看出,相對于基于圖像內容的挖掘系統,本文挖掘系統的查準率和查全率都較高,說明通過采集圖像顏色特征,并利用本文挖掘方法可提高海量圖像數據的查全率和查準率。從表2中的數據可以看出,本文系統進行挖掘的查準率和查全率都高于傳統系統,說明通過采集圖像形狀特征,采用本文提出的關聯規則挖掘算法進行挖掘,具有較高的查全率、查準率。
實驗2針對bird圖像庫、bike圖像庫、car圖像庫、flower圖像庫,從中采集形狀特征,并進行細化,分別采用基于圖像內容的挖掘系統和本文挖掘系統對圖像數據進行挖掘,具體的挖掘結果分別如表3、表4所示。
實驗3采用4個實驗圖像庫,并從中采集形狀特征,再分別采用基于圖像內容的挖掘系統和本文挖掘系統,對實驗圖像庫進行挖掘。結果分別見表5和表6。
表5 基于圖像內容系統進行形狀特征采集圖像庫的挖掘結果
對比分析表5和表6可以看出,采用本文挖掘系統進行挖掘,能夠大幅度提高查準率。相對于基于圖像內容的挖掘系統,本文挖掘系統能夠更加準確地挖掘到正確圖像,具有較高的應用價值。
3 結 論
本文設計一種基于圖像特征細化的海量數據挖掘系統,其中的人機界面能夠賦予系統較高的交互性。圖像搜索引擎能夠智能地從互聯網海量的圖像數據中,采集有價值的圖像數據和特征。圖像預處理模塊對圖像格式進行變換,完成圖像噪聲因素的過濾等操作,并對采集圖像特征進行細化。數據挖掘模塊依據采集的圖像特征細化結果塑造CMQL語句,從圖像數據庫中挖掘出有價值的圖像數據。系統實現部分給出了數據挖掘查詢語言CMQL進行圖像數據挖掘的過程。實驗結果表明,所設計系統具有較高的查準率和查全率。
表6 本文挖掘系統進行形狀特征采集圖像庫的挖掘結果
參考文獻
[1] 王紅斌,陳揚,高雅,等.基于數據挖掘的預警技術在一體化輸電設備監測中的應用研究[J].電網與清潔能源,2014,30(1):55?58.
[2] 李正,康立源,范驍輝.中藥制藥過程數據集成、數據挖掘與可視化技術研究[J].中國中藥雜志,2014,39(15):2989?2992.
[3] 蘇曉青,黃翔,王俊.蒸發式冷凝冷水機組在數據中心的應用分析[J].西安工程大學學報,2016,30(1):37?42.
[4] 李德仁,張良培,夏桂松.遙感大數據自動分析與數據挖掘[J].測繪學報,2014,43(12):1211?1216.
[5] 吳嘉瑞,唐仕歡,郭位先,等.基于數據挖掘的名老中醫經驗傳承研究述評[J].中國中藥雜志,2014,39(4):614?617.
[6] 朱利鵬,陸超,孫元章,等.基于數據挖掘的區域暫態電壓穩定評估[J].電網技術,2015,39(4):1026?1032.
[7] 張翔,徐洪平,安雪巖,等.液體火箭發動機穩態運行故障數據聚類分析研究[J].火箭推進,2015(2):118?122.