趙燕萍



摘要:針對傳統的壓縮圖像數據挖掘方法中由于頻繁項集過多造成的方法復雜性增加的問題,提出基于關聯規則的壓縮圖像數據挖掘方法研究。以壓縮圖像數據庫作為基礎,利用完全項集前綴樹獲得所有頻繁項集,根據計算的置信度和支持度,從頻繁項集中提取出強關聯規則,考慮壓縮圖像數據的安全性,對強關聯規則集合進行進一步的處理,獲得候選規則集合,掃描集合中的每個規則,選擇最少錯誤的規則,形成分類器,利用分類器實現數據挖掘。實驗結果表明:設計的基于關聯規則的壓縮圖像數據挖掘方法的計算時間和通信時間所需較少,數據挖掘效率高,該方法適合應用在實際項目中。
關鍵詞:關聯規則;壓縮圖像;數據挖掘;壓縮數據集
中圖分類號:TP309.2? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)03-0055-02
作為在互聯網和商業系統中誕生出的新的研究領域,數據挖掘技術有廣泛的研究方向,但是其核心從未改變,其核心就是將大量數據中的有價值的數據提取或挖掘出來,為決策者提供重要的知識或信息,幫助經濟效益增長[1]。數據挖掘技術逐步被社會各領域所應用,以數據挖掘分析行業數據,便于行業發展決策確立,當前,數據挖掘技術已成為重要的數據分析工具[2]。
考慮現階段網絡中數據規模和其安全性,當前多通過數據壓縮技術來管理海量數據,可以在一定程度上提升數據管理效率,但是在數據挖掘中,對此類數據的挖掘有一定的困難,特別是壓縮圖像數據[3]。國外對于數據挖掘技術的發展取得了不錯的成果,如美國斯坦福大學智能數據庫系統實驗室開發的商用化數據挖掘系統,應用范圍十分廣泛,可以在多種平臺上運行,并且還引入了在線分析挖掘技術[4]。相比之下,國內對于數據挖掘技術的研究稍稍落后一點,目前主要集中數據挖掘算法的研究,由此看出,數據挖掘的研究與應用已經越來越受到各界人士的重視。目前,比較成熟數據挖掘方法有基于神經網絡的數據挖掘方法和基于遺傳算法的數據挖掘方法,這兩種挖掘方法主要依賴其內部的算法,在實際應用中,會產生大量無用數據,生成過多的頻繁項集,增加數據挖掘負擔,使得數據的計算時間和通信時間增加,影響數據挖掘的效率[5-7]。因此,將關聯規則應用與壓縮圖像數據挖掘中,以解決當前數據挖掘中存在的問題。
1 基于關聯規則的壓縮圖像數據挖掘方法設計
1.1 獲取所有頻繁項集
基于關聯規則的壓縮圖像數據挖掘方法主要是通過數據獲得所有頻繁項集,從中獲得強關聯規則,利用關聯規則實現數據挖掘。獲取頻繁項集具體流程如下圖所示。
為了能夠高效地對壓縮圖像數據進行關聯規則挖掘,使用完全項集前綴樹結構,產生頻繁項集。假設壓縮圖像數據集合為[Q=q1,q2,…,qn],對應的屬性集合為[E=E1,E2,…,Em],屬性[Ei]的值域為[domEi]。將壓縮數據集合看作是(屬性,值)對的集合,將(屬性,值)稱為項,其中的值為[q],記為[q=c1,c2,…,cm],其中[ci]的值域與屬性的值域相同。將具有[β]個項的集合稱為[β-]集合。壓縮數據集合中共有[i=1,mdomEi]個[1-]項集。
在獲取所有頻繁項集過程中使用的完全項集前綴樹是一個項集枚舉樹,由節點標簽項和擴展項集組成了樹中的節點。擴展項集中按照1~m的排位順序,根節點內的標簽為空,擴展項集為所有的[1-]項集[8]。
對于樹上任意節點,假設其擴展項集數與子節點個數相同,將項集內的所有相都看作樹的子節點,由此,每一個經過由根節點到子節點路徑上的節點都從屬于子節點的集合。每一個根節點的子節點共同組成了項集前綴樹,在前綴樹內的第一層,每一個節點長度都為1,第二層項集內所有長度均為2,以此類推,項集前綴樹共有[m]層。
確定完全項集前綴樹層數后,建立一個可容納[β]層的項集前綴樹,把前綴樹設置于內存中。對圖像數據庫進行掃描,將數據庫內的所有數據進行項集前綴樹處理,假如節點所在項集屬于當前數據庫,則在節點計數上加1,遍歷壓縮圖像數據庫中所有數據,完成后,以預設的最小支持度閾值為對比依據,將每一個長度小于[β]的數據進行項集。
1.2 量化強關聯規則
在獲得所有頻繁項集后,從中提取出關聯規則并量化,用于后續的數據挖掘中。定義一個事務數據庫為[T=T1,T2,…,Tn],其中包含[N]個事務,每個事務都是項的集合,一個事務中包含有項集為[W]當且僅當[W?T],獲得的頻繁項集為[β-]項集。從頻繁項集中提取出強關聯規則,其表現形式為[W?R],并且[W?R=?]。定義的關聯規則[W?R]的支持度表示為:
支持度主要是數據庫中既包含[W]又包含[R]的數據所占數據庫總事務數的百分比,相應的關聯規則[W?R]的置信度公式表示為:
[confW?R]表示的是既包含[W]又包含[R]的事務占包含[W]的事務的百分比。獲得的頻繁項集為所有大于最小支持度的項集集合,從中獲取關聯規則主要是挖掘出所有值為1的屬性值之間的關聯規則,在關聯規則的作用下,數據庫中事務對應一個數據元組,每個項對應一個屬性域。如果屬性域的值為1,則表示數據元組中,對應的事務中包含屬性域對應的項。當數據庫中只存在量化屬性值域比較小時,每個屬性在映射后的關系數據庫中所占的列數和其值域大小是相同的,當某一元組在屬性[x]的取值為value1時,在映射的數據庫中,此條數據上的屬性域的取值為1,屬性[x]的其余列則為0。此時,就可以利用關聯規則挖掘壓縮圖像數據庫中的數據了。
1.3 實現數據挖掘
通過上述過程得到的強關聯規則,需要再進一步選擇出用于挖掘壓縮圖像數據的高質量規則集。以支持度為標準,將集合中的關聯規則按照從高到低進行排列,并以此排序順序作為掃描順序,將所有數據庫元組進行掃描處理,找出首個符合[W?R]規則,并且正確判別的規則[rule1],同時找到第一個滿足[W?R],但是判別錯誤的規則[rule2],判斷兩者的大小,哪一方支持度更高,則表示該規則,并將規則加入候選規則集中,否則加入錯誤子集中。
以支持度為排列依據,對將所有候選的規則進行排序,在排序前需要對規則集合內的所有規則進行簡單處理:
若集合內的所有規則[u]在其所在屬類別上的覆蓋計數為零,說明規則[u]至少正確判別出一個壓縮圖像數據實例,對于集合中的每一個元素,需判定以dID為標識的數據是否已經被規則[u]前面的規則覆蓋住。假設判定結果為覆蓋,需對覆蓋計數減小1;假設判斷結果顯示還沒被覆蓋,則規則[u]對應的屬性類別上的覆蓋技術不變,獲得當前的默認屬性類別,將規則[u]加入分類器中。重復以上過程,處理完候選規則集合中的每一個規則,把所有排序在規則[u]之后規則進行刪除,把[u]的所屬類別看作是規則分類器的默認類別。
將壓縮圖像數據庫中的數據作為輸入,利用包含高支持度、高質量關聯規則的分類器挖掘出用戶所需數據。至此,設計的基于關聯規則的壓縮圖像數據挖掘方法設計完成。
2 壓縮圖像數據挖掘方法實驗研究
2.1 實驗數據準備
對于壓縮圖像數據,數據挖掘需要解決好圖像自身的表示問題,因此對于壓縮圖像數據的挖掘往往需要更多的計算時間和通信時間,影響數據挖掘效率。因此,在壓縮圖像數據挖掘方法研究中,以數據挖掘時間為衡量標準,結合傳統的基于遺傳算法的數據挖掘方法和基于神經網絡的數據挖掘方法,設計對比實驗。實驗中使用的數據集為UCI公共數據庫中的Breast cancer數據集,因為第一個屬性是編號,去除第一個屬性,保留其中的第2-11個屬性,將最后一個屬性設置為類別屬性,基數為2。在實驗之前,將數據集中缺失屬性值的記錄刪除,同時擴大數據集整體20倍,最終得到13660條數據記錄。
2.2 數據挖掘時間實驗與分析
在實驗中,采用VC++開發環境,以C語言作為宿主語言,嵌入MPI消息傳遞函數庫,實現數據挖掘方法的運行與計算。實驗中的機群環境為6臺普通的計算機作為工作站,1臺DELL服務器,計算機之間網絡通過以太網交換機連接,結合MPI消息傳遞機制特點,在每個計算機看作信息節點,并在所有節點建立統一的登錄賬戶,在機群內確定一個相同路徑的共享空間,存放實現不同數據挖掘算法的程序。將三種不同的數據挖掘方法應用在局域網內構建的機群中,基于上述中的數據集對算法進行測試,主要計算出不同數據挖掘算法的通信時間和計算時間。其計算時間主要通過MPI提供的MPI_Wtime函數獲取。則數據挖掘時間實驗結果如下表所示。
觀察表中結果,從整體上看,設計的基于關聯規則的壓縮圖像數據挖掘方法在工作過程中所需時間最少,并且效率更高,再結合非頻繁項集分布實驗結果可知,設計的數據挖掘方法非頻繁項集分布滿足壓縮圖像數據挖掘的需求,需要的時間較少,效率更高。
3 結束語
互聯網隨著人類的使用,產生了越來越多的信息,其中包含了大量無用信息,用戶及時從中獲得自己所需的有效的信息十分困難。因此,本文利用壓縮圖像數據作為基礎,以關聯規則為主,提出一種基于關聯規則的壓縮圖像數據挖掘方法。經過深入研究與探討,在原有的關聯規則基礎上,做了更深層次的處理,實現了基于關聯規則的壓縮圖像數據挖掘。通過設計的對比實驗證明了,設計的基于關聯規則的壓縮圖像數據挖掘方法效率更高,解決了傳統的壓縮圖像數據挖掘方法中由于頻繁項集過多造成的復雜性過高的問題。但是研究過程中受到技術和實驗環境的限制,方法中存在不足之處,對壓縮圖像數據挖掘研究還處于初期階段,在后續研究中,可就其適應范圍進行更深入的探討與分析。
參考文獻:
[1] 王丹.基于數據挖掘的三維圖像無損恢復研究[J].現代電子技術,2018,41(7):67-70.
[2] 孫紅,李存進.融合遺傳算法和關聯規則的數據挖掘方法改進[J].數據采集與處理,2019,34(5):863-871.
[3] 孫豐杰,王承民,謝寧.面向智能電網大數據關聯規則挖掘的頻繁模式網絡模型[J].電力自動化設備,2018,38(5):110-116.
[4] 毛曉菊.基于模糊關聯規則的海量數據挖掘方法研究[J].微電子學與計算機,2018,35(2):89-93.
[5] 顧廣華,曹宇堯,崔冬,等.基于形式概念分析和語義關聯規則的目標圖像標注[J].自動化學報,2020,46(4):767-781.
[6] 曹蒙蒙,郭朝有.面向動力監測數據挖掘的關聯規則算法改進研究[J].船舶工程,2018,40(S1):355-357.
[7] 于超,王璐,程道文.基于圖像降階的紋理特征挖掘方法在醫學上的應用[J].東北師大學報(自然科學版),2018,50(3):53-57.
[8] 張定祥,張躍進.基于改進多層次模糊關聯規則的定量數據挖掘算法[J].計算機應用研究,2019,36(12):3619-3622.
【通聯編輯:張薇】