許明宇,王宜懷
(蘇州大學計算機科學與技術學院,江蘇 蘇州 215000)
因信息產業發展速度加快,大數據技術的應用范圍越來越廣。在社會個領域的運轉中,各式各樣的數據以海量式模式快速增長[1,2]。在這一背景下,數據一致性問題愈發重要。在數據挖掘、數據聚類等相關應用中,數據一致性挖掘必不可少。
關聯數據一致性規則挖掘的目的在于發現網絡關聯數據中不同數據在鄰近域內的相互依賴關系以及相似性關系,其對于理解數據間的交互作用具有重要意義。然而,目前關于異構物聯網中關聯數據一致性規則挖掘這一問題有關的研究還有待進一步加強[3]。為此,本研究構建了異構物聯網中關聯數據一致性規則挖掘模型。
異構物聯網信息屬于多源異構特性,也存在大量重復數據。因此,本研究在設計一致性規則挖掘過程時,考慮到異構物聯網信息中的重復數據,引入了重復數據優化清除過程。該過程對異構物聯網中關聯數據一致性規則挖掘存在積極作用,且以內容相關條件函數依賴規則為挖掘規則。然后通過基于內容相關條件函數依賴的關聯數據一致性規則挖掘模型,有效獲取關聯數據一致性規則。
2.1.1 特征向量的量化
在異構物聯網中,為了準確挖掘其中關聯數據的一致性規則,本研究首先基于異構物聯網多維數據聚類的的方式對重復數據進行清除。通過多維數據聚類分析方法,把所有數據集里各個數據項均映射至對應的種類之中,再采用貝葉斯方法劃分異構物聯網數據樣本空間,獲取每個異構物聯網數據文本里的特征向量,實現特征向量的量化[4-6]。詳細流程如下:
設定異構物聯網數據集表示為E,E的種類集合為D。將異構物聯網數據集E中的各個數據項E1均映射至D中的數據種類Q里,則存在

(1)
式(1)中,?表示依存關系;s表示有向邊。若將有向邊集合設成β,似然率測試規則表示為N,數據特征矢量種類表示為W,事件e出現幾率是α,則數據樣本空間劃分的過程如下

(2)
式(2)中,數據集映射后的值與映射至的相似性依次表示為r、ε;字符串匹配閾值表示為q。
在此基礎上,將數據間耦合度與聚類集的相似性依次設成φ、rs,則每個數據文本里特征量f的提取方法是

(3)
式(3)中,h表示數據核心屬性占所有屬性的百分比,k表示數據集的掃描次數。
根據上述提取的數據文本里特征量f,將差異數據集的維度與變量集合依次設定位m、c,則可得到所有特征量的量化集f′為

(4)
式(4)中,I表示學習數據結果集,S表示測試訓練集。
在上述操作過程中,還需注意在去除異構物聯網中的重復數據時,把所有數據集各個數據項均映射至對應種類之中[7],通過貝葉斯方法實現數據樣本空間劃分,得到每個數據文本里的特征向量,對所有特征向量完成量化。
2.1.2 基于數據相似度的重復數據清除
清除重復數據時,把上一小節得到的量化處理后特征量f′作成依據,設置字符語義數值,然后運算各個數據集合相應的語義數值序列,得到字符間相鄰關系,獲取每個數據的傅立葉展開系數向量,設置數據相似度判斷閾值,完成異構物聯網的重復數據清除。詳細流程如下:
假設離散數值序列為γ,重復數據近似數值序列為g,將數值序列實施傅立葉轉換獲取傅立葉系數,可得到字符語義數值為

(5)
式(5)中,n表示字符語義數值的種類數目,y表示各個數據集合相應的語義數值序列,字符間相鄰關系表示為i′。
在此基礎上,設置字符j的語義數值是jφ,拉格朗日乘子表示為φ,yj所描述的各個數據集合相應的語義數值序列是

(6)
式(6)中,emax表示特征絕對值向量最大值是;F′表示數據屬性集合。
設置滑動窗口大小與平滑操作后第u個字符相應的語義數值表示為ru,則可得到字符間相連關系B′swdftr為

(7)
式(7)中,l表示字符語義相對距離。
在此基礎上,設置不同數據的語義數值分布概率為p,傅立葉展開系數為x,一個周期離散數列是rt,那么數據相似度判斷閾值是:

(8)
式(8)中,ht表示各個數據的權重。然后設置各個異構物聯網數據映射空間是G,重復數據清除結果如下

(9)
式(9)中,z表示清除重復數據后的異構物聯網數據。
在上一小節得到的重復數據被清除的異構物聯網數據中,使用基于內容相關的條件函數依賴關系構建關聯數據一致性規則挖掘模型,按照內容相關條件函數依賴規則,挖掘異構物聯網中關聯數據一致性規則。
2.2.1 異構模式融合
異構物聯網中,因為數據間關聯模式的不同,某種關聯模式中規則集合難以在其它關聯模式里有效應用[8-10]。在此種情況下,異構物聯網關聯數據一致性規則的使用效果將受到影響。因此,在挖掘關聯數據一致性規則前,在重復數據清除結果E中,需要實現異構物聯網關聯數據融合,而異構融合與簡單的數據合并存在一定差異[11]。
將異構物聯網數據的關聯模式設成Sa、Sb,然后在異構物聯網關聯數據的關聯模式中,將關聯數據實例設成La、Lb,條件函數依賴(conditional functional dependencies,CFDs)的規則集合設成Ω,且存在σ∈Ω,這里的σ表示為屬性匹配模式。則Sa、Sb、σ的模式融合過程如下

(10)
式(10)中,R(Sa*Sb)σ表示異構物聯網關聯數據的融合結果;V表示融合后衍生的新模式屬性;attr(Sa)、attr(Sb)依次表示Sa、Sb的屬性數量;lhsσ、rhsσ依次表示σ的左部、右部屬性集合。在上述操作過程中,R(Sa*Sb)σ中原始異構模式里以σ為標準所的匹配屬性將聚類于一組,變成融合模式里的關聯數據屬性;未能被匹配的關聯數據屬性還留在原始模式里,針對融合后關聯數據屬性值,閾值屬于2個關聯數據屬性的并集[12]。
異構物聯網關聯數據實例簡稱異構實例,規則挖掘問題一般是在實例里對數據關系實施抽象。模式融合對關系屬性存在擴展功能,以此讓關系實例出現差異。異構實例融合的概念如下:
假設T表示融合模式中合并獲取的關系實例,其獲取過程如下

(11)
式(11)中,關聯模式Sa里不具有的屬性表示為Lv;v、g表示不同類型的關聯數據屬性;關聯模式Sb里不具有的屬性是Lg;La、Lb依次表示關聯模式Sa、Sb里數據特征值。
2.2.2 規則發現
函數依賴(functional dependencies,FDs)、條件函數依賴、擴展條件函數依賴(extended conditional functional dependencies,eCFDs),其屬于數據一致性管理的核心技術。在關聯模式中,將函數依賴設成?:v→C。其中,?、C表示關聯數據一致性規則的屬性值。
針對條件函數依賴、擴展函數依賴而言,因為在函數依賴規則中,規則左部條件屬性被劃分,在實施規則挖掘時,必須依次分析條件屬性與變量屬性,本文構建一種二級lattice結構模型,詳情見圖1。使用此模型在挖掘一致性規則時,自vg→Γ開始,穿過v|g→Γ、g|v→Γ直至vg|→Γ停止,以此獲取內容相關條件函數依賴,Γ是關聯數據一致性規則屬性。二級lattice結構如圖1所示。

圖1 二級lattice結構示意圖
2.2.3 一致性規則合并挖掘
在使用二級lattice結構獲取內容相關條件函數依賴后,將符合一致形式Γ|g→v的關聯數據一致性規則實施合并,獲取融合后關聯數據一致性規則相應的內容相關條件函數依賴。但是,不是全部關聯數據一致性規則的條件值均可以實施合并。為此,為了準確挖掘一致性規則,需要清除條件沖突值。條件沖突值τΓ的判斷過程如下:

(12)
式(12)中,π?!萭表示實例La⊕ΩLb中,條件值為Γ=Γj的選擇操作、投影操作。
去除條件沖突值后,將不存在沖突的關聯數據規則實施一致性合并,輸出的合并結果即為異構物聯網中關聯數據一致性挖掘結果。
為驗證上述異構物聯網中關聯數據一致性規則挖掘模型的有效性,設計如下仿真檢驗過程。
使用Inter Core i5-7400CPU,與RAM主機相連,使用Java語言設計實驗程序。
實驗數據集分為NBA數據與豆瓣數據,NBA數據集主要為賽季統計數據構成,其中的數據具有11種屬性,數據為20000條。豆瓣數據來自于豆瓣網站,由豆瓣電影數據與豆瓣讀書數據構成,豆瓣電影數據屬性為10種,元組數為50000條,豆瓣讀書數據屬性為12種,元組數為50000條。
首先測試本文模型對異構物聯網中關聯數據一致性規則的挖掘時間,以此判斷本文模型的挖掘效率。實驗結果如圖2所示。

圖2 本文模型挖掘效果實驗結果
分析圖2結果可知,3種不同來來源數據量的異構物聯網數據中,本文模型在異構模式融合階段、規則發現階段、規則合并階段中,對關聯數據一致性規則挖掘耗時始終在2.50s以下。具體來看,本文模型針對賽季統計數據、豆瓣電影數據、豆瓣讀書數據的總挖掘耗時最大值依次為2.15s、2.20s、2.40s,挖掘耗時可滿足異構物聯網中關聯數據一致性規則挖掘需求。
因異構物聯網數據中關聯數據一致性規則屬于虛體,不具有可衡量性,本文模型對NBA隊員數據、賽季統計數據、豆瓣電影數據、豆瓣讀書數據的關聯數據一致性規則挖掘結果以四種數據的屬性為判斷結果,本文模型的挖掘準確性如圖3所示。

圖3 本文模型挖掘準確性實驗結果
分析圖3所示結果可知。本文模型對豆瓣電影數據和豆瓣讀書數據中一致性規則挖掘的準確率呈上升狀態,對賽季統計數據中一致性規則挖掘的準確率呈下降狀態。但本文模型對賽季統計數據、豆瓣電影數據、豆瓣讀書數據的關聯數據一致性規則挖掘準確率較高,其準確率始終保持在90%以上。產生這一結果的原因在于本文模型先使用了基于異構物聯網多維數據聚類的重復數據優化清除方法,去除異構物聯網多維數據聚類的重復數據,大大降低關聯數據一致性規則挖掘誤差。
為了進一步測試本文模型對重復數據的清除效果,以數據重復率為測試指標驗證其有效性。數據重復率B計算方法如下

(13)
式(13)中,d、m依次表示查全率與重復數據數目;?是正確清除的數據量。本文模型的清除效果測試結果如表1所示。

表1 本文模型的清除效果測試結果
分析表1所示結果可知,本文模型處理后的異構物聯網數據重復率均值最大值是0.03,重復率極小,對關聯數據一致性規則挖掘不存在顯著影響。由此可以說明,本文模型對異構物聯網中關聯數據的處理性能顯著。
在異構物聯網環境中,關聯數據一致性規則挖掘的準確與否,與數據挖掘、數據應用的合理與否存在直接聯系。為此,本文構建了一種異構物聯網中關聯數據一致性規則挖掘模型。在實驗中通過NBA數據與豆瓣數據測試本文模型的應用效果。測試結果驗證,本文模型對關聯數據一致性規則的挖掘耗時較短,挖掘準確性較高,且本文模型清洗后的關聯數據重復率較低,本文模型可優化異構物聯網中關聯數據一致性規則挖掘效果。