冀江瑀,陳秀波
(1. 北京郵電大學網絡空間安全學院,北京 102206;2. 北京郵電大學網絡空間安全學院信息安全中心,北京 102206)
隨著互聯網技術的不斷發展,網絡中多樣數據的呈現不斷增長趨勢。這些數據的出現影響了網絡運行速度以及數據挖掘的難度。其中,雙層網絡是采用物聯網和無線傳感組網進行網絡組網設計的分布式網絡拓撲結構,雙層網絡在實現數據傳輸中容易受到上行鏈路干擾,導致雙層網絡可靠性較低,需要對上行鏈路干擾下雙層網絡中心數據進行挖掘,提升雙層網絡中心數據的可靠性。采用上行鏈路干擾抑制和特征提取方法,進行雙層網絡中心數據挖掘優化,提高對雙層網絡中心數據的檢測和識別能力,相關雙層網絡中心數據挖掘方法研究將在優化網絡的傳輸性能,提高網絡輸出穩定性對雙層網絡的優化十分重要。為此,該領域相關研究者進行了很多研究,并取得了一定成果。
文獻[3]提出復雜光纖網絡多來源數據深度挖掘方法。該方法通過優化后的粒子群算法尋找到網絡中數據的特點,將獲取的數據特征和網絡中多種其它數據流相融合,將數據集合中數據長度進行排列,然后對數據密度進行解析和聚類,完成網絡中數據的挖掘。該方法有效分析了光纖網絡中數據特征,提取精度較高,但該方法未過多考慮多層次網絡環境中多種數據,存在一定局限性。文獻[4]提出基于模糊神經網絡的異常網絡數據挖掘方法。該方法首先獲取了網絡中異常數據之間存在的相似之處,將數據的屬性特征進行有效的獲取,在此基礎上,引入聯合關聯規則將獲取的數據特征進行模糊融合處理,將處理后的結果進行混合加權和自適應分塊匹配,完成網絡數據集的挖掘。該方法對異常數據的挖掘精度較好,但操作過程復雜且耗時較長。
針對上述方法中存在的問題,本文提出一種新的雙層網絡中心數據挖掘方法。該方法通過對雙層網絡中心數據特征的獲取以及對雙層網絡中干擾數據的抑制等處理,完成了雙層網絡中心數據挖掘方法的優化。該方法研究了上行鏈路干擾情況下數據挖掘方法,與傳統方法相比具有數據挖掘精度高、耗時短等優勢,具有一定研究價值。
為了實現上行鏈路干擾下雙層網絡中心數據挖掘,首先構建上行鏈路干擾下雙層網絡傳輸和分析模型,根據數據的數值屬性和分類屬性進行模糊聚類和信息融合處理。
當上行鏈路干擾下雙層網絡中心數據分布關聯映射存在Γ
:P
→Q
2+1,表示Γ
(v
)=[u
(v
),u
(φ
(v
)),…,u
(φ
2(v
))]為一個采樣節點分布集,上行鏈路干擾下雙層網絡中心數據采集的標簽分布集為
(1)
根據上行鏈路干擾下雙層網絡中心數據的種類屬性b
(j
=1,2,…,n
)進行特征分類,令Y
={Y
,Y
,…,Y
}是混合屬性數據集U
上的一個向量分布集合,根據上行鏈路干擾下雙層網絡中心數據采樣的節點分布模型,雙層網絡中心數據的稀疏性特征分解模型為
j
2π(η
-η
)[Ei
(j
2πf
(b
-η
))
(2)


(3)

根據上述分析,此時需要提取上行鏈路干擾下雙層網絡中心數據的統計特征量和關聯規則特征量,并對該環境下網絡中的核心數據進行獲取和保存,構建的儲存模型如圖1 所示。

圖1 雙層網絡中心數據分布存儲模型
在上述構建的雙層網絡中心數據存儲模型基礎上,將上述數據進行有效的融合十分重要。本文采用分塊區域融合方法進行網絡數據的分塊區域融合處理,結合特征提取結果進行數據挖掘,在大規模數據集約束下,上行鏈路干擾下雙層網絡中心數據的關聯規則知識集為


(4)
其中,r
(t
)為上行鏈路干擾下雙層網絡中心數據的統計特征量模糊加權值。在模糊關聯度約束下,進行上行鏈路干擾下雙層網絡的分布式融合處理,結合模糊質心和均值進行上行鏈路干擾下雙層網絡中心數據的自適應融合,數據對象的統計特征值為

(5)
在混合屬性條件下,數據關聯規則點記為[n
,m
],在有限數據集內,相異度特征量滿足N
∈[n
,m
],數值屬性的屬性值為
(6)
其中,φ
表示上行鏈路干擾下雙層網絡中心數據的能量分布幅值,為N
階方陣,即A
={a
,,0<i
,j
<N
},其中m
,為上行鏈路干擾下雙層網絡中心數據的魯棒特征分布矩陣,表示為R
×1。在上述提取的上行鏈路干擾下雙層網絡中心數據基礎上,對其進行數據挖掘優化分析。構建雙層網絡中心數據的多維尺度分解模型,采用射頻標簽識別技術進行上行鏈路干擾下雙層網絡中心數據的向量量化處理,構建上行鏈路干擾下雙層網絡中心數據多源分布模型
G
=[g
,g
,…,g
](7)
采用語義本體模型檢測方法,將上行鏈路干擾下雙層網絡中心數據進行多元劃分。根據挖掘數據的維度特征,采用云計算方法進行處理。將數據從高維降低到低維,構建上行鏈路干擾下雙層網絡中心數據融合模型,即
maxF
(X
)=(F
(X
),F
(X
),…,F
(X
))s.t.
g
(X
)≤0(j
=1,2,…,p
)h
(X
)=0(k
=1,2,…,p
)(8)
采用模糊關聯規則調度方法對獲取的雙層網絡中心數據進行尋優處理。獲取雙層網絡中任意節點的首要特征,在指定離散區間內上行鏈路雙層網絡中心數據挖掘的關聯規則集表達式為

(9)

(10)

(11)
其中,P
(X
)、P
(Y
)表示上行鏈路干擾下雙層網絡中心數據的關聯融合度,X
、Y
為混合屬性條件向量集量,P
(X
∩Y
)是上行鏈路干擾下雙層網絡中心數據融合的交叉分布概念集。從數據集中隨機選擇k
個不同的數據進行參數自適應調節,得到調節系數,結合資源融合調度方法,對簇中心數值屬性進行分類設計,得到輸出為O
,數值屬性的模糊特征集為T
=N
O
。上行鏈路干擾下雙層網絡中心數據挖掘的匹配度為
(12)
設定上行鏈路干擾下雙層網絡中心數據分布關鍵指標特征分布為X
=(x
,x
………x
),在有限空間內,得到上行鏈路干擾下雙層網絡中心數據挖關聯規則知識庫分布結構滿足c
O
<O
,?j
∈[0,N
-1]。根據上述分析,實現對上行鏈路干擾下雙層網絡中心數據挖掘的干擾抑制。ψ
+1,計算式如下
(13)

n
的數據集X
劃分C
個聚類簇,進行上行鏈路干擾下雙層網絡中心數據的測度分解,得到測度分解矩陣為
(14)


(15)
考慮等價語義映射,得到上行鏈路干擾下雙層網絡中心數據分布的鏈路集滿足P
∈R
×、R
∈R
×和H
∈R
×,特征分布集滿足d
~p
(e
,q
),上行鏈路干擾下雙層網絡中心數據挖掘的整合矩陣:


(16)
根據上述分析,結合上行鏈路干擾下雙層網絡中心數據整合的匹配指標集E
∈E
(k
=1,2,…,t
),構建數據挖掘的圖模型為P
∈P
(i
=1,2,…,m
),由此實現上行鏈路干擾下雙層網絡中心數據挖掘優化。仿真在Matlab 7.2 軟件上進行,操作系統為Windows XP 系統,CPU 為3.6 GHz,運行內存為8 GB,上行鏈路干擾下雙層網絡中心數據采樣的分塊長度為800,對雙層網絡中心數據檢測的迭代次數為100,上行鏈路干擾下雙層網絡中心數據采樣樣本的個數為1024,采樣的周期為T=0.04 s,雙層網絡中心數據挖掘過程中,受到上行鏈路干擾下的強度為SNR=0~24 dB。雙層網絡中心數據的采樣結果如圖2所示。

圖2 雙層網絡中心數據的采樣結果
以圖2數據為測試對象,構建雙層網絡中心數據的多維尺度分解模型,根據關聯知識的融合結果進行雙層網絡中心數據的相關性融合,得到數據挖掘輸出如圖3所示。

圖3 數據挖掘輸出
分析圖3得知,采用本文方法能有效實現雙層網絡中心數據挖掘,數據挖掘輸出的特征分辨力較好。隨著尺度系數的不斷改變,采用所提方法進行數據挖掘后輸出的波形較為穩定,且在規定時間范圍內數據輸出的特征分辨率較為明顯,驗證了所提方法的有效性。
為保證所提方法的有效性,仿真分析了所提方法、復雜光纖網絡多來源數據深度挖掘以及基于模糊神經網絡的異常網絡數據挖掘對上行鏈路干擾下雙層網絡中心數據挖掘精度進行了對比,為保證實驗精度,進行了多次迭代分析,且獲取的結果均為平均值,實驗結果如圖4 所示:

圖4 不同方法數據挖掘精度分析
分析圖4 可以看出,隨著迭代次數的改變,所提方法、復雜光纖網絡多來源數據深度挖掘以及基于模糊神經網絡的異常網絡數據挖掘方法在數據挖掘中的精度發生一定改變。其中,所提方法的數據挖掘精度最高約為98 %,復雜光纖網絡多來源數據深度挖掘的數據挖掘精度最高約為78 %,基于模糊神經網絡的異常網絡數據挖掘方法的數據挖掘精度最高約為76 %,相比之下所提方法的挖掘精度最高。這是由于所提方法針對網絡中存在的干擾數據進行抑制,提升了數據挖掘的精度,驗證了所提方法的科學有效性。
為進一步分析所提方法的有效性,仿真測試不同方法進行數據挖掘的時間開銷,得到對比結果見表1所示:

表1 時間開銷對比(單位:s)
分析表1中數據得知,在相同實驗環境下進采用三種方法對上行鏈路干擾下雙層網絡中心數據挖掘的時間開銷存在一定差距。其中,所提方法的時間開銷最短約為0.34 s,而其它兩種方法的時間開銷始終高于所提方法,驗證了所提方法的可行性。這是由于所提方法在進行數據挖掘之前評估不同屬性數據度量值,獲取上行鏈路干擾下雙層網絡中心數據的譜特征分布,根據關聯規則特征量構建雙層網絡中心數據分布存儲模型,降低了數據挖掘的復雜程度,進而降低了挖掘的耗時。
針對上行鏈路干擾下雙層網絡中心數據挖掘方法中存在的一定問題,提出了一種全新的優化方法。該方法首先獲取雙層網絡中心數據的特征及分布情況,然后將其數據特征進行融合,對數據向量進行量化處理,在雙層網絡中心數據中存在干擾時,對其進行有效的抑制,實現了上行鏈路干擾下雙層網絡中心數據挖掘方法的優化。與傳統方法相比所提方法具有以下優勢:
1)采用所提方法對上行鏈路干擾下雙層網絡中心數據挖掘進行傳輸的分辨率效果較好,具有一定優勢;
2)采用所提方法對上行鏈路干擾下雙層網絡中心數據挖掘的精度最高約為98 %,具有一定可信度。
3)采用所提方法對上行鏈路干擾下雙層網絡中心數據挖掘進行傳輸的時間開銷最短約為0.34 s,其處理速度較快。
雖然本文方法在現階段取得了一定成果,但還存在一定不足,未來將對數據中干擾成分進行詳細研究,以提升數據挖掘的性能。