楊青



摘 要: 傳統定位算法定位準確性通常較低,因此提出一種新的海量數據環境下可破壞性數據定位算法。在不同信道NAV任務的優先排隊模型狀態空間中,針對局部性交叉項信息量,在計算吞吐量下,建立信道數據傳輸模型。構造可破壞性數據信號模型,將相空間重構與非線性時間序列分析法結合在一起,對可破壞性數據產生的原因進行分析,完成可破壞性數據特征提取。把數據符號屬性值映射為數字值,完成對所有數字特征的歸一化處理。對原始可破壞性數據特征進行改進,通過Fisher線性分析法在改進后特征空間中對可破壞性數據特征進行分類,實現可破壞性數據識別。節點識別到可破壞性數據后,通過鄰居節點數據完成投票決策,通過節點與鄰居節點位置實現可破壞性數據的定位。實驗結果表明,所提算法定位準確性高。
關鍵詞: 海量數據; 可破壞性; 數據; 定位
中圖分類號:TP393 文獻標志碼:A 文章編號:1006-8228(2018)11-05-05
Abstract: The accuracy of traditional localization algorithm is usually low. Therefore, a new localization algorithm for destructive data in mass data environment is proposed. In the state space of the priority queuing model of different channel NAV tasks, the channel data transmission model is established for the amount of local cross item information in the case of computing throughput. The destructiveness data signal model is constructed, and the phase space reconstruction and nonlinear time series analysis are combined to analyze the causes of the destructiveness data, and the feature extraction of the destructiveness data is completed. The data symbol attribute value is mapped to digital value, and the original destructiveness data feature is improved by the normalization processing of all digital features. The destructiveness data feature is classified by Fisher linear analysis method in the improved feature space and the destructiveness data is recognized. When a node identifies the destructiveness data, the voting decision is completed through the neighbor node data and the locating of the destructiveness data is realized through the node and the neighbor node position. Experimental results show that the proposed algorithm has high location accuracy.
Key words: massive data; destructiveness; data; location
0 引言
現階段,我國互聯網技術迅猛發展,網絡變成經濟建設及發展過程中的重要組成部分。實物數據化運算技術出現后,大數據時代隨之到來[1-2]。海量數據環境下,存在大量可破壞性數據,對網絡安全帶來很大隱患,需研究一種有效的可破壞性數據定位算法,為提高網絡安全性提供技術支持[3-4]。
張繼紅等提出當前常見的可破壞性數據定位算法主要包括粒子群算法、分層拓撲算法和神經網絡算法等[5]。粒子群算法利用定義可破壞性數據查詢執行代價,依據粒子全局尋優完成對可破壞性數據的定位,算法實現過程簡單,然而將查詢執行代價作為目標函數有很大的定位誤差;分層拓撲算法按照構造的可破壞性數據庫分層拓撲模型完成對海量數據環境下信息狀態的計算,實現可破壞性數據定位。該算法效率相對較高,然而在快速定位的過程中對可破壞性數據定位性能有限,具有定位準確性低的弊端;神經網絡算法利用構造神經網絡拓撲模型實現對破壞性數據的定位,盡管適應能力強,卻具有計算過程復雜,計算速度慢的弊端。針對上述算法的弊端,提出一種新的海量數據環境下可破壞性數據定位算法。
1 海量數據環境下可破壞性數據定位算法
1.1 海量數據環境下網絡信道數據傳輸模型
為了對海量數據環境下可破壞性數據進行定位,首先建立網絡數據傳輸模型。通常情況下,網絡承載著差異協議與信道,同時利用云存儲完成資源調度[6]。網絡信道模型包括輪流協議、隨機訪問協議以及信道分割三種類型[7-8]。在對網絡信道數據協議進行設計的過程中,通過SeerSim分析法[9]建立網絡數據傳輸信道,在不同信道NAV任務的優先排隊模型狀態空間可描述如下:
在網絡信息交換過程中,海量數據在傳輸調度時產生可破壞性數據,當前局部性交叉項信息量可描述如下:
針對某通用接收節點,在n=N的情況下,CPU需完成數據包處理;在n=1,…,N-1的情況下,求解獲取信息量狀態概率后,假設第k個節點的通信區間中存在n個鄰居節點,則網絡平均吞吐量λ可通過下式求出:
依據上述分析,在不同信道NAV任務的優先排隊模型狀態空間中,針對局部性交叉項信息量,在計算吞吐量情況下,建立信道數據傳輸模型,用圖1進行描述。
在圖1所示模型中完成數據通信和調度,對可破壞性數據進行定位。
1.2 可破壞數據信息流模型建立
在上節建立的信道數據傳輸模型的基礎上,對可破壞性數據進行定位的過程中,首先需建立可破壞性數據信號模型,依據信號檢測技術完成對信號的檢測。在干擾環境下,為了實現對破壞性數據信號離散數據的解析華處理,建立信息網絡破壞性數據信號解析模型,即:
1.3 可破壞性數據特征提取
對海量數據環境下可破壞性數據信息流模型進行分析,對可破壞性數據特征進行提取,為可破壞性數據定位提高依據。
將相空間重構與非線性時間序列分析法[11]結合在一起,對可破壞性數據產生的原因進行分析,特征提取公式如下:
綜上,在對海量數據環境下可破壞性數據進行定位的過程中,首先建立可破壞性數據信息流模型,同時在構建模型的基礎上分析可破壞性數據的組成形式,并且提取可破壞性數據的特征,為實現可破壞性數據定位奠定基礎。
1.4 可破壞性數據分類識別
完成可破壞性數據定位前,需完成對可破壞性數據特征的預處理,把數據符號屬性值映射為數字值,然后完成對所有數字特征的歸一化處理[12],將其映射至[0,1]范圍內,歸一化處理可通過下式實現:
可破壞性數據核特征判斷方法根據Fisher線性分析法實現[13],該方法的目的為使類間離散度最大化,類內離散度最小化,然后依據運算目標對原始向量的最優映射方向進行搜尋,保證各類間距離達到最大,從而完成對可破壞性數據的分類,實現可破壞性數據的識別。然而海量數據環境中的數據存在隨機性與多樣性的特性,使得得到的判別結果存在誤差。為了得到準確的結果,首先利用非線性映射函數Γ把原始特征空間映射至新的特征空間U,然后通過Fisher線性分析法在改進后的特征空間中實現對數據的分類。詳細過程如下:
通過非線性函數Γ把可破壞性數據輸入樣本e∈Wq映射至高維線性空間U中[14],也就是,則改進后的特征空間U中目標函數可通過下式求出:
通過上述分析可完成對原始可破壞性數據特征的改進,然后通過Fisher線性分析法在改進后特征空間中對可破壞性數據特征進行分類,從而實現可破壞性數據識別。
1.5 可破壞性數據定位
完成對可破壞性數據的分類識別后,對其進行定位。通常情況下,海量數據環境下存在大量的節點,節點采集數據通常存在空間關聯性,也就是物理位置相隔較近的節點感知數據改變情況相似[15]。所以,當節點識別到可破壞性數據后,可通過鄰居節點數據完成投票決策,通過節點與鄰居節點位置實現可破壞性數據的定位。
節點附近環境有很大的不同,本節并非通過節點的時序關聯性對鄰居節點進行確定,而是把待定位節點與不同節點滑動窗口中信號強度作為含可破壞數據的待定位節點的屬性,通過節點間屬性相關性完成選擇。
通過皮爾森相關系數對mi與mj的屬性相關系數進行計算,如果sim(i,j)超過閾值,則認為節點mi與mj空間相關:
2 實驗和結果分析
2.1 實驗環境和評價指標設計
本節通過Matlab軟件實現對海量數據環境下可破壞數據定位方法的仿真。選用的真實實驗數據為某院校校園系統,該系統采樣頻率是每隔5min采樣1次。
為了評價本文可破壞性數據定位方法的性能,將定位準確性和ROC曲線作為評價指標進行評價。
可破壞性數據定位準確性EACC可通過下式求出:
其中,M用于描述原始數據中實際含可破壞性數據節點個數,N用于描述定位的實際含可破壞性數據節點個數。
ROC是一種有效的評價定位算法的指標,AUC作為ROC的定量統計能夠有效地描述定位性能的好壞,通常認為AUC值越高,定位性能越佳。AUC計算公式如下:
其中,n0與n1依次用于描述正常樣本個數和可破壞性樣本個數;S0用于描述第i個正常樣本的排序位置。
2.2 仿真數據定位
本節將文獻[7]算法和文獻[8]算法作為對比進行測試,對海量數據環境下可破壞性數據定位性能進行測試。采用的綜合數據庫是同時含有局部密度與低密度模式的數據集,共有1230個數據節點,將其分割成5個類別,依次是曲線狀與4個高斯分布類簇。曲線狀分布數據節點個數是500。
4個高斯類簇所含數據節點個數依次是200個、300個、100個、100個,隨機形成30個可破壞性數據節點添加至數據庫中。針對綜合數據集,分別采用本文算法、文獻[7]算法和文獻[8]算法對其中的破壞性數據進行定位,在鄰居節點數量為100個時,三種算法定位比較結果用圖2進行描述。
圖2中,三角形代表各算法定位結果,方塊代表實際定位結果。分析圖2可知,文獻[7]算法和文獻[8]算法不僅定位誤差大,而且還存在無法識別可破壞數據的情況,而本文算法可保持高精度可破壞性數據定位性能,驗證了本文算法的有效性。
針對文獻[7]算法,在鄰居節點數較高的情況下,二者傾向于定位全局可破壞性數據節點,然而忽略了局部可破壞性數據節點,導致定位準確性降低。針對文獻[8]算法,針對圖2(d)左下角類簇中的數據節點,因為和其間隔最小的類簇約含100個數據節點,在鄰居節點逐漸升高的情況下,其鄰近節點傾向于考慮密度較小的曲線形數據集,所以該算法無法有效識別高密度類簇附近的可破壞性數據節點,導致可破壞性數據識別及定位精度低。
除此之外,圖3描述了鄰居節點數量逐漸升高時,三種算法定位評價指標改變過程。發現在鄰居節點數量較小的情況下,三種算法均有很高的定位性能,但是隨著鄰居節點數量的逐漸增加,文獻[7]算法和文獻[8]算法定位性能顯著降低,而本文算法仍可保證高檢測性能,驗證了本文算法的優越性。
2.3 真實數據測試結果
本節同時把本文算法應用于兩種真實數據集Iris與Wine中,Iris數據集含1800個實例,各示例含4維屬性,將全部實例分割成3類,類標簽依次是A、B、C。Wine數據集含1300個實例,各實例含10維屬性,全部實例被分割成D、E、F三類。針對上述數據集,依次隨機選擇2個類簇當成正常數據點,從余下的一類中選擇8個數據點當成可破壞性數據。
研究的2種數據集都是高維數據集,為了在二維坐標系中對可破壞性數據定位結果進行可視化處理,通過非負矩陣分解法完成對數據的降維操作,以獲取可體現原始數據特征的二維屬性,再以二維屬性為基礎建立二維可視化坐標系。
圖4描述的是本文算法對可破壞性數據的定位結果,其中上三角代表定位的可破壞性數據,其他數據點代表正常數據。由圖4可知,本文算法可準確定位2個數據集中的可破壞性數據。
在采用本文算法、文獻[7]算法和文獻[8]算法對真實數據集中的可破壞性數據進行定位后,得到的定位評價結果用表1進行描述。
分析表1可知,在鄰居節點數增加后,文獻[7]算法和文獻[8]算法定位性能出現了很大的改變,而本文算法定位性能很穩定,而且有很高的定位準確性與AUC。
3 結論
提出一種新的海量數據環境下可破壞性數據定位算法,由于其數據量大,數據特征分布廣泛的特點,只能以數據節點初始坐標進行定位,產生過多的測距約束性。傳統的定位算法由于受到這種約束條件的干擾,導致算法陷入局部最優,產生定位精度低和抗干擾性差的問題。提出基于數據融合算法的海量數據環境下的高效數據定位方法。依據海量數據系統中數據節點間需要符合的測距約束性條件組建軟約束集中模型,在代價函數中引入懲罰項,融合于負梯度算法獲取數據節點初步定位的估計值,再利用Fisher線性分析法進行數據識別,最終完成了對海量數據環境下數據的高效定位。仿真證明,數據融合算法的海量數據環境下的高效數據定位方法具有定位精度高,抗干擾性能好的特點。
參考文獻(References):
[1] 劉建芳,王劉濤,馬飛.海量數據環境下高效數據定位算法研究與仿真[J].計算機仿真,2016.33(3):376-379
[2] 周小平,劉祥磊.基于組合定位海量數據處理的鐵路機車安全距離預警[J].中國安全生產科學技術,2015.11(10):103-109
[3] 何天榮.基于模糊數學的海量數據特征定位研究[J].內蒙古師大學報(自然漢文版),2017.46(2):178-181
[4] 唐曉紅,閆明,林國亮.海量定位數據存儲技術與警務應用研究[J].廣東公安科技,2014.22(1):17-22
[5] 張繼紅,陳小全.海量交通安全數據的元數據管理研究[J].計算機研究與發展,2011.48(s1):74-77
[6] 周小平,劉祥磊.海量鐵路機車GIS定位數據分布式處理技術[J].中國科技論文,2015.10(7):812-816
[7] 畢林,趙輝,賈明濤.面向數據庫特征的基于LMDB與線性八叉樹海量塊段模型存儲技術(英文)[J].Transactions of Nonferrous Metals Society of China,2016.26(9):2462-2468
[8] 毛衡,胡寧,陳蔚等.實時廣告競拍平臺中的海量數據分析和競價預測[J].應用數學與計算數學學報, 2016.30(1):1-15
[9] 蹇旭.云計算環境下的海量數據特定特征挖掘技術[J].現代電子技術,2017.40(13):178-180
[10] 王曉英.海量冗余數據干擾下數據庫中數據優化檢索方法[J].華僑大學學報(自然版),2016.37(6):758-761
[11] 李雪梅,邢俊峰,劉大偉等.基于HBase的海量GIS數據分布式處理實踐[J].大數據,2016.2(3):73-82
[12] 張啟明,周自強,谷山強等.海量雷電監測數據云計算應用技術[J].電力系統自動化,2012.36(24):58-63
[13] 胡永利,樸星霖,孫艷豐等.多源異構感知數據融合方法及其在目標定位跟蹤中的應用[J].中國科學:信息科學,2013.43(10):1288-1306
[14] 李林陽,呂志平,陳正生等.海量連續運行參考站網數據云存儲模型[J].導航定位學報,2014.2(3):64-70
[15] 黃潮.云計算環境下的海量光纖通信故障數據挖掘算法研究[J].激光雜志,2017.38(1):96-100