, ,,,
(國網新疆電力公司電力科學研究院,烏魯木齊 830011)
物聯網環境下Web數據庫異常數據檢測方法研究
張清川,孫帆,王宇晨,李金良,王潔
(國網新疆電力公司電力科學研究院,烏魯木齊830011)
物聯網環境下web數據庫網絡承載著不同的網絡載體和網絡信道,web數據庫通過云儲存的形式來實現資源共享,云儲存產生的異常數據會給網絡信息web數據庫空間帶來一種危機感和存儲數據容量空間的不足,所以對物聯網環境下web數據庫異常數據的檢測要求更精準;傳統的異常數據檢測方法采用簡化梯度方法進行web數據庫異常數據檢測,對含有干擾頻率成份的web異常數據不能準確的去除,檢測性能低;為此,提出一種基于時空關聯的分布式的web數據庫異常數據檢測方法,通過與集中式算法的精度和消耗量進行對比,仿真實驗表明,所提方法進行異常數據檢測,減少了web數據的能量消耗,信號幅值大于干擾噪聲數據幅值,具有較好的抗干擾性能。
網絡信道;干擾頻率;時空關聯
隨著物聯網環境下web數據庫網絡技術的發展,web數據庫中的數據挖掘已成為重點研究對象。目前的研究工作主要集中在web數據庫中的異常數據檢測[1],web中數據之間關聯分析上。由于物聯網的運行依存的數據庫較為龐大且數據差異化明顯,一旦產生異常,將直接影響到物聯網的正常運行,因此對物聯網環境下的數據庫異常數據的有效檢測已經成為該領域研究的重點課題之一。
一個重要的實際應用意義是實時檢測web數據庫異常數據,例如,在物聯網環境下,檢測web數據庫網絡中的每個異常數據節點時,都可以通過對web數據流進行檢測,從而可以確定是否存在異常數據,便于及時對web數據庫中的異常數據進行處理。另外,web數據庫的能量消耗主要用于數據傳輸,其中節省能量消耗的重要舉措之一是減少數據的傳輸,如果首先建立一個web數據流模型[2],并通過此模型檢測web數據庫中的異常數據,用戶可以在規定的精確度范圍內只發送不符合模型的異常數據,而不發送符合模型的數據,這會大大減少web數據傳輸量,重新建立近似異常數據的web數據庫,從而使web數據庫異常數據的檢測更精準。
在網絡入侵檢測[3]和傳統數據挖掘中,物聯網環境下web數據庫異常數據的檢測應用比較廣泛,但因web網絡中異常數據和物聯網的特定環境,web異常數據檢測研究面臨許多挑戰。很多知名人士試圖采用特定的方法,建立web數據庫異常數據流模型,來檢測web數據庫中異常數據,文獻[4]提出基于高維隨機矩陣檢測web數據庫異常數據的大數據建模與分析方法。根據高維隨機矩陣理論,進行了WAMS量測web數據的高維隨機矩陣模型構建,然后推導了web數據庫異常數據檢測理論和方法,最后模擬實測量web數據庫的異常數據,通過對比不同異常數據驗證web數據庫的問題,該方法實踐起來簡單,但存在效率低的問題。文獻[5] 傳感器網絡的異常數據檢測對于物聯網環境下web異常數據檢測具有非常重要的意義?;趙eb數據庫異常數據的檢測問題,提出了web數據庫異常數據無線傳感器檢測方法。提出的方法可以預知下一時刻的數據網絡在每個時刻最近的歷史數據網絡。通過數據網絡的模型區間,確定web數據庫概率為p的異常數據置信區間。當下時刻數據在置信區間內時,則該數據可視為正常;反之,則為異常。仿真實驗表明,基于線性神經網絡的web數據庫異常數據檢測方法的檢測率達到了98.2%,誤差率小于0.65%;基于web數據庫神經網絡的異常數據檢測方法的檢測率為96.3%,誤差率不超過0.76%,這兩種方法在檢測web數據庫異常數據時誤差都很小,但采用這兩種方法的過程很繁瑣。文獻[6]提出一種基于蟻群方法來對web數據庫異常數據進行檢測,該方法是將蟻群方法和屬性相關分析相結合的屬性web異常點檢測方法。將蟻群行走過的路程作為異常路徑,計算異常路徑上各個節點數據值,并根據數據值確定web數據庫數據異常點。實驗結果表明,該方法在準確率上很達標,但容易產生錯誤的判斷。
針對上述問題,本文提出一種基于時空關聯的分布式異常數據檢測方法,目的是為了使物聯網環境下web數據庫異常數據的檢測準確率更高,在web異常數據網絡節點轉入到的數據庫中,不同的數據屬性對應了不同的權重[7]。實驗結果表明,此方法減少了異常數據能量的消耗,提高了異常數據的檢測精確度。
物聯網環境下web數據庫異常數據檢測在各個數據信道任務的異常數據模型的狀態空間為:
s={(k,n),0≤k≤K,0≤n≤N}
(1)
在物聯網環境下,通過數據云儲存[8]的形式實現資源共享,web數據在異常傳輸調度過程中產生異常數據,此時web數據庫交叉信息鏈表示為:

(2)
式中,異常數據系統中的web數據庫異常數據的數量用CB表示,i表示web異常數據處理過程中的數量。對于一個大眾化的異常數據web接收點,當n=N時,CPU進行web數據庫異常處理;當n=1,…,N-1時,得到web異常數據信息狀態功率,假設k為web數據節點的信息范圍內有n個網絡鄰居數據節點,物聯網環境下web數據庫的異常數據平均吞吐量[9]γ用公式可以表示成:
(3)
所有物聯網數據通道中web數據庫異常數據所占的比例為數據庫過程web數據消耗因子:
(4)
式中,第k個物聯網數據在目前web異常數據環境中所需的數據數量用ZK來表示。
根據時空關聯的分布式異常數據的檢測方法,與web數據庫異常數據信號相混合,實現在多個已知干擾頻率異常數據干擾下的檢測,為了使web異常數據信號異常數據解析化,建立物聯網環境下web數據庫異常數據檢測解析模型:
z(t)=x(t)+iy(t)=a(t)eig(t)
(5)
式中,z(t)表示為物聯網異常數據信號,web異常數據信號動態模型的一部分用x(t)來表示,y(t)代表web異常數據信號的動態函數[10],采取物聯網的固有形態進行解釋,把web異常數據信號解析模型用多個web信號分別表示,得到物聯網數據的異常特征為[11]:

(6)
其中:θ(t)表示異常數據高頻分量,a(t)和θ(t)分別是在物聯網環境下異常數據的干擾特征幅度和相位息[12]。Web數據庫中的異常數據干擾頻率特征表達式為:

(7)
上式描述了web物聯網數據節點中的異常數據高頻校驗位,用來表示生成web數據的干擾信號,其中在物聯網環境下web數據庫中異常數據權重為:
?ij=β×?(epkq),βgt;1
(8)
根據上式,每個物聯網數據干擾信道分量信號都可以通過計算得到檢測目標為:
r1=x(t)-c1
(9)
綜上所述,為了使物聯網環境下web數據庫異常數據檢測的準確性,由此建設了web異常數據的物聯網信息網絡模型。
基于時空關聯的分布式異常數據檢測方法采用滑動窗口機制來檢測web數據庫的異常數據,假設一個物聯網異常數據可動窗口為B,每隔Δ時間,web數據庫收到一個異常網絡數據,若在正常的運行下,一個網絡滑動窗口B的物聯網異常數據個數為a個,即B=Δa,網絡異常數據對象xi和xp之間的網絡運行加權距離[13]:

(10)
式中,?l表示物聯網異常數據目標屬性值l的權重,xil表示異常數據目標xi的屬性值,xpl表示web異常數據庫對象xp的屬性值。web異常數據目標xi的數據密度:

(11)
其中:Nb(xi)為異常數據目標xi的第k個鄰近區域。異常數據目標xi利用k相鄰的平均可達距離的倒數來檢測異常數據密度目標,充分的表達了xi周圍的異常數據分布狀況。從公式可得,當目標xi的臨近數據分布離散時,其局部可達密度會較小,Web數據庫異常數據局部數據因子[14]:
(12)

綜上所述,基于時空關聯的分布式異常數據檢測方法,檢測web數據庫中的異常數據。利用異常數據對象和數據距離鄰域的方法[17-19],使得異常數據檢測過程方便,也更好的體現了該方法的準確性和可行性。
以20 s為一個數據窗口,設web網絡節點采集異常數據的速度為3個每秒,在一個單位異常數據窗口內,仿真實驗中收到的web異常數據總量為150個。隨著模擬時間延長,分別采用分布式算法和集中算法,測定能量消耗情況,獲得對比結果如圖1所示。圖1給出了物聯網環境下本文算法與傳統集中式異常數據檢測方法的能量消耗進行比較分析。集中式異常數據檢測是將沒有進行分簇處理的數據作為定義的。

圖1 時空關聯集中式與分布式能耗對比
由圖1可以看出,集中式異常數據的數據傳感網絡比時空關聯的分布式異常檢測數據傳輸的能量消耗值稍微快點,這是因為在物聯網環境下要將許多異常數據從集中式異常數據直接傳輸給web節點,則分布式異常數據檢測與集中式不同,它會將數據庫少數簇首節點的數據進行傳輸,最后將這些數據再傳輸給 web節點。因此,與本文方法對比,集中式異常數據消耗的能量過快。
為了檢測物聯網環境下web數據庫異常數據,采用本文方法、集中式檢測方法以及分布式方法的精度作比較,分別檢測這3種方法異常數據的精確度。以20秒為一個數據窗口,web數據庫節點采集到的異常數據的速度分別為1個/秒,3個/秒,5個/秒,7個/秒,9個/秒,在一個數據窗口內,web數據庫節點采集的異常數據總數分別為15個、45個、120個、240個、360個,對這5組數據集進行異常數據檢測,異常數據檢測的精確度采用公式12的方法:

(13)
從圖2可知,當采集的異常數據較少時,集中式異常數據檢測方法與本文方法檢測精度相同;當采集的異常數據較多時,所提方法精確度高于傳統檢測方法精確度。主要原因是集中式異常數據檢測將大多數異常數據在檢測完后直接傳送給web點,而所提方法是經過異常數據簇首的層層選擇之后再傳送給web數據網絡節點,這使得改進方法具有更高的精確度和穩定性。

圖2 分布式方法和集中式方法精確度比較 圖3 不同數據檢測方法精確度對比
圖3中,時空關聯的分布式異常數據檢測方法與只考慮空間的分布式異常數據檢測方法的檢測精度進行比較。由于本文所提方法主要分析了web數據庫異常節點的時間因素和空間因素,而另一種方法則只考慮了空間因素,因此本文方法精確度高于只考慮空間的異常數據檢測方法的精確度。
通過以上實驗結果證明,說明了基于時空關聯的異常數據檢測的效果好,對物聯網環境下web數據庫異常數據的檢測起到很大的作用。
本文提出了一種基于時空關聯分布式異常數據檢測方法。通過與傳統方法檢測過程的能耗、精確度進行對比,實驗結果證明基于時空關聯的異常數據檢測方法減少了數據的傳輸量,具有較高的檢測正確率。
[1] 韓 巖,李 曉.加速大數據聚類K-means方法的改進[J].計算機工程與設計,2015,36(5):1317-1320.
[2] 胡智丹,鄭 航,王忠靜,等.黃河干流水量分配的演變及多數據流模型分析[J].水力發電學報,2015,34(8):35-43.
[3] 趙 森,仇婷婷.基于PCA的無線傳感器網絡入侵檢測系統[J].計算機工程與應用,2014,50(14):88-91.
[4] 嚴英杰,盛戈皞,王 輝,等.基于高維隨機矩陣大數據分析模型的輸變電設備關鍵性能評估方法[J].中國電機工程學報,2016,36(2):435-445.
[5] 劉小洋.非均勻環境下傳感器網絡節點精確定位方法[J].計算機科學與探索,2015,9(4):475-481.
[6] 李 松,姜 楠.人力資源調度的蟻群方法模型[J].遼寧工程技術大學學報,2014(5):679-682.
[7] 劉洪彬,常發亮.權重系數自適應光流法運動目標檢測[J].光學精密工程,2016,24(2):460-468.
[8] 楊 娜.云存儲技術及其應用[J].電子技術與軟件工程,2014(21):220-220.
[9] 劉 洋,崔 穎,李 鷗.認知無線電網絡中次用戶平均吞吐量的優化[J].電子與信息學報,2014,36(7):1680-1685.
[10] 肖東裕,胡立坤,呂智林,等.基于B/S結構的分布式風電監控系統設計[J].計算機測量與控制,2016,24(1):105-107.
[11] 鐘兆國. 基于Web數據庫的數據庫挖掘技術[J]. 工業, 2017,6(1):245-247.
[12] 王 樂, 王 芳. 數據庫異常數據的檢測仿真研究[J]. 計算機仿真, 2016, 33(1):430-433.
[13] 葉 云, 余 勇, 黃劉生,等. 一種基于top-m Dk-Outlier的隱私保護異常數據檢測算法[J]. 小型微型計算機系統, 2016, 37(12):2638-2642.
[14] 張 玲. 基于Web數據庫在線考試系統的設計研究探討[J]. 自動化與儀器儀表, 2016,10(5):120-121.
[15] 丁 華, 陳 輝. 基于WEB的上機考核系統中JQuery和Ajax技術的應用[J]. 電子設計工程, 2016, 24(15):16-19.
[16] 熊小慶, 徐 立, 劉 賽. DCA在數據庫服務器異常檢測中的應用[J]. 微電子學與計算機, 2015,5(10):67-71.
[17] 楊曉秋, 李旭彥. 同行評議中的異常數據檢測方法研究——以科研項目評審為例[J]. 中國軟科學, 2016(5):133-142.
[18] 葉 云, 余 勇, 黃劉生,等. 一種基于top-m Dk-Outlier的隱私保護異常數據檢測算法[J]. 小型微型計算機系統, 2016, 37(12):2638-2642.
[19] 張 銳, 李留青. 大型多媒體網絡數據庫異常數據高效檢測方法[J]. 科技通報, 2015, 31(10):163-165.
UnderEnvironmentofInternetWebDatabaseAbnormalDataDetectionMethodResearch
Zhang Qingchuan,Sun Fan,Wang Yuchen,Li Jinliang,Wang Jie
(State Grid XinJiang Electric Power Research Institute,Urumchi 830011,China)
Web database networking environment carrying network carrier and network channel is different, web database through the cloud storage form to realize the sharing of resources, abnormal data cloud storage to network information generated by the web database space to bring a sense of crisis and the data storage space is insufficient, so the network environment to detect abnormal data web the database requires more accurate to. The traditional outlier detection method uses the simplified gradient method to detect the abnormal data of Web database, which can not remove the abnormal web data with the interference frequency components, and has low detection performance. To this end, we propose a web distributed database abnormal data detection method based on spatial-temporal correlation, compared with the centralized algorithm accuracy and consumption, simulation results show that the proposed method of outlier detection, reduce the energy consumption of the web data, the amplitude of the signal is greater than the amplitude of noise data, has good anti-jamming performance.
network channel; interference frequency; spatial and temporal correlation
2017-03-09;
2017-04-13。
張清川(1993-),男,甘肅武威人,助理工程師,主要從事變壓器狀態檢修技術方向的研究。
1671-4598(2017)09-0170-04
10.16526/j.cnki.11-4762/tp.2017.09.044
TN393
A