李田英
基于大數據分析的網絡資源缺失信息碎片智能識別方法
李田英
商丘醫學高等專科學校現代教育技術中心, 河南 商丘 476100
針對傳統網絡資源缺失信息碎片識別方法中識別準確度較低、完成時間較長、能量消耗較大等問題,提出一種基于大數據分析的網絡資源缺失信息碎片識別方法。通過對網絡資源信息分析,利用非線性時間序列對網絡資源不完整信息進行相空間重建,引入關聯維數對網絡資源不完整信息特征提取;考慮到不完整信息特征中缺失信息碎片對信息類別的貢獻度,利用信息熵來衡量缺失信息碎片之間的差異,利用以BP神經網絡為基礎的集成分類器對缺失信息碎片分類,完成缺失信息碎片識別。結果表明,所提方法識別準確度較高、完成時間較短、能量消耗較小。
大數據分析; 網絡資源; 缺失信息; 智能識別
計算機網絡技術的快速發展,大量的網絡資源迅速增長,大數據分析技術應運而生,成為網絡資源獲取、處理、分析或可視化的有效手段[1]。從網絡資源大數據中發現,實際應用的大部分數據分布是不完整的,在進行不完整網絡資源信息識別時,常會遇到信息碎片問題,這些信息碎片通常被放置在網絡存儲介質的隱蔽位置,且內部信息已遭到損壞[2,3],現階段應用的碎片智能識別方法普遍存在著識別準確度較低、完成時間較長、能量消耗較大等問題。在此背景下,如何有效提高網絡資源信息缺失信息識別精度和效率,成為當今社會亟待解決的問題[4,5]。文獻[6]提出一種基于譜回歸特征降維后神經網絡資源信息的識別方法。該方法對網絡資源信息進行特征提取,將提取后的結果進行降維處理,把降維后的網絡資源信息輸入到BP神經網絡分類器中進行識別。該方法具有較高的識別準確度,但是識別完成時間較長。文獻[7]提出一種基于含缺失信息屬性值的數據識別方法。該方法根據不同缺失信息屬性設計出不同的檢測方法,利用相應的檢測方法對缺失信息進行修復和補充,完成對缺失信息有效識別。該方法識別完成時間較短,但是識別準確度較低。針對上述問題,提出一種基于大數據分析的網絡資源缺失信息碎片識別方法。實驗結果表明,所提方法識別準確度較高、完成時間較短、能量消耗較小。
通過對網絡資源信息進行分析,利用非線性時間序列對網絡資源不完整信息進行相空間重建,引入關聯維數對網絡資源不完整信息特征進行提取,具體過程如下所述:
網絡資源不完整信息一般都是沒有明顯規律和順序的,利用關聯維數對其進行分析,實現網絡資源不完整信息特征提取。
假設,不完整網絡資源信息一維時間序列為{1,2,…,q},利用下式給出不完整信息重建的相空間表達式:

式中,代表網絡資源信息重建時延,代表網絡資源信息維數。
關聯維數是不完整網絡資源信息在多維空間中疏密程度的表現,代表網絡資源不完整信息樣本之間的關聯程度。對網絡資源不完整信息進行相空間重構,得到一個相空間矢量,將網絡資源不完整信息的任意兩個矢量的最大分量看作成兩者之間的距離,利用公式(2)對其進行描述:

假設兩者之間的距離低于設定正整數的矢量被叫作關聯矢量,不完整網絡資源信息重建相空間中存在著個信息點,獲取不完整信息相關矢量對數,將所有存在相關矢量對數的這種情況當作關聯積分:

式中,代表Heaviside函數,利用公式(4)給出該函數的表達式:


式中,代表不完整網絡資源信息關聯維數。選擇合理的,使可以用來表示網絡資源不完整信息混沌吸引子的相似結構,則近似值為:

標準差是網絡資源不完整信息樣本點的分散程度。當不完整網絡資源信息樣本在標準差較大的情況下,不同的資源信息樣本與實際值差別較大,則在空間中分布不集中,相應的關聯維數不高。結合此特性利用下式對網絡資源不完整信息特征進行提取:

以網絡資源不完整信息特征提取為依據,考慮到不完整信息特征中樣本缺失信息對信息類別的貢獻度,利用信息熵來衡量缺失信息之間的差異,以BP神經網絡為基礎的集成分類器對缺失信息進行分類,完成識別。具體過程如下:根據不完整信息特征中樣本缺失信息集進行劃分,得到多個互相之間沒有任何關系的缺失信息子集,為了更大限度的利用原始的網絡資源信息,需要把缺失信息樣本存入相對應的網絡資源信息中。


其中,碎片子集1的缺失信息為1,2中缺失信息集為2,3中缺失信息集為3。在此基礎上,根據信息熵計算網絡資源信息權值為:

利用網絡資源信息權值的集成結果實現對網絡資源缺失信息碎片進行分類識別。
為了驗證所提基于大數據分析的網絡資源缺失信息碎片識別方法的綜合性能,設計如下實驗。實驗操作系統為Windows7,內存48 g。為保證實驗結果的有效性,將所提方法(方法1)與基于譜回歸特征降維后神經網絡資源信息的識別方法(方法2)和基于含缺失信息屬性值的數據識別方法(方法3)。對比3種方法的識別準確度(%)實驗,實驗結果如表1所示。

表1 不同方法識別準確度對比
分析表1可知,3種方法都隨著網絡資源缺失信息數量的不斷增加,識別準確度會有不同程度的降低。當缺失信息數量為5個時,方法2和方法3的識別準確度與所提方法識別準確度之間分別相差1.86%和3.66%。當缺失信息數量為35個時,方法2和方法3的識別準確度與所提方法識別準確度之間分別相差1.70%和4.21%。但所提方法的識別準確度最高,一直保持在99%以上。對3種方法進行網絡資源缺失信息識別完成時間比較,結果如圖1所示。

圖1 不同方法識別完成時間對比圖
分析圖1可知,隨著缺失信息數量增加,3種方法識別完成的時間增減增加。當網絡資源缺失信息數量從0個增加到400個時,所提方法識別完成時間一直在33 s~37 s之間浮動,方法2的識別完成時間一直在35 s~50 s之間浮動,方法3的識別完成時間一直在44 s~58 s之間浮動。相比之下所提方法的識別完成時間最短。對比3種方法進行缺失信息識別的能量消耗情況如表2所示。

表2 不同方法識別能量消耗對比
表2可知,隨著網絡資源缺失信息數量的不斷增加,3種方法的識別能量消耗也隨之增加。當缺失信息數量從8個增加到48個時,識別能量消耗相差414 J;方法2識別能量消耗相差529 J;方法3識別能量消耗相差821 J。實驗結果表明,所提方法識別能量消耗最低,具有一定的應用價值。
針對網絡資源中存在的信息碎片缺失的問題,提出一種基于大數據分析的網絡資源缺失信息碎片識別方法。該方法與傳統方法相比較,具有較高的識別準確度,并且識別的完成時間相對較短,能量消耗較小,可廣泛應用于各個領域。
[1] 王志鵬,王星,田元榮,等.基于壓縮感知的輻射源信號數據級融合識別方法[J].兵工學報,2017,38(8):1547-1554
[2] 王鋒,武龍,吳東升,等.脈沖風洞天平短時振蕩測力數據穩態值提取的優化識別方法[J].振動與沖擊,2018,37(8):153-157
[3] 邱建青,杜春霖,周婷,等.多變量數據缺失機制的識別方法[J].中國衛生統計,2017,34(6):1002-1005
[4] 陶江玥,劉麗娟,龐勇,等.基于機載激光雷達和高光譜數據的樹種識別方法[J].浙江農林大學學報,2018,35(2):314-323
[5] 陳虹君,羅福強,趙力衡,等.大數據下網絡資源信息丟失優化識別仿真[J].計算機仿真,2017,34(9):358-361
[6] 鄔戰軍,牛敏,許冰,等.基于譜回歸特征降維與后向傳播神經網絡的識別方法研究[J].電子與信息學報,2016,38(4):978-984
[7] 高科,刁興春,曹建軍.含缺失屬性值的問題數據檢測與修復[J].計算機工程與設計,2016,37(3):643-649
An Intelligent Identification Method for Missing Information Fragments of Network Resources Based on Big Data Analysis
LI Tian-ying
476100,
Aiming at the traditional network resource missing information fragment identification method, there are generally problems such as low recognition accuracy, long completion time and large energy consumption. This paper proposes a method for identifying missing information fragments of network resources based on information entropy and integrated classification. By analyzing the network resource information, the nonlinear spatial time series is used to reconstruct the incomplete information of the network resources, and the correlation dimension is introduced to extract the incomplete information features of the network resources, taking into account the information of the missing information in the incomplete information features. The contribution of categories, using information entropy to measure the difference between missing information, the BP neural network-based integrated classifier classifies the missing information and completes the identification. The experimental results show that the proposed method has higher recognition accuracy, shorter completion time and less energy consumption.
Big data analysis; network resource; missing information; intelligent identification
TP311.13
A
1000-2324(2019)05-0870-03
10.3969/j.issn.1000-2324.2019.05.029
2018-09-25
2018-10-08
2015年河南省醫學教育研究項目:依托網絡專題教育社區的醫學超聲診斷技術教學模式改革的探索(Wjlx2015170)
李田英(1982-),女,碩士,講師,主要研究方向為計算機科學與技術及網絡安全. E-mail:lty_1218@126.com