成彥衡,黃 宇
(1.連云港市第四人民醫院,江蘇連云港 222000;2.成都理工大學工程技術學院,四川 成都 614000)
信息時代的迅猛發展,使信息能夠更加及時和廣泛地傳播到各種社交平臺,為人們實時提供最新的信息。但是,當今網絡技術的飛速發展,為黑客提供了可入侵的空間,其通過各種手段在網絡上發布一些虛假信息和非法傳播內容,給網絡信息共享帶來阻礙,嚴重危害了網絡環境的健康發展。因此,有效過濾敏感信息可以保護網絡環境。目前,采用的過濾仿真方法有兩種,一種是陸態網絡敏感信息多級縱深過濾仿真方法[1];另一種是決策樹識別算法[2]。在研究大量網絡敏感信息時,上述兩種方法均受到數據稀疏性的影響,即相似性計算不精準,從而導致敏感信息不能被完全過濾。為此,該文提出了基于K 近鄰算法的網絡敏感信息過濾方法。
由于K 近鄰算法不需要用任何方法預測空格的分數,因此,K 近鄰算法對數據稀疏性有很好的適應性[3]。假設網絡中有v個用戶、c個項目,總評分數為T,在K 近鄰算法中,數據稀疏度為T/(vc),也就是數據集本身具有稀疏性[4]。數據稀疏度愈小,數據集愈稀疏。用k'TT(ci)代表用戶ci的動態k近鄰,則提出的K 近鄰算法中,由于每個用戶的近鄰數最大為k,即:
設算法中的所有評分集合為Y,其中,|Y|≤T,即過濾過程中用到的評分數通常小于目前的評分數T。因此,在K 近鄰算法中用到的評分實際數據稀疏度可表示為:
由式(2)可確定網絡敏感信息的稀疏性。
基于K 近鄰算法的網絡敏感信息分類包括三個步驟:
步驟一:將網絡敏感信息集G劃分為k個大小相等的信息子集G1,G2,…,Gk;
步驟二:將Gi作為檢驗的信息集,將剩余的k-1 個子集作為訓練的信息集,計算Gi作為待檢驗信息集時的分類精準度P(i)如下:
式(3)中,M代表數據集中的樣本數量;Xj代表檢測的樣本數量。
步驟三:迭代處理步驟二k次,獲取最終分類結果。
為了篩選敏感信息,必須具備過濾標準,所以要區分敏感詞的內容和等級。設立敏感詞語庫,按照敏感詞的類型,對敏感詞進行分類。將網絡敏感信息分為政治、色情、暴力等三大類信息,這些敏感詞影響了國家的發展和社會的穩定,因此,需要過濾這些信息。針對網絡敏感信息的過濾,首先要篩選出網絡敏感信息,然后構建敏感信息決策樹,最后利用K 近鄰分類算法設計過濾步驟。
以敏感詞的首字母為依據,構建決策樹的根目錄子樹,將根目錄子樹上存在的敏感詞添加到敏感信息數據庫中,以便提取。對于不存在根目錄子樹上的敏感詞,需進行剔除[5]。
由于在構建的決策樹中存在多個子節點,這些節點信息除了敏感信息外,還存在偽敏感信息。因此,需對其進行非葉節點處理[6]。基于K 近鄰算法的敏感信息決策樹構建步驟為:
步驟一:在敏感信息數據庫中isLeaf() 有三類數值,分別是isLeafa非葉節點數值,isLeafb葉節點數值,isLeafc偽葉節點數值。對于這三類數值,根據根目錄子樹中每個樹枝對應敏感詞的首字母進行排序;
步驟二:分析第一個敏感詞的第二個或第三個字母,當敏感信息數據庫中的敏感詞的最后一個字母沒有子節點時,就變成了真實的葉節點。當敏感信息數據庫中的敏感詞的最后一個字母有子節點時,就變成了偽葉節點[7-8];
步驟三:根據子樹中的敏感詞拼音,及時更新信息庫,在決策樹相應節點上添加敏感信息,并過濾相似的敏感詞,由此完成敏感信息決策樹構建[9]。
在敏感信息數據庫中構建的決策樹,能夠減少數據在敏感信息數據庫中所占的內存,減少偽敏感信息提取時間。
利用近鄰分類算法結合決策樹對網絡中的敏感信息進行集中過濾,結合K 近鄰算法設計網絡敏感信息過濾步驟,如圖1 所示。
由圖1 可確定網絡敏感信息過濾的具體步驟:

圖1 網絡敏感信息過濾步驟
步驟一:計算特征值協方差矩陣的累積權重,將敏感詞庫中的敏感詞進行分類處理,假設敏感詞庫Q中包含了a×b文本,對該文本量化處理后,可得到矩陣Qa,b,求出該矩陣的協方差[10-11]。根據求取結果分析敏感詞特征向量,并用x1,x2,…,xn,y1,y2,…,yn來表示,由此計算的特征值協方差矩陣的累積權重,可表示為:
式(4)中,k∈n表示矩陣維數。
在此基礎上,對敏感信息決策樹中的敏感詞特征和求取累積權重進行分析,為建立反敏感信息庫提供邏輯支持[12]。
步驟二:構建反敏感信息庫
加權每個特征值方差矩陣,以網絡敏感信息為區域主題,建立敏感信息本體,通過對所有敏感信息的語義分析,形成反敏感信息庫[13]。
步驟三:計算相似度
引入時間和主題相關性作為篩選參數,首先,過濾有關敏感信息的時間。
時間t權重的計算公式:
式(5)中,φ表示時間常數;t1表示信息存儲時間;t2表示信息管理時間。
在權重大于設定閾值時,進行主題相關性分析[14]。
在時間權重確定的情況下,計算某一文本里面敏感詞的主題相關性大小如下:
式(6)中,σ(i,u)表示敏感詞i在該文本u中出現的次數,σ(j,u)表示敏感詞j該文本u中出現的次數,N代表爬取的總文本數,X表示存在敏感詞i的文本數量[15]。
如果主題相關性對應的數值小于或等于設定的閾值時,就會被存儲在一個敏感信息相關的信息庫中,同時提取相應文本;如果主題相關性對應的數值大于設置的閾值,則需將其歸入隊列管理模塊中[16]。
根據上述原理,計算敏感信息相似度為:
式(7)中,ui表示在文本u中第i個敏感詞;ri表示在敏感主題中的第i維向量。
按照URL 隊列的優先次序對敏感信息進行排序,敏感信息排序越靠后說明與主題的相關性越低,需予以剔除。為此,將排序在最后的敏感信息抓取出來進行剔除處理。
基于計算的相似性,利用詞庫篩選出合適的文本信息。詞匯庫的構建主要是對敏感事件進行搜索,篩選出敏感事件的相關數據,獲取每個事件的標題和相關敏感信息。該方法根據網絡敏感信息的分類標準,利用K 近鄰算法,選取有顯著性關鍵詞的關鍵詞作為敏感詞庫。詞匯庫還將定期進行更新,通過詞匯庫中的詞匯表進行語義分析,剔除相關性不強的詞匯,過濾網絡敏感信息。
3.1.1 實驗過程
將所提的基于K 近鄰算法的過濾方法與傳統的縱深過濾仿真和決策樹識別算法進行對比分析,在解決敏感信息過濾問題的比較中,設計對比實驗。
3.1.2 評價指標
1)平均絕對誤差MAE
平均絕對誤差是根據網絡信息敏感度預測和實際評分之間的評估結果得到的,MAE 值越小,說明預測結果越精準,即網絡敏感信息過濾效果越好。
平均絕對誤差計算公式為:
式(8)中,ηi表示實際評分值;ιi表示預測評分值;n表示項目數量。
2)標準化平均絕對誤差NMAE
以平均絕對誤差作為指標進行分析時,需要消除評分范圍的影響,因此,應對平均絕對誤差進行標準化處理,得到標準化平均絕對誤差。
標準化平均絕對誤差計算公式為:
式(9)中,Lmax表示評分上限值;Lmin表示評分下限值。
分別使用三種方法對比分析平均絕對誤差,對比結果如圖2 所示。

圖2 三種方法評分絕對誤差對比分析
由圖2 可知,使用縱深過濾仿真和決策樹識別方法,隨著最近鄰居用戶數量增加,平均絕對誤差隨之減小,最小值分別為0.39 和0.43。使用基于K 近鄰算法的過濾方法,隨著最近鄰居用戶數量增加,平均絕對誤差隨之減小,最小值為0.19,由此可知,使用基于K 近鄰算法的過濾方法平均絕對誤差最小,說明網絡敏感信息過濾效果較好。
為了消除評分范圍的影響,需對比三種方法的標準化平均絕對誤差,對比結果如圖3 所示。
由圖3 可知,三種方法在消除評分范圍影響后,標準化平均絕對誤差都有所增加,但使用基于K 近鄰算法的過濾方法,標準化平均絕對誤差仍然最小為0.20,說明其網絡敏感信息過濾效果較好。

圖3 三種方法標準化平均絕對誤差對比分析
在K 近鄰算法的基礎上,通過構造敏感信息決策樹對敏感信息進行過濾。通過對敏感信息進行分類和相似度計算及時發現偽裝信息,得到更加全面、敏感的網絡信息。然而,該方法在實際應用過程中,仍存在不足,有待進一步完善。選擇主題相關性閾值時,需要從多個數據源中抽取大量的數據,并進行大量的實驗后再確定最佳閾值。根據控制變量優化原理,優化了不同的參數,進一步優化了過濾方法。