胡紅
(西安培華學院 思政部, 陜西 西安 710125)
隨著互聯網同日常生產生活的深入融合,使用計算機網絡的用戶數量不斷增加,促使大數據時代的到來,網絡中的信息數據量呈爆炸式增長,這些信息的傳遞需基于相互連接溝通的網絡實現,導致網絡中的數據信息量不斷增加,而這些數據通常蘊含一定的使用價值,但也存在部分具有一定破壞性的不良信息,網絡安全穩定運行過程會受到不良信息不同程度的破壞。不斷發展的網絡業務促使針對不良信息的信息過濾系統成為行業內的一項研究重點[1]。
現有的過濾系統大多針對網絡不良網頁,并且以采用基于網頁內容的過濾技術與方法為主,通過實時分析理解網頁內容實現對文檔語義的動態識別過程,其過濾效果優于基于內容分級、關鍵字、數據庫等的過濾方式,但隨著大數據時代的到來,已經難以滿足對不良信息的過濾需求。對基于內容理解的有害信息過濾系統來說,對網頁內容的準確分類(通過運用機器學習方法完成)是關鍵所在,在模式分類領域中,K最近鄰分類器因具有簡捷高效的分類功能而得到普遍應用,K最近鄰方法(KNN)作為一種常用的分類算法發展較為成熟,作為一種懶惰學習方法,K最近鄰分類方法無需估計參數和預先訓練,僅在需分類測試時才對訓練數據進行建模,其分類原理在于從樣本特征空間中選出相鄰的樣本K個,在這些樣本大多同屬一類時,可將該測試樣本劃分到此類,特別適用于樣本比較大的類域分類過程,分類準確率在邊界較整齊時較高。為此本研究使用K最近鄰算法設計了一個網絡不良信息過濾模型,結合運用改進后的KNN分類算法,使分類準確率及處理速度得到顯著提升,過濾模型的拓撲結構示意圖[1],如圖1所示。

圖1 網絡不良信息過濾模型架構示意圖
文本表示模塊的主要步驟為:(1)先完成網頁文本的“去噪”處理并保留有用信息,清除掉包括標簽、腳本、非文本對象等(用于描述網頁信息)在內的信息源中存在的噪聲,然后分離出剩余信息的主要特征。(2)完成文本的形式化表示,具體通過向量空間模型(VSM)完成,由(T1,T2,…,Tn)表示經去噪處理后的文本用詞條,分別對應特征空間坐標系中的一維,再通過使用TF-IDF公式(用于信息檢索與數據挖掘的常用加權技術)完成對各詞條Ti權值的計算,權值對應特征空間坐標系的坐標值,由Wi表示權值,在此基礎上完成文本到n維空間某一向量的映射。采用兩個向量的夾角余弦完成任意兩個文本間相似度的計算[2],具體表達式如式(1)。
(1)
Xi=(Xi1,Xi2,…,Xin)
Xj=(Xj1,Xj2,…,Xjn)
過濾的實質屬于一個二值分類問題,需對正常信息和不良信息進行區分。本研究使用KNN算法完成分類器的設計,先針對待測試文本和訓練集,使用VSM中的向量方法對其中的全部文本進行表示,再完成全部文本的距離即相似度的計算,具體采用距離加權方法計算,以保證算法的穩定性,接下來在訓練集中找到K(K≥1)個離測試文本最近的文本。已知有N個訓練樣本,樣本數量足夠大,由X表示測試樣本,在奇數K個最鄰近文本中,正常信息和不良信息分別對應類標值為 1的樣本K1個、類標值為 0的訓練樣本K2個,判定測試樣本的類別表達式[3]如式(2)。
(2)
K=K1+K2
用戶需求表示,主要用于篩選文本,在分析處理各種不同用戶需求的基礎上,從中篩選出主要的用戶需求特征形成一個準確的用戶興趣集合。自適應學習,以KNN的分類結果為依據,向過濾系統提供包括用戶體驗的相關信息,系統據此完成自適應的反饋學習(需基于相應評價機制)并得到反饋學習結果,據此可動態調整距離的權值與K值,從而使分類的準確率得到顯著提升。
需使訓練樣本數充分大,以保證分類結果的準確率,作為懶惰學習算法的一種,KNN算法存在前期訓練不足的問題,進而增加了后續分類時的計算量;此外,KNN算法獲取K值時,需計算全部樣本的距離,面對較大的訓練數量會顯著增加計算量。因此對容量較大的樣本集進行分類時,可先預處理對分類作用影響較小的樣本,為消除可能影響分類的訓練樣本,通過優化KNN算法得到一種縮減的RKNN(KNN優化改進后)算法,先對特定訓練樣本周圍的鄰近樣本進行判斷,找出其中和自身類別不同的大多數,視為導致錯誤分類的邊界樣本,并在最終訓練集中去除這部分樣本,以提高分類準確率。RKNN算法的流程為:在集合A、B(A=B)中分別置入由(x1,x2,…,xn)表示的訓練集,對于xi∈B,若其在A中的K個最近鄰中的多數樣本不同于xi,則在B中刪除xi;取i+1,進入新一輪學習,直至i=n時結束,以B中的剩余樣本作為最終的訓練集[4]。
傳統的識別數據過濾系統是實際應用較多的網絡信息過濾系統,是在全部接收完信息的基礎上進行逐一的排查和比對,完成過濾過程,存在明顯的過濾速度慢且最終過濾效果不佳等問題。為此本研究針對Web大數據動態環境,基于改進后的K最近鄰算法設計了一種過濾模型,并構建了一種網絡不良信息安全過濾系統,通過網閘式的過濾系統先完成對控制端的優化選擇,為保證不良數據信息的過濾質量,又進一步優化了權值的隨機自適應算法,實現對不良信息的全面過濾。系統的數據過濾流程,如圖2所示。

圖2 數據過濾流程
為便于系統的使用、維護和后續升級,采用C/S模式構建該不良信息安全過濾系統硬件架構,該過濾系統適用于大量信息數據的處理,硬件系統主要分為3部分:前端控制層,作為過濾系統的命令控制中心;運行系統,主要由數據庫、計算器、數據分選器和調控器等構成,主要負責分析和過濾網絡數據;用戶端,主要負責識別用戶、下達和傳遞命令等,具體由感知運行器、文件驅動器等構成。在過濾海量數據的同時,需保證常規數據的正常運行,完成對信息的把控,要求系統具有較強的邏輯計算能力,為此系統通過優化選擇前端主機的控制端,有效提高了系統的過濾能力以及邏輯計算能力,從而使數據信息過濾過程更加精確,確保系統面對Web大數據動態環境的篩選能力[5]。
為有效解決配差計算失衡的問題,本研究所構建的不良信息安全過濾系統,在過濾不良數據使采用網閘過濾系統實現,實現了良好的過濾效果,同時提高了系統的計算能力。對不同的數據信息類型,通過網閘過濾系統后其符號型屬性會發生改變,不同符號型屬性選擇,數據信息包含文字、圖片、邏輯等,如表1所示。

表1 數據信息同符號型屬性的對應關系
對于不同的符號型屬性,先由網閘過濾系統完成有效的分類過程,以實現對不同數據的精確過濾。假設,系統的過濾閥值由F(u,v)表示,uπ表示信息提取系數的參照比,WEB網絡數據涵蓋的甄別屬性由f(x,y)表示,基于符號型屬性建立等式[5]如式(3)。
(3)

(4)
(5)


圖3 實際信息的矩陣圖

圖4 條件矩陣圖
完成對比后去除不同于條件矩陣的數據,進而完成一次初級過濾過程。
考慮到初級數據過濾無法滿足系統的實際過濾需求,因此對閾值進行過濾,假設,預處理的參數及屬性參數集合分別由rk-1和RK表示;IZ表示甄別系數;信息的重權系數由FYLK表示;符號型屬性經初級條件矩陣處理后由FY2K表示;其中符合進入閾值過濾的由La表示;LB表示屬性中的只讀,過濾閾值前需先完成相應的預處理[6],如式(6)。
(6)
然后再對數據進行閾值選定即可完成閾值的計算,假設,yi表示專屬閾值;yj表示專屬辨別系數;調用的參數和閾值分別由αi、αj表示,對應粒子集群由K(xi,xj)表示;閾值選定的表達式如式(7)。
(7)
數據信息接下來進入閾值的過濾,過濾過程表達式如式8(得到的d值屬于一個范圍值,以確保有用的數據信息不被過濾掉)。
(8)
據此實現數據信息過濾邏輯性的有效提高,自動分組過濾后的數據信息,在進行分類管理時,假設,B表示序列號;D表示可進行分組的數據集;T表示數據識別屬性;實際數據轉換值由Δt表示[7],具體表達式如式(9)。
(9)
(10)
按照上述操作和處理完成信息的分類過濾。

(11)

(12)
采用VC實現本研究網絡不良信息過濾模型的構建和運行,使用向量空間模型表示搜集到的全部樣本,采取不同的K值,對比分析基于KNN和RKNN兩種算法的過濾模型的性能,查準率、查全率和耗時的實驗對比結果,如圖5所示。



圖5 RKNN與KNN的查準率、查全率和耗時對比結果
實驗所采用的數據如表2所示。

表2 實驗樣本數據
結果表明基于RKNN算法的過濾模型的性能更好,準確率較高,并且K值的選擇較為關鍵,過小的K值易使分類器受到過分擬合(由噪聲導致)的影響,過大的K值易融入進遠離其近鄰的數據點,實驗表明K取30時得到了最高的查準率和查全率,這是因為RKNN算法有效優化了訓練過程,通過刪除部分會產生分類錯誤的樣本實現了距離計算量的有效降低。
接下來設計仿真實驗檢測本研究安全過濾系統信息過濾的有效性,實驗參數如表3所示。

表3 實驗參數表

SelectNsrsbh=NSRSBH,
Nsyc_lx=CONVERT(char(6),KPRQ),
Value_actual=sum(KPJE),
Value_threshold=0,
Nsyc_count=1intotemp_fp
andCONVERT(char(6),
KPRQ)<=Date_endgroup
byNSRSBH,CONVERT(char(6),KPRQ)
該安全過濾系統與傳統方法的魯棒性及過濾誤差的實驗對比結果,如圖6所示。


圖6 仿真試驗結果
相比傳統方法,本研究所設計系統的魯棒性較高,驗證了系統的穩定性,并且隨著數據量的持續增加,本研究所設計系統保持在較低的過濾錯誤率,該系統有效實現了網絡不良信息的準確過濾過程,更加適用于實時在線網絡系統,具有一定的實際應用價值。
大數據時代的到來使Web環境越來越復雜,傳統的信息安全過濾方法普遍存在數據動蕩的缺陷,而信息的準確分類是過濾網絡不良信息的基礎,本研究構建了一種網絡不良信息過濾模型,設計了一種基于C/S架構的網絡不良信息安全過濾系統,進一步優化了權值的隨機自適應算法,以確保過濾掉全部的動態大數據環境中的不良數據信息,最后采用對比仿真試驗驗證本研究不良信息過濾方法及安全過濾系統的有效性,實驗結果表明該過濾模型明顯提高了系統的處理效率、查準率和查全率,通過該安全過濾系統實現了對不良數據信息的有效過濾過程。