王 楠,于志偉,王利軍,劉 健
(中國電子科技集團公司第二十八研究所,南京 210007)
隨著現代互聯網信息技術的不斷發展,網絡安全、信息安全相關的需求也有所爆發。尤其是云安全、物聯網安全、工業互聯網安全等新興領域將迎來爆發機遇,這將為網絡安全帶來市場增量[1]。網絡信息多通過Web 實現互通,海量數據信息中部分是有價值的,部分信息則具有破壞性,將其歸屬為不良信息范疇,其一方面會影響到網絡的正常運行;另一方面也帶來了網絡安全問題。基于Web 網絡業務的拓展,網絡公司對不良信息過濾系統需求與日俱增[2]。傳統對網絡不良信息的過濾采用的是識別數據過濾系統,需要將所有信息全部接收后,再進行逐一排查、比對,不僅工作量大、處理速度慢,而且過濾效果不甚理想。此次研究提出了Web 環境下大數據動態不良信息安全過濾系統,以下對其進行具體分析。
大數據下動態不良信息安全過濾設計,首先要具備對實時信息內容的審查功能,能夠高效排查出敏感信息、不良信息等內容,并對上述內容進行追查,實現對互聯網信息自動化過濾、篩查。其次,大數據動態不良信息安全過濾系統要能夠針對復雜的網絡事物作出有效的處理,高效執行服務器端的各項工作,結合實際情況選擇相應的算法對動態不良信息進行過濾,準確處理互聯網不良信息,與此同時要對處理信息作出明確的規范,而這一切的實現都需要依賴算法[3]。由于動態不良信息數目多,處理復雜,應通過縮短處理信息的時間提升信息過濾處理效率。互聯網動態信息具有未知性,在設計不良信息安全過濾系統時,必須注重其拓展性,便于以后系統拓展設計操作。在網絡帶寬參數設計方面,一般按照30K/次數據量進行調試,結合全國各個省份實際數據量,每秒所占用的寬帶約為18M,要切實保障對動態不良信息的安全過濾速率。
此次研究采用C/S 系統模式設計了基于Web 環境下大數據動態不良信息安全過濾,傳統N/S 安全過濾系統已經不能夠滿足當前大數據時代海量信息的需求,且應用C/S 模式能夠支持后期系統維護及系統升級,實用性強、便捷,能夠高效過濾、篩查動態不良信息。從其硬件構成來看,其主要包括三個層面:
(1)前端控制層。該層為命令控制中心,其主要負責對Web環境下大數據動態不良信息的過濾。
(2)運行系統。對不良信息的安全過濾都依賴運行系統實現,其構件主要包括計算器、數據庫以及數據調控器等,其正常運行狀態下能夠確保不良信息的高效過濾[4]。
(3)用戶端。用戶端主要由文件驅動器、感知運行器以及CVDO 三個部件構成,其能夠有效識別用戶命令,并下達、傳遞命令。
研究設計系統針對前端主機控制端實施了一系列優化選擇,以提升對數據信息過濾的精準性,對前端主機控制端的優化一方面能夠促進系統過濾能力的提升,另一方面能夠加強系統邏輯計算能力,從整體情況看,其對系統篩選能力有著顯著的提升作用[5]。需要注意的是,在過濾海量信息時,不能夠影響常規數據的自由運行,這就對安全過濾系統對信息的把控能力提出了更高的要求,必須具備強大的邏輯計算能力才能夠滿足這一需求。此次研究設計的大數據動態不良信息安全過濾系統運行流:數據預處理—利用條件初次過濾—閾值選取和閾值預處理—閾值過濾—分組整理。
采用網閘過濾系統完成信息過濾:
研究設計了基于Web 環境下大數據動態不良信息安全過濾系統,在過濾操作中引入了網閘過濾系統,其能夠對不良信息進行高效的過濾。網閘過濾系統一方面能夠規避傳統方法配差計算失衡問題,另一方面能夠對系統整體計算能力起到提升作用,數據信息不同,其所應用的符號型屬性也會呈現出明顯的差異性[6],其中數據信息能夠覆蓋文字、圖片以及邏輯等多個方面。其屬性選擇中,數據信息、數值型屬性及符號型屬性相應數據為:1/2/X,2/5/Z,3/8/Y,4/5/Z,5/7/X,6/6/Y。
在網閘過濾系統下,可以根據符號型屬性的不同對其進行分類處理,這一操作能夠便于對不同數據實施精準化過濾。初級過濾完成后,可以進入條件矩陣,下一步完成矩陣過濾。首先需要設計攜帶符號型信息數據的矩陣,假設為Tij,其數據互換對比設計的條件矩陣為T’ij,完成對比后,能夠有效過濾去除與條件矩陣不同的數據,這一操作實際上就是一次初級過濾。然而,僅通過一次初級過濾難以將動態不良信息完全過濾掉,無法滿足實際需求。接下來需要過濾閾值,需要注意的是,閾值的過濾需要首先對數據進行預處理,其預處理計算公式為:

式中,數據信息權重系數采用FYLK表示,FY2K表示的是符號屬性,且已經經過初級條件矩陣過濾;La表示的是符號型屬性,其通過了閾值過濾;Iz與LB分別表示的是甄別系數與屬性只讀。預處理參數在公式中表示為rk-1,預處理屬性參數集合表示方式為Rk。已經進行過預處理的數據需要再經過閾值選定,便能夠完成閾值計算,數據信息經過過濾后,其會自動生成以下分組:

式中,數據識別屬性采用字母T表示;D表示的是數據集中能夠用于數據分組的集合;△t代表數據轉化值,其能夠為數據分類管理提供可靠的依據;B表示序列號。需要注意的是采用閾值對數據進行過濾時,不可能所有數據信息都能夠達到條件,因此,可以采用如下條件公式進行限定:

此次研究采用閾值計算方法對數據信息進行過濾,已經能夠對Web 環境下動態不良信息進行有效的過濾,然而該過濾方式對于圖片數據信息還存在一定的局限性[7~8],基于這一問題,研究提出了隨機自適應算法,用于對圖片信息得到過濾,其預處理計算公式為:


此次研究設計了基于Web 環境下大數據動態不良信息安全過濾系統,為確保該系統能夠對數據信息進行有效的過濾,首先對數據信息權重系數FYLK進行設計[9],假設其數值為55.94,數據信息專屬閾值yi 為5,其讀取屬性為0.65,那么在[1.0~55]范圍內,各項試驗參數中,試驗次數、數值型屬性、過濾數量及數據修正參數對應的數據分別為:1/2/11/10-4,2/4/150/10-4,3/8/200/10-4,4/8/250/10-4,5/6/300/10-4,6/5/350/10-4,7/7/400/10-4。
在互聯網領域,對系統穩定性的衡量通常采用的是魯棒性,此次研究對大數據動態不良信息安全過濾系統魯棒性進行測試[10],結果如圖1所示,可以發現其具有較高的魯棒性,可以發現當過濾數據增加后,該系統的過濾錯誤率持續降低,可以將該系統應用于不良信息安全過濾,其能夠準確過濾、篩選不良信息。

圖1 仿真試驗結果
此次研究設計了基于Web 環境下大數據動態不良信息安全過濾系統,在C/S 系統構架下,應用網閘式數據信息過濾系統,不僅實現了對數據信息的準確、有效過濾,而且錯誤率低,可以將該系統應用于不良信息的過濾,其能夠為大數據動態信息安全管理提供可靠的技術支持。