馮洋洋
(鄭州工業應用技術學院,新鄭 451100)
網絡爬蟲又稱網頁機器人,根據用戶在計算機上登錄網頁的記錄,找尋對應網頁的鏈接,可近似的看作一種網頁追蹤引擎[1]。若教學系統被黑客攻擊,教學資源或發布消息被隨意篡改,極易對高校的正常運營造成很大的影響,因此開展基于網絡爬蟲的教學系統惡意篡改檢測系統的研究是具有十分現實的意義的。
為了提升教學系統持續運行的安全性,對于教學系統的篡改情況可自動檢測,滿足設計系統的實用性功能,以下將結合 技術對教學系統進行解析,具體框架設計如圖1所示。

圖1 檢測系統整體框架
如圖1所示,為基于網絡爬蟲的教學系統惡意篡改檢測系統的整體框架,采用由頂部至底部的設計方法,最上層為顯示層,為用戶登錄頁面,也是系統為用戶展示的主界面,由后臺管理員負責用戶的注冊、賬號及密碼管理,主要功能是對域名、教學資源的管理。系統框架中層是業務層,主要進行教學系統中信息的發布、資源的上傳等操作,同時業務層中包含網絡爬蟲的源代碼,在該層面上可進行對應代碼的刪除、修改及增添,除此之外還可以進一步檢測教學系統中是否被插入暗鏈,根據暗鏈在業務層的功能實現基于網絡爬蟲對教學系統的安全監測,滿足系統功能的實現[2]。最底層為系統的數據層,數據層中包含教學數據庫及檢測數據庫,已經教學系統中網站被惡意篡改后,教學資源數據庫將會自動保存被篡改前的原版網頁,確保數據的安全性,同時檢測數據庫用于保存系統進行檢測過程中的所有操作步驟,確保出現同種惡意入侵時,系統可在最短時間內做出反應。
結合上述對基于網絡爬蟲的教學系統惡意篡改檢測系統的設計,以下將進行對應的硬件設計,為系統的持續穩定運行提供平臺[3]。根據對應教學系統在各個高校中的運行環境,使用32位進制的Windows 17操作系統,結合AIR技術開發系統的腳本解釋器,同時選擇Python2.6.7型號的記憶芯片,采用50~80MHz 和2.40MHz的時鐘源為系統提供256kB 的在線運行內存,確保系統的持續運行,使用i7計算機處理器,同時配備超過128GB 的外設硬盤,實現交互式系統的檢測。
基于上述對軟件運行平臺的搭建,以下將進行系統軟件運行環境的選擇,設計系統的頁面及模塊結構,同時構建數據庫對數據進行存儲。
基于網絡爬蟲的教學系統惡意篡改檢測系統的軟件功能模塊主要包括數據收集、存儲模塊及網絡爬蟲調度模塊三個模塊,以下將結合上述三個模塊在系統中的功能進行對應的設計。首先,系統軟件的功能均在業務層進行實現,主要結合網絡爬蟲基于互聯網狀況良好的條件下對教學系統中多個網頁內關鍵詞、重點數據的收集,利用數據庫存儲數據的功能,將收集的數據分類存儲。其次為網絡爬蟲調度模塊,也是檢測系統中的核心模塊,主要分為網絡域名子模塊、源代碼下載子模塊及網頁鏈接提純子模塊,三個模塊之間的工作相輔相成,具體工作流程如圖2所示。

圖2 網絡爬蟲調度模塊工作流程圖
如圖2所示,為網絡爬蟲調度模塊的工作流程,初始化條件下的UML 控制模塊只有一個網絡爬蟲進入端口,此時可采用下載源代碼子模塊的方式對網頁中源代碼進行下載,結合網頁中的對應鏈接對網頁中關鍵字進行有效提取,并將提取后的鏈接、關鍵字放入UML 控制面板中,進行數據的進行數據的分析。
結合上述對系統功能模塊的設計,對于數據收集處理模塊中的大批量數據、教學系統中的大量教學資源均需要一個相對完善的數據庫,進行對應的數據存儲、管理。檢測人員在教學系統惡意篡改檢測前期,應將未被篡改的資源或網頁存儲在數據庫中,作為網頁被篡改后的對比[5]。為了提升工作人員網頁檢測時搜索網頁的速度,可將所有檢索過教學系統中教育官網或教學平臺的域名存儲至數據庫中,進行二次搜索時,便可直接通過數據進入該網站。當教學系統中某一固定網站被確定不需要檢測時,可在數據庫中刪除對應網站的域名或進入路徑。當確定教學系統中某一網站經過正規人員修改后,需要重新利用網絡爬蟲搜索該網頁中的關鍵詞匯或關鍵數值,將原數值在數據庫中刪除,將最新構建的數值添加到數據庫中對應的表結構中。若教學系統中重新添加新網頁或教學平臺,也可與數據庫建立新的連接。
根據用戶注冊時填寫的身份信息,確認對應的實體屬性,便于后臺管理員對人員之間的管理,當用戶登陸過程中,系統將自動在數據庫中識別是否存在與登錄用戶相同的賬號密碼。根據建立的用戶信息表,設計教學系統中不同網站的屬性結構。
通過對被檢測網頁的具體描述實現網絡爬蟲獲取網頁的能力,同時分析網頁中是否因為被插入暗鏈而被隨意篡改,將篡改前后的網頁分別進行對應的信息對比,并存儲對應的數據庫表中,實現基于網絡爬蟲的教學系統惡意篡改檢測系統的設計。
為了確保所設計檢測系統的有效性,整體實驗均在相同網絡環境下進行,針對某高校的教學系統進行了多次惡意篡改試驗,為保證整體實驗的嚴謹性,首先采用傳統的檢測方法對教學系統進行檢測,再用文章設計的基于網絡爬蟲的教學系統惡意篡改檢測系統對相同教學系統再次進行檢測,設置實驗組和普通組,采集5組檢測數據,將數據分析處理如表1所示。

表1 教學系統惡意篡改檢測系統誤報率
通過表1分析,兩種方法對于教學系統惡意篡改的誤報率,可以得出結論:在同種外界環境下,采用相同的檢測方法,文章設計的基于網絡爬蟲的教學系統惡意篡改檢測系統對于惡意篡改的識別率較高,誤報率降低了約10%。
文章開展了基于網絡爬蟲的教學系統惡意篡改檢測系統設計。通過對系統頁面的、功能模塊及對應數據庫的設計,實現系統整體框架的設計。相比傳統的檢測系統,盡管誤報率已經降低,但仍存在一些缺陷有待解決。例如,用戶在登錄時頁面所提供的驗證碼只有簡單的數字或圖片,對于扭曲度較高驗證碼的識別率較低,同時在頁面的結構布置方面仍存在一些不足,在后期發展中,將會對系統中的存在的缺陷進一步完善并優化,提高教學系統在應用中的安全性。