徐玉蓮 朱昌洪
摘 要: 為了提高的Web交互網絡環境下的信息獲取和引擎搜索能力,提出基于Android的大型Web交互網絡平臺設計方法。通過Web服務器建立Cloud?P2P信息融合模型,在Hadoop,MongoDB,Storm三種開源的底層計算框架下進行大型Web交互網絡平臺的服務系統設計,基于Android操作系統進行Web交互網絡平臺軟件開發。采用種子URL信息爬取方法進行互聯網上的信息搜索和網頁信息處理,并設計垃圾信息過濾模塊,提高信息識別的效率。測試結果表明,該平臺具有較好的Web信息爬取能力,信息召回率等測試指標表現較好。
關鍵詞: Android; Web交互網絡平臺; 信息爬取; 引擎搜索
中圖分類號: TN711?34; TP393 文獻標識碼: A 文章編號: 1004?373X(2017)10?0046?04
Abstract: In order to improve information access and search engine capabilities in the Web interactive network environment, a design method of large?scale Web interactive network platform based on Android is proposed, in which Cloud?P2P information fusion model is established by means of the Web server, the service system of large?scale Web interactive network platform is designed under the three bottom open source calculation frameworks of Hadoop, MongoDB and Storm, and Web interactive network platform software is developed on the basis of Android operating system. The seed URL information crawling method is adopted to perform information search and Web information processing on the Internet, and design the spam filtering module to improve the efficiency of information identification. The test results show that the platform has a good performance of information recall and other test indicators.
Keywords: Android; Web interactive network platform; information crawling; engine search
0 引 言
在網絡信息化環境下,網絡特別是Internet為人們提供了無限的信息獲取資源[1],人們可以通過搜索引擎、網絡百科全書和網絡文獻進行大型Web交互網絡平臺優化設計,提高自動化Web信息交互水平。傳統的C/S計算Web交互平臺在面對大規模PC構成的網絡信息交互時任務延遲,容易產生垃圾信息[2]。為了提供Web信息交互能力[3?4],在Android移動終端上進行網頁瀏覽,提高對網頁資源信息的調度和利用效率,降低垃圾信息的輸出,設計基于Android的大型Web交互網絡平臺[5]。
1 大型Web交互網絡平臺的總體設計構架
為了實現對移動Android用戶對網頁瀏覽的個性化需求,提高Web信息的交互能力,進行大型Web信息交互網絡平臺設計。本文設計的大型Web信息交互網絡平臺采用的是三層網絡結構,分別為數據層、分布式計算框架層和應用層。其中數據層建立在C/S計算模型下,為了推斷安全性意圖,采用瀏覽器/服務器模式構建Web信息交互的數據庫,在Cloud?P2P云平臺下建立云存儲數據庫,實現數據層的資源調度和信息訪問與流量預測。用戶通過本地客戶端界面構建知識規則庫,通過構建知識規則庫實現用戶與資源的數據共享及信息交互。
通過對Web交互的個性化特征的分析,保證系統的應用層中網絡與云存儲連接,提高對Web交互的云平臺信息爬取的及時性。通過集群部署、鏡像備份,配置個性化推薦程序,進行I/O接口驅動設計,實現對移動用戶在Android終端的層次結構網絡信息訪問辨識[6]。
系統的應用層是主要通過開放API實現資源分配、部署,將用戶提交的服務請求通過集群服務器端傳輸到節點的終端,結合泛知識云模型增強網絡持續提供服務的分類能力[7]??傮w設計構架如圖1所示。
2 平臺設計與實現
2.1 Cloud?P2P信息融合模型
通過Web服務器建立Cloud?P2P信息融合模型,在Hadoop,MongoDB,Storm三種開源的底層計算框架下進行大型Web交互網絡平臺的服務系統設計。Cloud?P2P信息融合模型通過全局文件系統集合存儲資源虛擬化管理模塊,采用MISC_DYNAMIC總線技術建立標準應用接口[8]。在Cloud?P2P信息融合模型建立中,設計字符設備驅動程序,定義內核函數為register_blkdev(),在成功向系統注冊了設備驅動程序后,通過系統界面和應用程序模塊與大型Web交互網絡平臺的主節點連接,在模塊被加載到內核時,管理模塊通過調用request_irq()函數對該節點進行身份認證,向內核注冊模塊在線執行數據存儲和業務訪問,加入Cloud?P2P計算環境中,通過集群部署,監控模塊負責關心存儲系統是何種設備、分布在何地,全局文件系統的核心組件通過服務認證模塊執行數據交換和節點控制。在資源分配、部署中組件計算模塊、網絡模塊、運算模塊、監控模塊和用戶模塊,得到大型Web交互網絡平臺的Cloud?P2P信息融合模型模塊化結構如圖2所示。
2.2 基于Android操作系統的Web交互網絡平臺軟件開發
GFSI Cloud平臺中結合GCC編譯的方式進行Web信息收集和整理,建立主題樹模型執行信息監控,在Android客戶端的Web網站監控列表中執行信息更新,對上層的應用系統采用的交叉編譯以及使用標準GCC編譯的方式進行信息監控、預警。Web交互網絡平臺軟件開發的第一步是進行信息爬取,為了提高網頁信息的主題相關性,采用種子URL信息爬取方法進行互聯網上的信息搜索和網頁信息處理,Web交互網絡平臺的信息爬取結構如圖3所示。
為了保證所采集網頁信息的關聯性,在E?Learning和Android系統中進行應用程序開發,采用錨文本、鏈接結構進行編譯鏈接程序分析,生成腳本名為install?qt?x11.sh的open source的主題相關文件,在宿主機上進行編譯、仿真。在后續頁面判斷模型中構建QWT庫。運行make命令,開始建立主題相關樹,在網頁爬取過程中定期執行樣本集合、模型的更新程序,編輯.Bashrc文件,將交叉編譯環境成功安裝到Android系統中,交叉編譯環境的Android移植過程如圖4所示?;贏ndroid操作系統的Web交互網絡平臺的實現流程如圖5所示。
基于X86架構進行大型Web交互網絡平臺的程序開發過程,在軟件系統中可執行代碼能在ARM上運行,為了提高信息交互能力以及存儲資源的吞吐性能,在命令行輸入arm?linux,引導加載程序(Boot loader)進行程序編譯,把編譯器路徑加入系統環境變量,得到程序加載的接口代碼為:
2.3 Web交互網絡平臺的應用服務部署
基于上述整體架構和基于Android操作系統的Web交互網絡平臺軟件開發的關鍵技術分析,進行應用服務部署。為了提高網頁信息的主題相關性,采用種子URL信息爬取方法進行互聯網上的信息搜索和網頁信息處理,并設計垃圾信息過濾模塊。首先根據Web交互網絡平臺的特點和后期信息分析的需要,建立本體模型,對Web交互網絡信息進行信息分配和事件分區,從對象、區域、結果等概念集中成內容網頁,并通過檢索、展示等技術進行信息分配。Web交互網絡平臺的垃圾信息分類流程如圖6所示。
Web交互網絡平臺的應用服務部署中通過分析引擎進行系統的個性化推薦,使用post關鍵詞投遞收集到的網頁信息,Web交互網絡平臺中的網絡用戶可以從Android客戶終端瀏覽、檢索、下載信息,對當天的信息進行排序瀏覽、檢索和下載。通過上述分析,實現了基于Android的大型Web交互網絡平臺設計。
3 平臺性能測試分析
大型Web信息交互網絡平臺的仿真測試平臺搭建在Android開發系統上,用戶界面如圖7所示。
在性能分析中,測試Web交互網絡平臺進行網頁信息爬取召回率這一參量指標,得到結果如圖8所示。
分析上述實驗測試結果得知,采用本文設計的大型Web網絡交互平臺進行網頁信息獲取,數據的召回率較高,這是因為本文方法通過垃圾信息過濾,提高信息識別的效率。
4 結 語
本文提出了基于Android的大型Web交互網絡平臺設計方法,并進行了實驗分析。研究得知,該平臺具有較好的Web信息爬取能力,信息的召回率等測試指標表現較好、性能優越。
參考文獻
[1] 楊照峰,王啟明,呂海蓮.基于任務延遲的云計算資源調度算法研究[J].計算機測量與控制,2014,22(2):499?502.
[2] 匡桂娟,曾國蓀.一種基于時分復用的云資源管理方法[J].同濟大學學報(自然科學版),2014,42(5):782?789.
[3] 陳小軍,方濱興,譚慶豐,等.基于概率攻擊圖的內部攻擊意圖推斷算法研究[J].計算機學報,2014,37(1):62?71.
[4] 張鳳荔,王丹,趙永亮,等.基于改進的TCM?KNN DoS檢測算法[J].電子科技大學學報,2014,43(1):76?81.
[5] 唐明董,姜葉春,劉建勛.用戶位置感知的Web服務網絡數據流量預測方法[J].小型微型計算機系統,2012,33(12):2664?2667.
[6] 肖建,白裔峰,于龍.模糊系統結構辨識綜述[J].西南交通大學學報,2009,41(2):135?142.
[7] 馬軍,宋玲,韓曉暉,等.基于網頁上下文的Deep Web數據庫分類[J].軟件學報,2008,19(2):267?274.
[8] CZIBULA G, MARIAN Z, CZIBULA I G. Detecting software design defects using relational association rule mining [J]. Knowledge and information systems, 2015, 42(3): 545?577.
[9] 馬衛.基于Android移動平臺的研究[J].計算機仿真,2016,33(1):218?222.