基于正則表達式的Ｗｅｂ資源采集系統(tǒng)的設計與實現(xiàn)

2008-12-31 00:00:00馬建華邵斌李賽紅

電腦知識與技術 2008年31期

摘要：介紹了Web資源類型和采集策略中的對采集質量有影響的因素。設計實現(xiàn)了一套基于正則表達式的Web資源采集系統(tǒng)，系統(tǒng)具有靈活的可擴展性和可配置性，重點介紹了采集系統(tǒng)結構和采集技術。

關鍵詞：正則表達式；采集；Web資源

中圖分類號：TP311文獻標識碼：A文章編號：1009-3044(2008)31-0888-02

To Detect Intranet Worms Using Network Flow Technologies

MA Jian-hua，SHAO bin，LI Sai-hong

(Department of Educational Technology，Nanjing Normal University，Nanjing 210097，China)

Abstract: In this pager the Web Resources on the type and acquisition strategy in the quality of the collection to influential factors are introduced. A Web Resource Collection System based on a set of Regular Expressions is designed. The system is flexible， scalable and configurable， focus on the collection system structure and collection technology.

Key words: regular expression; collection; web resources

1 引言

隨著互聯(lián)網(wǎng)信息的持續(xù)爆炸性增長，網(wǎng)絡能夠為我們提供無窮的數(shù)據(jù)，像實時新聞、大型論壇或一些資源網(wǎng)站每天都會提供大量的新的數(shù)據(jù)。但面對這些雜亂無章的數(shù)據(jù)我們一般人又束手無策。對于每個企業(yè)來說，互聯(lián)網(wǎng)上都會有他們感興趣的數(shù)據(jù)。作為一個企業(yè)的決策者，需要知道競爭對手的一些情報為企業(yè)的下一步?jīng)Q策作參考；作為一個網(wǎng)站的管理員，不希望手工錄入大批量的文章或資料，而希望能夠從一些站點上自動抓取數(shù)據(jù)并放入數(shù)據(jù)庫中；企業(yè)的銷售人員希望能夠獲得大量的目標客戶的聯(lián)系信息，從而能夠擴大銷售量等等。如何從互聯(lián)網(wǎng)上抓取定向大批量的數(shù)據(jù)成為一個重要問題。

2 Web資源介紹

自1990年代以來，隨著因特網(wǎng)和Web技術的迅速發(fā)展與普及，一些與網(wǎng)絡有關的新名詞、新概念不斷出現(xiàn)，如網(wǎng)絡游戲、網(wǎng)絡經(jīng)濟等等。Web資源，或稱“網(wǎng)絡資源”，越來越為人們所接納與采用，它直觀、準確而且簡潔地表達了網(wǎng)絡環(huán)境下信息資源所蘊涵的時代氣息。在此，Web資源是一個泛指概念，包括通過網(wǎng)絡發(fā)布的一切信息。

Web資源包羅萬象，幾乎函蓋了所有重要的人類活動信息。常見的Web資源可分為如下幾類：

網(wǎng)絡出版物：包括電子書籍、網(wǎng)絡報紙、電子期刊，其中很多免費向用戶提供。據(jù)統(tǒng)計[1]，在因特網(wǎng)上，1991年有電子期刊l10種，1993年240種，1994年400種，1995年近700種，1996年千余種，而1998年則達到萬余種。

數(shù)據(jù)庫：有資料統(tǒng)計，1997年有3000多種數(shù)據(jù)庫通過因特網(wǎng)直接為用戶提供信息檢索服務，這些數(shù)據(jù)庫的內容涉及不同領域和專業(yè)，其中大多數(shù)可以免費使用。在網(wǎng)絡環(huán)境下，數(shù)據(jù)庫生產(chǎn)商將其產(chǎn)品聯(lián)入因特網(wǎng)，從而降低了成本，提高了資源的利用率。同時，數(shù)據(jù)庫作為高質量的學術、商業(yè)、政府和新聞信息的重要來源，以其可靠的信息來源，成為Web資源中非常重要的一部分。

動態(tài)信息：如政府機構發(fā)出的消息、政策法規(guī)、會議信息、論文集、研究成果、項目進展報告、產(chǎn)品目錄、廣告等。

其他類型信息：除上面三種之外，電子郵件、電子公告、新聞組、用戶組也成為信息交流的重要渠道，其內容也成為Web資源的重要組成部分。

3 采集策略

Web資源采集，說到底需要解決三個根本性問題：一是確定采集范圍；二是選擇采集方式；三是確定采集頻率。這三者直接關系到被采集對象是否與預期目標一致。采集范圍的確定主要包括確定采集級別、劃定歸檔Web空間與選擇采集對象等方面。采集級別是Web資源采集的總指導原則；歸檔Web空間的劃定是從大的范圍來說，即哪些網(wǎng)站可以作為采集對象，Web空間的劃定必須有一個明確的規(guī)則，否則就會造成采集對象的混亂。采集對象的選擇是具體到所劃定的網(wǎng)絡空間內，到底哪些Web資源值得保存，哪些不需要保存。而采集對象的選擇與采集方式是聯(lián)系在一起的。使用不同的采集方式，所采集的內容范圍也會不同。而且，網(wǎng)絡一直處于不斷變化、更新的動態(tài)環(huán)境之中。由于各個網(wǎng)頁的更新頻率不同，需要調整采集頻率，以保持同步，否則就可能遺漏很多重要的Web資源。因此，如何確定采集頻率，最大限度地避免Web資源的遺失，也是值得思考的一個問題。

3.1 采集/獲取方式

采集對象的選擇是與采集方式極為相關的，使用不同的采集方式，結果采集的內容也會不同。目前用于Web資源的采集，主要有以下5種采集方式：捐贈、呈繳、選擇性采集、全采集、聯(lián)合方法等[2]。其中，前兩種是被動的獲取，后面三種是主動的獲取方式。這里重點介紹選擇性采集。

所謂選擇性采集，即根據(jù)Web資源的歷史價值、文化價值、研究價值和經(jīng)濟價值，主要以人工方法有選擇性地對Web內容進行甄別、采集。選擇性采集對所保存的每一項主題都經(jīng)過認真的價值評估，并確定了哪些資源應該優(yōu)先采集，因而保證了較高的采集質量，并能跟蹤網(wǎng)站變化確定不同的采集頻率。

3.2 采集頻率

由于需要采集的網(wǎng)絡文獻數(shù)據(jù)量非常巨大，每一次完整捕獲要持續(xù)數(shù)月。一般認為自動獲取每6個月采集一次是比較合適的，這個時間間隔對于一些穩(wěn)定、不會隨時更新的網(wǎng)站來說是可行的，但是有許多網(wǎng)頁的壽命極為短暫，在這段時間內可能有許多網(wǎng)頁發(fā)生變更或被刪除。還有一些新聞網(wǎng)站，顯然按6個月的頻率是不可行的。所以最好的解決措施是對不同的網(wǎng)站類型分別計算其更新頻率，以保證采集頻率與之同步。例如，日報需要每天采集，周報每周采集一次，大選或發(fā)生重大事件期間需要增加對某些網(wǎng)站的采集頻率。也可以讓機器人自動測試網(wǎng)頁更新的頻率，從而在適當?shù)臅r間及時采集。英國國家圖書館規(guī)定，政府網(wǎng)站采集頻率的確定要區(qū)分不同的部門，例如國防與外交部、首相辦公室等部門網(wǎng)站要一周采集一次，其他政府部門至少6個月采集一次[3]。

4 系統(tǒng)實現(xiàn)

實現(xiàn)系統(tǒng)的關鍵是配置正確的正則表達式模板，模板用XML保存。由于正則表達式（Regular Expression）的簡單高效[4]，在Web資源采集時可以輕而易舉地采集到想要的資源。針對同一類型的資源書寫相應的正則表達式模板即可。在寫正則表達式時需要細心，一不小心就可能導致無法匹配，可以借助相應的書寫工具，比如Match Tracer。在寫好正則表達式匹配模板后指定結果保存介質，可以是數(shù)據(jù)庫、文本文件、XML或其它常用的文本格式。其功能模塊主要包括：初始化模塊、資源下載模塊、資源匹配模塊和資源保存模塊，系統(tǒng)架構如圖1所示。

4.1 系統(tǒng)初始化

初始化部分加載要下載的資源任務，這些任務都是經(jīng)過人工篩選的，有一定的價值的網(wǎng)址。隨后加載之前已經(jīng)寫好的正則表達式匹配模板，用XML保存的好處也是方便擴展，如果網(wǎng)站的資源有變化，可以隨時改變XML文件而不需要重寫程序。最后是分配指定的線程，這樣可以加快資源的采集進度，其中加入了線程池提供線程的管理功能。

4.2 資源下載匹配

在分配到一個任務后，線程下載指定的網(wǎng)頁，將接收到的網(wǎng)頁源碼交給資源匹配模塊。資源匹配模塊根據(jù)加載的匹配模板逐一匹配，如果能找到匹配結果而且目標結果是文本格式的則將這些結果交給資源保存模塊直接保存；如果是二進制的，比如擴展名為.exe、.gif、.pdf等格式的文件則需要交給線程將資源從遠程服務器下載到本地并把路徑保存至指定的介質中方便查找。圖2為Web資源采集流程圖。

4.3 結果保存

將匹配模塊中的匹配結果存放至指定的保存至指定的介質。保存介質可以是數(shù)據(jù)庫、文本格式等，多種格式極大地滿足了客戶的需要。

5 結束語

運用正則表達式的某種模式可以快速地匹配出目標文本，根據(jù)事先指定的資源類型作進一步的分析和處理。采用的XML文件保存正則表達式模板可以方便擴展和修改而無需修改程序本身。通過程序自動標識采集頻率可以很好地滿足資源的時效性。在結果處理上也實現(xiàn)了多樣式，可以滿足不同客戶的需要?；谡齽t表達式設計實現(xiàn)的Web資源采集系統(tǒng)可以根據(jù)客戶需要定制不同的采集模板，可以為廣大的用戶提供大量有價值的Web資源。

參考文獻：

[1] 劉家真.電子文件管理理論與實踐[M].北京:科學出版社，2003.

[2] 楊道玲.Web資源采集與保存研究[D].武漢:武漢大學，2005.

[3] Abitebou S，F(xiàn)irst A.Experience in Archiving the French Web[EB/OL].2004-05-24.http://www.sc.huji.ac.il/course/2002/sdbi/pagers/web-archiving.pdf.

[4] (美)佛瑞德(Friedl，J.E.F.).精通正則表達式[M].3版.余晟，譯.北京:電子工業(yè)出版社，2007:1-34．

電腦知識與技術2008年31期

電腦知識與技術的其它文章: 信息技術教學中“情感態(tài)度價值觀”的研究; Ｍａｔｌａｂ在電路分析教學中的應用; 基于Ｗｉｎｄｏｗｓ系統(tǒng)的Ｍｏｏｄｌｅ教學平臺構建; 混合學習模式在Ｐｈｏｔｏｓｈｏｐ教學中的應用; 協(xié)同電子商務的信息服務對策分析; 基于單總線數(shù)字傳感器的溫度控制系統(tǒng)原理及應用