999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于正則表達式的Web資源采集系統(tǒng)的設計與實現(xiàn)

2008-12-31 00:00:00馬建華李賽紅
電腦知識與技術 2008年31期

摘要:介紹了Web資源類型和采集策略中的對采集質量有影響的因素。設計實現(xiàn)了一套基于正則表達式的Web資源采集系統(tǒng),系統(tǒng)具有靈活的可擴展性和可配置性,重點介紹了采集系統(tǒng)結構和采集技術。

關鍵詞:正則表達式;采集;Web資源

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)31-0888-02

To Detect Intranet Worms Using Network Flow Technologies

MA Jian-hua,SHAO bin,LI Sai-hong

(Department of Educational Technology,Nanjing Normal University,Nanjing 210097,China)

Abstract: In this pager the Web Resources on the type and acquisition strategy in the quality of the collection to influential factors are introduced. A Web Resource Collection System based on a set of Regular Expressions is designed. The system is flexible, scalable and configurable, focus on the collection system structure and collection technology.

Key words: regular expression; collection; web resources

1 引言

隨著互聯(lián)網(wǎng)信息的持續(xù)爆炸性增長,網(wǎng)絡能夠為我們提供無窮的數(shù)據(jù),像實時新聞、大型論壇或一些資源網(wǎng)站每天都會提供大量的新的數(shù)據(jù)。但面對這些雜亂無章的數(shù)據(jù)我們一般人又束手無策。對于每個企業(yè)來說,互聯(lián)網(wǎng)上都會有他們感興趣的數(shù)據(jù)。作為一個企業(yè)的決策者,需要知道競爭對手的一些情報為企業(yè)的下一步?jīng)Q策作參考;作為一個網(wǎng)站的管理員,不希望手工錄入大批量的文章或資料,而希望能夠從一些站點上自動抓取數(shù)據(jù)并放入數(shù)據(jù)庫中;企業(yè)的銷售人員希望能夠獲得大量的目標客戶的聯(lián)系信息,從而能夠擴大銷售量等等。如何從互聯(lián)網(wǎng)上抓取定向大批量的數(shù)據(jù)成為一個重要問題。

2 Web資源介紹

自1990年代以來,隨著因特網(wǎng)和Web技術的迅速發(fā)展與普及,一些與網(wǎng)絡有關的新名詞、新概念不斷出現(xiàn),如網(wǎng)絡游戲、網(wǎng)絡經(jīng)濟等等。Web資源,或稱“網(wǎng)絡資源”,越來越為人們所接納與采用,它直觀、準確而且簡潔地表達了網(wǎng)絡環(huán)境下信息資源所蘊涵的時代氣息。在此,Web資源是一個泛指概念,包括通過網(wǎng)絡發(fā)布的一切信息。

Web資源包羅萬象,幾乎函蓋了所有重要的人類活動信息。常見的Web資源可分為如下幾類:

網(wǎng)絡出版物:包括電子書籍、網(wǎng)絡報紙、電子期刊,其中很多免費向用戶提供。據(jù)統(tǒng)計[1],在因特網(wǎng)上,1991年有電子期刊l10種,1993年240種,1994年400種,1995年近700種,1996年千余種,而1998年則達到萬余種。

數(shù)據(jù)庫:有資料統(tǒng)計,1997年有3000多種數(shù)據(jù)庫通過因特網(wǎng)直接為用戶提供信息檢索服務,這些數(shù)據(jù)庫的內容涉及不同領域和專業(yè),其中大多數(shù)可以免費使用。在網(wǎng)絡環(huán)境下,數(shù)據(jù)庫生產(chǎn)商將其產(chǎn)品聯(lián)入因特網(wǎng),從而降低了成本,提高了資源的利用率。同時,數(shù)據(jù)庫作為高質量的學術、商業(yè)、政府和新聞信息的重要來源,以其可靠的信息來源,成為Web資源中非常重要的一部分。

動態(tài)信息:如政府機構發(fā)出的消息、政策法規(guī)、會議信息、論文集、研究成果、項目進展報告、產(chǎn)品目錄、廣告等。

其他類型信息:除上面三種之外,電子郵件、電子公告、新聞組、用戶組也成為信息交流的重要渠道,其內容也成為Web資源的重要組成部分。

3 采集策略

Web資源采集,說到底需要解決三個根本性問題:一是確定采集范圍;二是選擇采集方式;三是確定采集頻率。這三者直接關系到被采集對象是否與預期目標一致。采集范圍的確定主要包括確定采集級別、劃定歸檔Web空間與選擇采集對象等方面。采集級別是Web資源采集的總指導原則;歸檔Web空間的劃定是從大的范圍來說,即哪些網(wǎng)站可以作為采集對象,Web空間的劃定必須有一個明確的規(guī)則,否則就會造成采集對象的混亂。采集對象的選擇是具體到所劃定的網(wǎng)絡空間內,到底哪些Web資源值得保存,哪些不需要保存。而采集對象的選擇與采集方式是聯(lián)系在一起的。使用不同的采集方式,所采集的內容范圍也會不同。而且,網(wǎng)絡一直處于不斷變化、更新的動態(tài)環(huán)境之中。由于各個網(wǎng)頁的更新頻率不同,需要調整采集頻率,以保持同步,否則就可能遺漏很多重要的Web資源。因此,如何確定采集頻率,最大限度地避免Web資源的遺失,也是值得思考的一個問題。

3.1 采集/獲取方式

采集對象的選擇是與采集方式極為相關的,使用不同的采集方式,結果采集的內容也會不同。目前用于Web資源的采集,主要有以下5種采集方式:捐贈、呈繳、選擇性采集、全采集、聯(lián)合方法等[2]。其中,前兩種是被動的獲取,后面三種是主動的獲取方式。這里重點介紹選擇性采集。

所謂選擇性采集,即根據(jù)Web資源的歷史價值、文化價值、研究價值和經(jīng)濟價值,主要以人工方法有選擇性地對Web內容進行甄別、采集。選擇性采集對所保存的每一項主題都經(jīng)過認真的價值評估,并確定了哪些資源應該優(yōu)先采集,因而保證了較高的采集質量,并能跟蹤網(wǎng)站變化確定不同的采集頻率。

3.2 采集頻率

由于需要采集的網(wǎng)絡文獻數(shù)據(jù)量非常巨大,每一次完整捕獲要持續(xù)數(shù)月。一般認為自動獲取每6個月采集一次是比較合適的,這個時間間隔對于一些穩(wěn)定、不會隨時更新的網(wǎng)站來說是可行的,但是有許多網(wǎng)頁的壽命極為短暫,在這段時間內可能有許多網(wǎng)頁發(fā)生變更或被刪除。還有一些新聞網(wǎng)站,顯然按6個月的頻率是不可行的。所以最好的解決措施是對不同的網(wǎng)站類型分別計算其更新頻率,以保證采集頻率與之同步。例如,日報需要每天采集,周報每周采集一次,大選或發(fā)生重大事件期間需要增加對某些網(wǎng)站的采集頻率。也可以讓機器人自動測試網(wǎng)頁更新的頻率,從而在適當?shù)臅r間及時采集。英國國家圖書館規(guī)定,政府網(wǎng)站采集頻率的確定要區(qū)分不同的部門,例如國防與外交部、首相辦公室等部門網(wǎng)站要一周采集一次,其他政府部門至少6個月采集一次[3]。

4 系統(tǒng)實現(xiàn)

實現(xiàn)系統(tǒng)的關鍵是配置正確的正則表達式模板,模板用XML保存。由于正則表達式(Regular Expression)的簡單高效[4],在Web資源采集時可以輕而易舉地采集到想要的資源。針對同一類型的資源書寫相應的正則表達式模板即可。在寫正則表達式時需要細心,一不小心就可能導致無法匹配,可以借助相應的書寫工具,比如Match Tracer。在寫好正則表達式匹配模板后指定結果保存介質,可以是數(shù)據(jù)庫、文本文件、XML或其它常用的文本格式。其功能模塊主要包括:初始化模塊、資源下載模塊、資源匹配模塊和資源保存模塊,系統(tǒng)架構如圖1所示。

4.1 系統(tǒng)初始化

初始化部分加載要下載的資源任務,這些任務都是經(jīng)過人工篩選的,有一定的價值的網(wǎng)址。隨后加載之前已經(jīng)寫好的正則表達式匹配模板,用XML保存的好處也是方便擴展,如果網(wǎng)站的資源有變化,可以隨時改變XML文件而不需要重寫程序。最后是分配指定的線程,這樣可以加快資源的采集進度,其中加入了線程池提供線程的管理功能。

4.2 資源下載匹配

在分配到一個任務后,線程下載指定的網(wǎng)頁,將接收到的網(wǎng)頁源碼交給資源匹配模塊。資源匹配模塊根據(jù)加載的匹配模板逐一匹配,如果能找到匹配結果而且目標結果是文本格式的則將這些結果交給資源保存模塊直接保存;如果是二進制的,比如擴展名為.exe、.gif、.pdf等格式的文件則需要交給線程將資源從遠程服務器下載到本地并把路徑保存至指定的介質中方便查找。圖2為Web資源采集流程圖。

4.3 結果保存

將匹配模塊中的匹配結果存放至指定的保存至指定的介質。保存介質可以是數(shù)據(jù)庫、文本格式等,多種格式極大地滿足了客戶的需要。

5 結束語

運用正則表達式的某種模式可以快速地匹配出目標文本,根據(jù)事先指定的資源類型作進一步的分析和處理。采用的XML文件保存正則表達式模板可以方便擴展和修改而無需修改程序本身。通過程序自動標識采集頻率可以很好地滿足資源的時效性。在結果處理上也實現(xiàn)了多樣式,可以滿足不同客戶的需要?;谡齽t表達式設計實現(xiàn)的Web資源采集系統(tǒng)可以根據(jù)客戶需要定制不同的采集模板,可以為廣大的用戶提供大量有價值的Web資源。

參考文獻:

[1] 劉家真.電子文件管理理論與實踐[M].北京:科學出版社,2003.

[2] 楊道玲.Web資源采集與保存研究[D].武漢:武漢大學,2005.

[3] Abitebou S,F(xiàn)irst A.Experience in Archiving the French Web[EB/OL].2004-05-24.http://www.sc.huji.ac.il/course/2002/sdbi/pagers/web-archiving.pdf.

[4] (美)佛瑞德(Friedl,J.E.F.).精通正則表達式[M].3版.余晟,譯.北京:電子工業(yè)出版社,2007:1-34.

主站蜘蛛池模板: 亚洲午夜福利在线| 一区二区午夜| 免费Aⅴ片在线观看蜜芽Tⅴ | 欧美综合成人| 亚洲一级毛片免费看| 亚洲国产精品成人久久综合影院| 欧美成人免费| 波多野结衣AV无码久久一区| 激情综合激情| 55夜色66夜色国产精品视频| 波多野结衣第一页| 免费a在线观看播放| 黑人巨大精品欧美一区二区区| 国产成人在线小视频| 白浆免费视频国产精品视频| 在线一级毛片| 午夜一区二区三区| 欧美97欧美综合色伦图| 欧美伦理一区| 国产成人精品第一区二区| 国产精品永久久久久| 伊人AV天堂| 亚洲 成人国产| 国产亚洲第一页| 欧美日韩成人| 精品夜恋影院亚洲欧洲| 精品国产成人高清在线| 不卡视频国产| 国产午夜看片| 国产在线91在线电影| 久久精品国产91久久综合麻豆自制| AV无码国产在线看岛国岛| 天天爽免费视频| 中文字幕 日韩 欧美| 2048国产精品原创综合在线| 亚洲第一精品福利| 国产精品粉嫩| 男人天堂亚洲天堂| 国产高清免费午夜在线视频| 无码国产偷倩在线播放老年人| 91麻豆国产视频| 538国产视频| jizz国产视频| 伊人成人在线视频| 国产精品浪潮Av| 免费在线一区| 亚洲综合色吧| 国产精品毛片在线直播完整版| 黄色网在线| 波多野结衣的av一区二区三区| 国产青青草视频| 一级毛片免费的| 亚洲精品片911| 国产一区二区三区在线精品专区| 亚洲国产成人在线| 91精品国产自产在线观看| 波多野结衣在线一区二区| 91精品网站| 国产最爽的乱婬视频国语对白| 在线免费看黄的网站| 欧美日本在线观看| 国产午夜不卡| 理论片一区| 日韩精品久久无码中文字幕色欲| 最新午夜男女福利片视频| 色网在线视频| 91精品免费高清在线| 欧美精品伊人久久| 午夜色综合| 一级毛片不卡片免费观看| 亚洲毛片在线看| 成色7777精品在线| 久久永久视频| 国产精品无码一二三视频| 九九久久精品免费观看| 精品视频第一页| 午夜电影在线观看国产1区| 日本精品视频一区二区| 国产手机在线小视频免费观看| 全部无卡免费的毛片在线看| 国产精女同一区二区三区久| 国产69囗曝护士吞精在线视频|