Ｗｅｂ２．０環境下的網絡信息檢索研究

2008-12-31 00:00:00李建輝鄧朝暉

電腦知識與技術 2008年25期

摘要：Web2.0網站在現有網站中的比例越來越高，其具有的互動性、提倡個人體驗等特點給信息搜索帶來了新的挑戰。該文分析了Web2.0的特點，指出Web2.0的某些特點會導致很多信息隱蔽化，并從隱蔽信息檢索的角度嘗試性地提出了解決辦法。

關鍵詞： Web2.0；隱蔽化；信息檢索

中圖分類號：TP393文獻標識碼：A文章編號：1009-3044(2008)25-1404-03

Information Search of Web 2.0 Websites

LI Jian-hui1， DENG Zhao-hui2

(1. Yueyang Radio and TV University， Yueyang 414000， China; 2. Chenzhou Vocational Technical College， Chenzhou 423000， China)

Abstract: With the development of IT technology，Web 2.0 websites rages a high percentage. Web 2.0 features as interactive and individual experience，which bring new challenges to the existing information search. This paper analyzes the features of Web 2.0，which contribute to make the website invisible，and then puts forward some solutions to better existing search technology.

Key words: Web 2.0; Invisible; Information Search

1 Web2.0的特點

Web2.0的概念始源于Tim Reilly和MediaLive International分會。Web2.0作為一個新的商業概念，根據會議的觀點，具有自由平臺、集體智慧、用戶體驗等七個特征[1]。

國內和國外學者對于Web2.0有不少研究，但是對其實質還沒有統一的理解。Web2.0在學術界和實際工作領域有不同的內涵和外延，至今沒有清晰的定義。技術研究者眼中的Web2.0是SNS、BLOG、RSS等社會性軟件的繁榮昌盛；blogger認為Web2.0是人與人之間更個性更便捷的互動；而在風險投資商眼中，Web2.0代表了新商業的規則逐漸形成[2]。

為便于分析，本文所指的Web2.0是相對Web1.0的新一類互聯網應用的統稱。是以Flickr、43Things.com等網站為代表，以Blog、TAG、SNS、RSS、Wiki等社會軟件的應用為核心，依據六度分隔、xml、ajax等新理論和技術實現的互聯網新一代模式。Web2.0具有個性化服務、用戶參與、集體智慧和網絡社區等特點。

Web1.0到Web2.0的轉變，模式上，是從讀向寫、信息共同創造的一個改變；基本結構上，則由網頁向發表和展示工具的演變；轉變工具上，是由互聯網瀏覽器向各類瀏覽器、RSS閱讀器等內容的發展；運行機制上，由Client service向Web service的轉變，互聯網內容的締造者也由專業人士向普通用戶拓展。

Web2.0使互聯網絡用戶從信息接受者轉變成為信息制造者和傳播者，從受眾轉向主體，從個體轉向社團的新型互聯網服務模式與理念，其成型的核心應用主要有Blog、WIKI、RSS、SNS、Podcast等。

1.1 Blog

Blog是Webblog的簡稱，是個人或群體以時間順序所作的一種記錄，并且不斷更新。用戶以網絡日志的形式簡易迅速地發布自己的心得，及時有效地與他人進行交流，簡單使用與維護網站。

對知識管理和創造而言，Blog提供了新的形態和途徑。從交往形態考察，網志空間設定了積極的讀者、作者、編者互動轉換關系，針對一定的話題和讀者創造信息。

1.2 WIKI

WIKI：百科全書，是一種多人協作的寫作工具。這種超文本系統支持面向社群的協作式寫作，同時也包括一組支持這種寫作的輔助工具。WIKI的寫作者構成了一個社群，WIKI系統為這個社群提供簡單的交流工具。與其它超文本系統相比，WIKI有使用方便及開放的特點，可以在一個社群內共享某領域的知識。

1.3 RSS

RSS是站點用來和其它站點之間共享內容的一種簡易方式。它能夠把網站內容如標題、鏈接、部分內容甚至全文轉換為可延伸標示語言的格式。

RSS搭建了信息迅速傳播的一個技術平臺，使得每個人都成為潛在的信息提供者。發布一個RSS文件后，包含的信息就能直接被其它站點調用。

1.4 SNS

SNS：社會網絡。理論依據是六度分隔理論，通過互聯網的方式，可以將人際關系網的資源完全挖掘出來。在SNS的幫助下，可以輕松認識“朋友的朋友”，擴展自己的人脈，還可以更科學地管理人際網絡資源。

SNS這種新興的網絡社交方式一出現，迅速流行歐美國家，已經成為精英階層拓展人際關系的主要方式之一。

1.5 Podcast

Podcast：播客，它是收音機、ipod、博客和寬帶互聯網的集體產物。它是數字廣播技術的一種，與一些便攜播放器相結合而實現，是一種在互聯網上發布音頻內容并允許用戶訂閱feed以自動接受新文件的方法，它使用RSS2.0文件格式傳送并允許個人進行創建與發布。

2 Web2.0網站信息的隱蔽化

隱蔽網絡，也稱不可見網絡（Invisible Web）或深網（Deep Web），是一個與可見網絡相對應的概念。最初由Dr. Jill Ellsworth于1994年提出，意指那些普通搜索引擎難以發現的信息內容。2001年，Christ Sherman和Gary Price合著《隱蔽網絡：揭開搜索引擎看不到的信息源》，將隱蔽網絡定義為：雖然通過互聯網可以獲取，但普通搜索引擎由于受技術限制而不能，或者經審慎考慮后而不作索引的那些文本頁、文件或其他通常是高質量、權威的信息[3]。

隱蔽網絡所儲存的信息有7500TB，可見網絡所儲存的信息有19TB，隱蔽網絡所儲存的信息是可見網絡的440~550倍。當前存在超過20000個隱蔽網絡站點。60個最大的隱蔽網絡站點擁有大約750TB的信息，一半以上的隱蔽網絡站點內容存在于主題數據庫中，95%的隱蔽網絡信息是公開的，不需付費和訂閱。發表在《自然》雜志的一份日本NEC公司研究院的研究報告估計，具有最大搜索能力的Google 和Northern Light也只能搜索到全部網絡信息的0.03%[4]。

Chris Sherman和Gary Price（2001）認為產生隱蔽網絡的原因有技術和非技術兩個因素[5]。非技術因素是指搜索引擎開發公司出于費用方面的考慮，不愿意索引某些網絡內容。技術因素主要有：1) 普通搜索引擎對非ASCII文本格式的內容，如Postscript、Flash、影音文件、壓縮文件等進行索引時存在困難；2) 社區論壇、數據庫入口處設置的賬號、口令等提問是機械式搜索引擎難以跨越的障礙。

Michael K. Bergman（2004）將隱蔽網絡劃分為陰暗網絡（the opaque Web）、私人網絡（the private Web）、專有網絡（the proprietary Web）、真正的隱蔽網絡（the truly invisible Web）等4種類型[6]。

2.1 不透明網絡

不透明網絡是指搜索引擎可以索引但沒有索引的網頁，主要由以下幾個因素造成：1) 搜索深度，受經濟因素制約，搜索引擎只搜索一定深度的網頁，超過搜索深度但有價值的網頁就成為了不透明網絡；2) 搜索的最大數，即使在搜索深度之內搜索的網頁數也有可能超過其最大容量，超過容量部分就成為不透明網絡；3) 搜索頻率，互聯網上的信息日新月異，而搜索引擎的搜索速度有限，新出現的網站（頁）也就成為不透明網絡。

2.2 私人網絡

私人網絡就是指含有個人的非公開信息、限制訪問的網頁，其形成原因主要有：1) 網站口令的設置，目前許多私人網站需要注冊并使用用戶名和密碼登錄后才能訪問，這一部分內容搜索引擎難以索引；2) 知識產權的負面影響，有些網站出于保護知識產權或個人隱私的考慮，會使用“Robots.txt”協議來阻止搜索。

2.3 專有網絡

專有網絡是指只對注冊用戶開放的網頁，這部分網頁都需要用戶輸入用戶名和密碼，其資源才可被利用。機械式的搜索引擎無法填表注冊，當然也就無法索引。另外收費的商業在線信息服務商如DIALOG、OCLC、SIRS、InfoTrac等，或是在線百科全書，對于未付費的用戶來說也是不可見的[7]。

2.4 真正的隱蔽網絡

真正的隱蔽網絡主要包括非HTML格式的文檔、動態網頁、實時數據及網絡數據庫，其形成原因主要包括：1) 目前大部分搜索引擎只能索引HTML，而對于其它包含pdf、mp3、avi等格式的網頁，搜索引擎無法搜索其包含的內容；2) 搜索引擎索引動態網頁及網絡數據庫的能力有限，不能實現實時更新。

3 Web2.0使更多網站信息“隱蔽化”

Web2.0崇尚個性化的服務，用戶體驗和社會網絡，擁有用戶參與的一個“社會網絡”將包含比現有網絡更多內容的數據信息。個性化和用戶參與信息，一般都是以數據庫或其他動態的方式存在，加大了搜索引擎搜索的難度，而用戶參與的信息，出于個人隱私或個人其他方面考慮，很多是帶有訪問權限的，有些即使不帶有權限，但是沒有鏈接到其他的網站，形成了一個個孤立的信息“島嶼”，深層化和隱蔽化的程度明顯增加。

《中國Web2.0 現狀與趨勢調查報告》調研發現，高達61.7%的人認為Web2.0 帶來一個屬于自己的空間，能夠更加自由和個性化，其次才是能夠進行更好的資源和思想的分享和交流。由此可見，擁有訪問權限的“自己的空間”可能在給搜索引擎進行一般搜索的時候造成訪問權限上的阻礙。比如設置權限的msn live空間，如果拒絕RSS聯合，那么搜索引擎將無法進入空間進行有效的搜索。

其次，個性化的搜索要求已經使得現有的搜索引擎力不從心。基于一般搜索的搜索引擎，很難以再滿足顧客個性化的搜索要求。個人的信息偏好受個人的教育背景差異和興趣的影響。越來越多網民自發在網上結成不同的社區來討論和關注他們所關心的事物，從而形成一個個小的圈子。這種小的圈子，小的社區，往往是互聯網中最活躍群體，所探討的話題往往也是很深入的。但是這些是一般搜索引擎搜索不到的。

第三，法律上的障礙。對敏感信息檢索問題，法律上還沒有明確的規定。很多Web2.0的網絡按照Chris Sherman和Gary Price的分類屬于私人網絡，對這些網絡的搜索和引用在法律上尚存在盲點。

第四，Web2.0實時更新速度快，很容易造成搜索引擎在兩次搜索之間很多網頁“不透明”。根據Chris Sherman和Gary Price的搜索引擎搜索速度“大概為1-2千萬頁/天”，在大量Web2.0網頁出現的時代這樣的搜索速度很難跟上網絡的發展。

4Web2.0信息檢索對策

4.1 建立Web2.0網站選擇性指南

Web2.0具有集體智慧，網絡社區等特點，每個網站或子網站具有特定的主題。選擇性指南是一個主題指南，按照主題分類提供大量網站的鏈接。檢索精度高、資源權威、使用方便且大部分可免費獲取，用它來查找主題相對寬泛，質量相對較高，已經過選擇、評價、標注的信息資源來說效果較好，目前常用的選擇性指南包括Findlaw、InfoMine、The Invisible Web Directory及About.com等。

4.2 改進搜索技術與工具

當搜尋Web2.0的范圍比較狹窄或者是希望能利用更新的檢索技術時，可以通過一般的或專業的搜索引擎進行檢索。因為搜索引擎能根據用戶的檢索要求到各網絡數據庫進行檢索并返回符合檢索要求的資源，而不需要像目錄指南那樣一層層地去瀏覽、查詢。

但是現有的搜索技術對于Web2.0迅速更新的信息檢索還是力不從心，且往往不能檢索像Podcast形式存在的多媒體文件和由不同程序產生的非格式文件。因此必須改進現有的搜索技術：1) 發展多元搜索技術，提高檢索準確度；2) 改進常規搜索引擎，使之能夠索引更多格式的文件，研發檢索音頻、視頻的搜索技術；3) 開發各類專門搜索引擎，必要時人工處理部分信息；4) 開發部分監控技術，對Web2.0不斷產生的新信息不斷監控，側重檢索新增信息。

4.3 元數據與Web2.0相結合

元數據(Metadata)是關于數據的數據，是對網絡數據進行組織和處理的基礎。元數據的思想由來已久，都柏林核心集(Dublin Core)的不斷發展，現已經得到廣泛應用。利用元數據來標注網絡資源可以大大提高檢索效率，那么將元數據思想應用于Web2.0也就理所當然。

Web2.0很多信息都是由特定的程序產生并組織，所以在相關程序編制的時候就必須考慮采用一定的標準方便搜索引擎檢索，比如在產生的網頁上加上網頁性質描述和關鍵詞，多媒體信息以tag標簽的形式說明內容等，并嚴格按照元數據的要求組織和處理包含的信息，方便信息檢索。

4.4 提高用戶的信息素質

所謂信息素質，即指從各種信息源中檢索、評價和使用信息的能力，是影響網絡信息資源利用的一個重要方面。Web2.0用戶體驗、集體智慧等特點決定了Web2.0信息具有非權威性，對采集到的Web2.0信息的甄別也是信息檢索的一個重要內容。培養用戶的信息素質，提高其信息意識、信息能力，也是有效檢索Web2.0信息的一個重要方面。首先，提高用戶的信息意識，使其認識到自己是一個積極的“尋獵者”而非被動的“檢索者”，培養其敏銳的洞察力；其次，培養用戶的信息能力，增強其判斷、分析、查找、整理、利用信息的能力，合理有效地利用好Web2.0網絡所包含的信息。

4.5 完善網絡信息呈繳制度

從網絡信息生產的趨勢看，很多價值高、規模大的信息存在于網絡社區等數據庫中，而現在大部分的網絡機器人無法對Web2.0網絡中的Flash和Script等動態網頁和數據庫進行采集。為了解決這一問題，很多國家的網絡信息資源保存機構開始采用制度和技術兩種手段并重的方式保障Web2.0信息資源的采集和保存。在網絡環境下，由圖書館、檔案館等保存機構與網絡出版機構進行協商，將呈繳本制度擴展到網絡領域，出版社根據協議定期將被選擇的網絡信息通過物理載體移交或網絡傳遞給保存機構，或者是保存機構根據協商從出版社網站上進行鏡像復制或直接使用軟件獲取。通過呈繳的方法，可以保證所采集Web2.0信息的相對完整性，同時也避免搜索引擎在采集過程中遭遇的技術、法律等障礙。

參考文獻：

[1] 鐘焯榮，曾鳴.互聯網模式Web2.0的分析與研究[J].重慶科技學院學報，2007(3):75.

[2] 董曉常.Web2.0互聯網再次喧囂[J].互聯網周刊，2005(24):26-30.

[3] 吳志強，嚴貝妮.從隱蔽網絡到國際互聯網信息資源控制計劃[J].圖書情報工作，2004(4):82.

[4] 肖秀珍，徐昕，曾偉忠.深網內容和美國Bright Planet深網分析[J].情報探索，2007(1):21.

[5] Chris S，Gary P.The Invisible Web:Uncovering Information Sources Search Engines Can't See[J].Ariadne，2001(20):15-20.

[6] Michael K Bergman.Deep Web White Paper[EB/OL].http://brighplanet.com/technology/deepweb.asp.

[7] 婁卓男，吳志強.近幾年國外隱蔽網絡研究概述[J].圖書情報工作，2004(4):8.

電腦知識與技術2008年25期

電腦知識與技術的其它文章: 基于計算機仿真技術的電子技術教學方法探索; 論Ｅｘｃｅｌ在學生成績管理中的應用; 企業管理數字化模式探討; 分布式課件點播在遠程網絡教學中的設計與實現; ＣＡＳＥ工具國外使用問題及我們應采取的相應對策; 基于ＦＰＧＡ的ＡＢＳ系統