高青青
摘要:本文試圖從一些特定的領域來闡述網絡信息計量學的發展成果和可供發展的方向,主要包括了搜索引擎、網頁分布以及網絡信息的計量(即影響因子)等方面。筆者認為在目前的網絡環境和技術條件下,對網絡信息的計量顯得困難重重,但隨著研究的不斷深入和研究工作者的不懈努力,網絡信息計量學仍然可以取得長足發展并付之實踐。筆者同時認為網絡信息計量的前提是對網絡結構的計量研究,其中,圖論和拓撲結構是很重要的工具。
關鍵詞:網絡信息計量;搜索引擎;影響因子;圖論分類號:G350
引言
自20世紀90年代中期以來,對互聯網的性能方面的研究日益增多,并于初期將其命名為網絡文本研究,它主要是把現在信息計量學運用于互聯網信息的內容、鏈接構成以及搜索引擎等方面。1997年正式將這一研究領域稱為網絡信息計量學,英文名稱為“webometrics”或“cybermetrics”[1] 。本文闡述了最近業內對網絡信息搜索的研究,并對網頁的鏈接和網絡文獻的影響因子進行了研究,而且筆者還簡述了圖論與拓撲學在網絡結構研究中的重要作用,希望能從中找出一些具有價值的研究方向。
1網絡搜索引擎的查準率與查全率的研究
搜索引擎是網上的導航工具,它是通過采集、標引眾多網絡站點來提供全局性網絡資源控制與檢索機制,并對全球網絡中所有的信息資源進行集合、整理和分配,方便用戶查找所需的信息。雖然搜索引擎越來越多,功能越來越完善,但查全率、查準率、可到達性等都不能盡如人意。這些可以通過網絡信息計量的研究結果加以改善。
1997年12月,AltaVista、HotBot、NorthernLight、Excite、Lycos和 Infoseek六個商業網絡搜索引擎全面運行,共索引了32億個網頁,但這同時也表明了任何一個網絡搜索引擎的檢全率都愛到極大的限制,單個搜索引擎最多只能檢索網頁總量的1/3[2]。之所以如此,原因很多,例如搜索引擎對本站服務器的深入訪問必將受到該網站的結構的限制,不同的檢索策略與不同的檢索詞也會關系到搜索引擎的檢全率。目前學術界對搜索引擎的研究和報道主要集中于網絡的各個站點和網頁的鏈接兩個方面,這很現實地把研究重點對準了搜索引擎的覆蓋面,說明了搜索引擎的在時間上的序列性與連續性。例如英國文獻學家Ingwersen以及Snyder 和 Rosenbaum等人就著重對AltaVista覆蓋范圍內的網頁和站點的鏈接結構進行了研究,并提出了搜索引擎應該聯合起來以促進信息的共享[3]。筆者亦認為這是可行的。搜索引擎的聯合有利于對信息的量化,對信息的規范起來了保障作用。同時,搜索引擎在信息網站的選擇上也應該有選擇地覆蓋,這樣可以很好的避免信息量大但實用性小的現象,對搜索引擎的檢準率是一個很大的幫助。
2網頁分布的研究
計算機專家Cronin和McKim提到“網絡正在改變著學術交流,任何新的學術理論和著作很快便能在網上共享,我們應該感謝計算機網絡”[4]。然而,怎么促進網絡信息的更好交流,則需要對各網絡站點結構進行量化分析,得出網絡結構及其迅速增長的模型,只有如此才能正確地比量出網絡信息與網絡高速公路的關聯。這些正是網絡信息計量研究者們需要做的工作。
網絡的結構是各網絡站點相互鏈接的反映,而網絡鏈接又使網絡文獻呈現出各種聚類關系,促使各網站間存在著復雜的引用關系。網絡信息計量學的一個重要研究內容便是網絡中的Web網頁之間的鏈接引用關系以及同被引與引文耦關系,最終用以揭示站點之間的相關性。互聯網是一個由節點和鏈構成的信息資源網絡,是一個非純屬結構的超文本系統,不僅適合表達多媒體信息資源,還善于構造和表示網絡信息資源之間的多方面、多層次的復雜關系。
有關網絡結構的研究,涉及到計算機、人工智能、拓撲學、社會學、圖論等多種學科、領域的知識。一方面各個領域的研究者不得不吸收其它領域的研究方法,而另一方面又使不同領域的研究者都能找到研究切入點。最后導致的結果就是這方面的研究者和研究方法的構成最大化,也是最容易引起爭議的研究領域,成為各個相關學科的“必爭之地”。
3網頁影響因子分析
1997年,Rousseau在他的文章“Stations:An Exploratory Study”中分析了網絡站點的分布與內部鏈接情況。他與后來的Ingwersen一樣使用了舊版本的AltaVista進行統計研究,他利用“信息計量學+文獻計量學+科學計量學”搜索出了共343個相關網頁,通過分析研究,他不僅發現了網絡各搜索引擎具有相對獨立性,更重要的是他的研究顯示這些網頁的分布都符合洛特卡定律[5]。
Ingwersen通過對某一國家網站的研究,試圖從網絡影響因子(Web Impact Factors,Web-IF)來說明網頁鏈接之間的關系[6]。他的主要研究成果體現在三個方面:1)每一個搜索引擎都不可能全部搜集網站,但很多網站的信息都已經被鏈接進來,自鏈接不會影響到總體的影響因子?!?com”域名的網絡站點的影響因子大約是0.5,但平均影響因子只有0.39;2)某一域名站點的影響因子比其域名網絡的影響因子更可靠,而且可以從前者推導出后者;3)通過差異計算可以評價一個搜索引擎的好壞。
此后還有很多學者對網頁影響因子進行了大量的研究,但都沒能得出一個統一而又具體的標準和計量方法,這也正體現了網絡信息計量的復雜性。
其實,就目前網絡的規范程度,要對網頁進行很實用的影響因子評價還不太具備可操作性。首先,網頁的量太大,網絡的飛速發展使得網頁的數量急劇增長,個人主頁、主題頁(某一主題的專指網頁)、各機構性主頁、指南頁、資源頁等各種網頁都在不斷地增多,而且新的網頁類型也在產生;然后,網頁的內容也多樣化,不僅哪方面的都有,而且形式也很多樣,有視頻的、音頻的、文字的等等,而且這些內容的產生程序也各不相同。
4用圖論來理解網絡信息計量學
圖論(Graph Theory)是數學的一個分支。它以圖為研究對象。圖論中的圖是由若干給定的點及連接兩點的線所構成的圖形,這種圖形通常用來描述某些事物之間的某種特定關系,用點代表事物,用連接兩點的線表示相應兩個事物間具有這種關系。圖論多用于描述社會關系、生態鏈以及Internet網絡等關系網絡,在信息計量學中,圖論也發揮了重要作用,例如在引文關系和概念分類系統等方面。理所當然,圖論也能在網絡信息計量中發揮重要角色,一般的,我們可以用點來表示網頁或網絡文獻,用線來描繪鏈接關系。
利用圖論可以很好地對網絡結構進行分析。2000年,布羅德(Broder)等人首先利用圖論得出了一個針對網絡的結構模型[7]。并且他們利用該模型建立了一個包含2億網頁和15億鏈接的數據庫,通過研究分析,他們把這些網頁分成了五個完全不同的類型:外鏈性網頁,內鏈性網頁,內外鏈綜合性網頁,零鏈接的網頁與指示性網頁。他們所建立的模型與數據庫在網絡結構的研究方面價值很大,為人們弄清網絡復雜的鏈接關系提供了很好的基礎。
圖論的發展過程中,衍生出了一種專門用于計算機領域的學科即拓撲學。在網絡領域里,拓撲結構得到完美的運用,我們完全也可以把它當成是網絡信息計量的一種運用。目前網絡信息的計量問題主要還是集中在網絡文獻(或網頁)的分布研究上,從上文中可以看出,網頁的影響因子的研究還很粗淺,筆者認為,在弄清網頁的結構并對其結構有一定的理論基礎之前,網絡信息的計量問題很難取得實質性的進展。因此,利用圖論的拓撲學的相關方法和理論來加強對網絡的結構研究將會是奠基性工作,這也會是一大難點。
筆者之所以認為對網絡結構的研究才是當前最重要的網絡信息計量工作主要是因為當前學術界所持的網絡信息計量研究的幾個重點都寓于其中。網絡媒體信息本身的計量研究的實質就是對網絡結構的具體研究,各種媒體信息的具體分布,各數據庫的組織結構等都和網絡結構息息相關;網上文獻信息的計量分析主要是考慮著者與文獻的分布、文獻的增長與老化規律以及引文分析,在這幾個因素中,網絡結構都起到了支配作用;網頁影響因子與數據庫中的知識發現的進行也很顯然是網絡結構基礎上的研究工作。因此,加強對網絡結構的研究將是網絡信息計量的突破口。
5結語
顯然,本文所闡述很多都是學術界一致的成果表達,但就筆者看來,當今的網絡信息是屬于“失控”局面,即不能有一種完善的辦法對其進行計量統計。要用一種模式把網絡上全部形式的信息都聯系在一起不僅技術和理論上都還沒達到這個水平,而且基礎設施方面也很欠缺;但筆者相信,只要從根本著手,能夠對網絡結構進行量化統計表述,網絡信息的計量問題也就迎刃而解了,為此,筆者認為圖論與拓撲結構是很好的研究工具。
參考文獻:
[1]邱均平,張洋.網絡信息計量學綜述[J].高校圖書館工作,2005(1):1-12.
[2]LAWRENCE, C L GILES.Searching the World Wide Web[J]. Science, 280:98-100.
[3]Ingwersen P. The Calculation of Web Impact Factors[J].Journal of Documentation, 1998, 54 (2):236-243.
[4]Cronin, G. Mckim.Science and scholarship on the World Wide Web:A North American Perspective[J].Journal of Documentation,1996,(52):163-172
[5]R Rousseau.Sitations:An Exploratory Study[J].Cybermetrics,1997,(1):175-181.
[6]Ingwersen P. The Calculation of Web Impact Factors[J].Journal of Documentation, 1998, 54(2):236-243.
[7]BRODER. Graph structure in the Web[J]. WWW9 Conference.2000.http://www.almaden.ibm.com/cs/k53/www9.final;visited08.11.2000.