999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對網絡信息計量的幾點研究

2009-07-31 06:59:04高青青
科技經濟市場 2009年5期
關鍵詞:搜索引擎

高青青

摘要:本文試圖從一些特定的領域來闡述網絡信息計量學的發展成果和可供發展的方向,主要包括了搜索引擎、網頁分布以及網絡信息的計量(即影響因子)等方面。筆者認為在目前的網絡環境和技術條件下,對網絡信息的計量顯得困難重重,但隨著研究的不斷深入和研究工作者的不懈努力,網絡信息計量學仍然可以取得長足發展并付之實踐。筆者同時認為網絡信息計量的前提是對網絡結構的計量研究,其中,圖論和拓撲結構是很重要的工具。

關鍵詞:網絡信息計量;搜索引擎;影響因子;圖論分類號:G350

引言

自20世紀90年代中期以來,對互聯網的性能方面的研究日益增多,并于初期將其命名為網絡文本研究,它主要是把現在信息計量學運用于互聯網信息的內容、鏈接構成以及搜索引擎等方面。1997年正式將這一研究領域稱為網絡信息計量學,英文名稱為“webometrics”或“cybermetrics”[1] 。本文闡述了最近業內對網絡信息搜索的研究,并對網頁的鏈接和網絡文獻的影響因子進行了研究,而且筆者還簡述了圖論與拓撲學在網絡結構研究中的重要作用,希望能從中找出一些具有價值的研究方向。

1網絡搜索引擎的查準率與查全率的研究

搜索引擎是網上的導航工具,它是通過采集、標引眾多網絡站點來提供全局性網絡資源控制與檢索機制,并對全球網絡中所有的信息資源進行集合、整理和分配,方便用戶查找所需的信息。雖然搜索引擎越來越多,功能越來越完善,但查全率、查準率、可到達性等都不能盡如人意。這些可以通過網絡信息計量的研究結果加以改善。

1997年12月,AltaVista、HotBot、NorthernLight、Excite、Lycos和 Infoseek六個商業網絡搜索引擎全面運行,共索引了32億個網頁,但這同時也表明了任何一個網絡搜索引擎的檢全率都愛到極大的限制,單個搜索引擎最多只能檢索網頁總量的1/3[2]。之所以如此,原因很多,例如搜索引擎對本站服務器的深入訪問必將受到該網站的結構的限制,不同的檢索策略與不同的檢索詞也會關系到搜索引擎的檢全率。目前學術界對搜索引擎的研究和報道主要集中于網絡的各個站點和網頁的鏈接兩個方面,這很現實地把研究重點對準了搜索引擎的覆蓋面,說明了搜索引擎的在時間上的序列性與連續性。例如英國文獻學家Ingwersen以及Snyder 和 Rosenbaum等人就著重對AltaVista覆蓋范圍內的網頁和站點的鏈接結構進行了研究,并提出了搜索引擎應該聯合起來以促進信息的共享[3]。筆者亦認為這是可行的。搜索引擎的聯合有利于對信息的量化,對信息的規范起來了保障作用。同時,搜索引擎在信息網站的選擇上也應該有選擇地覆蓋,這樣可以很好的避免信息量大但實用性小的現象,對搜索引擎的檢準率是一個很大的幫助。

2網頁分布的研究

計算機專家Cronin和McKim提到“網絡正在改變著學術交流,任何新的學術理論和著作很快便能在網上共享,我們應該感謝計算機網絡”[4]。然而,怎么促進網絡信息的更好交流,則需要對各網絡站點結構進行量化分析,得出網絡結構及其迅速增長的模型,只有如此才能正確地比量出網絡信息與網絡高速公路的關聯。這些正是網絡信息計量研究者們需要做的工作。

網絡的結構是各網絡站點相互鏈接的反映,而網絡鏈接又使網絡文獻呈現出各種聚類關系,促使各網站間存在著復雜的引用關系。網絡信息計量學的一個重要研究內容便是網絡中的Web網頁之間的鏈接引用關系以及同被引與引文耦關系,最終用以揭示站點之間的相關性。互聯網是一個由節點和鏈構成的信息資源網絡,是一個非純屬結構的超文本系統,不僅適合表達多媒體信息資源,還善于構造和表示網絡信息資源之間的多方面、多層次的復雜關系。

有關網絡結構的研究,涉及到計算機、人工智能、拓撲學、社會學、圖論等多種學科、領域的知識。一方面各個領域的研究者不得不吸收其它領域的研究方法,而另一方面又使不同領域的研究者都能找到研究切入點。最后導致的結果就是這方面的研究者和研究方法的構成最大化,也是最容易引起爭議的研究領域,成為各個相關學科的“必爭之地”。

3網頁影響因子分析

1997年,Rousseau在他的文章“Stations:An Exploratory Study”中分析了網絡站點的分布與內部鏈接情況。他與后來的Ingwersen一樣使用了舊版本的AltaVista進行統計研究,他利用“信息計量學+文獻計量學+科學計量學”搜索出了共343個相關網頁,通過分析研究,他不僅發現了網絡各搜索引擎具有相對獨立性,更重要的是他的研究顯示這些網頁的分布都符合洛特卡定律[5]。

Ingwersen通過對某一國家網站的研究,試圖從網絡影響因子(Web Impact Factors,Web-IF)來說明網頁鏈接之間的關系[6]。他的主要研究成果體現在三個方面:1)每一個搜索引擎都不可能全部搜集網站,但很多網站的信息都已經被鏈接進來,自鏈接不會影響到總體的影響因子?!?com”域名的網絡站點的影響因子大約是0.5,但平均影響因子只有0.39;2)某一域名站點的影響因子比其域名網絡的影響因子更可靠,而且可以從前者推導出后者;3)通過差異計算可以評價一個搜索引擎的好壞。

此后還有很多學者對網頁影響因子進行了大量的研究,但都沒能得出一個統一而又具體的標準和計量方法,這也正體現了網絡信息計量的復雜性。

其實,就目前網絡的規范程度,要對網頁進行很實用的影響因子評價還不太具備可操作性。首先,網頁的量太大,網絡的飛速發展使得網頁的數量急劇增長,個人主頁、主題頁(某一主題的專指網頁)、各機構性主頁、指南頁、資源頁等各種網頁都在不斷地增多,而且新的網頁類型也在產生;然后,網頁的內容也多樣化,不僅哪方面的都有,而且形式也很多樣,有視頻的、音頻的、文字的等等,而且這些內容的產生程序也各不相同。

4用圖論來理解網絡信息計量學

圖論(Graph Theory)是數學的一個分支。它以圖為研究對象。圖論中的圖是由若干給定的點及連接兩點的線所構成的圖形,這種圖形通常用來描述某些事物之間的某種特定關系,用點代表事物,用連接兩點的線表示相應兩個事物間具有這種關系。圖論多用于描述社會關系、生態鏈以及Internet網絡等關系網絡,在信息計量學中,圖論也發揮了重要作用,例如在引文關系和概念分類系統等方面。理所當然,圖論也能在網絡信息計量中發揮重要角色,一般的,我們可以用點來表示網頁或網絡文獻,用線來描繪鏈接關系。

利用圖論可以很好地對網絡結構進行分析。2000年,布羅德(Broder)等人首先利用圖論得出了一個針對網絡的結構模型[7]。并且他們利用該模型建立了一個包含2億網頁和15億鏈接的數據庫,通過研究分析,他們把這些網頁分成了五個完全不同的類型:外鏈性網頁,內鏈性網頁,內外鏈綜合性網頁,零鏈接的網頁與指示性網頁。他們所建立的模型與數據庫在網絡結構的研究方面價值很大,為人們弄清網絡復雜的鏈接關系提供了很好的基礎。

圖論的發展過程中,衍生出了一種專門用于計算機領域的學科即拓撲學。在網絡領域里,拓撲結構得到完美的運用,我們完全也可以把它當成是網絡信息計量的一種運用。目前網絡信息的計量問題主要還是集中在網絡文獻(或網頁)的分布研究上,從上文中可以看出,網頁的影響因子的研究還很粗淺,筆者認為,在弄清網頁的結構并對其結構有一定的理論基礎之前,網絡信息的計量問題很難取得實質性的進展。因此,利用圖論的拓撲學的相關方法和理論來加強對網絡的結構研究將會是奠基性工作,這也會是一大難點。

筆者之所以認為對網絡結構的研究才是當前最重要的網絡信息計量工作主要是因為當前學術界所持的網絡信息計量研究的幾個重點都寓于其中。網絡媒體信息本身的計量研究的實質就是對網絡結構的具體研究,各種媒體信息的具體分布,各數據庫的組織結構等都和網絡結構息息相關;網上文獻信息的計量分析主要是考慮著者與文獻的分布、文獻的增長與老化規律以及引文分析,在這幾個因素中,網絡結構都起到了支配作用;網頁影響因子與數據庫中的知識發現的進行也很顯然是網絡結構基礎上的研究工作。因此,加強對網絡結構的研究將是網絡信息計量的突破口。

5結語

顯然,本文所闡述很多都是學術界一致的成果表達,但就筆者看來,當今的網絡信息是屬于“失控”局面,即不能有一種完善的辦法對其進行計量統計。要用一種模式把網絡上全部形式的信息都聯系在一起不僅技術和理論上都還沒達到這個水平,而且基礎設施方面也很欠缺;但筆者相信,只要從根本著手,能夠對網絡結構進行量化統計表述,網絡信息的計量問題也就迎刃而解了,為此,筆者認為圖論與拓撲結構是很好的研究工具。

參考文獻:

[1]邱均平,張洋.網絡信息計量學綜述[J].高校圖書館工作,2005(1):1-12.

[2]LAWRENCE, C L GILES.Searching the World Wide Web[J]. Science, 280:98-100.

[3]Ingwersen P. The Calculation of Web Impact Factors[J].Journal of Documentation, 1998, 54 (2):236-243.

[4]Cronin, G. Mckim.Science and scholarship on the World Wide Web:A North American Perspective[J].Journal of Documentation,1996,(52):163-172

[5]R Rousseau.Sitations:An Exploratory Study[J].Cybermetrics,1997,(1):175-181.

[6]Ingwersen P. The Calculation of Web Impact Factors[J].Journal of Documentation, 1998, 54(2):236-243.

[7]BRODER. Graph structure in the Web[J]. WWW9 Conference.2000.http://www.almaden.ibm.com/cs/k53/www9.final;visited08.11.2000.

猜你喜歡
搜索引擎
Chrome 99 Canary恢復可移除預置搜索引擎選項
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
一種自反饋式元搜索系統的設計
搜索引擎,不止有百度與谷歌
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 99偷拍视频精品一区二区| 国产亚洲欧美在线视频| 狠狠色丁婷婷综合久久| 欧美成人免费| 9丨情侣偷在线精品国产| 精品综合久久久久久97| 国产91在线|日本| 亚洲日本中文字幕乱码中文| 99热6这里只有精品| 国产成人区在线观看视频| 欧美成人a∨视频免费观看 | 91视频区| 亚洲国产成人在线| 亚洲精品制服丝袜二区| a在线观看免费| 久久青青草原亚洲av无码| 亚洲Av综合日韩精品久久久| 亚洲国模精品一区| 在线观看亚洲国产| 中文字幕久久亚洲一区| 中文字幕无码电影| 夜夜爽免费视频| 久久99国产综合精品女同| 国产一区成人| 性色一区| 青青青国产视频| 99这里精品| 免费在线播放毛片| 91黄色在线观看| 亚洲婷婷在线视频| 中文字幕无线码一区| 久草中文网| 五月天天天色| 精品久久777| 高清无码不卡视频| 伊人久久福利中文字幕| 天堂av综合网| 欧美va亚洲va香蕉在线| 永久免费无码日韩视频| 日韩欧美中文亚洲高清在线| 91精品啪在线观看国产| 国内精品免费| 国产亚洲男人的天堂在线观看 | 日本欧美成人免费| 国产区在线看| 在线国产91| 国产毛片不卡| 日韩av手机在线| 欧美精品伊人久久| 欧美成人午夜影院| 国产人人射| 国产正在播放| 国产日本欧美在线观看| 日韩色图在线观看| 亚洲综合天堂网| 黄色网页在线观看| 一区二区自拍| 亚洲欧美日韩中文字幕在线| 99视频精品全国免费品| 黄色网址手机国内免费在线观看| 丁香五月激情图片| 国产91在线|日本| 亚洲swag精品自拍一区| 九九热这里只有国产精品| 日韩无码真实干出血视频| 99re视频在线| 欧美日韩国产精品va| 人妻中文久热无码丝袜| 久夜色精品国产噜噜| 久久黄色小视频| 超碰91免费人妻| 精品无码日韩国产不卡av| 国产精品亚洲精品爽爽| 国产一区二区福利| 72种姿势欧美久久久大黄蕉| 一区二区三区国产精品视频| 久久久久亚洲Av片无码观看| 国产一区二区福利| 在线视频亚洲欧美| 99资源在线| 香蕉久人久人青草青草| 视频一区亚洲|