高祥永 董玉萍
(沈陽工程學院圖書館,遼寧沈陽110136)
基于鏈接分析法的農業網站評價工具的選擇*——以遼寧省和山東省為例
高祥永董玉萍
(沈陽工程學院圖書館,遼寧沈陽110136)
我國的農業信息化發展迅猛,農業網站數量增幅明顯,農業信息也越來越豐富,但農業專業搜索引擎覆蓋率不高,不能很好地滿足農業信息用戶的需求,阻礙了我國農業信息化的進一步發展。初選4種檢索工具對遼寧省和山東省政府、事業、企業龍頭等20個農業網站樣本進行鏈接分析和灰度關聯分析,并通過分析結果評價出目前最適合作為評價和利用農業網站的檢索工具。
農業網站鏈接分析灰度關聯分析搜索引擎評價
第四屆“全國農業大數據農業空間技術暨智慧農業創新與發展交流研討會”于2015年4月17~19日在陜西西安召開。第二屆中國農業展望大會于2015年4月20~21日在北京召開。在今年召開的兩會上,政府工作報告指出現代農業、農業電子商務等是未來政策扶持的重要方向。與此同時,各地方政府也在大力扶持農資巨頭以及互聯網巨頭進行互聯網改造。而我國農業互聯網發展并沒有像國外一樣先進和完善;對農業網站評估工具還沒有統一規范;各種檢索工具、搜索引擎并驅發展,搜索引擎不僅是網絡的導航者,也是網絡計量研究中最重要的數據收集工具之一。過去很多學者都運用搜素引擎來收集數據,他們運用的搜索引擎包括Google、AllTheWeb、AltaVista等。但由于谷歌已經在2010年退出中國大陸市場,用它來做評價工具有一定的困難;All?TheWeb以及AltaVista分別在2011年4月4日和2013年7月8日關閉[1]。筆者采用最大的中文搜索引擎百度、搜狗、常用作鏈接分析工具的ChinaZ以及Alexa作為評定農業網站的初選評價工具,并利用灰色關聯分析來驗證初選工具。
1.1百度
百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文網站。2000年1月由李彥宏創立于北京中關村,致力于向人們提供“簡單,可依賴”的信息獲取方式。用戶通過百度主頁,可以迅速地找到相關的搜索結果,這些結果來自于百度超過數百億的中文網頁數據庫。如今,百度已經成為大多數中國人首選的網絡搜索引擎[2]。
1.2搜狗
搜狗是搜狐公司的旗下子公司,于2004年8月3日推出,目的是增強搜狐網的搜索技能,主要經營搜狐公司的搜索業務。2010年8月9日搜狐與阿里巴巴宣布將分拆搜狗成立獨立公司,引入戰略投資,注資后的搜狗有望成為僅次于百度的中文搜索工具[3]。
1.3ChinaZ
ChinaZ是“站長之家”的簡稱,“站長之家”是國內知名的站長類網站,創建于2002年3月,是一家專門針對中文站點提供資訊、技術、資源、服務的網站。網站用戶104萬余人,擁有專業的行業資訊頻道、國內權威建站源碼下載中心、站長聚集的交流社區以及強大建站素材庫,Alexa世界排名為第96位[4]。ChinaZ提供的數據主要有外鏈接數和Google PR輸出值[5]。
1.4Alexa
Alexa Internet是亞馬遜公司的一家子公司,總部位于加利福尼亞州舊金山。于1996年由布魯斯特·卡利(Brewster Kahle)及布魯斯·吉里亞特(Bruce Gilliat)成立,作為Internet Archive的分支,受到杰奎琳·薩福拉的埃托勒投資支持。Al?exa是一家專門發布網站世界排名的網站。以搜索引擎起家的Alexa創建于1996年4月(美國),目的是讓互聯網網友在分享虛擬世界資源的同時,更多地參與互聯網資源的組織。
Alexa每天在網上搜集超過1000GB的信息,不僅給出多達幾十億的網址鏈接,而且為其中的每一個網站進行了排名。可以說,Alexa是當前擁有URL數量最龐大、排名信息發布最詳盡的網站。Alexa免費提供Alexa中文排名官方數據查詢、網站訪問量查詢、網站瀏覽量查詢、排名變化趨勢數據查詢[6]。
2.1樣本選擇
山東和遼寧都是我國的農業大省,筆者以遼寧與山東的農業門戶網站為研究目標,進行鏈接分析。農業網站可以分為3類,即政府網站、事業網站和企業網站,課題所選網站都是具有本地區代表性的單位。其中,政府網站和事業網站的數量少,但社會影響力大,企業網站數量多,但社會影響力較小,具體情況如表2、表3所示[7]。
2.2研究工具、指標及檢索方法
網站的各種鏈接數據可以通過搜索引擎得到。筆者選擇百度、搜狗、Chinaz以及Alexa作為研究工具,檢索方法是在百度以及搜狗引擎輸入檢索式,檢索式如表1所示(這里以遼寧金農網址為例),另將得到的數據錄入進行處理。
2.2.1網頁數
一般是指某網站內的網頁數,在一定程度上反映了網站的大小,反映出網站的規模和內容的豐富程度。
2.2.2總鏈接數
一般是指搜索到的與某網站存在鏈接的網頁總數,反映了網站被鏈接的多少。鏈接總數是衡量網站鏈接數量特征最重要的指標之一,它反映了網站被鏈接的總數,體現了該網站的網絡輻射力和影響力。通常網站中的鏈接數量越多,揭示信息的程度就越高,有著更完備的組織體系,通過訪問此類型的網站用戶就能獲取更為豐富的信息資源。
2.2.3內鏈接數
一般是指針對某網站范圍內搜索得到的與該網站存在鏈接的網頁數,反映了網站內部結構的完備性。
2.2.4外鏈接數
一般是指針對某網站范圍外搜索得到的與該網站存在鏈接的網頁數,網站的外部鏈接數是評價網站影響力和價值的重要尺度。它能更好地反映網站建設的質量。
2.2.5網絡影響因子
網絡影響因子=總鏈接數/網頁數,反映的是網站網頁被外部鏈接的平均水平。
2.2.6外部網絡影響因子
外部網絡影響因子=外鏈接數/網頁數,能反映網站的水平。
2.2.7PR值
PR值是Google特有的衡量網頁重要程度的指標,用來標識網頁的等級和重要性。級別為1~10級,10級為滿分。由于PR值最直接的影響因素是來自鏈接,所以網站所得到的高質量導入鏈接越多,網站PR值就越高,PR值越高則說明該網站網頁在搜索排名中的地位越重要。

表1 檢索式列表[8]

表2 遼寧省樣本網站

表3 山東省樣本網站

表4 百度檢索指標數據

表5 搜狗檢索指標數據

表6 GooglePR輸出值

表7 ChinaZ數據(網頁總數)

表8 Alexa數據
2.3灰度關聯分析
灰色關聯分析是灰色系統理論中探索系統內各因素的數值關系,能夠對一個系統發展變化趨勢提出量化的度量。也適用于主要搜索引擎發展態勢的分析。我們可通過被分析對象因素間關聯度的大小次序描述,判斷搜索引擎各測度值對網頁對象的影響程度,使搜索引擎的綜合排序結果更為客觀可靠。
搜索引擎綜合評價步驟:
①確定分析數列,以網頁數、總鏈接數、內鏈接數……PR值為參考序列和比較序列。
②對確定序列進行無量綱化處理以便于比較,通過排序可以得出較準確的判斷。
③求灰色關聯系數公式:

ρ∈(0,∞),稱為分辨系數。ρ越小,分辨力越大,一般ρ的取值區間為(0,1)。具體取值可視情況而定,當ρ≤0.5463時,分辨力最好,通常取ρ=0.5。
④計算
分別計算出百度、搜狗引擎的比較和參考序列各指標、對應因素的關聯系數均值,形成反映農業網站和百度等公共搜索引擎各因素間的關聯序。
⑤關聯度按大小排序,得出綜合評價結果
根據以上步驟,首先選取各個鏈接指標數據中最大數值作為參考數值,記作x0,具體數值如表9和表10。把表9、表10的數據帶入公式(1),計算出各個網站的關聯度并排序(見表11、12)。因為計算方式的關系,筆者在表11、12中列出19個樣本網站的灰色關聯度。

表9 指標數據灰度分析(百度)

表10 指標數據灰度分析(搜狗)

表11 百度關聯度降序排列結果

表12 搜狗關聯度降序排列結果
基于以上鏈接分析工具與檢索方法相對有效的假設前提,我們可以對遼寧省與山東省農業網站鏈接狀況及影響因素做出如下分析與討論,以便為評估農業網站選擇檢索工具提供借鑒性信息,從而進一步發揮農業網站的價值[9]。
①總體看來,遼寧省與山東省的農業網站在7個排序狀況中基本平分秋色,反映出兩個農業大省的樣本網站在初選的檢索工具排序中不分伯仲,排名差別不大。
②表4、5、11中,前4名完全吻合,在表4-8、11中,前5名的網站均為政府及事業單位網站,尤其是在表4、6、7中,前10名均為政府事業單位,也就是說政府及事業單位的網站建設綜合質量在初選的檢索工具中所得的數據分析結果一致,而且與GooglePR輸出值排列順序基本一致。山東農業信息網在表6、8中位列第一,在其他3個排序中均為第二,遼寧金農網在表4、5、7、11、和12中均為第一,其余剩下兩個排序均為第二,也就是說前兩名均被遼寧金農網以及山東農業信息網占據。綜合7個排序,大多政府及事業單位名列前位,但沈陽農業大學在以百度、搜狗為檢索工具中分別排在第20和第16位,在百度、搜狗的灰度關聯排名中分別為11、12位,筆者認為百度與搜狗均為商業性網站,百度跟搜狗都是商業搜索引擎,沈陽農業大學屬于非營利性組織的公辦大學,并且以教學為主,因而在表4、5、11、12中位居后位。
③政府及事業單位(除公辦大學)在7個排序中均名列前茅,這說明政府及事業單位相對于農業企業單位對社會影響力總體更大。希森馬鈴薯產業集團在表4、6、7、8中均排在企業農業網站前列,甚至超過了一些政府及事業單位農業網站,筆者認為主要原因是由于百度屬于商業搜索引擎,一些企業在商業搜索引擎投入大量的資金來做廣告宣傳,因此排名會受到一定的影響。
④濟南圣泉集團股份有限公司在表12中位列第三位,究其原因發現其在表5中的總鏈接數非常高,數值不準確,可能有以下原因:①搜狗網站本身存在大量的非實質的鏈接,譬如自鏈接、商業廣告、軟件下載等。②有可能是網站有病毒,影響了檢索結果,從而使其排名在搜狗灰色關聯分析中位居前列。百度雖然也是一種商業網站,但其在搜索過程中通過自定的設計方式剔除了相當一部分的虛假鏈接。通過此排名也看出了百度在檢索工具中數據更為貼近其他5個表的結果。
⑤觀察比較兩大搜索引擎檢索得到的數據和經過灰色關聯度計算后的結果,可以看出,表4-8、11中各個網站排名次序偏差不大。總體上看,涉及百度的排序與Google PR輸出值、Alexa數據、ChinaZ數據的排序反差不大,其次是在鏈接分析中,百度所能查到的數據更為全面與準確,其影響力也較大。
⑥筆者初選的4個檢索工具中,Alexa的數據并不完全,一部分網站根本查不到排名信息,在以搜狗為檢索工具時也出現無法查詢到數據的情況。分析以上幾個表得知,以百度為檢索工具的數據較為完整,以搜狗為檢索工具的排序與其他6個排序有更大的偏差。在7個排序中,多數的農業小企業的網站排名均在后面,尤其在Google PR輸出值的表6中有的Google PR輸出值甚至為0,Google PR輸出值在大多數的鏈接分析案例中均作為主要參考對象。因此筆者認為通過百度與GooglePR值的綜合使用來評價網絡鏈接為最優[10]。
網站的評價不僅要從網站的設計風格、網站建設的內容等方面考慮,而且還需要一種定量的方法來加以評價,這樣會更加客觀和有說服力。筆者主要列舉了遼寧省、山東省20個具有代表性的樣本網站,選出4種檢索工具進行鏈接分析,并利用灰色關聯度工具,旨在選出最適合作為農業網站評價的檢索工具,雖然商業搜索引擎不太穩定,但筆者選取了在同一時間段并采用相同的檢索方法與指令,采集的數據具有較高參考價值。在鏈接數據統計過程中,有些數據出現了異常,但也在合理解釋區間內。因此,得到的數據分析結果的參考價值可取[11]。
在農業網站領域,國外也已經有了比較完善的農業信息專業搜索引擎。比較著名的有:①美國農業網絡信息中心(www.agnic.org),是美國國家農業圖書館與一些大學、研究機構以及政府機構自愿組成的聯合體,其每個成員都負責農業科學中某一領域的信息工作,各成員單位間互相提供信息服務。每個成員在享受服務的同時,也有為其他成員提供服務的義務,服務方式主要是通過互聯網相互提供電子形式的農業信息和檢索服務。②法國Hyltel Multimedia公司在1998年創建的農業垂直搜索引擎WEB-AGRI SEARCH(www.web-agri.com),有法、英雙語言版本,主要提供3種服務:農業搜索引擎、農業期刊導航和農業站點導航[12]。而在我國,對農業網站評估的檢索工具并沒有統一規范和普遍應用,希望研究者進一步完善現有的搜索引擎,并針對網絡信息計量學研究研制出專門的農業搜索引擎,這對我國農業信息化發展以及信息化的服務質量有著非常重要的影響。
[1]邱均平.網絡計量學[M].北京:科學出版社,2010.
[2]百度百科.百度[EB/OL].[2015-04-20].http://baike.baidu. com/view/262.htm.
[3]百度百科.搜狗[EB/OL].[2015-04-03].http://baike.baidu. com/view/24982.htm.
[4]百度百科.站長之家[EB/OL].[2014-12-20].http://baike. baidu.com/view/1687888.htm.
[5]馬健,等.基于主成分分析法的農業科技網站評價方法研究[J].安徽農業科學,2011(39):6118-6122.
[6]百度百科.alexa[EB/OL].[2015-05-11].http://baike.baidu. com/subview/663/10876471.htm.
[7]劉偉剛.淺析鏈接分析在遼寧農業網站評價方面的應用[J].經濟研究導刊,2014(30):63-65.
[8]姚湘中.我國211重點大學圖書館網站的鏈接分析[J].圖書館學刊,2007(4):138-140.
[9]岳峻,傅澤田,高文.農業信息智能獲取技術[M].北京:科學出版社,2011.
[10]陳太洋.我國大學圖書館網站鏈接的實證分析——以中國“211工程”高校為例[J].圖書館雜志,2007(3):43-49.
[11]趙發珍.基于鏈接分析法的網絡社區影響力研究——以國內30個網絡社區網站為例[J].現代情報,2013(33):91-95.
[12]徐洋.基于用戶行為學習的農業信息元搜索引擎研究[D].北京:中國農業科學院,2010.
高祥永男,1972年生。碩士,副研究館員,副館長。研究方向:圖書館學、信息服務。
董玉萍女,1985年生。碩士,館員。
G350;S126
*本文系遼寧省社科規劃基金項目“典型省份農業網站影響力評價研究”(項目編號:L12DGL028)成果。
(2015-07-10;責編:姚雪梅。)