基于向量空間模型的中文搜索引擎評測系統(tǒng)研究與實(shí)現(xiàn)

2007-12-31 00:00:00周凱李芳盛煥燁

計(jì)算機(jī)應(yīng)用研究 2007年12期

摘要：提出了能夠綜合衡量搜索引擎工作性能的六個(gè)評測指標(biāo)，選擇了當(dāng)今主流的三個(gè)搜索引擎：谷歌、雅虎和百度進(jìn)行評測，成功地在兩個(gè)大型的數(shù)據(jù)集上實(shí)現(xiàn)了整個(gè)自動(dòng)評測系統(tǒng)。實(shí)驗(yàn)表明，谷歌工作性能最穩(wěn)定；雅虎返回的第一個(gè)結(jié)果最能滿足用戶的要求，但會(huì)受時(shí)間因素的影響；百度明顯地受關(guān)鍵字類別因素的影響。最后對中搜、捜狗、愛問進(jìn)行了評測。

關(guān)鍵詞：中文搜索引擎; 自動(dòng)評測; 評測指標(biāo)

中圖分類號：TP391文獻(xiàn)標(biāo)志碼：A

文章編號：1001-3695(2007)12-0016-04

隨著搜索技術(shù)的不斷進(jìn)步，網(wǎng)絡(luò)上實(shí)用的搜索引擎數(shù)目也在成倍增加。雖然都是為了給用戶提供快速、方便的服務(wù)，但目前各類搜索引擎在性能上都還存在著一些差別。為了更好地幫助用戶選擇和使用這些寶貴的網(wǎng)絡(luò)資源，很有必要對搜索引擎進(jìn)行一些客觀性的評測。本系統(tǒng)選取當(dāng)今比較主流的三大中文搜索引擎——谷歌、雅虎和百度來進(jìn)行評測。這三個(gè)中文搜索引擎代表了當(dāng)今中文搜索引擎的最高技術(shù)。對它們的能力進(jìn)行對比分析，從中找出其優(yōu)勢和不足，對于幫助用戶正確使用和促進(jìn)中文搜索引擎技術(shù)進(jìn)步具有深遠(yuǎn)的意義。

近年來，國內(nèi)外已經(jīng)有許多專家和實(shí)驗(yàn)室開展了這方面的研究。20世紀(jì)90年代，美國著名的計(jì)算機(jī)科學(xué)家Udi Manber提出了UDITest測試方法，即從用戶的體驗(yàn)出發(fā)，由一般的普通用戶在沒有任何暗示的情況下對兩個(gè)搜索引擎的結(jié)果進(jìn)行等級評分，并且在這種評分中引入用戶信心指數(shù)來評價(jià)搜索引擎的質(zhì)量。2003年北京大學(xué)網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室采用 “采樣—權(quán)值計(jì)算—驗(yàn)證”的覆蓋率評測模型^[1]來評測北大“燕穹”系統(tǒng)的信息覆蓋率。2004年6月清華大學(xué)IT可用性實(shí)驗(yàn)室通過檢索結(jié)果相關(guān)性、網(wǎng)頁覆蓋率、死鏈接率、作弊率、中文分詞來評估搜索引擎的性能。同年，中國互聯(lián)網(wǎng)實(shí)驗(yàn)室根據(jù)搜索結(jié)果、搜索過程、搜索界面來評價(jià)搜索引擎的質(zhì)量。2005年，《電腦報(bào)》IT應(yīng)用編輯室對17款網(wǎng)絡(luò)搜索引擎作出了評測。PCD實(shí)驗(yàn)室根據(jù)搜索引擎的快捷性、操作的便利性和搜索結(jié)果的準(zhǔn)確性等作出評測。北京大學(xué)網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室利用天網(wǎng)搜索引擎查詢?nèi)罩荆萌斯づ袆e相關(guān)性的方法對三個(gè)搜索引擎進(jìn)行了檢索質(zhì)量的評估^[2]。相對而言，現(xiàn)有的一些搜索引擎評測方法存在不足之處，并不能很好地評測搜索引擎。主要表現(xiàn)如下：主觀性太強(qiáng)；評測指標(biāo)不完備；基于小型的數(shù)據(jù)集上。根據(jù)對現(xiàn)有評測系統(tǒng)的分析與比較，本系統(tǒng)提出了六個(gè)評測指標(biāo)，通過對返回網(wǎng)頁的地址和網(wǎng)頁內(nèi)容的分析來對搜索引擎進(jìn)行綜合性評測。最后，筆者借鑒TREC會(huì)議中對Web track的評測任務(wù)的定義，根據(jù)用戶使用搜索引擎的三大目標(biāo)^[3，4]的設(shè)計(jì)實(shí)現(xiàn)了該系統(tǒng)。

1搜索引擎評測指標(biāo)

本文提出的六個(gè)指標(biāo)可以分為兩類：一類是通過網(wǎng)址來判斷搜索引擎搜索的結(jié)果是否正確；另一類則是通過網(wǎng)頁內(nèi)容來判斷搜索引擎搜索的結(jié)果是否正確。其中，第一類指標(biāo)包括查全率、重復(fù)率和次序率。它們的定義如下：

定義1查全率。衡量搜索引擎搜索的全面性，用于檢驗(yàn)搜索引擎是否可以找到全部答案。用搜索引擎搜索結(jié)果中符合要求的URL個(gè)數(shù)與測試數(shù)據(jù)中URL總數(shù)的比值來表示，其數(shù)學(xué)表達(dá)式為

3實(shí)驗(yàn)方法

3．1實(shí)驗(yàn)數(shù)據(jù)

大部分網(wǎng)絡(luò)用戶均是通過鍵入關(guān)鍵字來調(diào)用搜索引擎進(jìn)行信息檢索的^[7]。一般關(guān)鍵字可以分為三類：第一類是具有明確意義的一類關(guān)鍵詞，即實(shí)體類，如上海市、克林頓、可口可樂等；第二類是廣義綜合型（廣義類），泛指一類抽象的概念，如數(shù)據(jù)挖掘、人口等；第三類是二義型，如亞馬遜（既是河名，又是最大的網(wǎng)上書店名稱）。按照TREC會(huì)議中Web track的要求^[8，9]，對于每個(gè)關(guān)鍵字又可定義三類搜索任務(wù)：a)主頁查詢，即搜索相應(yīng)的主頁信息；b)信息查詢，即搜索與之相關(guān)的所有信息，如新聞、報(bào)道等；c)資源查詢，即搜索相關(guān)的網(wǎng)絡(luò)資源，如照片、程序、下載鏈接等。

本系統(tǒng)使用了兩個(gè)數(shù)據(jù)集。第一個(gè)數(shù)據(jù)集是為了測試各個(gè)搜索引擎的平均性能指標(biāo)而設(shè)計(jì)的，它由84個(gè)關(guān)鍵字組成。其中實(shí)體類29個(gè)、廣義類27個(gè)、二義類28個(gè)。同時(shí)，數(shù)據(jù)集中包含了84個(gè)關(guān)鍵字對應(yīng)的2 500多個(gè)網(wǎng)頁的URL信息。第二個(gè)數(shù)據(jù)集合按照種類因素和時(shí)間因素來分類存儲(chǔ)。系統(tǒng)考慮20多個(gè)災(zāi)難事件，如地震、海嘯、革命等，事件發(fā)生在{2005~2006， 2000~2005， 2000前}三個(gè)不同的時(shí)間段中。

3．2實(shí)驗(yàn)設(shè)計(jì)

針對兩個(gè)不同的數(shù)據(jù)集，本文設(shè)計(jì)了兩個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)1是衡量搜索引擎平均性能的實(shí)驗(yàn)，在數(shù)據(jù)集1上求各個(gè)指標(biāo)的平均值，通過數(shù)據(jù)分析歸納和總結(jié)搜索引擎的特點(diǎn)及不足；實(shí)驗(yàn)2是基于時(shí)間和類別兩個(gè)因素的正交實(shí)驗(yàn)，在數(shù)據(jù)集2上進(jìn)行。本文假設(shè)時(shí)間因素和種類因素是相互獨(dú)立的，它們之間不存在相互作用。實(shí)驗(yàn)的目的在于：a)檢驗(yàn)搜索引擎對時(shí)間因素的敏感度，即在搜索不同的時(shí)間內(nèi)發(fā)生的事件時(shí)，搜索引擎是否可以穩(wěn)定地發(fā)揮它的搜索能力。b)檢驗(yàn)搜索引擎對種類因素的敏感度，即在搜索不同種類的事件時(shí)，搜索引擎是否可以穩(wěn)定地查找到最相關(guān)的結(jié)果。

4實(shí)驗(yàn)和結(jié)果

本系統(tǒng)是用Java語言實(shí)現(xiàn)的。本文的圖都是用MATLAB繪制的。下面通過對兩次實(shí)驗(yàn)結(jié)果的分析，歸納出各個(gè)搜索引擎的優(yōu)缺點(diǎn)。

4．1搜索引擎在數(shù)據(jù)集1上的平均性能

如圖3所示，Google前三個(gè)指標(biāo)排第二。其中查全率略低于Baidu；重復(fù)率平均有2.91%，略高于Yahoo。后面的三個(gè)指標(biāo)中，Google則表現(xiàn)得較好，準(zhǔn)確率比Yahoo略低。在相關(guān)性和分散度的測評中，Google的表現(xiàn)是最好的。對于Yahoo，前三個(gè)指標(biāo)不太理想，查全率最低，比Google低約22．72%。它的重復(fù)率最高，這說明在Yahoo搜索后返回的所有URL信息中，有很多信息是重復(fù)的。從前面兩個(gè)指標(biāo)來看，它的次序率也較低；在后三個(gè)指標(biāo)中，Yahoo的性能則有明顯的改進(jìn)。特別地，Yahoo在準(zhǔn)確率指標(biāo)最大，表明Yahoo搜索返回的第一個(gè)網(wǎng)頁最好地滿足了用戶。在后兩個(gè)指標(biāo)上，Yahoo表現(xiàn)平平，相關(guān)性略低于Google。從實(shí)驗(yàn)結(jié)果來看，Baidu在前三個(gè)指標(biāo)上都表現(xiàn)得最好，其中查全率略高于Google。值得強(qiáng)調(diào)的是，Baidu不返回重復(fù)信息。但在后三個(gè)指標(biāo)中，Baidu的表現(xiàn)就不太樂觀。相對而言，在內(nèi)容上Baidu的搜索結(jié)果不及Google、Yahoo，不能很好地滿足用戶的需求。

為了證明系統(tǒng)的適應(yīng)性，在同一數(shù)據(jù)集下，對另外三家主流搜索器進(jìn)行了相同的實(shí)驗(yàn)。這里調(diào)用的搜索引擎有中國搜索、搜狗搜索、新浪愛問，結(jié)果如圖4所示。

從實(shí)驗(yàn)結(jié)果可以看出，Google的表現(xiàn)整體上最為穩(wěn)定，其抗干擾性最強(qiáng)。Yahoo在類別因素作用下發(fā)揮穩(wěn)定，但它受時(shí)間因素的影響比較明顯。這說明Yahoo對于不同時(shí)間發(fā)生的事件的搜索性能并不相同。相反的是Baidu則不易受時(shí)間因素的影響，但當(dāng)對不同類別水平的關(guān)鍵字進(jìn)行搜索時(shí)，其工作性能的波動(dòng)性變化很大。這說明對于不同種類的關(guān)鍵字，Baidu是敏感的。

5結(jié)束語

搜索引擎已成為人們從網(wǎng)絡(luò)中快速、準(zhǔn)確地獲取信息必備的工具，因此對搜索引擎作出相應(yīng)的評測具有重大而深遠(yuǎn)的意義。通過評測，一方面可以客觀地發(fā)現(xiàn)和認(rèn)識(shí)到各個(gè)搜索引擎的特點(diǎn)和優(yōu)勢，從而可以幫助用戶更高效地使用這些網(wǎng)絡(luò)資源；另一方面可以找出各個(gè)搜索引擎的不足和缺陷，通過分析希望能給搜索引擎供應(yīng)商提供一些有價(jià)值的改進(jìn)建議，從而促進(jìn)中文搜索引擎技術(shù)的進(jìn)一步發(fā)展。

實(shí)驗(yàn)表明，Google總體上最穩(wěn)定，其搜索得到的結(jié)果在內(nèi)容上最能滿足用戶的要求，并且具有很強(qiáng)的魯棒性。Yahoo搜索返回的結(jié)果中重復(fù)的URL信息過多，但從三個(gè)搜索引擎返回的第一個(gè)網(wǎng)頁的內(nèi)容上來說，Yahoo則比另外兩個(gè)搜索引擎更能滿足用戶的要求；對于在不同時(shí)間發(fā)生的信息，它的搜索的性能表現(xiàn)得卻不穩(wěn)定。筆者還發(fā)現(xiàn)Baidu搜索后返回的 URL信息與人工查找的語料更加貼近，但在內(nèi)容上卻不及Google和Yahoo搜索得那么準(zhǔn)確，并且它的工作性能明顯地受關(guān)鍵字類別因素的影響。

本系統(tǒng)是通過六個(gè)評測指標(biāo)對各個(gè)搜索引擎進(jìn)行評測的，但搜索引擎是一個(gè)技術(shù)含量很高的計(jì)算機(jī)網(wǎng)絡(luò)信息檢索應(yīng)用系統(tǒng)，它包括網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)、檢索技術(shù)、智能技術(shù)等。因此，僅僅從以上幾個(gè)方面對其進(jìn)行評測是不夠的。另外這個(gè)系統(tǒng)是基于向量空間模型建立起來的，這意味著在對文本建模的過程中會(huì)丟失許多語義信息^[12]。

在下一步的工作中，筆者將繼續(xù)研究中文搜索引擎評測技術(shù)，并且設(shè)法用更多的指標(biāo)、更加全面地評測各個(gè)搜索引擎的搜索性能。另外，還會(huì)從語義信息的角度考慮對搜索結(jié)果的準(zhǔn)確性進(jìn)行評測。

參考文獻(xiàn)：

[1]孟濤，閆宏飛，李曉明.一種評價(jià)搜索引擎信息覆蓋率的模型及其驗(yàn)證［J］.電子學(xué)報(bào)，2005，31(8):1168-1172.

[2]彭波，閆宏飛.搜索引擎檢索系統(tǒng)質(zhì)量評估［J］.計(jì)算機(jī)研究與發(fā)展，2005，42(10):1706-1711.

[3]ROSE D E， LEVINSON D. Understanding user goals in Web search[C]//Proc of the 13th WWW Confernece. New York:ACM Press，2004:13-19.

[4]LEE U， LIU Zhenyu， CHO J H. Automatic identification of user goals in Web search[C]//Proc of the 14th WWW Conference. New York:ACM Press，2005:391-340.

[5]陳治綱，何丕廉，孫越恒，等.基于向量空間模型的文本分類系統(tǒng)的研究與實(shí)現(xiàn)［J］.中文信息學(xué)報(bào)， 2005，19(1):36-41.

[6]邊肇祺，張學(xué)工.模式識(shí)別［M］.2版.北京:清華大學(xué)出版社，1999:176-197.

[7]FALLOWS D. Search engine users［EB/OL］.(2005-08-14).http://www.pewinternet.org.

[8]CRASWELL N， HAWKING D. Overview of the TREC 2004 Web track[C]//Proc of the 13th TREC Conf. Cambridge:[s.n.]，2005:89-98.

[9]程羽心，路斌，劉縉，等.2005年863網(wǎng)頁檢索ICST評測報(bào)告［J］.中文信息學(xué)報(bào)，2006，20(z1):102-106.

[10]張俊林，劉洋，孫樂.2005年度863信息檢索評測方法研究和實(shí)施［J］.中文信息學(xué)報(bào)，2006，20(z1):19-24.

[11]汪榮鑫.數(shù)理統(tǒng)計(jì)［M］.西安:西安交通大學(xué)出版社，1986:150-166.

[12]袁毓林.信息抽取的語義知識(shí)資源研究［J］.中文信息學(xué)報(bào)，2002，16(5):8-14.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”

計(jì)算機(jī)應(yīng)用研究2007年12期

計(jì)算機(jī)應(yīng)用研究的其它文章: 基于鄰域的模糊Ｃ－均值圖像分割算法; 一種流加密方案的設(shè)計(jì)與分析; 擴(kuò)展ＵＭＬ活動(dòng)圖在工作流建模中的應(yīng)用; 我國計(jì)算機(jī)科學(xué)發(fā)展態(tài)勢文獻(xiàn)計(jì)量分析; 基于ＵＭＬ和Ｂ／Ｓ模式的特鋼企業(yè)價(jià)格管理系統(tǒng)研究; ＵｌｔｒａＤＭＡ模式下硬盤數(shù)據(jù)加密系統(tǒng)的設(shè)計(jì)及ＦＰＧＡ實(shí)現(xiàn)