999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于向量空間模型的中文搜索引擎評測系統(tǒng)研究與實(shí)現(xiàn)

2007-12-31 00:00:00盛煥燁
計(jì)算機(jī)應(yīng)用研究 2007年12期

摘要:提出了能夠綜合衡量搜索引擎工作性能的六個(gè)評測指標(biāo),選擇了當(dāng)今主流的三個(gè)搜索引擎:谷歌、雅虎和百度進(jìn)行評測,成功地在兩個(gè)大型的數(shù)據(jù)集上實(shí)現(xiàn)了整個(gè)自動(dòng)評測系統(tǒng)。實(shí)驗(yàn)表明,谷歌工作性能最穩(wěn)定;雅虎返回的第一個(gè)結(jié)果最能滿足用戶的要求,但會(huì)受時(shí)間因素的影響;百度明顯地受關(guān)鍵字類別因素的影響。最后對中搜、捜狗、愛問進(jìn)行了評測。

關(guān)鍵詞:中文搜索引擎; 自動(dòng)評測; 評測指標(biāo)

中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2007)12-0016-04

隨著搜索技術(shù)的不斷進(jìn)步,網(wǎng)絡(luò)上實(shí)用的搜索引擎數(shù)目也在成倍增加。雖然都是為了給用戶提供快速、方便的服務(wù),但目前各類搜索引擎在性能上都還存在著一些差別。為了更好地幫助用戶選擇和使用這些寶貴的網(wǎng)絡(luò)資源,很有必要對搜索引擎進(jìn)行一些客觀性的評測。本系統(tǒng)選取當(dāng)今比較主流的三大中文搜索引擎——谷歌、雅虎和百度來進(jìn)行評測。這三個(gè)中文搜索引擎代表了當(dāng)今中文搜索引擎的最高技術(shù)。對它們的能力進(jìn)行對比分析,從中找出其優(yōu)勢和不足,對于幫助用戶正確使用和促進(jìn)中文搜索引擎技術(shù)進(jìn)步具有深遠(yuǎn)的意義。

近年來,國內(nèi)外已經(jīng)有許多專家和實(shí)驗(yàn)室開展了這方面的研究。20世紀(jì)90年代,美國著名的計(jì)算機(jī)科學(xué)家Udi Manber提出了UDITest測試方法,即從用戶的體驗(yàn)出發(fā),由一般的普通用戶在沒有任何暗示的情況下對兩個(gè)搜索引擎的結(jié)果進(jìn)行等級評分,并且在這種評分中引入用戶信心指數(shù)來評價(jià)搜索引擎的質(zhì)量。2003年北京大學(xué)網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室采用 “采樣—權(quán)值計(jì)算—驗(yàn)證”的覆蓋率評測模型[1]來評測北大“燕穹”系統(tǒng)的信息覆蓋率。2004年6月清華大學(xué)IT可用性實(shí)驗(yàn)室通過檢索結(jié)果相關(guān)性、網(wǎng)頁覆蓋率、死鏈接率、作弊率、中文分詞來評估搜索引擎的性能。同年,中國互聯(lián)網(wǎng)實(shí)驗(yàn)室根據(jù)搜索結(jié)果、搜索過程、搜索界面來評價(jià)搜索引擎的質(zhì)量。2005年,《電腦報(bào)》IT應(yīng)用編輯室對17款網(wǎng)絡(luò)搜索引擎作出了評測。PCD實(shí)驗(yàn)室根據(jù)搜索引擎的快捷性、操作的便利性和搜索結(jié)果的準(zhǔn)確性等作出評測。北京大學(xué)網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室利用天網(wǎng)搜索引擎查詢?nèi)罩荆萌斯づ袆e相關(guān)性的方法對三個(gè)搜索引擎進(jìn)行了檢索質(zhì)量的評估[2]。相對而言,現(xiàn)有的一些搜索引擎評測方法存在不足之處,并不能很好地評測搜索引擎。主要表現(xiàn)如下:主觀性太強(qiáng);評測指標(biāo)不完備;基于小型的數(shù)據(jù)集上。根據(jù)對現(xiàn)有評測系統(tǒng)的分析與比較,本系統(tǒng)提出了六個(gè)評測指標(biāo),通過對返回網(wǎng)頁的地址和網(wǎng)頁內(nèi)容的分析來對搜索引擎進(jìn)行綜合性評測。最后,筆者借鑒TREC會(huì)議中對Web track的評測任務(wù)的定義,根據(jù)用戶使用搜索引擎的三大目標(biāo)[3,4]的設(shè)計(jì)實(shí)現(xiàn)了該系統(tǒng)。

1搜索引擎評測指標(biāo)

本文提出的六個(gè)指標(biāo)可以分為兩類:一類是通過網(wǎng)址來判斷搜索引擎搜索的結(jié)果是否正確;另一類則是通過網(wǎng)頁內(nèi)容來判斷搜索引擎搜索的結(jié)果是否正確。其中,第一類指標(biāo)包括查全率、重復(fù)率和次序率。它們的定義如下:

定義1查全率。衡量搜索引擎搜索的全面性,用于檢驗(yàn)搜索引擎是否可以找到全部答案。用搜索引擎搜索結(jié)果中符合要求的URL個(gè)數(shù)與測試數(shù)據(jù)中URL總數(shù)的比值來表示,其數(shù)學(xué)表達(dá)式為

3實(shí)驗(yàn)方法

3.1實(shí)驗(yàn)數(shù)據(jù)

大部分網(wǎng)絡(luò)用戶均是通過鍵入關(guān)鍵字來調(diào)用搜索引擎進(jìn)行信息檢索的[7]。一般關(guān)鍵字可以分為三類:第一類是具有明確意義的一類關(guān)鍵詞,即實(shí)體類,如上海市、克林頓、可口可樂等;第二類是廣義綜合型(廣義類),泛指一類抽象的概念,如數(shù)據(jù)挖掘、人口等;第三類是二義型,如亞馬遜(既是河名,又是最大的網(wǎng)上書店名稱)。按照TREC會(huì)議中Web track的要求[8,9],對于每個(gè)關(guān)鍵字又可定義三類搜索任務(wù):a)主頁查詢,即搜索相應(yīng)的主頁信息;b)信息查詢,即搜索與之相關(guān)的所有信息,如新聞、報(bào)道等;c)資源查詢,即搜索相關(guān)的網(wǎng)絡(luò)資源,如照片、程序、下載鏈接等。

本系統(tǒng)使用了兩個(gè)數(shù)據(jù)集。第一個(gè)數(shù)據(jù)集是為了測試各個(gè)搜索引擎的平均性能指標(biāo)而設(shè)計(jì)的,它由84個(gè)關(guān)鍵字組成。其中實(shí)體類29個(gè)、廣義類27個(gè)、二義類28個(gè)。同時(shí),數(shù)據(jù)集中包含了84個(gè)關(guān)鍵字對應(yīng)的2 500多個(gè)網(wǎng)頁的URL信息。第二個(gè)數(shù)據(jù)集合按照種類因素和時(shí)間因素來分類存儲(chǔ)。系統(tǒng)考慮20多個(gè)災(zāi)難事件,如地震、海嘯、革命等,事件發(fā)生在{2005~2006, 2000~2005, 2000前}三個(gè)不同的時(shí)間段中。

3.2實(shí)驗(yàn)設(shè)計(jì)

針對兩個(gè)不同的數(shù)據(jù)集,本文設(shè)計(jì)了兩個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)1是衡量搜索引擎平均性能的實(shí)驗(yàn),在數(shù)據(jù)集1上求各個(gè)指標(biāo)的平均值,通過數(shù)據(jù)分析歸納和總結(jié)搜索引擎的特點(diǎn)及不足;實(shí)驗(yàn)2是基于時(shí)間和類別兩個(gè)因素的正交實(shí)驗(yàn),在數(shù)據(jù)集2上進(jìn)行。本文假設(shè)時(shí)間因素和種類因素是相互獨(dú)立的,它們之間不存在相互作用。實(shí)驗(yàn)的目的在于:a)檢驗(yàn)搜索引擎對時(shí)間因素的敏感度,即在搜索不同的時(shí)間內(nèi)發(fā)生的事件時(shí),搜索引擎是否可以穩(wěn)定地發(fā)揮它的搜索能力。b)檢驗(yàn)搜索引擎對種類因素的敏感度,即在搜索不同種類的事件時(shí),搜索引擎是否可以穩(wěn)定地查找到最相關(guān)的結(jié)果。

4實(shí)驗(yàn)和結(jié)果

本系統(tǒng)是用Java語言實(shí)現(xiàn)的。本文的圖都是用MATLAB繪制的。下面通過對兩次實(shí)驗(yàn)結(jié)果的分析,歸納出各個(gè)搜索引擎的優(yōu)缺點(diǎn)。

4.1搜索引擎在數(shù)據(jù)集1上的平均性能

如圖3所示,Google前三個(gè)指標(biāo)排第二。其中查全率略低于Baidu;重復(fù)率平均有2.91%,略高于Yahoo。后面的三個(gè)指標(biāo)中,Google則表現(xiàn)得較好,準(zhǔn)確率比Yahoo略低。在相關(guān)性和分散度的測評中,Google的表現(xiàn)是最好的。對于Yahoo,前三個(gè)指標(biāo)不太理想,查全率最低,比Google低約22.72%。它的重復(fù)率最高,這說明在Yahoo搜索后返回的所有URL信息中,有很多信息是重復(fù)的。從前面兩個(gè)指標(biāo)來看,它的次序率也較低;在后三個(gè)指標(biāo)中,Yahoo的性能則有明顯的改進(jìn)。特別地,Yahoo在準(zhǔn)確率指標(biāo)最大,表明Yahoo搜索返回的第一個(gè)網(wǎng)頁最好地滿足了用戶。在后兩個(gè)指標(biāo)上,Yahoo表現(xiàn)平平,相關(guān)性略低于Google。從實(shí)驗(yàn)結(jié)果來看,Baidu在前三個(gè)指標(biāo)上都表現(xiàn)得最好,其中查全率略高于Google。值得強(qiáng)調(diào)的是,Baidu不返回重復(fù)信息。但在后三個(gè)指標(biāo)中,Baidu的表現(xiàn)就不太樂觀。相對而言,在內(nèi)容上Baidu的搜索結(jié)果不及Google、Yahoo,不能很好地滿足用戶的需求。

為了證明系統(tǒng)的適應(yīng)性,在同一數(shù)據(jù)集下,對另外三家主流搜索器進(jìn)行了相同的實(shí)驗(yàn)。這里調(diào)用的搜索引擎有中國搜索、搜狗搜索、新浪愛問,結(jié)果如圖4所示。

從實(shí)驗(yàn)結(jié)果可以看出,Google的表現(xiàn)整體上最為穩(wěn)定,其抗干擾性最強(qiáng)。Yahoo在類別因素作用下發(fā)揮穩(wěn)定,但它受時(shí)間因素的影響比較明顯。這說明Yahoo對于不同時(shí)間發(fā)生的事件的搜索性能并不相同。相反的是Baidu則不易受時(shí)間因素的影響,但當(dāng)對不同類別水平的關(guān)鍵字進(jìn)行搜索時(shí),其工作性能的波動(dòng)性變化很大。這說明對于不同種類的關(guān)鍵字,Baidu是敏感的。

5結(jié)束語

搜索引擎已成為人們從網(wǎng)絡(luò)中快速、準(zhǔn)確地獲取信息必備的工具,因此對搜索引擎作出相應(yīng)的評測具有重大而深遠(yuǎn)的意義。通過評測,一方面可以客觀地發(fā)現(xiàn)和認(rèn)識(shí)到各個(gè)搜索引擎的特點(diǎn)和優(yōu)勢,從而可以幫助用戶更高效地使用這些網(wǎng)絡(luò)資源;另一方面可以找出各個(gè)搜索引擎的不足和缺陷,通過分析希望能給搜索引擎供應(yīng)商提供一些有價(jià)值的改進(jìn)建議,從而促進(jìn)中文搜索引擎技術(shù)的進(jìn)一步發(fā)展。

實(shí)驗(yàn)表明,Google總體上最穩(wěn)定,其搜索得到的結(jié)果在內(nèi)容上最能滿足用戶的要求,并且具有很強(qiáng)的魯棒性。Yahoo搜索返回的結(jié)果中重復(fù)的URL信息過多,但從三個(gè)搜索引擎返回的第一個(gè)網(wǎng)頁的內(nèi)容上來說,Yahoo則比另外兩個(gè)搜索引擎更能滿足用戶的要求;對于在不同時(shí)間發(fā)生的信息,它的搜索的性能表現(xiàn)得卻不穩(wěn)定。筆者還發(fā)現(xiàn)Baidu搜索后返回的 URL信息與人工查找的語料更加貼近,但在內(nèi)容上卻不及Google和Yahoo搜索得那么準(zhǔn)確,并且它的工作性能明顯地受關(guān)鍵字類別因素的影響。

本系統(tǒng)是通過六個(gè)評測指標(biāo)對各個(gè)搜索引擎進(jìn)行評測的,但搜索引擎是一個(gè)技術(shù)含量很高的計(jì)算機(jī)網(wǎng)絡(luò)信息檢索應(yīng)用系統(tǒng),它包括網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)、檢索技術(shù)、智能技術(shù)等。因此,僅僅從以上幾個(gè)方面對其進(jìn)行評測是不夠的。另外這個(gè)系統(tǒng)是基于向量空間模型建立起來的,這意味著在對文本建模的過程中會(huì)丟失許多語義信息[12]

在下一步的工作中,筆者將繼續(xù)研究中文搜索引擎評測技術(shù),并且設(shè)法用更多的指標(biāo)、更加全面地評測各個(gè)搜索引擎的搜索性能。另外,還會(huì)從語義信息的角度考慮對搜索結(jié)果的準(zhǔn)確性進(jìn)行評測。

參考文獻(xiàn):

[1]孟濤,閆宏飛,李曉明.一種評價(jià)搜索引擎信息覆蓋率的模型及其驗(yàn)證[J].電子學(xué)報(bào),2005,31(8):1168-1172.

[2]彭波,閆宏飛.搜索引擎檢索系統(tǒng)質(zhì)量評估[J].計(jì)算機(jī)研究與發(fā)展,2005,42(10):1706-1711.

[3]ROSE D E, LEVINSON D. Understanding user goals in Web search[C]//Proc of the 13th WWW Confernece. New York:ACM Press,2004:13-19.

[4]LEE U, LIU Zhenyu, CHO J H. Automatic identification of user goals in Web search[C]//Proc of the 14th WWW Conference. New York:ACM Press,2005:391-340.

[5]陳治綱,何丕廉,孫越恒,等.基于向量空間模型的文本分類系統(tǒng)的研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào), 2005,19(1):36-41.

[6]邊肇祺,張學(xué)工.模式識(shí)別[M].2版.北京:清華大學(xué)出版社,1999:176-197.

[7]FALLOWS D. Search engine users[EB/OL].(2005-08-14).http://www.pewinternet.org.

[8]CRASWELL N, HAWKING D. Overview of the TREC 2004 Web track[C]//Proc of the 13th TREC Conf. Cambridge:[s.n.],2005:89-98.

[9]程羽心,路斌,劉縉,等.2005年863網(wǎng)頁檢索ICST評測報(bào)告[J].中文信息學(xué)報(bào),2006,20(z1):102-106.

[10]張俊林,劉洋,孫樂.2005年度863信息檢索評測方法研究和實(shí)施[J].中文信息學(xué)報(bào),2006,20(z1):19-24.

[11]汪榮鑫.數(shù)理統(tǒng)計(jì)[M].西安:西安交通大學(xué)出版社,1986:150-166.

[12]袁毓林.信息抽取的語義知識(shí)資源研究[J].中文信息學(xué)報(bào),2002,16(5):8-14.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”

主站蜘蛛池模板: 国内精品视频| 免费无码网站| 亚洲国产无码有码| 成年人福利视频| 欧美不卡在线视频| 国产福利大秀91| 亚洲福利网址| 成人午夜福利视频| 97视频在线精品国自产拍| 亚洲黄色激情网站| 91在线播放国产| 免费无遮挡AV| 成人一区专区在线观看| 亚洲欧美日韩另类在线一| 国产美女在线免费观看| 国产H片无码不卡在线视频| 最新亚洲人成无码网站欣赏网 | 国产高清精品在线91| 精品人妻一区无码视频| 午夜天堂视频| 久久男人视频| 国产成人高清在线精品| 亚洲国产成人精品无码区性色| 亚洲人成网站观看在线观看| 国产欧美日韩精品综合在线| 亚洲欧洲美色一区二区三区| 妇女自拍偷自拍亚洲精品| 精品视频在线观看你懂的一区 | 97色伦色在线综合视频| 亚洲欧美一区在线| 四虎永久在线| 午夜福利免费视频| 色久综合在线| 欧洲精品视频在线观看| 国产成人精品免费av| 国产成人麻豆精品| 国内熟女少妇一线天| 在线欧美日韩| 国产在线啪| 欧美激情伊人| 国产97视频在线| 99久久精品美女高潮喷水| 国产精品尤物在线| 欧美啪啪精品| 亚洲天堂在线免费| 成人在线综合| 亚洲无码免费黄色网址| 少妇精品久久久一区二区三区| 亚洲a级在线观看| 亚洲日本精品一区二区| 国产成人精品视频一区视频二区| 九九热视频在线免费观看| 91麻豆精品国产高清在线| 久久青草热| 国产网站免费看| 在线看AV天堂| 一级不卡毛片| 亚洲天堂成人在线观看| 69综合网| 51国产偷自视频区视频手机观看| 国产偷国产偷在线高清| 欧美一区二区自偷自拍视频| 性网站在线观看| 久久精品人人做人人爽| 久草视频一区| 午夜一级做a爰片久久毛片| 国产Av无码精品色午夜| 麻豆国产在线观看一区二区| 国产va在线观看| 亚洲伊人电影| 日韩国产一区二区三区无码| 99色亚洲国产精品11p| 国产成人精品一区二区| 日韩国产一区二区三区无码| 国产成人综合日韩精品无码首页 | www精品久久| 亚洲成AV人手机在线观看网站| 色视频国产| 亚洲成人黄色在线| 久久国产精品麻豆系列| 高清亚洲欧美在线看| 日本www色视频|