海南大學(xué) 李俊頡 李為民
基于自然語言檢索的網(wǎng)頁快照技術(shù)研究
海南大學(xué) 李俊頡 李為民
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,信息的發(fā)布與共享超越了時(shí)空的限制,互聯(lián)網(wǎng)信息的極速發(fā)展給用戶帶來海量的信息資源的同時(shí),也帶來了尋找有效信息的困難.本文通過現(xiàn)有搜索引擎的比較研究,提出一套基于自然語言檢索的網(wǎng)頁快照技術(shù).舉例Google的PageRank算法優(yōu)化網(wǎng)頁排名、自然檢索和網(wǎng)頁快照技術(shù)相結(jié)合的檢索方式,提高了用戶檢索體驗(yàn)。
搜索引擎;自然語言檢索;網(wǎng)頁快照;搜索引擎排序
自然語言檢索包括自然語言標(biāo)引和自然語言提問查詢。自然語言是以源文檔中的內(nèi)容作為源檢索標(biāo)示,之后會提供給用戶接口使得用戶可以使用自然語言作為檢索內(nèi)容并進(jìn)行提問,完成檢索。
自然語言的檢索方法符合人們?nèi)粘2檎倚畔⒌乃季S模式。用戶無需學(xué)習(xí)布爾檢索式,拋開了有關(guān)關(guān)鍵詞和詞組的種種限制,不需牢記繁瑣的檢索規(guī)則,只要像平時(shí)提問一樣即可。
目前在中國,網(wǎng)絡(luò)信息資源總量呈爆炸式增長,且在全球信息檢索中的比例不斷提高,Google的圖書數(shù)字化計(jì)劃開展以來也使得數(shù)字化信息成為了愈來愈重要的資源形式。與此同時(shí),用戶的結(jié)構(gòu)也發(fā)生了變化,越來越多的普通用戶代替了原來專業(yè)技術(shù)用戶,隨之而來的檢索需求也趨向多元化發(fā)展,目前,大多數(shù)用戶即使不了解專業(yè)術(shù)語,也可以使用自然語言來對他們所需要的信息進(jìn)行描述來達(dá)到二次檢索的效果。自然語言相對于受控語言具有以下特點(diǎn):
(1)符合用戶思考習(xí)慣,不必使用特定語法;
(2)可以進(jìn)行概念控制,提高查準(zhǔn)率。
自然語言研究處理所使用的語言都是以自己的母語為主(大部分為英語)。雖然在研究中發(fā)現(xiàn)自然語言處理的有些思想理論可以脫離于具體語種,具有很大程度上的普適性,但在一些具體的研究項(xiàng)目中,許多處理方法都是與所使用的語言緊密相連的,例如英語與漢語的側(cè)重點(diǎn)具有很大的差異。因此,自然語言檢索的研究仍處于探索階段,一些方法理論僅僅只適用于特殊設(shè)定的情況,同時(shí),在漢語方面的研究還是要落后于國外,缺乏一些深層次的研究[1]。
2.1 網(wǎng)頁快照技術(shù)的提出
在通過國內(nèi)外搜索引擎對比分析之后發(fā)現(xiàn),目前大多數(shù)Internet搜索引擎都主要是對Web信息資源進(jìn)行抓取收集,并對用戶提供檢索服務(wù)這類模式,在日漸發(fā)展中,都在向綜合搜索引擎靠攏。這些搜索引擎在提供與用戶搜索內(nèi)容相關(guān)聯(lián)的網(wǎng)頁內(nèi)容之后,雖然根據(jù)一定的算法進(jìn)行了排序工作,但搜索結(jié)果仍然魚龍混雜,更為主觀的決定還是在于用戶本身,需要用戶自己判定結(jié)果中那些是正確的,哪些是不正確的。而對于一些客觀存在的,具有唯一答案的問題,在參雜了網(wǎng)民主觀因素之后,也會出現(xiàn)不同的答案,這些帶有主觀色彩檢索結(jié)果不但降低了檢索問題所需要的準(zhǔn)確性,而且耗費(fèi)了很多用戶的時(shí)間。下面舉例說明(Baidu Search):
古詩詞:在對關(guān)鍵字“床前明月光”進(jìn)行檢索時(shí),除了出現(xiàn)“床前明月光,疑是地上霜”正確答案之外,在靠前的網(wǎng)頁中還有“床前明月光,李白睡得香”、“床前明月光,苦悶心慌慌”、“床前明月光,李白打開窗”等一系列錯(cuò)誤答案。
2.2 建筑物位置
在對關(guān)鍵詞“我想知道海南大學(xué)圖書館具體位置”進(jìn)行檢索時(shí),前10個(gè)檢索結(jié)果都是與“海南大學(xué)圖書館簡介”有關(guān),在內(nèi)容里并沒有具體提供檢索關(guān)鍵詞的答案。
基于此,提出了一項(xiàng)基于自然語言檢索的網(wǎng)頁快照技術(shù),通過實(shí)驗(yàn)可以發(fā)現(xiàn),使用此項(xiàng)技術(shù)不但可以提高用戶檢索體驗(yàn),而且檢索速度加快了26.1%-32.2%。
網(wǎng)頁快照技術(shù):用戶在搜索引擎檢索框通過自然語言輸入所需要的檢索內(nèi)容(例如:海南大學(xué)圖書館的具體位置;我需要海口白沙門公園的地圖),搜索引擎使用數(shù)據(jù)和語言分析技術(shù)與用戶的查詢問題做精確匹配。并在檢索答案返回時(shí)具有相應(yīng)匹配結(jié)果的鏈接下方增設(shè)網(wǎng)頁快照按鈕,當(dāng)用戶移動光標(biāo)置于此按鈕時(shí),會以文本的形式顯示相應(yīng)匹配答案。
3.1 網(wǎng)頁快照數(shù)據(jù)庫
在除普通搜索引擎服務(wù)器外,新增加網(wǎng)頁快照數(shù)據(jù)庫組,里面儲存自然語言檢索問題及相應(yīng)答案。
在普通檢索頁面增設(shè)網(wǎng)頁快照置位vn(用1和0表示),當(dāng)頁面檢索網(wǎng)頁快照置位為1時(shí),提交后臺審核,成功后將此頁面放入網(wǎng)頁快照數(shù)據(jù)庫。用戶在進(jìn)行檢索操作時(shí),搜索引擎首先在網(wǎng)頁快照數(shù)據(jù)庫內(nèi)根據(jù)語言分析技術(shù)匹配,若匹配成功,則在具有此檢索的頁面下方增設(shè)網(wǎng)頁快照按鈕,之后執(zhí)行搜索引擎自身檢索操作。
3.2 網(wǎng)頁快照頁面排序
引入網(wǎng)頁快照因子vf,常常取值vf=0.05;網(wǎng)頁快照置位vn(vn=0或1),帶有網(wǎng)頁快照的PageRank算法如下:

上述公式解釋:
如果網(wǎng)T存在一個(gè)指向網(wǎng)頁A的鏈接,則表明所有者認(rèn)為A比較重要,從而把T的一部分重要性賦予A,這個(gè)重要性得分值為:其中PR(T)為T的PageRank值,L(T)為T的出鏈數(shù);由于一些出鏈為0,也就是那些不連接人和其他網(wǎng)頁的頁面(孤立頁面),因此增加了阻尼系數(shù)q,q一般取值q=0.85;考慮到存在網(wǎng)頁快照按鈕頁面較為重要,因此引入vf、vn提高這類頁面的PageRank值以增加排名。
由于網(wǎng)頁快照是存儲在搜索引擎服務(wù)器中,所以查看網(wǎng)頁快照的速度比直接訪問網(wǎng)頁要快。網(wǎng)頁快照中,搜索的關(guān)鍵詞用鮮艷的亮色顯示,用戶可以點(diǎn)擊呈現(xiàn)亮色的關(guān)鍵詞直接找到關(guān)鍵詞的位置,以便于快速找到有效信息,提高搜索效率。使用基于自然語言檢索的網(wǎng)頁快照技術(shù)有以下特點(diǎn):
(1)優(yōu)點(diǎn)
1)網(wǎng)頁快照技術(shù)已經(jīng)得到谷歌,百度,必應(yīng)等主流搜索引擎的支持,并且都支持自然語言檢索,并且使用效果極其優(yōu)秀。
2)超鏈技術(shù)是每一個(gè)網(wǎng)頁必備的基礎(chǔ),所以與網(wǎng)頁快照結(jié)合十分高效,敏捷。
3)用戶只需將鼠標(biāo)移至該圖標(biāo)(或者直接放在網(wǎng)頁的超鏈上)。
并稍做停留,就會該出現(xiàn)網(wǎng)站的基于網(wǎng)頁快照優(yōu)化后的超鏈文本,它能使用戶在進(jìn)入最終網(wǎng)頁之前能夠預(yù)覽到即將點(diǎn)進(jìn)的搜索結(jié)果.從而給出準(zhǔn)確的相關(guān)判斷,節(jié)省用戶搜索時(shí)間。
4)可以避免點(diǎn)擊進(jìn)入無關(guān)網(wǎng)頁所浪費(fèi)的時(shí)間,流量。
5)可以避免大量的廣告,網(wǎng)頁快照技術(shù),只有關(guān)鍵的文本信息,不會顯示任何無關(guān)信息
6)可以根據(jù)點(diǎn)擊率和網(wǎng)頁停留時(shí)間對網(wǎng)站進(jìn)一步對搜索引擎排序算法進(jìn)行優(yōu)化
(2)缺點(diǎn)
目前,自然語言檢索比起傳統(tǒng)的檢索方式需要更多的資源和優(yōu)化,這個(gè)技術(shù)更像是一個(gè)專利,將它授權(quán)給搜索引擎公司會產(chǎn)生更高的價(jià)值,而且會損害到網(wǎng)站的流量和廣告收入,不過用戶體驗(yàn)會有極大的改善。
[1]黃敏.自然語言處理與信息檢索[J].圖書情報(bào)工作,2001,04:41-44+65.
李俊頡(1996—),男,大學(xué)本科,現(xiàn)就讀于海南大學(xué)信息科學(xué)技術(shù)學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)。