王 鵬
(山東廣播電視大學(xué),山東 濟(jì)南 250014)
截至2008年底,中國網(wǎng)民數(shù)達(dá)2.98億,搜索引擎使用率從2007年的72.4%下降為68.0%,但用戶增長5100萬人,高于電子郵件(56.8%),僅次于即時(shí)通信(75.3%)。迄今已有超過兩億人從搜索引擎中獲益[1]。
搜索引擎成為備受歡迎的網(wǎng)絡(luò)服務(wù),因?yàn)樗鉀Q了在浩瀚的互聯(lián)網(wǎng)信息海洋中快速定位信息的瓶頸問題。但隨著互聯(lián)網(wǎng)迅速發(fā)展,Web信息資源呈“爆炸式”增長,出現(xiàn)了“信息過?!爆F(xiàn)象,通用搜索引擎面臨信息收集冗余與精確定位的雙重挑戰(zhàn)。垂直搜索引擎應(yīng)運(yùn)而生,以專業(yè)化的視角,細(xì)致化的信息處理方式,為用戶提供更有效的服務(wù)。
本文從搜索引擎的體系結(jié)構(gòu)出發(fā),針對(duì)通用搜索引擎存在的問題,探索垂直搜索引擎的工作流程,分析了其優(yōu)勢(shì),并且引入一款實(shí)際應(yīng)用中的垂直搜索引擎進(jìn)行分析。然后以滿足用戶個(gè)性化需求為導(dǎo)向,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)垂直搜索引擎的個(gè)性化信息檢索及推薦算法,并進(jìn)行了驗(yàn)證。
搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是經(jīng)過預(yù)處理的網(wǎng)頁索引數(shù)據(jù)庫。無論是通用搜索還是垂直搜索,在這一點(diǎn)上是一致的。
真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對(duì)網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。
在體系結(jié)構(gòu)上,現(xiàn)代大規(guī)模通用搜索引擎基本都遵循三段式的工作流程,即網(wǎng)頁搜集、預(yù)處理、查詢服務(wù)。起始于網(wǎng)頁搜集,結(jié)束于查詢服務(wù),整個(gè)流程可以反復(fù)進(jìn)行,從而達(dá)到系統(tǒng)的更新。其工作流程如圖1所示。

圖1 通用搜索引擎三段式工作流程
其中網(wǎng)頁搜集面向整個(gè)互聯(lián)網(wǎng),在超級(jí)鏈接分析技術(shù)基礎(chǔ)之上進(jìn)行網(wǎng)頁搜索;預(yù)處理包括網(wǎng)頁關(guān)鍵詞提取、重復(fù)或轉(zhuǎn)載網(wǎng)頁消除、鏈接分析、潛在關(guān)聯(lián)信息挖掘、網(wǎng)頁重要程度計(jì)算等,最終產(chǎn)生關(guān)鍵詞到網(wǎng)頁文檔的倒排索引文件結(jié)構(gòu);查詢服務(wù)則實(shí)現(xiàn)用戶查詢與信息反饋。
搜索引擎的體系結(jié)構(gòu),其主體部分由搜集器、索引器、檢索器、用戶界面和后臺(tái)的索引數(shù)據(jù)庫等組成。其體系結(jié)構(gòu)如圖2。

圖2 通用搜索引擎的體系結(jié)構(gòu)
通用搜索引擎,囿于網(wǎng)頁信息采集范圍及預(yù)處理的深度,查詢的結(jié)果信息量巨大。統(tǒng)計(jì)表明,在數(shù)以千計(jì)的結(jié)果頁中,用戶平均查看的一般不超過兩頁。為什么不縮小信息范圍,提高信息與用戶的相關(guān)性呢?遺憾的是,這正是追求“大而全”的通用搜索引擎難以做到的,直到有了垂直搜索引擎。
在一個(gè)崇尚個(gè)性化和效率的時(shí)代,人們希望用最短的時(shí)間,找到最有用最適合自己的信息。信息不在于多,而在于精。
2.1 垂直搜索引擎的定位
垂直搜索引擎是相對(duì)于通用搜索引擎信息量大、查詢不準(zhǔn)確、深度不夠等問題提出來的新的搜索引擎服務(wù)模式,針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)就是“專、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入[2]。
所謂垂直搜索,就是針對(duì)專業(yè)特定的領(lǐng)域或行業(yè)的內(nèi)容進(jìn)行分析挖掘、精細(xì)分類、過濾篩選的專業(yè)搜索[3],其本質(zhì)是對(duì)垂直門戶信息提供方式的一次簡(jiǎn)化性的整合。
由于垂直搜索引擎只涉及一個(gè)或幾個(gè)領(lǐng)域,詞匯或用語“一詞多義”的可能性降低,而且可以利用專業(yè)詞表進(jìn)行規(guī)范和控制,大大提高了查全率和查準(zhǔn)率。
2.2 垂直搜索引擎與通用搜索引擎的關(guān)系
垂直搜索引擎的出現(xiàn)不是對(duì)通用搜索引擎的顛覆,而恰恰是一種細(xì)分和延伸,是對(duì)某類網(wǎng)頁資源和結(jié)構(gòu)化資源的深度整合,并為用戶提供符合專業(yè)用戶操作行為的信息服務(wù)方式。
很多人誤解垂直搜索就是把相關(guān)的行業(yè)網(wǎng)頁做一采集,進(jìn)行信息抽取過濾,實(shí)現(xiàn)行業(yè)化搜索。如果這樣,垂直搜索根本無法媲美通用的網(wǎng)頁搜索,因?yàn)楹笳吆苋菀拙湍軐⒕W(wǎng)頁分類。垂直搜索應(yīng)是對(duì)垂直行業(yè)信息進(jìn)行深度加工,有效整合,為用戶提供通用的網(wǎng)頁搜索無法做到的專業(yè)性、功能性,實(shí)現(xiàn)個(gè)性化服務(wù)[4]。
2.3 垂直搜索引擎的工作流程
本文構(gòu)建的垂直搜索引擎已經(jīng)成功用于商業(yè)運(yùn)營,目的是向大中型城市消費(fèi)者提供餐飲娛樂搜索服務(wù),其體系結(jié)構(gòu)如圖3。

圖3 垂直搜索引擎的工作流程
從圖3中可以看出,本文構(gòu)建的垂直搜索引擎依然遵循三段式工作流程,只是針對(duì)目標(biāo)在具體處理方式上做了改變,細(xì)化了信息的行業(yè)范疇,細(xì)化了信息處理的粒度,使信息更加精確。
垂直搜索引擎和通用搜索引擎一個(gè)最大的區(qū)別是對(duì)網(wǎng)頁信息進(jìn)行了結(jié)構(gòu)化抽取加工。將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化數(shù)據(jù),存到數(shù)據(jù)庫,進(jìn)行進(jìn)一步的加工,再以搜索的方式展現(xiàn)給用戶。垂直搜索引擎與通用搜索引擎工作流程比較見表1。

表1 垂直搜索引擎與通用搜索引擎工作流程比較
基于結(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)結(jié)合,垂直搜索從本質(zhì)上將搜索服務(wù)推向了專業(yè)化、細(xì)致化和個(gè)性化。表2展示了以結(jié)構(gòu)化數(shù)據(jù)為支撐的垂直搜索引擎為用戶提供了怎樣專業(yè)化、細(xì)致化的搜索服務(wù)。

表2 垂直搜索引擎與通用搜索引擎搜索結(jié)果比較
3.1 個(gè)性化推薦
個(gè)性化推薦是以用戶滿意為中心的主動(dòng)服務(wù),是根據(jù)用戶的不同情況,提供有針對(duì)性的服務(wù)。具體就是在用戶瀏覽網(wǎng)站時(shí),盡可能地迎合用戶的瀏覽興趣,并且不斷調(diào)整自身來適應(yīng)用戶瀏覽興趣的變化,使得每個(gè)用戶都有是該站點(diǎn)唯一用戶的感覺[5]。
從通用網(wǎng)頁搜索到專業(yè)化的垂直搜索,搜索引擎邁出了提升用戶滿意度堅(jiān)實(shí)有力的一步,整體上提高了服務(wù)質(zhì)量,卻未考慮到用戶個(gè)體的差異。沒有差異化的產(chǎn)品或服務(wù)在互聯(lián)網(wǎng)贏家通吃的規(guī)則下是無法生存的,不能簡(jiǎn)單模仿,而要想辦法形成互補(bǔ)。
3.2 個(gè)性化信息檢索與推薦算法設(shè)計(jì)
個(gè)性化信息檢索與推薦就是把用戶的興趣偏好也作為檢索的輸入項(xiàng),使搜索得到的結(jié)果符合用戶個(gè)性化需求。將用戶相關(guān)性引入搜索結(jié)果,無疑是對(duì)關(guān)鍵詞相關(guān)性的一種補(bǔ)充。這樣可以調(diào)整服務(wù)的內(nèi)容,包括重新分級(jí)、過濾掉不相關(guān)或相關(guān)性較低的結(jié)果、重新排序,使相關(guān)性高的結(jié)果排到前面等。屆時(shí),用戶看到的將不再是雷同的信息,而是為自己量身定制的有著鮮明個(gè)人特色的服務(wù)。
本系統(tǒng)的設(shè)計(jì)構(gòu)想是:利用用戶搜索日志,包括查詢關(guān)鍵詞和瀏覽軌跡(網(wǎng)頁標(biāo)題和標(biāo)簽信息),構(gòu)建用戶特征向量,將這些具有文本特征的關(guān)鍵詞與標(biāo)題連接起來,構(gòu)成一篇虛擬文檔來作為用戶的個(gè)性化文檔。將此文檔轉(zhuǎn)換為具有詞頻權(quán)重的向量即用戶特征向量。
此操作的理由是:首先,詞頻權(quán)重確實(shí)能夠反應(yīng)出用戶對(duì)某關(guān)鍵詞的感興趣程度;其次,在實(shí)踐中已得到驗(yàn)證,基于統(tǒng)計(jì)的方法往往比其他建模方法更為有效;再次,文檔轉(zhuǎn)換為向量的處理過程,包括分詞、詞頻統(tǒng)計(jì)、權(quán)重公式計(jì)算均已非常成熟,實(shí)現(xiàn)起來比較簡(jiǎn)單。
具體實(shí)現(xiàn)方法為:
Q={q1,q2,……qn}T,qi表示詞i在查詢中出現(xiàn)的詞頻權(quán)重。
系統(tǒng)在詞-文檔矩陣A建立之后利用SDD算法對(duì)其進(jìn)行分解、降維,以強(qiáng)化語義關(guān)系,提高空間效率,得矩陣Ak。檢索過程中用戶輸入的關(guān)鍵詞經(jīng)分析、分詞等處理成為一個(gè) K維查詢向量Qk,用戶個(gè)性化文檔經(jīng)過處理后成為一個(gè) K維的特征向量Uk,新的查詢向量的計(jì)算公式為:

β的調(diào)節(jié)使得Qk與Uk長度相等,?用來控制相關(guān)度計(jì)算中查詢相關(guān)性與用戶相關(guān)性的比例。按s= Nk×Ak計(jì)算相似度,據(jù)此給出搜索結(jié)果。垂直搜索引擎?zhèn)€性化信息檢索框架如圖4所示。

圖4 垂直搜索個(gè)性化信息檢索框架
將垂直搜索引擎的個(gè)性化檢索信息記錄到用戶信息數(shù)據(jù)庫中,當(dāng)系統(tǒng)檢測(cè)到具有相同特征的用戶使用查詢服務(wù)時(shí),就可以推薦用戶可能感興趣的搜索結(jié)果,甚至直接推薦本行業(yè)相關(guān)服務(wù),引導(dǎo)用戶更有效使用搜索引擎。
隨著網(wǎng)絡(luò)發(fā)展和普及,個(gè)性化的信息需求與日俱增,而垂直搜索引擎可以幫助用戶在最短的時(shí)間內(nèi)找到最適合自己的信息。在垂直搜索引擎中同時(shí)引入個(gè)性化信息檢索和推薦,不僅提高了信息的查準(zhǔn)率和用戶滿意度,同時(shí)也增強(qiáng)了用戶的個(gè)性化使用體驗(yàn)和感受,能夠在為用戶提供有效信息的同時(shí)更加契合用戶對(duì)個(gè)性化檢索的需求。
[1]中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心(CNN IC),2009:30-31.
[2]垂直搜索引擎[EB/OL].(2006-04-21).http://baike.baidu.com/view/7491.htm.
[3]文婧,王洪偉.垂直搜索:專業(yè)公司夾縫中求生存[N].經(jīng)濟(jì)參考報(bào),2005-11-21.
[4]張曉寧.走近垂直搜索[J].電子商務(wù)世界,2006,(Z1):102-103.
[5]Mobasher B,Dai H H,Luo T,et a l.Effective Personalization Based on Association Rule Discovery from Web Usage Data [C]//Proceedings of the 3rd international wo rkshop on Web info rmation and data management.New Yo rk,2001.