999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

垂直搜索引擎及其個(gè)性化推薦研究*

2011-12-08 00:23:54
濰坊學(xué)院學(xué)報(bào) 2011年4期
關(guān)鍵詞:信息檢索搜索引擎用戶

王 鵬

(山東廣播電視大學(xué),山東 濟(jì)南 250014)

截至2008年底,中國網(wǎng)民數(shù)達(dá)2.98億,搜索引擎使用率從2007年的72.4%下降為68.0%,但用戶增長5100萬人,高于電子郵件(56.8%),僅次于即時(shí)通信(75.3%)。迄今已有超過兩億人從搜索引擎中獲益[1]。

搜索引擎成為備受歡迎的網(wǎng)絡(luò)服務(wù),因?yàn)樗鉀Q了在浩瀚的互聯(lián)網(wǎng)信息海洋中快速定位信息的瓶頸問題。但隨著互聯(lián)網(wǎng)迅速發(fā)展,Web信息資源呈“爆炸式”增長,出現(xiàn)了“信息過?!爆F(xiàn)象,通用搜索引擎面臨信息收集冗余與精確定位的雙重挑戰(zhàn)。垂直搜索引擎應(yīng)運(yùn)而生,以專業(yè)化的視角,細(xì)致化的信息處理方式,為用戶提供更有效的服務(wù)。

本文從搜索引擎的體系結(jié)構(gòu)出發(fā),針對(duì)通用搜索引擎存在的問題,探索垂直搜索引擎的工作流程,分析了其優(yōu)勢(shì),并且引入一款實(shí)際應(yīng)用中的垂直搜索引擎進(jìn)行分析。然后以滿足用戶個(gè)性化需求為導(dǎo)向,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)垂直搜索引擎的個(gè)性化信息檢索及推薦算法,并進(jìn)行了驗(yàn)證。

1 通用搜索引擎

搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是經(jīng)過預(yù)處理的網(wǎng)頁索引數(shù)據(jù)庫。無論是通用搜索還是垂直搜索,在這一點(diǎn)上是一致的。

真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對(duì)網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。

在體系結(jié)構(gòu)上,現(xiàn)代大規(guī)模通用搜索引擎基本都遵循三段式的工作流程,即網(wǎng)頁搜集、預(yù)處理、查詢服務(wù)。起始于網(wǎng)頁搜集,結(jié)束于查詢服務(wù),整個(gè)流程可以反復(fù)進(jìn)行,從而達(dá)到系統(tǒng)的更新。其工作流程如圖1所示。

圖1 通用搜索引擎三段式工作流程

其中網(wǎng)頁搜集面向整個(gè)互聯(lián)網(wǎng),在超級(jí)鏈接分析技術(shù)基礎(chǔ)之上進(jìn)行網(wǎng)頁搜索;預(yù)處理包括網(wǎng)頁關(guān)鍵詞提取、重復(fù)或轉(zhuǎn)載網(wǎng)頁消除、鏈接分析、潛在關(guān)聯(lián)信息挖掘、網(wǎng)頁重要程度計(jì)算等,最終產(chǎn)生關(guān)鍵詞到網(wǎng)頁文檔的倒排索引文件結(jié)構(gòu);查詢服務(wù)則實(shí)現(xiàn)用戶查詢與信息反饋。

搜索引擎的體系結(jié)構(gòu),其主體部分由搜集器、索引器、檢索器、用戶界面和后臺(tái)的索引數(shù)據(jù)庫等組成。其體系結(jié)構(gòu)如圖2。

圖2 通用搜索引擎的體系結(jié)構(gòu)

通用搜索引擎,囿于網(wǎng)頁信息采集范圍及預(yù)處理的深度,查詢的結(jié)果信息量巨大。統(tǒng)計(jì)表明,在數(shù)以千計(jì)的結(jié)果頁中,用戶平均查看的一般不超過兩頁。為什么不縮小信息范圍,提高信息與用戶的相關(guān)性呢?遺憾的是,這正是追求“大而全”的通用搜索引擎難以做到的,直到有了垂直搜索引擎。

2 構(gòu)建垂直搜索引擎

在一個(gè)崇尚個(gè)性化和效率的時(shí)代,人們希望用最短的時(shí)間,找到最有用最適合自己的信息。信息不在于多,而在于精。

2.1 垂直搜索引擎的定位

垂直搜索引擎是相對(duì)于通用搜索引擎信息量大、查詢不準(zhǔn)確、深度不夠等問題提出來的新的搜索引擎服務(wù)模式,針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)就是“專、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入[2]。

所謂垂直搜索,就是針對(duì)專業(yè)特定的領(lǐng)域或行業(yè)的內(nèi)容進(jìn)行分析挖掘、精細(xì)分類、過濾篩選的專業(yè)搜索[3],其本質(zhì)是對(duì)垂直門戶信息提供方式的一次簡(jiǎn)化性的整合。

由于垂直搜索引擎只涉及一個(gè)或幾個(gè)領(lǐng)域,詞匯或用語“一詞多義”的可能性降低,而且可以利用專業(yè)詞表進(jìn)行規(guī)范和控制,大大提高了查全率和查準(zhǔn)率。

2.2 垂直搜索引擎與通用搜索引擎的關(guān)系

垂直搜索引擎的出現(xiàn)不是對(duì)通用搜索引擎的顛覆,而恰恰是一種細(xì)分和延伸,是對(duì)某類網(wǎng)頁資源和結(jié)構(gòu)化資源的深度整合,并為用戶提供符合專業(yè)用戶操作行為的信息服務(wù)方式。

很多人誤解垂直搜索就是把相關(guān)的行業(yè)網(wǎng)頁做一采集,進(jìn)行信息抽取過濾,實(shí)現(xiàn)行業(yè)化搜索。如果這樣,垂直搜索根本無法媲美通用的網(wǎng)頁搜索,因?yàn)楹笳吆苋菀拙湍軐⒕W(wǎng)頁分類。垂直搜索應(yīng)是對(duì)垂直行業(yè)信息進(jìn)行深度加工,有效整合,為用戶提供通用的網(wǎng)頁搜索無法做到的專業(yè)性、功能性,實(shí)現(xiàn)個(gè)性化服務(wù)[4]。

2.3 垂直搜索引擎的工作流程

本文構(gòu)建的垂直搜索引擎已經(jīng)成功用于商業(yè)運(yùn)營,目的是向大中型城市消費(fèi)者提供餐飲娛樂搜索服務(wù),其體系結(jié)構(gòu)如圖3。

圖3 垂直搜索引擎的工作流程

從圖3中可以看出,本文構(gòu)建的垂直搜索引擎依然遵循三段式工作流程,只是針對(duì)目標(biāo)在具體處理方式上做了改變,細(xì)化了信息的行業(yè)范疇,細(xì)化了信息處理的粒度,使信息更加精確。

垂直搜索引擎和通用搜索引擎一個(gè)最大的區(qū)別是對(duì)網(wǎng)頁信息進(jìn)行了結(jié)構(gòu)化抽取加工。將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化數(shù)據(jù),存到數(shù)據(jù)庫,進(jìn)行進(jìn)一步的加工,再以搜索的方式展現(xiàn)給用戶。垂直搜索引擎與通用搜索引擎工作流程比較見表1。

表1 垂直搜索引擎與通用搜索引擎工作流程比較

基于結(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)結(jié)合,垂直搜索從本質(zhì)上將搜索服務(wù)推向了專業(yè)化、細(xì)致化和個(gè)性化。表2展示了以結(jié)構(gòu)化數(shù)據(jù)為支撐的垂直搜索引擎為用戶提供了怎樣專業(yè)化、細(xì)致化的搜索服務(wù)。

表2 垂直搜索引擎與通用搜索引擎搜索結(jié)果比較

3 垂直搜索引擎的個(gè)性化檢索與推薦

3.1 個(gè)性化推薦

個(gè)性化推薦是以用戶滿意為中心的主動(dòng)服務(wù),是根據(jù)用戶的不同情況,提供有針對(duì)性的服務(wù)。具體就是在用戶瀏覽網(wǎng)站時(shí),盡可能地迎合用戶的瀏覽興趣,并且不斷調(diào)整自身來適應(yīng)用戶瀏覽興趣的變化,使得每個(gè)用戶都有是該站點(diǎn)唯一用戶的感覺[5]。

從通用網(wǎng)頁搜索到專業(yè)化的垂直搜索,搜索引擎邁出了提升用戶滿意度堅(jiān)實(shí)有力的一步,整體上提高了服務(wù)質(zhì)量,卻未考慮到用戶個(gè)體的差異。沒有差異化的產(chǎn)品或服務(wù)在互聯(lián)網(wǎng)贏家通吃的規(guī)則下是無法生存的,不能簡(jiǎn)單模仿,而要想辦法形成互補(bǔ)。

3.2 個(gè)性化信息檢索與推薦算法設(shè)計(jì)

個(gè)性化信息檢索與推薦就是把用戶的興趣偏好也作為檢索的輸入項(xiàng),使搜索得到的結(jié)果符合用戶個(gè)性化需求。將用戶相關(guān)性引入搜索結(jié)果,無疑是對(duì)關(guān)鍵詞相關(guān)性的一種補(bǔ)充。這樣可以調(diào)整服務(wù)的內(nèi)容,包括重新分級(jí)、過濾掉不相關(guān)或相關(guān)性較低的結(jié)果、重新排序,使相關(guān)性高的結(jié)果排到前面等。屆時(shí),用戶看到的將不再是雷同的信息,而是為自己量身定制的有著鮮明個(gè)人特色的服務(wù)。

本系統(tǒng)的設(shè)計(jì)構(gòu)想是:利用用戶搜索日志,包括查詢關(guān)鍵詞和瀏覽軌跡(網(wǎng)頁標(biāo)題和標(biāo)簽信息),構(gòu)建用戶特征向量,將這些具有文本特征的關(guān)鍵詞與標(biāo)題連接起來,構(gòu)成一篇虛擬文檔來作為用戶的個(gè)性化文檔。將此文檔轉(zhuǎn)換為具有詞頻權(quán)重的向量即用戶特征向量。

此操作的理由是:首先,詞頻權(quán)重確實(shí)能夠反應(yīng)出用戶對(duì)某關(guān)鍵詞的感興趣程度;其次,在實(shí)踐中已得到驗(yàn)證,基于統(tǒng)計(jì)的方法往往比其他建模方法更為有效;再次,文檔轉(zhuǎn)換為向量的處理過程,包括分詞、詞頻統(tǒng)計(jì)、權(quán)重公式計(jì)算均已非常成熟,實(shí)現(xiàn)起來比較簡(jiǎn)單。

具體實(shí)現(xiàn)方法為:

Q={q1,q2,……qn}T,qi表示詞i在查詢中出現(xiàn)的詞頻權(quán)重。

系統(tǒng)在詞-文檔矩陣A建立之后利用SDD算法對(duì)其進(jìn)行分解、降維,以強(qiáng)化語義關(guān)系,提高空間效率,得矩陣Ak。檢索過程中用戶輸入的關(guān)鍵詞經(jīng)分析、分詞等處理成為一個(gè) K維查詢向量Qk,用戶個(gè)性化文檔經(jīng)過處理后成為一個(gè) K維的特征向量Uk,新的查詢向量的計(jì)算公式為:

β的調(diào)節(jié)使得Qk與Uk長度相等,?用來控制相關(guān)度計(jì)算中查詢相關(guān)性與用戶相關(guān)性的比例。按s= Nk×Ak計(jì)算相似度,據(jù)此給出搜索結(jié)果。垂直搜索引擎?zhèn)€性化信息檢索框架如圖4所示。

圖4 垂直搜索個(gè)性化信息檢索框架

將垂直搜索引擎的個(gè)性化檢索信息記錄到用戶信息數(shù)據(jù)庫中,當(dāng)系統(tǒng)檢測(cè)到具有相同特征的用戶使用查詢服務(wù)時(shí),就可以推薦用戶可能感興趣的搜索結(jié)果,甚至直接推薦本行業(yè)相關(guān)服務(wù),引導(dǎo)用戶更有效使用搜索引擎。

4 結(jié)束語

隨著網(wǎng)絡(luò)發(fā)展和普及,個(gè)性化的信息需求與日俱增,而垂直搜索引擎可以幫助用戶在最短的時(shí)間內(nèi)找到最適合自己的信息。在垂直搜索引擎中同時(shí)引入個(gè)性化信息檢索和推薦,不僅提高了信息的查準(zhǔn)率和用戶滿意度,同時(shí)也增強(qiáng)了用戶的個(gè)性化使用體驗(yàn)和感受,能夠在為用戶提供有效信息的同時(shí)更加契合用戶對(duì)個(gè)性化檢索的需求。

[1]中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心(CNN IC),2009:30-31.

[2]垂直搜索引擎[EB/OL].(2006-04-21).http://baike.baidu.com/view/7491.htm.

[3]文婧,王洪偉.垂直搜索:專業(yè)公司夾縫中求生存[N].經(jīng)濟(jì)參考報(bào),2005-11-21.

[4]張曉寧.走近垂直搜索[J].電子商務(wù)世界,2006,(Z1):102-103.

[5]Mobasher B,Dai H H,Luo T,et a l.Effective Personalization Based on Association Rule Discovery from Web Usage Data [C]//Proceedings of the 3rd international wo rkshop on Web info rmation and data management.New Yo rk,2001.

猜你喜歡
信息檢索搜索引擎用戶
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
如何獲取一億海外用戶
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 国产美女在线观看| 成人韩免费网站| 欧美日韩国产在线播放| 日韩精品专区免费无码aⅴ| 久久婷婷六月| 日韩不卡高清视频| 亚洲精品天堂自在久久77| yy6080理论大片一级久久| 国产又爽又黄无遮挡免费观看| 国产精品福利尤物youwu| 亚洲色欲色欲www网| 国产精品综合久久久| 91口爆吞精国产对白第三集 | 欧美成人日韩| 国产精品自在自线免费观看| 青青青草国产| 亚洲国产精品日韩av专区| 国产亚洲视频免费播放| 国产丰满大乳无码免费播放| 亚洲黄网视频| 国产成年无码AⅤ片在线| 人妻夜夜爽天天爽| 国产va免费精品| 久久99热66这里只有精品一| 亚洲国产看片基地久久1024 | 日本一区二区不卡视频| 中文字幕亚洲精品2页| 亚洲色图欧美激情| 亚洲精品麻豆| 国产欧美日本在线观看| 真实国产精品vr专区| 欧美中文一区| 亚洲最大综合网| 毛片基地视频| 好吊妞欧美视频免费| 国产美女视频黄a视频全免费网站| 专干老肥熟女视频网站| 成年人午夜免费视频| 9966国产精品视频| 国产精品网曝门免费视频| 午夜啪啪福利| 五月婷婷精品| 国产精品免费久久久久影院无码| 麻豆精品在线播放| 干中文字幕| 性色生活片在线观看| 亚洲人成网址| 色偷偷综合网| 欧美一区福利| 男人天堂伊人网| 久久精品中文无码资源站| 国产精品久久自在自线观看| 日韩精品免费一线在线观看| 欧美日本一区二区三区免费| 免费av一区二区三区在线| 97精品伊人久久大香线蕉| 亚洲欧美综合在线观看| 青草视频在线观看国产| 精品国产污污免费网站| 国产人人乐人人爱| 欧美国产在线看| 国产尹人香蕉综合在线电影| 国产成人亚洲毛片| 亚洲青涩在线| 国产成人三级在线观看视频| 再看日本中文字幕在线观看| 真实国产精品vr专区| 国产一级妓女av网站| 无码丝袜人妻| 国产精品无码久久久久AV| 久久婷婷国产综合尤物精品| 青青草91视频| 欧美精品高清| 性视频久久| 欧美日韩福利| 国产精品久久久免费视频| 一级毛片无毒不卡直接观看| 白浆视频在线观看| 国产精品片在线观看手机版| 免费毛片a| 国产男人的天堂| 美美女高清毛片视频免费观看|