999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

搜索引擎技術(shù)在網(wǎng)站圖書(shū)檢索中的應(yīng)用

2014-08-13 22:30:23金安
出版參考 2014年12期
關(guān)鍵詞:搜索引擎內(nèi)容信息

金安

出版社網(wǎng)站建設(shè)的核心價(jià)值在于及時(shí)、全面、準(zhǔn)確地發(fā)布本社的圖書(shū)產(chǎn)品信息,并將其傳遞給目標(biāo)客戶(hù),從而發(fā)揮網(wǎng)絡(luò)營(yíng)銷(xiāo)作用。隨著出版社網(wǎng)站建設(shè)的深入,產(chǎn)品信息愈加豐富,網(wǎng)站建設(shè)水平將更多的體現(xiàn)在對(duì)信息的組織和其所提供的使用功能上,最終目標(biāo)是提高信息傳遞的效率。

對(duì)于一個(gè)大型的科技出版社,其產(chǎn)品涉及的學(xué)科門(mén)類(lèi)紛繁,品種數(shù)量眾多,內(nèi)容層次不一;同時(shí),讀者群體遍布科學(xué)技術(shù)的各個(gè)領(lǐng)域,且專(zhuān)業(yè)分工明細(xì),但閱讀能力卻分布于不同層次。因此,讀者在尋找適合自己的圖書(shū)產(chǎn)品時(shí),就產(chǎn)生了“多對(duì)多”的矛盾,信息傳遞在此出現(xiàn)了“瓶頸”。如何突破這個(gè)“多對(duì)多”的瓶頸,實(shí)現(xiàn)“一對(duì)一”,即一位讀者一次性找到符合檢索定義的一類(lèi)圖書(shū)產(chǎn)品的所有信息,成為本研究的目標(biāo)。

幾年來(lái),我們圍繞網(wǎng)站信息組織和功能技術(shù)兩個(gè)方面開(kāi)展工作,以期實(shí)現(xiàn)上述“一對(duì)一”的目標(biāo)。在信息組織方面,完成了產(chǎn)品分類(lèi)與導(dǎo)航體系的建設(shè)。在功能技術(shù)方面,開(kāi)展了搜索引擎應(yīng)用技術(shù)研究,并對(duì)網(wǎng)站內(nèi)容進(jìn)行了結(jié)構(gòu)化處理(碎片化)。這些實(shí)踐探索,已經(jīng)取得了初步成果。

傳統(tǒng)的圖書(shū)檢索方式,是基于已知書(shū)名的,不外乎書(shū)名查詢(xún)和組合查詢(xún)兩類(lèi)。其中組合查詢(xún)需要明確的查詢(xún)條件,一般只適用于條件限制嚴(yán)格和已知信息較豐富的情況,其準(zhǔn)確性與查詢(xún)條件的多少成正相關(guān),在并不確知書(shū)名或其他條件信息的情況下就不適用;且如果查詢(xún)條件之一輸入有誤,就得不到預(yù)期的結(jié)果,因此有較大局限性。而書(shū)名查詢(xún)又因?yàn)橛幸韵聝深?lèi)問(wèn)題,而存在較大的不確定性。

書(shū)名中不一定包含內(nèi)容主題,或是書(shū)名與內(nèi)容無(wú)直接關(guān)聯(lián)。例如《誰(shuí)動(dòng)了我的奶酪》并不是一本關(guān)于食品的書(shū),而《國(guó)家健康報(bào)告》也與體檢或醫(yī)療無(wú)關(guān)。此外,還有許多專(zhuān)業(yè)性的詞匯也不會(huì)出現(xiàn)在書(shū)名中,因?yàn)樵诖_定書(shū)名時(shí)需要考慮有較廣泛的讀者覆蓋。

書(shū)名中的一些連接字(或符號(hào))輸入的不準(zhǔn)確,會(huì)導(dǎo)致檢索沒(méi)有結(jié)果,盡管這些并非關(guān)鍵字,如“和、與、及、的”等以及“破折號(hào)(——)、頓號(hào)(、)、冒號(hào)(:) ”等。

出版社的生存與發(fā)展主要依靠新的出版物,因此出版社網(wǎng)站的宣傳營(yíng)銷(xiāo)工作應(yīng)該主要圍繞新書(shū)展開(kāi),所以新書(shū)推介功能就顯得尤為重要。但這與已知書(shū)名的傳統(tǒng)查詢(xún)方式產(chǎn)生了矛盾。如何響應(yīng)讀者基于內(nèi)容主題(而不是書(shū)名)的檢索需求,并能夠快速地提供相關(guān)度很高的查詢(xún)結(jié)果,是我們潛心鉆研的課題。為此,我們開(kāi)發(fā)了自己的圖書(shū)搜索引擎。

圖書(shū)搜索引擎是一個(gè)網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng),它能夠接受用戶(hù)通過(guò)瀏覽器提交的搜索文本(詞組或短語(yǔ)),在可接受的時(shí)間內(nèi)返回一個(gè)與該用戶(hù)搜索匹配的網(wǎng)頁(yè)信息列表,這個(gè)列表中的每一個(gè)條目至少包含書(shū)名及其網(wǎng)址鏈接,同時(shí)依其相關(guān)程度自動(dòng)排序。

搜索引擎技術(shù)在大型電子商務(wù)網(wǎng)站應(yīng)用的比較普遍,但在出版社網(wǎng)站上卻幾乎沒(méi)有看到,讀者比較在這兩類(lèi)網(wǎng)站上的購(gòu)書(shū)體驗(yàn)時(shí),明顯感到出版社網(wǎng)站的功能落后。其實(shí),到訪出版社網(wǎng)站的人,大多是受到出版社品牌感召的忠實(shí)讀者,奔著獲得更具專(zhuān)業(yè)特色的經(jīng)典圖書(shū)而來(lái)。為他們提供優(yōu)質(zhì)高效的檢索工具和服務(wù),不僅是出版社品牌的直接體現(xiàn),更起到了留住這部分忠實(shí)讀者,同時(shí)減少潛在客戶(hù)流失的“吸附”作用。努力提高網(wǎng)站的“粘度”是我們的重要理念之一,開(kāi)發(fā)適用于出版社網(wǎng)站的圖書(shū)搜索引擎,是該理念指導(dǎo)下的一個(gè)重要技術(shù)措施。這項(xiàng)工作有三個(gè)關(guān)鍵要素:

匹配——相關(guān)性評(píng)價(jià)。即如何定義和評(píng)價(jià)我們認(rèn)為內(nèi)容與搜索條件匹配的那些圖書(shū)與該搜索條件之間的相關(guān)性程度。這種評(píng)價(jià)必須是量化的,否則將無(wú)法進(jìn)行精確的比較判斷。將書(shū)的內(nèi)容(及其他屬性)納入搜索范圍比僅從書(shū)名中搜索,準(zhǔn)確程度有了質(zhì)的飛躍,這是決定搜索質(zhì)量的關(guān)鍵要素。量化算法隨之成為搜索引擎的技術(shù)核心。

可接受的時(shí)間——響應(yīng)時(shí)間。對(duì)于在Web上向廣大用戶(hù)提供服務(wù)的軟件來(lái)說(shuō),響應(yīng)時(shí)間不能太長(zhǎng),通常可以接受的量級(jí)是“秒”級(jí)。

取詞——自動(dòng)分詞(切詞)處理。用戶(hù)的搜索條件一般是詞的組合或自然語(yǔ)言短語(yǔ),搜索引擎必須理解這些對(duì)搜索條件的描述。但是漢語(yǔ)不同于英語(yǔ),英語(yǔ)的詞與詞之間以空格分開(kāi),漢語(yǔ)的詞之間沒(méi)有分隔符,這對(duì)計(jì)算機(jī)處理造成了困難,所以必須使用中文信息處理系統(tǒng)——自動(dòng)分詞系統(tǒng),才能將一串字符分解為若干規(guī)范化的主題詞,同時(shí)也過(guò)濾掉當(dāng)中的無(wú)價(jià)值字符。同理,對(duì)圖書(shū)內(nèi)容的加工處理也是如此。

由此可知,應(yīng)用搜索引擎技術(shù),必須首先對(duì)網(wǎng)站的圖書(shū)內(nèi)容等信息,進(jìn)行結(jié)構(gòu)化的加工處理,就是大家常說(shuō)的“碎片化”,這是不可或缺的基礎(chǔ)性工作。

下面談?wù)勊阉饕娴降资侨绾喂ぷ鞯模蠹揖椭浪鼮槭裁茨軌虼蠓岣咚阉鞯馁|(zhì)量和效率了。其工作流程依次分為三個(gè)步驟:

信息采集。相對(duì)于流通領(lǐng)域的電商網(wǎng)站而言,出版社網(wǎng)站具有得天獨(dú)厚的內(nèi)容資源優(yōu)勢(shì),可用于支持自己產(chǎn)品的精確定義。這其中不僅包括內(nèi)容簡(jiǎn)介、章節(jié)目錄、樣章(甚至全文)等可以用于詞頻的定量計(jì)算,還有CIP數(shù)據(jù)中的主題詞、分類(lèi)號(hào),以及作者名、自定義分類(lèi)名等定性資源,這些資源可以為相關(guān)性評(píng)價(jià)提供完整的數(shù)據(jù)支持。因此,廣泛地采集這些信息,充分利用本社產(chǎn)品的數(shù)據(jù)資源,構(gòu)建全方位的評(píng)價(jià)體系,是保證和提高搜索引擎質(zhì)量的基礎(chǔ)與前提。同時(shí),通過(guò)保持較高的采集頻率,及時(shí)將新書(shū)信息抓取入庫(kù),還可以達(dá)到宣傳推廣新書(shū)的目的。

預(yù)處理。這是生成中間數(shù)據(jù)的準(zhǔn)備過(guò)程,也是運(yùn)算量最大的階段,包括建立內(nèi)容索引庫(kù)和倒排索引表。其工作過(guò)程是將一本書(shū)的可取內(nèi)容和屬性信息,轉(zhuǎn)化為一組權(quán)重不同的索引詞的集合,然后將書(shū)到索引詞的映射轉(zhuǎn)化為索引詞到書(shū)的映射,生成倒排文件(包括倒排表和索引詞表),用于下一步的檢索服務(wù)。其中由內(nèi)容到索引詞集合的轉(zhuǎn)化,就是我們說(shuō)的“碎片化”。這一過(guò)程既需要中文自動(dòng)分詞技術(shù)的支持,也需要對(duì)分詞對(duì)象選擇和權(quán)重設(shè)置等具有一定的經(jīng)驗(yàn)。

檢索服務(wù)。這是直接與用戶(hù)交互的過(guò)程,也是限制搜索引擎性能的瓶頸。該過(guò)程包括四個(gè)環(huán)節(jié):接受用戶(hù)輸入的搜索主題詞或短語(yǔ),運(yùn)行檢索并獲得相應(yīng)的匹配結(jié)果,計(jì)算評(píng)價(jià)匹配者的相關(guān)性程度,最后依次顯示給用戶(hù)。即,首先對(duì)用戶(hù)輸入的搜索語(yǔ)句進(jìn)行切分取詞,然后分別從索引詞表和倒排索引表中檢索出包含這些主題詞的圖書(shū)記錄,再依據(jù)各主題詞的權(quán)重進(jìn)行量化計(jì)算和匯總比較,從而確定所有可匹配圖書(shū)的相關(guān)性程度排序,最后生成有序的結(jié)果列表頁(yè)面顯示給用戶(hù)。其中起決定性作用的是相關(guān)性評(píng)價(jià)算法,它的優(yōu)劣直接關(guān)系到搜索引擎的質(zhì)量和效率。

評(píng)價(jià)算法與出版物的特性及內(nèi)容有密切關(guān)系,需要結(jié)合本社特點(diǎn)反復(fù)調(diào)試,通過(guò)不斷優(yōu)化,一定可以摸索出最具本社產(chǎn)品特色的算法模型。下面介紹一下我社建立相關(guān)性評(píng)價(jià)算法模型的思路與經(jīng)驗(yàn):

該模型采用計(jì)分方式,依得分多少分段排序。得分的計(jì)算是依據(jù)所匹配詞的詞頻和權(quán)重,分級(jí)的依據(jù)是匹配度,是根據(jù)經(jīng)驗(yàn)修正后建立起來(lái)的統(tǒng)計(jì)模型。

首先,根據(jù)出版社網(wǎng)站的產(chǎn)品數(shù)據(jù)結(jié)構(gòu)和功能架構(gòu),采集盡可能多的可用于描述圖書(shū)內(nèi)容的信息,如章節(jié)目錄、內(nèi)容簡(jiǎn)介、樣章、CIP數(shù)據(jù)中的主題詞和分類(lèi)號(hào)、作譯者名、自定義分類(lèi)名等,并將它們分為定量詞和定性詞兩類(lèi),分別賦予不同的權(quán)重,而具體的權(quán)重值需根據(jù)經(jīng)驗(yàn)不斷修正,一個(gè)基本原則是定性詞的權(quán)重分略高于定量詞最高詞頻的平均值。

然后,計(jì)算出所匹配詞的權(quán)重與詞頻的乘積之和,同時(shí)記錄下匹配度——匹配詞數(shù)與輸入分詞總數(shù)之比,再依據(jù)這兩項(xiàng)數(shù)據(jù)進(jìn)行綜合評(píng)價(jià),得到相關(guān)性分級(jí)結(jié)果列表,即匹配度為100%的按得分由高到低在前面依次排列,匹配度低于100%的也依得分多少,但排在后面。

這一模型從我社自身內(nèi)容特點(diǎn)出發(fā),經(jīng)反復(fù)修正和優(yōu)化,已經(jīng)達(dá)到如下三點(diǎn)設(shè)計(jì)目標(biāo):

保證相關(guān)度高的圖書(shū)全部出現(xiàn)在列表的第1-2頁(yè);

在線使用時(shí),每次檢索耗時(shí)0.5-2秒,平均耗時(shí)1秒;

相關(guān)度排序基本與客觀實(shí)際一致。

搜索引擎技術(shù)的應(yīng)用開(kāi)發(fā),至能夠成功上線運(yùn)行的程度,還只是完成了基本任務(wù)。其后續(xù)的優(yōu)化和運(yùn)行維護(hù)工作還有許多,這項(xiàng)長(zhǎng)期性工作主要包括兩個(gè)方面:

新書(shū)入庫(kù)和新詞識(shí)別。不斷地推出新書(shū),是出版社網(wǎng)站的任務(wù)使命。除了在相關(guān)頻道進(jìn)行宣傳推薦以外,能夠及時(shí)出現(xiàn)在搜索引擎的結(jié)果列表中,也是很有推薦意義的。這就需要我們的預(yù)處理工作必須與新書(shū)上線同步進(jìn)行,如果網(wǎng)站每天都有新書(shū)發(fā)布,那么,預(yù)處理工作就需要每天進(jìn)行。由于預(yù)處理的運(yùn)算量非常之大,所以一般應(yīng)安排在夜間自動(dòng)運(yùn)行。以我社在庫(kù)品種為例,預(yù)處理得到的索引記錄已達(dá)350多萬(wàn)條。同時(shí),新書(shū)中涌現(xiàn)的新詞也十分重要,只有及時(shí)地將這些新詞識(shí)別出來(lái),才能保證以后此類(lèi)新書(shū)的內(nèi)容可以被正確切分。

算法和權(quán)重值的不斷優(yōu)化。隨著社會(huì)和科技進(jìn)步以及出版社的發(fā)展,出版領(lǐng)域?qū)⒉粩鄶U(kuò)展。而每當(dāng)出版物涉及一個(gè)新的范疇以后,必然帶來(lái)內(nèi)容結(jié)構(gòu)和特點(diǎn)的變化。因此之前確定的算法、參數(shù)、權(quán)重值等都需要同步進(jìn)行適應(yīng)性調(diào)整。另外,隨著信息技術(shù)和人工智能的發(fā)展,算法和建模理論正在迅速完善和提高過(guò)程中,這將給我們提供許多指導(dǎo)和借鑒,優(yōu)化工作就有了方向。所以,運(yùn)維工作的另一方面內(nèi)容就是應(yīng)當(dāng)根據(jù)產(chǎn)品結(jié)構(gòu)的變化及技術(shù)的發(fā)展,適時(shí)地對(duì)搜索引擎的效果和效率做出評(píng)價(jià),以選擇時(shí)機(jī)進(jìn)行優(yōu)化升級(jí),使其不斷完善和提高。

出版社網(wǎng)站的圖書(shū)搜索引擎技術(shù)開(kāi)發(fā),是我社在數(shù)字出版理念指導(dǎo)下,進(jìn)行的一次改善讀者產(chǎn)品搜索體驗(yàn)的實(shí)踐,從中積累了經(jīng)驗(yàn),達(dá)到了預(yù)期目的。但同時(shí)也感到,還有許多可以繼續(xù)努力提高的空間,隨著信息技術(shù)的進(jìn)步以及各方面條件的完善,我們有信心取得新的飛躍。

(作者單位系科學(xué)出版社)

猜你喜歡
搜索引擎內(nèi)容信息
內(nèi)容回顧溫故知新
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
主要內(nèi)容
臺(tái)聲(2016年2期)2016-09-16 01:06:53
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
展會(huì)信息
基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 黄网站欧美内射| 毛片三级在线观看| 免费观看三级毛片| 香蕉eeww99国产在线观看| 91系列在线观看| 91精品国产91欠久久久久| 国产一区二区三区在线观看免费| 国产福利在线免费观看| 亚洲国产成人精品一二区| 国产成人乱无码视频| 亚洲91精品视频| 中文精品久久久久国产网址| 手机精品福利在线观看| 超薄丝袜足j国产在线视频| 国产成人免费视频精品一区二区| 青青青视频免费一区二区| 国产美女在线免费观看| 国产97色在线| 午夜a级毛片| 99re热精品视频中文字幕不卡| 2020国产在线视精品在| 激情無極限的亚洲一区免费| www.亚洲一区| 极品国产一区二区三区| 在线免费亚洲无码视频| 青青青亚洲精品国产| 久草视频一区| www.狠狠| 免费一极毛片| 91精品在线视频观看| 黄色成年视频| 色有码无码视频| 亚洲一级色| 97免费在线观看视频| 日韩精品一区二区三区中文无码| 久草性视频| 狠狠色综合网| 最新无码专区超级碰碰碰| 亚洲国产高清精品线久久| 九九视频免费看| 欧美亚洲日韩中文| 亚洲日本www| 亚洲无码精彩视频在线观看| 中文字幕日韩久久综合影院| 欧美精品导航| 香蕉视频在线观看www| 日本草草视频在线观看| 97亚洲色综久久精品| 国产午夜在线观看视频| 国产主播喷水| 国产在线观看高清不卡| 无码人妻免费| 国产综合另类小说色区色噜噜| 国产成人精品在线1区| 日韩经典精品无码一区二区| 福利视频一区| 国产女人在线视频| 免费毛片a| 极品国产一区二区三区| 亚洲一区二区在线无码| 国产专区综合另类日韩一区| a毛片在线播放| 久久久久九九精品影院| 国产在线专区| 99er这里只有精品| 欧美日韩国产在线观看一区二区三区| 免费国产黄线在线观看| 国产菊爆视频在线观看| 色综合中文字幕| 亚洲色图在线观看| 视频二区中文无码| 日韩不卡免费视频| 亚洲一区国色天香| 国产成人一区二区| 亚洲性视频网站| 色婷婷成人| 9cao视频精品| 国产精品美女自慰喷水| www亚洲天堂| 91在线丝袜| 九九热免费在线视频| 亚洲另类国产欧美一区二区|