陸虹
(鄭州輕工業(yè)學(xué)院,河南 鄭州 450002)
由于網(wǎng)絡(luò)中的信息浩如煙海、內(nèi)容龐雜、組織松散,為找到有用信息,人們經(jīng)常要耗費大量寶貴的時間,人們在信息檢索中普遍遇到了“返回信息過多”與“用戶可用信息過少”的問題。如何協(xié)助用戶方便有效地從浩如煙海的網(wǎng)絡(luò)信息中獲取有用的信息是非常具有現(xiàn)實意義的一個課題。鑒于此,本文提出了一種基于本體論的個性化網(wǎng)絡(luò)信息檢索的模型。
目前人們在利用搜索引擎進行信息檢索的過程中,普遍遇到了“信息過載”的問題,即系統(tǒng)返回的信息量過多,遠遠超過了用戶所能接受和處理的能力。雖然返回的信息數(shù)量巨大,但是有相當(dāng)數(shù)量的信息卻并不是用戶所需要的,使得用戶將大量的時間耗費在排除無關(guān)的信息上,也就是說搜索引擎的查準(zhǔn)率較低;同時,又由于檢索用戶和網(wǎng)絡(luò)文檔對同一概念的表達形式往往會有差異,這又導(dǎo)致許多有用的信息用戶無法檢索到,也就是說搜索引擎的查全率也是較低的。造成這一現(xiàn)象產(chǎn)生的根本原因在于當(dāng)前的搜索引擎存在有以下兩大方面的不足。
現(xiàn)有的搜索引擎提供的檢索方式幾乎都是基于關(guān)鍵詞的方式,雖然基于關(guān)鍵詞的檢索方式給人們的檢索帶來了很大的方便,但它卻不能很好地表達用戶的檢索需求。這主要表現(xiàn)為:第一,關(guān)鍵詞語言是一種自然語言,隨著時間、地域、領(lǐng)域的改變,同一詞匯可以表達不同的語義概念,即“一詞多義”的現(xiàn)象;同一概念也可以使用不同的詞匯表達,即“一義多詞”的現(xiàn)象。第二,在人的大腦中,概念不是孤立存在的,它總是與其它概念之間存在著各種聯(lián)系,用戶在檢索一個詞時除了希望得到包含該詞的資源之外,還希望得到與該詞相關(guān)的其它信息。在傳統(tǒng)的檢索技術(shù)條件下,這種概念關(guān)聯(lián)的檢索是實現(xiàn)不了的。
現(xiàn)在的搜索引擎對所有的用戶采用的都是同一種模式,不同的用戶只要用相同的關(guān)鍵詞進行查詢,得到的結(jié)果將會是一樣的。顯然,這樣的搜索引擎?zhèn)€性化能力太差,它沒有考慮到每個用戶的個體差異,不能根據(jù)用戶背景、愛好的不同,獲取用戶不同的個性化信息需求,給出不同的檢索結(jié)果。
從以上搜索引擎存在的不足我們可以看出,當(dāng)前的搜索引擎在進行網(wǎng)上信息收集和提供查詢服務(wù)方面存在著嚴(yán)重的效率和質(zhì)量問題。本體論作為一種新的知識表示方式,由于具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持,因而在實現(xiàn)智能化的網(wǎng)絡(luò)信息檢索中具有廣闊的應(yīng)用前景。通過本體論,一方面可以把信息檢索從基于關(guān)鍵詞的層次提高到基于概念的層次,從而提高系統(tǒng)的查準(zhǔn)率與查全率;另一方面還可以對概念的相關(guān)性進行推理,挖掘出用戶的真正需求所在,從而實現(xiàn)智能化的信息檢索。
本文設(shè)計了一種基于本體論的智能化網(wǎng)絡(luò)信息檢索模型,其基本體系結(jié)構(gòu)如圖1所示。

圖1 一種基于本體論的智能化網(wǎng)絡(luò)信息檢索模型
該模型主要由以下幾個部分組成:用戶界面代理、本體論服務(wù)器(包括用戶偏好本體論庫、任務(wù)本體論庫和領(lǐng)域本體論庫)、智能檢索模塊、文檔分析器、個性化信息索引庫以及智能搜索代理等。
用戶界面代理作為信息用戶與智能檢索模塊之間的接口,除了具有接收用戶提交的檢索請求和智能檢索模塊返回的檢索結(jié)果的功能外,它還具有提供用戶對檢索結(jié)果進行信息反饋以及對用戶行為進行動態(tài)監(jiān)測的功能。具體表現(xiàn)為:(1)建立用戶個人檔案。當(dāng)用戶首次登錄時,用戶界面代理要求用戶通過注冊建立起自己的個人檔案,內(nèi)容涉及用戶身份、知識背景、興趣領(lǐng)域等方面的內(nèi)容。(2)對用戶行為進行動態(tài)監(jiān)測。對用戶行為的動態(tài)監(jiān)測可以包括:①計算用戶對頁面的瀏覽時間。②記錄用戶對頁面特定部分的操作,如對某一部分的復(fù)制。③計算用戶瀏覽頁面距離現(xiàn)在的時間。(3)獲取用戶反饋信息。用戶界面代理建立了用戶對檢索結(jié)果的評價機制,鼓勵用戶對檢索結(jié)果給出量化的評價值,用于更新用戶偏好本體論庫中的內(nèi)容。
任務(wù)本體論庫以機器可讀的形式描述領(lǐng)域內(nèi)任務(wù)專家的行為知識,闡明處理某一檢索任務(wù)的策略、方法和過程,指導(dǎo)計算機自動實現(xiàn)檢索任務(wù)目標(biāo)的完成。當(dāng)用戶向系統(tǒng)發(fā)出檢索請求時,智能檢索模塊根據(jù)相應(yīng)的用戶偏好本體論庫和任務(wù)本體論庫,指導(dǎo)檢索過程沿著效果最優(yōu)的方向進行檢索。為了便于知識的共享和重用,任務(wù)本體論應(yīng)該盡量采用獨立于專業(yè)領(lǐng)域的結(jié)構(gòu)設(shè)計,即專業(yè)領(lǐng)域知識的改變只會影響任務(wù)的操作對象,而不會影響任務(wù)本身的結(jié)構(gòu)定義。
領(lǐng)域本體論庫中包含著一個領(lǐng)域中最基本的概念、概念的定義以及各個概念之間的語義關(guān)系,它通過概念蘊涵、屬性關(guān)聯(lián)、相互約束和公理定義等方法,組織成具有網(wǎng)狀結(jié)構(gòu)的、可共享的形式化本體論模型。
領(lǐng)域本體論庫在信息檢索系統(tǒng)中的作用主要包括以下三個方面:(1)利用領(lǐng)域本體論庫對網(wǎng)頁文檔進行語義標(biāo)引。對于智能搜索代理搜索到的網(wǎng)頁信息文檔,文檔分析器首先對其進行特征詞的抽取,然后可以在領(lǐng)域本體論庫的協(xié)助下,判斷網(wǎng)頁信息文檔特征詞的所屬領(lǐng)域,將其轉(zhuǎn)換為本體論中的概念詞,并與網(wǎng)頁文檔建立起映射關(guān)系,從而實現(xiàn)對網(wǎng)頁文檔的語義標(biāo)引。(2)利用領(lǐng)域本體論庫對用戶的查詢請求進行規(guī)范和挖掘。當(dāng)用戶進行查詢時,檢索系統(tǒng)根據(jù)用戶的查詢請求,調(diào)用領(lǐng)域本體論庫中的相關(guān)知識,從中找出與用戶查詢關(guān)鍵詞相對應(yīng)的概念以及所屬領(lǐng)域,供智能檢索模塊生成更精確的查詢,以提高查詢的準(zhǔn)確率。(3)利用領(lǐng)域本體論庫構(gòu)建用戶興趣模型。利用領(lǐng)域本體論庫構(gòu)建的用戶興趣模型(用戶偏好本體論庫),不僅包含了用戶的興趣概念,而且還包含了用戶興趣概念之間的各種關(guān)聯(lián),這樣用戶在進行信息檢索時,系統(tǒng)可以在用戶興趣概念之間進行推理,挖掘出用戶潛在的興趣概念。
用戶偏好本體庫是實現(xiàn)智能化信息檢索的重要構(gòu)件。通過用戶偏好本體庫,檢索系統(tǒng)可以獲取用戶的興趣所在,確定用戶檢索詞在領(lǐng)域本體論中的位置,從而明確用戶的個性化信息需求,使信息檢索變得更有針對性。具體來講,在用戶輸入檢索詞后,系統(tǒng)將首先把檢索詞提交給相應(yīng)的用戶偏好本體論庫,查驗是否屬于用戶已有的興趣,如果是,智能檢索模塊將據(jù)此在個性化信息索引庫中進行檢索;如果不是,則可將檢索請求與本體論服務(wù)器進行交互,使其在領(lǐng)域本體論庫和任務(wù)本體論庫的支持下完成信息需求的表達,同時在該用戶偏好本體庫中對這一新的愛好需求進行記錄,方便以后遇到相似的檢索詞時,系統(tǒng)能較快地識別檢索詞所屬的本體論領(lǐng)域,這樣既可以節(jié)省用戶檢索的成本,又可以提高系統(tǒng)的檢索效率。
智能檢索模塊的功能是負責(zé)整個信息的檢索過程。當(dāng)智能檢索模塊收到用戶界面代理提交的用戶查詢請求后,它首先將用戶查詢詞語與本體論服務(wù)器中的用戶偏好本體論庫進行交互,驗證它是否屬于用戶已有的興趣:(1)若屬于用戶已有的興趣,則將描述該興趣的關(guān)鍵詞轉(zhuǎn)換為相應(yīng)的領(lǐng)域概念詞,并直接在個性化信息索引庫中進行檢索匹配,當(dāng)匹配成功完成后,智能檢索模塊就把檢索結(jié)果提交給用戶界面代理返回用戶;如果檢索匹配失敗,智能檢索模塊則向智能搜索代理發(fā)出查詢請求,由智能搜索代理對網(wǎng)絡(luò)信息資源進行相應(yīng)的搜索。(2)若用戶輸入的查詢詞不屬于用戶已有的興趣,那么智能檢索模塊就借助本體論服務(wù)器中的領(lǐng)域本體論庫以及任務(wù)本體論庫,篩選出符合用戶信息需求的檢索領(lǐng)域和相關(guān)的概念集,并在該用戶的偏好本體論庫中對這一新的愛好進行記錄,然后通知智能搜索代理對網(wǎng)絡(luò)上的信息資源進行相應(yīng)的搜索。
智能搜索代理的主要功能在于對網(wǎng)絡(luò)信息資源進行搜索。當(dāng)智能搜索代理收到智能檢索模塊向其發(fā)出的搜索信號時,它首先記錄下智能檢索模塊的檢索請求,以便文檔分析器進行過濾,同時完成對相關(guān)網(wǎng)絡(luò)信息資源進行搜索的任務(wù)。為保持個性化信息索引庫與網(wǎng)絡(luò)信息環(huán)境更新變化的同步,智能搜索代理可根據(jù)要求連續(xù)運轉(zhuǎn)。
文檔分析器的功能主要是對智能搜索代理收集到的網(wǎng)絡(luò)信息文檔進行語義概念層次上的分析與過濾,只保留下與用戶相關(guān)的網(wǎng)絡(luò)文檔,而過濾掉無關(guān)的網(wǎng)絡(luò)文檔。具體來說,首先,文檔分析器需要對所收集到的每一個新文檔進行網(wǎng)頁特征詞的抽取與加權(quán)。網(wǎng)頁特征詞的抽取,一方面可以從網(wǎng)絡(luò)文檔的標(biāo)題、小標(biāo)題、摘要和關(guān)鍵詞中直接抽取,另一方面可以從網(wǎng)絡(luò)文檔的正文中抽取,從正文中抽取網(wǎng)頁特征詞時,目前大多是采取基于頻率統(tǒng)計的算法來進行的。其次,對于抽取的這些網(wǎng)頁特征詞,文檔分析器還需要在領(lǐng)域本體論的協(xié)助下,將其轉(zhuǎn)換為本體論中的概念詞語,以明確其真正含義。最后,還要把這些轉(zhuǎn)換為本體論中的概念詞語與智能搜索代理中記錄的檢索概念詞集進行匹配,只有匹配成功的概念詞語所對應(yīng)的網(wǎng)絡(luò)文檔才是需要保留下來的。將這些保留下來的網(wǎng)絡(luò)文檔按照某種規(guī)則排序后存入個性化信息索引庫中,供智能檢索模塊進行檢索。
建立個性化信息索引庫是對客觀信息空間的一種抽象,即從中抽取出與用戶相關(guān)的信息實體,濾出無關(guān)信息。建立個性化信息索引庫不僅滿足了用戶的個性化信息需求,節(jié)省了用戶的有限精力,同時也提高了信息檢索的整體效率。
個性化信息索引庫中的網(wǎng)頁信息是按照興趣概念進行存儲的,每個興趣概念都與用戶偏好本體論庫中的興趣概念相對應(yīng)。當(dāng)用戶偏好本體論庫中用戶的興趣發(fā)生變化時,個性化信息索引庫相應(yīng)地也會做出調(diào)整。在這里,我們假定個性化信息索引庫中包含有一個對自身信息進行管理的管理服務(wù)器,管理服務(wù)器會把不符合用戶興趣的興趣概念及其相應(yīng)的網(wǎng)頁信息從個性化信息索引庫中刪去,同時加進用戶新產(chǎn)生的興趣概念等。
本文提出的基于本體論的智能化網(wǎng)絡(luò)信息檢索模型的實現(xiàn),將在很大程度上改進當(dāng)前搜索引擎存在的不足,不僅可以使檢索系統(tǒng)具有更高的查全率和查準(zhǔn)率,而且在一定程度上使檢索系統(tǒng)表現(xiàn)出智能化和個性化。具體主要有以下幾個方面:
(1)由于在檢索系統(tǒng)中加入了用戶偏好本體論庫和領(lǐng)域本體論庫,真正提高了信息檢索的查準(zhǔn)率和查全率。借助領(lǐng)域本體論庫,檢索系統(tǒng)可以規(guī)范用戶的提問,使用戶的檢索用詞與信息的標(biāo)引用詞在語義概念層面上達到一致,從而提高信息檢索的查準(zhǔn)率;借助用戶偏好本體論庫,通過對用戶興趣偏好的分析,使信息檢索的領(lǐng)域更加明確,同樣也有助于提高信息檢索的查準(zhǔn)率;通過用戶偏好本體論庫和領(lǐng)域本體論庫中概念之間的各種關(guān)聯(lián),可以對用戶查詢的概念進行擴檢,使信息檢索的覆蓋面更為寬廣,從而提高系統(tǒng)的查全率。
(2)滿足用戶進行智能化和個性化信息檢索的需求。一方面,用戶可以采用自然語言來描述查詢請求,系統(tǒng)利用本體論的推理功能,把出現(xiàn)在用戶查詢中的概念、屬性、公理以及函數(shù)等信息進行綜合考慮,挖掘出用戶的真正需求所在,從而實現(xiàn)智能化的信息查詢;另一方面,系統(tǒng)通過對記錄用戶檢索瀏覽行為的日志文件以及用戶反饋的評價信息進行分析,提取用戶的興趣概念,構(gòu)建用戶的興趣模型,用戶在進行檢索時,系統(tǒng)就可以以該用戶的興趣模型為基礎(chǔ),更深入地理解用戶的檢索需求,從而進行更有針對性的個性化信息檢索。
[1] 鄭美玉.基于本體論的高校圖書館個性化書目推送系統(tǒng)[J].圖書情報工作,2010(6):108-111.
[2] 李學(xué)慶,賈玉文.基于本體論的個性化網(wǎng)絡(luò)信息檢索[J].圖書館學(xué)研究,2007(1):67-69.
[3] 徐麗.本體論導(dǎo)引下的信息檢索[J].情報雜志,2005(1):121-122.
[4] 昊金紅.一種基于本體論的知識檢索原型系統(tǒng)[J].情報雜志,2004(11):45-46.
[5] 董慧.基于本體論和數(shù)字圈韋館的信息檢索[J].情報學(xué)報,2003(6):648-649.