語義網環境下搜索引擎檢索結果的優化

2016-06-08 03:10:54劉雨亭

安徽文學·下半月 2016年5期

劉雨亭

摘要：本文從用戶角度分析了傳統搜索引擎檢索結果的不足，提出在語義網環境下可以從注重分析用戶提問的語義關系、擴展檢索方式、改變爬行策略、優化檢索結果界面等方式對傳統搜索引擎的檢索結果進行優化。

關鍵詞：語義網搜索引擎檢索結果優化

一、引言

隨著信息時代的到來，人們更依賴于通過搜索引擎來獲取所需信息。然而Internet上資源類型多樣，內容豐富，信息量越來越大，傳統搜索引擎的結果已經不能滿足用戶的需求，局限性開始顯現：它側重于從用戶提問中抽取關鍵字（詞）進行查詢并返回與關鍵字（詞）相關的鏈接，忽略了從語義角度分析用戶提問；它對檢索結果按一定的排序算法進行排序，但并不是所有的檢索結果都是按照相關度進行排序，所以有時候用戶需要的內容在前1-2頁找不到答案[1]。

早在1998年萬維網聯盟的Tim Berners-Lee就提出了語義網這一概念。它是對Web的補充和擴展 [2]。它在國外已有很大的發展，其中最顯著的一項便是語義搜索引擎的出現，其典型代表有面向任何主題的Kngine和專注于食品、烹飪、食譜的Yummly。我國各大高校都紛紛學習研究并利用該技術更好地實現智能化。

從國內外研究現狀來看，語義網已經被人們逐漸認識并運用到很多方面。本文在對傳統搜索引擎檢索結果分析的基礎上提出語義網環境下搜索引擎應朝著理解用戶提問的語義關系、提高檢準率、提供多種檢索方式、檢索界面簡潔等更利于用戶使用的方向發展。

二、傳統搜索引擎檢索結果分析

傳統搜索引擎是定期收錄和整理網絡信息，按照關鍵詞查詢并返回結果的網絡信息檢索工具 [3]。它經歷了較長的發展時期，以百度，google為典型代表。由于搜索引擎的主要作用是收集、整合、標記Web上的各種資源進而方便用戶查找，那么我們將從用戶角度對傳統搜索引擎的檢索結果進行分析。

（一）檢準率

檢準率是指檢出的相關文獻數量占檢出的文獻總量的比率。傳統搜索引擎的檢準率相對較低。因為傳統搜索引擎針對用戶提問進行查詢時，重點在分析該提問中的關鍵詞，并根據關鍵詞進行檢索，很少分析該提問式中的語義關系，所以常常導致在檢索結果的前2頁[1]很少有滿足用戶需求的信息。查詢結果的冗長和不相關會直接導致用戶使用該搜索引擎的積極性。

（二）重鏈率

重復鏈接率是指檢索結果中重復內容占全部結果的百分比。該指標越低說明檢索結果越好 [4]，進而導致在其檢索結果中經常會出現不同資源標題、不同URL和不同描述項等指向同一結果，這樣不僅浪費用戶的時間也影響用戶對檢索工具的再次利用。

（三）空鏈率

空鏈接率是檢索結果中檢索結果為空或者檢索結果無法鏈接占總全部檢索結果的百分比。在當前搜索引擎檢索結果中用戶無法直接判斷當前鏈接是否正確，需要點擊進去之后才能確定當前鏈接是否為空鏈，尤其是空鏈的內容恰好是用戶需要的內容，這種情況下會影響用戶對該搜索引擎的使用。

（四）檢索結果的權威性

檢索結果的權威性和正確性與信息發布者的權威性和專業度有很大關系。在平時檢索中若是對概念性的詞進行檢索我們會青睞于百度百科、維基百科等，再比如當我們要查“鄭州大學情報學2015考研參考書目”時，雖然從其他網站上也能查到相關信息，但我們卻更相信由鄭州大學官網發布出來的信息，所以若其他網站也整理了相關信息最好是能標注信息的原始出處并附上鏈接，這樣會提高當前網站的可信度。

（五）檢索結果展示方式

傳統搜索引擎一般地會將查詢結果以鏈接和簡要描述形式返回以便用戶在簡單的描述中判斷檢索結果的相關性進而點擊鏈接進行查看，但對是否是死鏈以及該鏈接的網頁具體內容是否與前面鏈接重合等都無法進行判斷，所以以鏈接形式返回的檢索結果在某種程度上也潛藏了問題。

三、語義網環境下的優化措施

通過對傳統搜索引擎的檢索結果分析得到，那些基于關鍵詞匹配和排序算法的搜索引擎在檢準率等方面已經出現了很多問題，所以在當前語義網技術已得到較快發展的知識經濟時代，從語義網角度對搜索引擎檢索結果進行優化已有了較強的必要性和可行性。當前國外已經有了13例典型的語義搜索引擎，語義搜索引擎是通過對網絡資源進行語義標注以及對用戶查詢請求進行語義處理，實現語義推理和精確、全面的檢索[4]。借鑒國外已有的成功案例，在語義網環境下主要通過以下方面對傳統搜索引擎的檢索結果進行優化：

（一）注重理解用戶提問的語義關系

首先傳統搜索引擎可以利用OWL2（Web Ontology Language）[5]描述Web上的信息資源，理解并分析資源間的語義關聯，建立相應的知識圖譜，從而使得搜索引擎針對用戶提問進行檢索時擴大檢索范圍并深度挖掘信息。

同時注重理解用戶提問的語義關系，而不是單純的對該提問式進行分割抽取關鍵詞，這方面我們需要借助語義技術來實現，在充分理解用戶提問的基礎上，搜索引擎便可采用基于知識和統計的方法遍歷知識圖譜并計算出答案。

（二）語音搜索

傳統搜索引擎大都提供簡單檢索和高級檢索，但隨著互聯網的普及，搜索引擎的使用者已經從專業人士擴展到普通大眾，同時，隨著人們搜索習慣的改變，語音搜索已經成為一種大眾普遍接受的方式，而傳統搜索引擎主要是通過分析用戶輸入的內容進行檢索，而不支持語音搜索，所以，隨著語音搜索功能的擴展，傳統搜索引擎已不再能滿足人們的需要。阿密特·辛格爾說“搜索引擎的三個主要功能將需要改進，搜索將需要：答案，對話，預測”[6]。故而傳統搜索引擎也需有支持語音搜索的功能。語音搜索這種功能在國外已有的語義搜索引擎中已有應用，比如在Congnition中語音問“為什么要接受LASIK手術？”“LASIK手術的程序有哪些？”語音導航員一邊解答，一邊在網頁上顯示回答的內容[4]。

（三）檢索結果顯示簡潔直觀

傳統搜索引擎將查詢結果按鏈接形式返回，用戶需要根據該鏈接的簡要描述判斷是否進入該鏈接，并且該鏈接的網頁內容是否與前面鏈接內容重合、是否為空鏈都要進一步點擊之后才能確定，這在某種程度上浪費了大量時間。

借鑒語義搜索引擎的特點，語義網環境下傳統搜索引擎可以將檢索結果直觀化，在結果頁面上直接顯示結果，這樣減少了鏈接的次數，也方便用戶直觀地獲取信息；語義網環境下傳統搜索引擎也可以將檢索結果可視化，以用戶能夠理解的圖表形式顯示出來，這樣可避免用戶從大批文字中分析答案而占用較長時間；語義網環境下傳統搜索引擎的檢索結果頁面應干凈整潔，過濾掉廣告、垃圾信息。

（四）優化爬行策略

當前Web上信息內容豐富，更新頻率不一致，各種信息間呈網狀多樣聯系，這種情況給搜索引擎搜集網上信息資源提出了更嚴苛的要求。在語義網環境下，搜索引擎應更加注重分析各種信息資源間的關系，從深度挖掘信息。在這方面搜索引擎可以優化爬行策略，針對每個網頁信息都能找尋它的最初鏈接，這樣既可以提高當前網頁的可信度，也分析了各網頁間的關系，增強搜索引擎內部信息的關聯度也便于更深層次分析信息，更好地為用戶服務；當然搜索引擎也要根據各類型網站的更新頻率設置相應的爬行時間和次數，以便能在第一時間內收集歸納新的信息，方便用戶查詢。

參考文獻

[1] 王淵.面向用戶的搜索引擎檢索結果評價[J].河南圖書館學刊，2007，27（4）：74.

[2] Berners-LeeT，Hendler J，Lassila O.The semantic Web [J].Scientific American，2001，284（5）：28-37.

[3] 趙夷平.傳統搜索引擎與語義搜索引擎服務比較研究[J].情報科學，2010，28（2）：265-270.

[4] 郭衛寧，司莉.國外語義搜索引擎調查與分析[J].圖書情報工作，2013，57（23）：121.

[5] 曾新紅，吳鵬，林偉明. OWL2 Web本體語言入門. http：//nkos.lib.szu.edu.cn/OWL2/OWL2PrimerSimplifiedChinese.htm.

[6] 胡祝.搜索引擎的最新進化[N].電腦報，2014-4-21（13）.

[7] 張海濤，高松.搜索引擎檢索結果的網頁組織及其優化策略[J].情報科學，2006，24（6）：900-903.

[8] 蘇明明，宋文.基于本體的語義搜索引擎解決方案與研究新進展[J].現代圖書情報術，2008（11）：24-28.

[9]語義網. http：//baike.baidu.com/link？url=P7TLysay0heBDC4WuYCOH7f1ORSpnKJSRopNco6KngTmb8dNtd-lJfVXpn1 Wkkeq8KpcjP6StZTE-GyM99F2FK.