呂精巧
關鍵詞:智能搜索引擎;數字圖書館;個性化服務
摘 要:隨著互聯網絡的發展以及現代科學技術的不斷創新,傳統搜索引擎已經不能適應時代的需要,如何有效地利用智能搜索引擎,特別是將它應用于數字圖書館中是我們面臨的重要問題。
中圖分類號:G258.6文獻標識碼:A 文章編號:1003-1588(2009)04-0095-03
Intelligent Search Engine in Digital Library
Lv Jingqiao
(Library of Xinxiang Medical University,Xinxiang 453003,China)
Key words: Intelligent Search Engine; Digital Library; Personalized service
Abstract: With the development of the Internet, as well as modern scientific and technological innovation, search engines already can not meet the traditional needs of the times, how to effectively use intelligent search engine, in particular, it applies to digital libraries is an important issue we face.
隨著互聯網的出現和發展,搜索引擎也由傳統的搜索引擎發展到了智能搜索引擎。作為新一代的信息檢索工具,智能搜索引擎憑著自身的優點,被越來越多地應用到各個領域。調查顯示網站75%的訪問量都來自于搜索引擎的推薦。如何有效地將智能搜索引擎應用于數字圖書館,打造具有本館特色的數字圖書館,是我們面臨的一個問題。
1 搜索引擎
1.1 搜索引擎的概念
搜索引擎(search engine)是指根據一定的策略、運用特定的計算機程序搜集互聯網上的信息,在對信息進行理解、提取、組織和處理后,為用戶提供檢索服務的系統。
1.2 搜索引擎的組成
搜索引擎一般由搜索器、索引器、檢索器和用戶接口四個部分組成:搜索器的功能是在互聯網中漫游、發現和搜集信息;索引器的功能是理解搜索器所搜索到的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;檢索器的功能是根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,對將要輸出的結果排序,并能按用戶的查詢需求合理反饋信息;用戶接口的作用是接納用戶查詢、顯示查詢結果、提供個性化查詢項。
1.3 搜索引擎的分類
1.3.1 全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,具有代表性的有國外的Google和國內的百度。它們都是從互聯網提取以網頁文字為主的各個網站的信息,建立起自己的數據庫,并能檢索與用戶查詢條件相匹配或相近的記錄,按一定的排列順序返回結果。根據搜索結果來源的不同,全文搜索引擎可分為兩類:一類擁有自己的檢索程序,俗稱“蜘蛛”程序或“機器人”程序,它能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,Google和百度就屬于此類;另一類則是租用其他搜索引擎的數據庫,并按自定的格式排列搜索結果,如Lycos搜索引擎。
1.3.2 目錄索引
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,它的信息收集與索引主要依靠人工來完成,搜索引擎的標引主要依靠手工來搜尋不斷出現的新網站,給每個網站一個標題和大概的描述,將其放入相應的類目體系中。用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。目錄索引雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶完全可以不依靠關鍵詞而按照分類目錄找到所需要的信息。目錄索引中最具代表性的有新浪分類目錄搜索。
1.3.3 元搜索引擎
元搜索引擎本身并沒有存放網頁信息的數據庫,它的工作原理是將用戶提交的搜索請求轉換處理后提交給多個預先選定的獨立搜索引擎,并將從各獨立搜索引擎返回的查詢結果集中起來進行處理后,再返回給用戶。元搜索引擎設計簡單,但由于網絡負載太大且搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。中文元搜索引擎中具代表性的是搜星。
2 傳統搜索引擎存在的不足
搜索引擎是伴隨著互聯網的發展而發展起來的,它的出現為人們查詢資料帶來了極大的方便。然而,隨著人們對信息需求的不斷增加,現有搜索引擎的工作方式使得其搜索的結果讓人越來越不滿意。
2.1 缺乏個性化
現有的搜索引擎較少考慮用戶的差異。對于任何用戶,查詢相同的關鍵詞,得到的結果也一樣,不參考用戶的知識背景、興趣愛好等特征。不具有對單個用戶的瀏覽模式和瀏覽行為分析功能。
2.2 缺乏智能化
(1)搜索引擎對關鍵詞之間存在的同義、近義、一詞多義等現象極少進行處理,這往往導致檢索出來的信息不正確或不準確。由于缺乏良好的查詢接口,用戶又不能準確地表達自己的查詢請求。系統交互很少考慮用戶的反饋,只是簡單地把結果返回給用戶,并不關心用戶的使用情況。
(2)搜索引擎對于用戶提交的查詢請求,只是按照它特定的順序返回上百或上千個網頁,不能根據用戶需要對這些搜索結果重新進行層次性的聚類和組合。用戶要在眾多的檢索結果中找到所需的信息,必須對這些網頁逐個瀏覽,極為費時費力。而且缺乏有效的適應信息源變化的機制,無法避免用戶以前已經瀏覽過而現在不需要的文檔或鏈接。
2.3 覆蓋面有限
目前,每個搜索引擎平均只能涉及到整個WWW資源的30-50%。
2.4 數據更新速度慢
搜索引擎機器人只能在由系統管理員限定的時間間隔內跟蹤特定信息,不能做到信息的動態更新,導致錯鏈和死鏈的發生。
3 智能搜索引擎
基于知識庫系統的智能搜索引擎是一種高效搜索引擎技術,它是通過構設知識庫,將搜索引擎技術與語言學相結合,開發檢索專用字典或通過全文掃描和詞間關系的分析,從知識或概念層面分析用戶的檢索提問,實現搜索引擎對搜索詞在語義層次上的理解。用戶用非常自然的形式(即自然語言文字)提出查詢請求,智能搜索引擎能夠運用短語識別技術、分詞技術、同義詞技術以及概念搜索等技術,將用戶的自然語言提問進行切分、抽詞、同義詞輸出、概念搜索,經知識庫使其規范化和有序化后,再交給搜索引擎進行搜索。實際上,這種檢索的實質就是以有序的知識庫(即人的知識)對無序的知識庫(Internet)。對以自然語言文字形式提出的搜索條件的處理,可以使得智能搜索引擎查詢變得更為簡單,易于操作,搜索服務更具智能化和人性化。一般而言,智能搜索引擎有如下幾個主要特征。
3.1 人機接口智能化
智能搜索引擎可以通過自然語言和用戶交互。它采取諸如語義網絡等智能技術,通過漢語分詞、句法分析以及統計理論有效地理解用戶的請求,用戶可以靈活選擇要搜索的數據庫,配合“中文同音”、“中文近似概念”、“簡繁轉換”、“通配字符搜索”、“詞組搜索”、“多字段平行檢索”等眾多的智能搜索功能,最大程度地滿足用戶的需求。
3.2 個性化的信息服務功能
智能搜索引擎能提供用戶角色登記、用戶興趣自動識別、內容的語義理解、智能化信息的過濾和推送等自然語言理解技術,能在更大程度上滿足特定用戶的個性化信息需求。
3.3 數據更新快
眾所周知,信息動態更替無時無刻不在進行,即使是在搜索過程中。智能引擎有一個設計網絡蜘蛛,網絡蜘蛛通過啟發式學習采取最有效的搜索策略,選擇最佳時機獲取從Internet上自動收集、整理的信息,自動完成在線信息的索引。為了提高搜索速度,智能搜索引擎可以同時啟動多個引擎并行工作(類似于元搜索引擎技術),將各個引擎的搜索結果整合,作為一個整體存放到數據庫中。
3.4 跨平臺,多文檔處理能力
智能搜索引擎具有跨平臺工作和處理多種混合文檔結構的能力。譬如既能處理超文本標志語言HTML(Hyper Text Markup Language),又能處理通用標志語言標準SGML(Standard for General Markup Language)和擴展標志語言XML(eXtended Marked Language)文檔以及其他類型的文檔,譬如Word、WPS等。
3.5 支持多語言搜索
智能搜索引擎還可以支持多語言搜索,允許用戶用A語言輸入查詢B語言或其他語言的信息。以搜索引擎google為例,我們就可以用漢語輸入查詢英語或其他別的語言的網頁。
4 智能搜索引擎的設計
一部分是用戶興趣分析,即通過用戶注冊、用戶評價、訪問記錄來建立用戶信息庫,由分析模塊對這些信息進行用戶興趣分析。用戶興趣分析的結果經過信息過濾模塊將重復信息去除之后把最終結果返回用戶信息庫,從而建立新的用戶信息模型。另一部分是資源搜索,用戶向搜索引擎提交查詢請求,搜索引擎從各個資源庫中搜索出與其相關的信息,此時,搜索引擎調用用戶信息庫,從中提取用戶興趣、愛好及個性化信息,再從搜索引擎返回的結果中,消除無效的鏈接頁面,去除重復的、冗余的信息,按照相關性進行排序之后把最終結果返回給用戶。
5 數字圖書館個性化信息服務的表現形式
5.1 個性化推送或定制服務
個性化推送或定制服務是根據用戶的興趣愛好、行為習慣、獨特要求等提供具有針對性的信息。比如:提供定制的WEB頁面、信息頻道或信息欄目,實施查詢代理服務,或者是基于電子郵件的信息推送,根據用戶的定制提供相應的信息欄目,定期或不定期地發送到用戶電子信箱。
5.2 個性化推薦服務
個性化推薦服務不僅能根據用戶的特征提供具有針對性的信息,還能通過對用戶專業特征、研究興趣的智能分析而主動向用戶推薦其可能需要的信息,個性化推薦服務是一種比較深層次的、主動性和個性化較強的服務方式。
5.3 個性化知識決策服務
個性化知識決策服務強調充分利用數據挖掘、知識發現等技術,對有用的信息內容再進行深層次的分析與挖掘,向用戶提供能夠用于決策支持、智能查詢、科學研究、解決問題的規則和模式。
6 智能搜索引擎在圖書館中的實際應用
6.1 基于智能搜索引擎的智能化、個性化等特點,我們可以利用它來完善圖書館的參考咨詢服務。例如:利用智能搜索引擎為讀者提供各種個性化信息服務(包括個性化推送或定制服務、個性化推薦服務、個性化知識決策服務)。智能搜索引擎在參考咨詢中的應用,可以使我們更準確、更快捷的為讀者提供各種信息服務,提高參考咨詢服務質量。
6.2 為了方便廣大讀者使用圖書館資源,許多圖書館網站都設立了網上咨詢臺,咨詢臺設有“常見問題解答”欄目,即我們常說的FAQ。FAQ利用智能搜索引擎為我們提供了搜索與查詢的功能,里面列舉了我們瀏覽網站時的常見問題,利用它我們可以對這些問題進行搜索與查詢。例如:一般性問題、圖書館規則、OPAC查詢、讀者服務、電子資源使用等等,各個圖書館都會根據自己的特點設置相應的FAQ。讀者登錄到網上咨詢臺后,可以很方便的查找自己所需要的信息,解決在使用圖書館資源時出現的各種問題。為讀者提供方便的同時,也節約了咨詢館員的時間,可以讓他們有時間做更多的工作。
6.3 我們也可以把智能搜索引擎應用于圖書館的各種自建數據庫中,以便進行搜索與查詢。如隨書附盤數據庫、教學課件數據庫、視頻資料數據庫、教師論文數據庫、學生論文數據庫等各種數據庫。
6.4 為了方便讀者在訪問圖書館主頁時查詢信息,還可以把智能搜索引擎加入到圖書館主頁中,如google或baidu工具條等。
7 結語
智能搜索引擎憑借自身優點在數字圖書館的建設中起著不可替代的作用。目前,智能搜索引擎技術在各個領域的應用還不太成熟,在數字圖書館方面的應用還處于起步階段,我們要合理利用它的優點,謹慎借鑒,結合各館實際情況,打造具有本館特色的個性化數字圖書館。
參考文獻:
[1] 賈宏.基于搜索引擎的數字圖書館智能信息檢索[J].圖書館學研究,2006,(3).
[3] 邱均平,余以勝.基于知識庫系統的智能搜索引擎研究[J].現代圖書情報技術,2005,(7).
[4] 馬文峰.數字圖書館個性化信息服務的探索[J].圖書館雜志,2003,(5).
[5] 鄒凱,汪全莉.智能搜索引擎與數字圖書館個性化服務[J].情報科學,2004,(7).
[6] 馬文峰,高鳳榮等.論數字圖書館個性化信息推薦系統[J].現代圖書情報技術,2003,(2).
[7] 許春漫.數字圖書館個性化信息檢索模型研究[J].現代圖書情報技術,2006,(3).