胡風華 王 磊
(安徽理工大學計算機與工程學院,安徽 淮南 232001)
隨著互聯網網站頁面的激增和用戶隊伍的不斷壯大,搜索引擎越來越成為人們上網瀏覽時的重要工具,用以在浩瀚的網站頁面的海洋中迅速地找到自己所需的信息。從用戶的角度來看,當前的搜索引擎主要存在信息檢索質量不高、檢索方式單一、個性化服務問題、搜索引擎對信息的標引深度不夠、信息收集與檢索的分離等幾個方面的不足。
智能搜索引擎的人機接口和網絡蜘蛛高度智能化,可跨平臺工作、處理多種混合文檔、支持多種語言搜索,并能根據用戶的興趣、愛好、特性、定題需求,不斷實時推薦、推送相關的信息、知識,定制個性化頁面等,表現出較大的智能性、主動性、交互性、人性化特征。使其用戶范圍從具有良好信息檢索素質的專業人士,擴展為無任何檢索技能背景的普通用戶。
智能型的自然語言技術包括"自然語言搜索"和"動態關聯詞、聯想詞提示"技術。內建完整的"布爾邏輯運算組合"的搜索條件和"鄰近搜索"功能,配合"智能型快速響應模式",有效提高搜索速度和精確度。用戶可靈活選擇欲搜索的數據庫,配合"中文同音"、"中英文近似概念"、簡繁轉換"、通配字符搜索"、詞組搜索"和"多字段平行檢索"等多項智能搜索功能,從而更加高效、便捷獲取有用信息。
提供多重模板設計功能,可按照用戶自身需求輕松修改搜索結果的顯示畫面;并可依據不同的搜索方式,套用可獲得不同的搜索結果的模板文件。提供"機動權值排序機制"、"階層式分類目錄"、"動態關聯詞、聯想詞提示"等功能,向用戶提供更友好的搜索界面,增加搜索結果的適用性。
采用"多線式資料獲取機制"、"平行索引模式"、"動態文件分析技術"及"實時差異式索引更新技術"等多種功能,有效提高文件與數據庫的索引速度,大幅降低索引等候時間和更新周期。提供"多重索引數據庫"架構及"群組式分類目錄"功能,縮短資料索引時間,靈活整合文檔資料。
3.1知識的定義
知識是人類對客觀世界的認識,通常知識是先由底層數據經過分類、歸納、綜合等處理過程而得到的上層信息,這種信息再經過解釋、比較、推理得到我們所獲取的知識,這種過程主要是在語義的層面來進行的。
3.2知識的類型:過程型知識、描述型知識和元知識。
3.3知識的表示
知識表示是指知識在計算機內部的存儲和組織,是數據結構和解釋過程的結合。數據結構用于知識的形式化描述,而解釋過程則用來說明知識的現實含義。知識的表示方法主要有一階謂詞邏輯表示法、產生式表示法、語義網絡表示法和面向對象的知識表示方法等。
3.3.1一階謂詞邏輯表示法
謂詞的一般形式為P(x1,x2,…,xn),其中,P是謂詞;x1,x2,…,xn是個體(常量、變元或函數)。謂詞邏輯適用于表示事物的狀態、屬性、概念等事實性的知識,也可以用來表示事物間確定的因果關系,即規則。例如:"書在課桌上"可以描述成:ON(book,desk)。謂詞邏輯是一種形式語言,是目前能夠表達人類思維活動的一種最精確的語言,它與人類的自然語言比較接近,因此一階謂詞邏輯表示方法是最早使用的一種知識表示方法。它具有簡單、自然、精確、靈活、容易實現等優點。
3.3.2產生式表示法
產生式表示法又稱為產生式規則表示法它是依據人類大腦記憶模式中各種知識之間的大量存在的因果關系,以"IF-THEN"的形式,即產生式規則表示出來的。它的基本結構包括前提和結論兩部分:前提(IF部分)描述狀態,結論(THEN部分)描述在狀態存在的條件下所做的某些動作:
前提狀態→結論動作或 IF狀態THEN動作
整個產生式的含義是:如果前提被滿足,則可推出結論或執行所規定的操作。產生式表示法具有自然性好,便于推理的優點,且有利于對知識的增加、刪除和修改。另外,產生式表示法既可以表示確定性知識,又可以表示不確定性知識;既有利于表示啟發式知識,又可方便地表示過程性知識;既可表示領域知識,又可表示元知識。但是產生式表示法不能表達具有結構性的知識,工作效率不高;而且在求解復雜問題時容易引起組合爆炸。
3.3.3語義網絡表示法
語義網絡是一種通過概念及其語義關系來表示知識的一種網絡圖。一個語義網絡就是一個帶有標志的有向圖。其中,有向圖的節點表示各種事物、概念、動作、狀態、屬性等;有向弧表示它所連接的節點間的某種語義聯系,每個節點可以包含若干個屬性。語義網絡表示法具有靈活、自然、易于實現、善于表示結構性知識等優點。語義網絡表示法的局限性主要表現在它對知識表示的非嚴格性,這使得有可能存在二義性,而且存在知識處理的復雜性。
3.3.4面向對象的知識表示方法
按照面向對象方法學的觀點,一個對象的形式可定義為四元組〈對象〉::=(ID,DS,MS,MI)。其中ID代表對象標志符,DS代表數據結構,MS代表方法集合,MI代表消息接口。這種方法可以將知識抽象為對象的內部狀態和靜態特征屬性進行封裝和隱藏,而知識的處理方法表示為對內部狀態和特征屬性的操作,并由消息接口與外界發生聯系。
3.4知識庫
知識庫是關于某一領域的陳述性知識、過程性知識和策略性知識的集合。知識庫中不但包含了大量的簡單事實,還包含了規則、過程型知識和策略性知識。從存儲知識的角度來看,以描述型方法來存儲和管理知識的機構叫做知識庫。從使用知識的角度來看,知識庫是由知識和知識處理機構組成。
3.5知識庫系統
3.5.1知識庫系統的體系結構
知識庫系統包括知識的獲得、利用和管理三個方面。知識庫、推理機及存貯器是知識庫系統的三個組成要素。知識庫系統的核心組成部分是知識庫和推理機構。
3.5.2推理機構
利用知識,解釋輸入的數據或事實,推導出用戶所需的結論;并根據要求,說明得出結論的依據,用于進行這種推理控制的模塊稱為推理機構。推理機構應具備以下四個功能:
(1)知識庫中新知識的獲取功能。
(2)推理機構與知識庫相互獨立功能。
(3)知識庫中信息交換及知識擴充功能。
(4)知識庫與待解決問題之間的協調功能。
目前的搜索引擎具有關鍵詞檢索和目錄查詢的缺點,為了克服這些缺點,應該采用自然語言理解技術來進行自然語言智能答詢。這樣就可以將信息檢索從目前基于關鍵詞的層面提高到基于知識(或概念)的層面,對知識有一定的理解與處理能力,可以實現分詞技術、同義詞技術、概念搜索、短語識別以及機器翻譯技術等。下面就是當前智能搜索引擎基于知識庫系統所采用的一些自然語言理解技術。
關鍵詞查詢的前提是將查詢條件分解成若干關鍵詞。對英文而言,一個單詞就是一個詞,但中文詞之間的關系卻復雜得多,主要問題是中文詞與詞之間沒有界定符,需要人為切分,但人為的切分有很大的靈活性和操作性,往往容易產生詞義失真。
漢語詞語之間復雜性的另一個方面是同義詞的問題,同一個詞組往往有許多不同的意思,處理同義詞的一種方法是在語義知識庫中人工構造同義詞表,對專用領域的搜索引擎,這種方法是非常有效的。
用短語描述查詢請求的情況很常見,但是因為漢語詞組的復雜性,所以在中文搜索引擎中,我們不能象英文詞組一樣簡單的將中文短語分離成詞組。
以提供主動服務為主的智能搜索代理技術,能夠將信息主動推送到用戶面前,免去了用戶被動搜索的困擾。搜索的是活動窗口而不是某一個關鍵詞的主導概念,增強了相關性提供的鏈接除網絡信息外,還包括客戶端的本地內容、相關社區中的同類用戶及相關內容的百科全書、參考資料等。
智能化搜索引擎能夠實現信息服務的人性化、高效化,為用戶檢索互聯網信息提供了極大的便利。在應用需求和相關科學技術的推動下,智能搜索引擎技術正逐步發展起來,它將會越來越好地為人們的生活服務。
[1]殷雪松,徐斌.WWW網絡搜索引擎介紹.大學圖書館學報,1998.
[2]吳丹.搜索引擎的智能化研究[J].情報理論與實踐,2002.
[3]李研,陳新中.基于web挖掘的智能門戶搜索引擎的研究[J].計算機工程與應用,2002.
[4]張興華.智能搜索引擎的機理,實現技術及發展趨勢[J].現代情報,2003.
[5]沈一棟.知識工程[M].北京:科學出版社,1992.