摘要:闡述了人工智能的原理及智能信息檢索系統的基本概念,分析了智能信息檢索系統的結構及其研究中遇到的難題,并從人工智能的研究成果來探討解決問題的思路。
關鍵詞:人工智能;智能信息檢索系統;信息檢索
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2009)14-3777-02
Artificial Intelligence Technology in the Information Retrieval System
ZHANG Ling-ling
(Xingzhi Academy, NanJing Xiaozhuang College, Nanjing 210012, China)
Abstract: Expounded the principle of artificial intelligence and intelligent information retrieval system of the basic concepts, analysis of the intelligent information retrieval system structure and the problems encountered during the study, and research results from artificial intelligence to explore ideas to solve the problem.
Key words: Artificial Intelligence; Intelligent Information Retrieval System; Information Retrieval
1 引言
人工智能是當前科學技術發展中的一門前沿學科,是在計算機科學、控制論、信息論、神經心理學、哲學、語言學等多種學科研究的基礎上發展起來的,是一門綜合性很強的邊緣學科??偟膩碚f,人工智能是一門研究如何構造智能機器或智能系統,使它能模擬、延伸擴展人類智能的學科。
目前,人工智能的研究更多的是結合具體領域進行的,主要研究領域有專家系統、機器學習、模式識別和自然語言理解等。自從人工智能技術問世以來,它的研究已經有了顯著的成果。人工智能應用于信息檢索系統的成果——智能信息檢索系統給信息檢索領域帶來了革命性的變化。
2 智能信息檢索系統概述
智能信息檢索系統是一種智能化的計算機信息檢索系統,它模擬人類關于信息處理的思維過程和智能活動,實現信息知識的存儲,檢索和推理,并向用戶提供智能輔助。由于人工智能的引入,智能信息檢索系統的優勢明顯:強大的自然語言理解能力,使用戶可以用自然語言更確切地表達自己的信息需求;模擬專家的檢索方法,把用戶所表達的信息需求,制定解決策略以及分析結果的工作轉移到智能信息檢索系統來處理;具有強大的學習能力,能自動地獲取知識,能直接向書本學習,并在實踐中實現自我完善。智能信息檢索系統的結構:
1)人機接口部分。人機接口是信息檢索系統和用戶交流界面,它能理解、分析用戶的自然語言提問,并產生適合用戶的結果,還具有解釋功能。它由一組程序相應的硬件組成,用于完成輸入輸出工作。系統通過它輸入知識更新完善知識庫,一般用戶通過它輸入信息需求。
2)知識庫及其管理系統。知識庫是知識存儲機構,用于存儲解決用戶信息需求所需的原理性知識、專家的經驗性知識以及有關的事實等。知識庫中的知識來源于知識獲取機構,同時它又為推理機提供求解問題所需的知識,與兩者都有密切關系。
3)數據庫及其管理系統。它存放用戶提供的初始事實、問題描述以及系統運行過程中得到的中間結果、最終結果、運行信息(如推出結果的知識鏈)等。
4)檢索推理機構。它綜合應用各種信息檢索策略與推理技術,利用知識庫中的知識,按一定的推理策略解決用戶的問題。
5)知識獲取。這是獲取知識的機構,由一組程序組成。其基本任務是把知識輸入到知識庫中,并負責維護知識的完整性與一致性,建立起性能良好的知識庫。
6)解釋機構。它能夠對自己的行為作出解釋,回答用戶提出的“為什么?”、“結論是怎么出來的?”等問題,是信息檢索系統取信于用戶的一個重要措施。
3 智能信息檢索面臨的問題
智能信息檢索系統的研究經歷了幾十年的發展,到目前為止,已經研究出了一些實用性的智能信息檢索系統。但是,人工智能信息檢索在下列領域依然無法得到根本性的突破。
1)自然語言理解。自然語言理解是智能信息檢索系統的基礎。自然語言是極其復雜的。對我們每個人來說,是以我們的全部知識來理解語言的。機器理解自然語言需要把每個人腦都擁有的高度相似的、有關的“背景知識”存入計算機中,利用這種上下文相關知識進行推理,但這是難以做到的。
2)知識的表示。人類的智能活動主要是一個獲得并運用知識的過程,知識是智能的基礎。為了讓計算機具有智能,就必須使它具有知識。但知識是需要用適當的模式表示出來才能存儲到計算機中去的,因此知識表示是長期以來人工智能研究的一個重要問題,在智能信息檢索系統設計中,知識表示則成為一個核心部分。
在人工智能中,知識表示就是要把問題求解中所需要的對象、前提條件、算法等知識構造為計算機可處理的數據結構以及解釋這種結構的某些過程。在信息檢索中,同一條知識對不同的用戶有著不同的重要性。因此,在信息檢索中,知識的表示與利用是一個很大的難題。例如,如何從詢問中獲得領域知識,信息表示要達到怎樣的深度等。
3)知識的獲取。擁有知識是智能信息檢索系統區別于一般信息檢索系統的重要標志,而知識的質量與數量又是決定其性能的關鍵因素。如何使智能信息檢索系統獲得高質量的知識,這正是知識獲取要解決的問題。
由于各方面的原因,知識獲取至今仍是一件相當困難的工作,雖然已有許多人工智能學者在開展這方面的研究工作,希望實現知識的自動獲取,即由信息檢索系統自動完成對知識的獲取,并且也取得了一些成果,但離知識的完全自動獲取這一目標相距甚遠,還需要走一段漫長的道路,解決許多理論及技術上的問題。
4 從人工智能研究的成果來探討解決問題的思路
1)自然語言理解。在人工智能領域,自然語言理解就是研究如何讓計算機理解人類自然語言的一個研究領域。具體的說他要達到如下三個目標:計算機能理解人們用自然語言輸入的信息,并能正確回答輸入信息中的有關問題;對輸入信息,計算機能產生相應的摘要,能用不同詞語復述輸入的內容;計算機能把某一種自然語言表示的信息自動的翻譯為另一種自然語言。對于智能信息檢索系統來說,主要是要達到前面兩個目標。關于自然語言理解的研究可以追溯到20世紀50年代。但大多集中在將一種自然語言翻譯成另一種自然語言的研究上。進入20世紀70年代,一批采用句法—一語義分析技術的自然語言理解系統脫穎而出,在語言分析的深度和難度方面都比早期的系統有了長足的進步。進入20世紀80年代后,更強調知識在自然語言理解中的重要作用。近十年來在自然語言理解的研究中一個值得注意的是語料庫語言學的崛起,它認為語言學知識來自語料,人們只有從大規模語料庫中獲取理解語言的知識,才能真正實現對語言的理解。目前,雖然基于語料庫的自然語言理解方法還不成熟,正處于研究之中,但它是一個值得注意的研究方向。而且我們可以將已經取得的成果用于智能信息檢索系統的自然語言處理上。
2)知識的表示。在人工智能中,知識表示實際上就是對知識的一種描述,或者說是一組約定,一種計算機可以接受的用于描述知識的數據結構。對知識進行表示的過程就是把知識編碼成某種數據結構的過程。
對于知識表示方法的研究,離不開對知識的研究與認識。由于目前對人類知識的結構及機制還沒完全搞清楚,因此關于知識表示的理論及規范尚未建立起來。盡管如此,人們在對智能信息系統的研究及建立過程中,還是結合具體研究提出了一些知識表示方法。概括起來,這些表示方法可分為兩大類:符號表示法,連接機制表示法。
對同一知識,一般都可以用多種方法進行表示,但其效果卻不相同。因為不同領域中的知識一般都有不同的特點,而每一種表示方法也各有自己的長處與不足。因而,有些領域的知識可能采用這種表示模式比較合適,而有些領域的知識可能采用另一種表示模式更好。有時還可能把幾種表示模式結合起來,作為一個整體來表示領域知識,以取得取長補短的效果。另外,上述各種知識表示方法大都是在進行某項具體研究或者建立某個智能系統時提出來的,有一定的針對性和局限性,應用時需根據實際情況作適當的改變。
3)知識的獲取。目前,知識獲取通常是由知識工程師與系統中的知識獲取機構共同完成的。知識工程師負責從領域專家那里抽取知識,并用適當的模式把知識表示出來,而系統中的知識獲取機構負責把知識轉換為計算機可存儲的內部形式,然后把他們存入知識庫。在存儲的過程中,要對知識進行一致性、完整性的檢測。
4)知識獲取的任務是為信息系統或者專家系統獲取知識,建立起健全、完善、有效的知識庫,以滿足求解領域的問題的需要。對智能信息檢索系統來說,就是要滿足信息檢索這一具體領域的需要。為了完成這個任務,知識獲取必須做到:a、抽取知識:即把蘊含于知識源(領域專家,書本,相關論文及系統的運行實踐等)中的知識經識別,理解,篩選,歸納等抽取出來,以便建立知識庫。b、知識轉換:即把知識由一種表示形式變換為另一種表示形式。c、知識的輸入:即把用適當模式表示的知識經編輯、編譯送入知識庫的過程;d、知識的檢測:知識庫的建立是通過對知識進行抽取、轉換和輸入等環節實現的,這一過程中的任何環節上的失誤都會造成知識的錯誤,直接影響系統的性能,因此必須對知識進行檢測,以便盡早發現并糾正可能出現的錯誤。
按知識獲取的自動化程度劃分,可分為非自動知識獲取和自動知識獲取兩種方式。自動知識獲取是知識獲取最終的目標,它是一種理想的知識獲取方式,但它卻涉及到人工智能的多個領域。例如模式識別、自然語言理解、機器學習等。而這一理論目前尚處在研究階段,由許多技術上的問題需要作進一步的研究,就目前已經取得的研究成果而言,尚不足于真正實現自動知識獲取。因此,知識的完全自動獲取目前還只能作為人們為之奮斗的目標。
但是,人工智能的研究畢竟已經取得了很大的進步,自然語言理解,機器學習等的研究也已取得了較大的進展,特別是近年來關于人工神經網絡的研究提出了多種學習算法,這都為知識獲取提供了有利條件。因此,在建造智能信息檢索系統時,應充分利用這些成果,逐漸向知識的自動獲取過渡,提高其智能程度。事實上,在近年來建造的智能信息系統中,也都不同程度的做了這方面的嘗試,在非自動知識獲取的基礎上增加了部分學習功能,使系統能從大量事例中歸納出某些知識。
參考文獻:
[1] 王永慶.人工智能原理與方法[M].西安交通大學出版社,1998.
[2] 張玉峰.智能情報系統[M].武漢大學出版社,1991.
[3] 張倚.關于人工智能技術在情報檢索中的應用[J].山西大學學報,1995(3).
[4] 李明,沈紅君.情報檢索智能化[J].情報理論與實踐,1996(6).