韓嬌紅
(安陽師范學院計算機與信息工程學院,河南 安陽 455002)
社會進入信息時代,不僅信息的數(shù)量急劇增長,而且信息檢索的對象和信息需求的主體也發(fā)生了極大變化。信息檢索的對象從相對封閉、集中管理的信息內(nèi)容擴展到開放、動態(tài)、更新快、分布廣泛、管理松散的Web內(nèi)容;信息用戶由原來的情報專業(yè)人員擴展到包括商務人員、管理人員、教師學生、各專業(yè)人士等在內(nèi)的普通大眾,他們對信息檢索從結(jié)果到方式提出了更高、更多樣化的要求。目前,信息檢索已經(jīng)發(fā)展到網(wǎng)絡化和智能化階段,適應網(wǎng)絡化、智能化以及個性化的需要是目前信息檢索技術發(fā)展的新趨勢。其中智能化信息檢索成為研究的熱點。
2.1.1 發(fā)展初期及形式(1985~1987)
網(wǎng)絡化的逐步形成日益改變了人們的工作和生活方式,尤其被稱為人類三大尖端技術之一的人工智能技術的出現(xiàn)和發(fā)展,給人類社會帶來了強烈的活力,傳統(tǒng)的信息檢索在理論和實踐方面因此受到了巨大的沖擊,表現(xiàn)出許多自身難以克服的弊端,國外智能信息檢索就是在這種背景下提出的。在我國,信息工作者也不甘落后,從20世紀80年代中期開始了對智能信息檢索的研究。
2.1.2 發(fā)展高峰期(1988~1991)
人工智能經(jīng)過多年的發(fā)展已日趨完善。國外在20世紀90年代初已達到了高峰,這也為我國智能信息檢索提供了基礎。從國內(nèi)來看,這也是我國情報學發(fā)展的黃金時期,大量情報學文獻在此期間問世,其中還包括大量智能情報檢索研究的文獻。
2.1.3 逐步回落時期(1992~)
人工智能信息檢索是一項難度很大的課題,首先要解決電腦思維與人腦思維有機結(jié)合的問題,在人工智能沒有突破性進展的情況下,其應用領域也不會有大的進步。計算機表現(xiàn)出的局限性使信息檢索智能化發(fā)展不可避免地受到影響。我國對智能信息檢索的研究開始原地踏步,甚至回落,從高潮走進了低谷。
目前,我國的智能信息檢索基本處在理論認識與實驗階段。通過傳統(tǒng)信息檢索系統(tǒng)與智能信息檢索系統(tǒng)的比較分析,人們對智能信息檢索系統(tǒng)已經(jīng)有了理性的認識,對智能信息檢索系統(tǒng)的基本結(jié)構(gòu)有了較清晰的認識,對智能信息檢索系統(tǒng)實現(xiàn)方法和關鍵技術逐步了解,看到了智能信息檢索系統(tǒng)實現(xiàn)的可能性,同時也面臨著許多困難和問題。
人才是國家發(fā)展的重要資源,而教育是培養(yǎng)人才的主要渠道,小學教育作為基礎階段,應當受到國家和教育部門的高度重視,尤其是在信息化時代的大背景下,做好小學教育的信息化發(fā)展意義重大。
信息檢索(Information Retrieval),通常指文本信息檢索,包括信息的存儲、組織、表現(xiàn)、查詢、存取等各個方面,其核心為文本信息的索引和檢索。智能檢索則是把現(xiàn)代人工智能的技術與方法引入到信息檢索系統(tǒng),使后者具有一定程度的智能特征,在更高的層次上實現(xiàn)其功能。智能化信息檢索的目的是使信息檢索系統(tǒng)“理解”文件包含的信息內(nèi)容和用戶的信息需要。它在對內(nèi)容的分析理解、內(nèi)容表達、知識學習、推理機制、決策等基礎上實現(xiàn)檢索的智能化。
智能信息檢索系統(tǒng)應具備以下3種能力:①智能信息檢索系統(tǒng)是建立在大規(guī)模的知識庫基礎之上的,它有一個強大的推理系統(tǒng)支持,能用自然語言而不是規(guī)范的主題詞與檢索者交流的計算機系統(tǒng)。此系統(tǒng)能在已知信息的基礎上,推理分析出系統(tǒng)沒有明顯表示出來的信息。此外,系統(tǒng)自身還具有學習和自適應能力。②智能信息檢索系統(tǒng)在具備知識庫和推理機制的同時,強調(diào)智能信息檢索結(jié)果應是用戶能夠直接加以利用的信息,與傳統(tǒng)信息檢索為用戶提供的文獻線索相區(qū)別。前者可以免去用戶再去查找文獻的重復活動。③智能信息檢索系統(tǒng)的智能因素不應僅僅定義在檢索的執(zhí)行過程中,還應體現(xiàn)在提問模型的形成過程中,即根據(jù)用戶對問題的描述,借助與知識庫相關的知識,推斷其真正需求,形成提問模型。
一般來說,智能信息檢索系統(tǒng)由知識庫、文本處理和智能接口3部分組成。①知識庫部分:知識庫是智能檢索的核心。它又由知識庫系統(tǒng)、數(shù)據(jù)庫系統(tǒng)和檢索推理系統(tǒng)3個子系統(tǒng)構(gòu)成。②文本處理部分:文本處理系統(tǒng)就是利用計算機自動處理自然語言形式的文本輸入。它利用知識庫中的語言學知識、科學知識和其他知識,對文本進行語法、語義分析界定,從內(nèi)容上理解文獻所論述的主題,并把它們表示成知識庫中的知識單元和數(shù)據(jù)庫中的數(shù)據(jù)元素,不斷地豐富知識庫和數(shù)據(jù)庫。③智能接口部分:智能接口是用戶與系統(tǒng)之間的通道。它的主要功能是對自然語言進行查詢和處理,并作為智能終端建立用戶興趣檔案,加工提取結(jié)果。
人工智能技術中的機器感知(知識獲取)、機器思維(知識處理)、機器行為(知識利用),其核心是知識。實現(xiàn)知識的形式化描述,從知識的獲取、表示、存儲、組織、管理、推理直到智能化研究一直是人工智能研究的主要方向。
信息檢索現(xiàn)在雖然還沒有達到知識層次上的加工處理,但它至少已通過間接的途徑實現(xiàn)了對知識的處理,如智能化信息檢索系統(tǒng)把信息源作為知識的集合,而把信息源通過適當?shù)姆绞郊右詷艘淠康囊苍谟谕ㄟ^這些標引詞來表達信息源中的知識點,并為用戶的信息需求提供相應的知識輔助。智能化信息檢索系統(tǒng)的目標就是真正達到在知識語義層次上進行信息服務。由此看出,知識是IR與IT共同的研究對象,而對知識的獲取、加工、處理、提供利用則是兩者共同的目標。目前的智能技術主要包括人工智能技術和人工神經(jīng)網(wǎng)絡技術,其中人工智能技術(AI,Artificial Intelligence)主要研究如何利用計算機軟、硬件模仿、延伸、擴展人類智能理論方法和技術。而人工神經(jīng)網(wǎng)絡技術(ANN,Artificial Neural Network)則更注重對人腦結(jié)構(gòu)的模擬。實際應用中往往可以通過結(jié)合AI與ANN共同完成智能任務。AI長于知識的邏輯推理,它以一套完整的推理系統(tǒng)為核心,對知識進行組織、再生和利用;ANN的長處則在于對復雜知識的結(jié)構(gòu)化組織,通過分布式計算、并行推理以及例子學習來實現(xiàn)智能化處理。ANN是模擬神經(jīng)元結(jié)構(gòu),決定了它具有高度容錯能力。ANN的研究重點在于模擬和實現(xiàn)人的認知過程中的感知過程、經(jīng)驗形象思維、分布式記憶和自組織學習過程,而AI是符號處理系統(tǒng),側(cè)重于人的邏輯思維。這兩者的結(jié)合為基于知識的智能化的信息檢索提供了可能。
另外,隨著計算機軟、硬件設備性能的提高和智能通訊、網(wǎng)絡技術的深入研究,人工智能在自然語言理解、知識獲取、表示和推理等方面的研究進展,以及信息檢索領域?qū)χ悄芑呐Γ瑸閮烧叩慕Y(jié)合提供了強大的技術支持和廣闊的應用空間。
用戶知識的自動獲取技術。用戶知識通常包括用戶信息需求和用戶背景知識等。通過在用戶終端上運行一個監(jiān)視用戶的接口Agent,由它來監(jiān)視用戶信息搜索與瀏覽過程,將用戶在WEB瀏覽時的相關信息不斷傳給遠端服務器,服務器再將信息進行整理、組織并從中分析出用戶的信息偏好,服務器根據(jù)用戶信息偏好進行新的信息推薦。
機器學習技術。包括基于解釋經(jīng)驗的學習、基于事例的學習、基于概念的學習、基于類比的學習、基于神經(jīng)網(wǎng)絡的學習等。其具體的執(zhí)行是先讓一個智能Agent帶有最小的背景知識,然后通過幾種方法學習用戶的行為:一是觀察用戶,找出規(guī)律;二是用戶反饋(直接或間接);三是用戶訓練,直接給出例子;四是詢問其他Agent。這樣即使Agent不熟悉某個用戶的習慣,但經(jīng)過一段時間的學習,它會逐漸了解用戶的工作習慣,并逐步接替用戶的工作。
推送技術。推送技術最基本的形式是通知,針對這種服務,用戶可以控制其通知形式與時間間隔。另一個是提要技術,用戶以關鍵詞、日期、數(shù)值、比較規(guī)則以及其他查詢條件查找信息。提要可以實現(xiàn)查看WEB頁或其他信息源,尋找需要匹配的信息,并向用戶傳遞信息。第三種是自動拉出,提供一種可供用戶常查看的WEB頁。自動推送需要用戶終端有特殊客戶機軟件,定期發(fā)出更新請求。
5.1.1 智能技術本身的不成熟
人工智能技術本身還有許多不完善的地方。主要體現(xiàn)在兩個方面:①知識的獲取與表示。其中較難解決的問題就是如何把復雜多樣的專業(yè)知識系統(tǒng)化。此外,如果把人工智能技術應用到一個多學科綜合的檢索系統(tǒng)中,如何辨別某個多義詞當前的具體含義,如何辨析用戶特定的需求,這些都有待于繼續(xù)研究。②受自然語言處理技術方面的局限。要想使計算機準確地分析、表達并傳輸知識,就必須使計算機具備理解自然語言的能力。目前對自然語言的處理,雖然已從語法階段上升到語義階段,但對自然語言的理解能力還限制在一些規(guī)范的語句和語法范圍內(nèi),這就決定了智能信息檢索系統(tǒng)所能具有的智能化表達程度。
5.1.2 信息檢索系統(tǒng)本身的障礙
信息檢索系統(tǒng)是一個復雜的系統(tǒng),檢索過程本身存在著以下難題:①信息檢索系統(tǒng)所面對的用戶來自不同專業(yè)領域,知識層次也各不相同,要使計算機對其進行合理定位是一個難題。②信息檢索系統(tǒng)涉及的專業(yè)知識豐富,將諸多知識形式化較為困難。③信息檢索專家系統(tǒng)不易建立。不僅這些專家的經(jīng)驗和技術很難準確地表達出來,而且不同的檢索專家很可能對同一問題持不同的觀點,這對專家系統(tǒng)的建立提出了難題。
5.2.1 解決知識表達問題的思路
知識的獲取和表示問題是智能化信息檢索的一個難題,但是知識庫是智能檢索的核心,如何建設知識庫,關鍵是如何把復雜多樣的專業(yè)知識表達描述出來。在我國,不同的學者從不同的角度去探討這個問題,有人認為語料庫作為處理自然語言的方法較好,可用來構(gòu)建語義網(wǎng)或采用本體論建設知識庫。目前,隨著網(wǎng)絡信息的多樣化、網(wǎng)絡數(shù)據(jù)庫的異構(gòu)化,本體論越來越受到了計算機界的重視。在協(xié)助智能體對因特網(wǎng)上的各種信息進行領域分類,在智能化的規(guī)范用戶信息檢索和信息整合方面,本體論的知識發(fā)揮著重要作用。由于本體能刻畫事物之間的內(nèi)在聯(lián)系,借助于本體,可以使檢索的信息更能滿足用戶的需求。所以本體論成為知識獲取和表示、規(guī)劃、進程管理、數(shù)據(jù)庫框架集成、自然語言處理和企業(yè)模擬等研究領域的核心。一旦建成基于本體論的知識庫,本體論將提供一個內(nèi)容豐富和現(xiàn)代的框架以實現(xiàn)術語的規(guī)范、服務和管理。如果與基于網(wǎng)站的搜索工具相結(jié)合,將會十分有益于資源的檢索,不僅可以為特定用戶提供其所查詢的特定文件,還可提供與興趣主題可能有關的其他資源。這種額外的功能不僅會顯著提高基于網(wǎng)站的搜索引擎的范圍,而且還能改進用戶對網(wǎng)頁上信息資源感興趣的方式。
5.2.2 自然語言處理的思路
語言學方法。根據(jù)可計算性理論,任何一個自動機的運算都是按一定程序、分步驟和相繼作用在離散對象之上所完成的,而這些對象又是以線形序列相鄰接的排列組合所構(gòu)成的,而自然語言的3個特征——離散性、序列性、鄰接性使其具備了“可計算性”,為自然語言的處理奠定了物質(zhì)基礎。對自然語言處理的方法有語言學方法、人工神經(jīng)網(wǎng)絡法等。與建立語料庫的思路相似,采用語言學方法,在相當長時間里,語言學的任務是建立一個高度集合的語法系統(tǒng),來解釋句子的生成與理解。當這一語言學理論與計算理論相結(jié)合時,產(chǎn)生了形式之法。形式之法由一套有窮的規(guī)則結(jié)合所組成,其作用是生成并接受所有符合這些規(guī)則的語句。
語料庫方法。語料,又被稱為素材,是自然發(fā)生的語言材料的集合。而語料(Corpus)是一個由大量在真實文本經(jīng)過詞法、句法、語義等多層次加工形成的語言材料庫。這些加工的方式包括在語料中標注各種記號,標注的內(nèi)容包括每個詞的詞性、語義項、短語結(jié)構(gòu)、句型和句間關系等。隨著標注程度的加深,語料庫逐漸熟化,成為一個分布的、統(tǒng)計意義上的知識源。語料庫本身不能直接應用于自然語言處理中的句法或語義分析,但因為語料庫包含了語言或者語言變體的詞匯、語法結(jié)構(gòu)、語義和語用信息,為語言學的研究提供了無窮無盡的資料來源,是計算機對文本進行各種分類、統(tǒng)計、檢索、綜合、比較等研究的基礎,可以幫助語言學家揭示語言的詞匯、語法、語義和語用規(guī)律,由這些語言學的規(guī)律匯集成詞法、語法、語義詞典或知識庫等文本分析工具,然后利用這些工具進一步對其他大量新文本逐詞標注詞性,劃分句子成分,進行語義標注等。
互聯(lián)網(wǎng)上利用搜索引擎為檢索手段,使用網(wǎng)絡信息資源自動采集機器人(robot)程序(也稱網(wǎng)絡蜘蛛、爬蟲軟件),動態(tài)訪問各站點,收集信息,建立索引,并自動生成有關資源的簡單描述,存入數(shù)據(jù)庫中供檢索。但這種機器人程序的查準率有待提高。于是元搜索引擎(又稱多元搜索引擎或集成搜索引擎)成為網(wǎng)絡檢索的后起之秀,是多個單一搜索引擎的集合。它沒有獨立的數(shù)據(jù)庫,主要依靠系統(tǒng)提供的統(tǒng)一界面,構(gòu)成一個一對多的分布式且具有獨立功能的虛擬邏輯機制。以上兩者都不能提供用戶直接利用的信息資源,且查準率有待提高。網(wǎng)絡智能檢索成為目前研究的熱點,其包括智能搜索引擎(Intelligent Search Engine)、智能瀏覽器(Intelligent Browser)、智能體(Agent)等。智能搜索引擎可以預期用戶的需求,并可有效地抑制關鍵詞的多義性。比較成功的智能搜索引擎有FSA、Eloise和FAQFinder。智能瀏覽器是基于機器學習理論設計的智能系統(tǒng),經(jīng)過訓練后,可成為某個領域中熟練的搜索專家。兩個比較成功的實驗原型是WebWatcher和Letizia。智能體是一個具有控制問題求解機理的計算單元,網(wǎng)絡中的智能體通常是一個專家系統(tǒng)、一個模塊等。它在經(jīng)用戶指導后,可在不用用戶干預的情況下,找到所需信息。有些智能體使用神經(jīng)網(wǎng)絡與模糊邏輯而不是關鍵詞來識別信息的模式。例如:BrowerBuddy是一個基于規(guī)則的智能體。
當前基于Agent的智能信息檢索是信息檢索技術研究的熱點。智能代理(Intelligent Agent,簡稱IA)技術始于20世紀80年代,是人工智能技術的一個重要研究領域。進入上世紀90年代后,隨著因特網(wǎng)的廣泛使用及其相關技術的飛速發(fā)展,圍繞因特網(wǎng)展開的智能代理技術研究取得了很大的進展,它不僅成為人工智能研究的熱點之一,也是信息技術最前沿的代表。智能代理最先由美國麻省理工學院研制開發(fā)。目前,國外從事智能代理技術研究的不僅有大學、研究機構(gòu),還有Apple、IBM、微軟等諸多信息技術公司,并且有些智能代理產(chǎn)品或嵌入智能代理技術的產(chǎn)品已經(jīng)投入使用。這些情況表明發(fā)展智能代理技術是一個趨勢,它將是克服現(xiàn)有網(wǎng)絡信息檢索問題的有效手段。
目前信息檢索技術正朝著多功能和智能化方向發(fā)展,隨著自然語言處理、自動分詞、自動標引、自動文摘、自動分類、自動翻譯等技術的進一步發(fā)展,信息檢索技術必將日益走向成熟與完善。
人工智能技術的發(fā)展是時代對社會智能化需求的體現(xiàn),而人工智能與信息檢索的結(jié)合則是人們對信息獲取智能化的有益嘗試。在信息檢索系統(tǒng)中納入人工智能技術將使傳統(tǒng)的信息檢索系統(tǒng)具有更好的用戶界面、更高的檢索效率和更豐富的檢索手段。人工智能技術的引入正在使傳統(tǒng)的信息檢索系統(tǒng)發(fā)生巨大的變化。以兩者作為結(jié)合點的智能信息檢索系統(tǒng)也將隨著這兩方面研究的不斷發(fā)展而更加完善強大。
[1] 師東生.基于自然語言理解的智能化多媒體信息檢索系統(tǒng)研究[J].微型機與應用,2011(6):6-10.
[2] 宋喆,初廣麗.基于Multi-Agent的個性化信息檢索模型結(jié)構(gòu)體系[J].圖書館學研究,2011(2):62-66.
[3] Liu Ying,Tang Yonglin,Zeng Yuan.A study on improving information retrieval effectiveness for scientific and technicalnovelty retrieval[C].Proceedings of International Forum onTechnological Innovation and Competitive Technical Intelligence’2008,2008:338-347.
[4] JAIN P.Intelligent information retrieval[C].SETIT 2005 3rd-International Conference:Sciences of Electronic,Technologiesof Information and Telecommunications,2005(3):27-31.
[5] KANNAN R.Topic map:an ontology framework for information Retrieval[C].Proc.of National Conferenceon Advances in Knowledge Management,2010:195-198.
[6] 肖艷華,邵世煌.一種基于本體論的Internet信息個性化檢索系統(tǒng)的Agent實現(xiàn)模型[J].微計算機信息,2003(6):77-78.
[7] 何儒云,湯艷麗.智能化信息檢索研究[J].圖書館,2003(3):34-37.