【摘要】鑒于現有的搜索引擎的問題和廣大分布式網絡環境中的海量信息,基于Agent的信息檢索系統也獲得了相當大的關注。通過使用多Agent技術,采用元搜索引擎結構,結合數據庫分類引擎學習機制,來實現信息資源優化。提出多Agent的信息檢索系統框架的同時,探討該系統的關鍵技術。
【關鍵詞】信息檢索多Agen網絡
一、前言
隨著Internet的飛速發展和廣泛應用,在任何給定時間點的數據庫的確切大小是不確定的,而不是一個封閉的關系模型的本地數據庫的內容。所以說Internet是一個沒有界限的數據庫模型、一個開放的世界。為了得到更全面、更準確的結果,我們必須反復調用更多的搜索引擎(也稱元搜索)。在本文中將多Agent技術和元搜索引擎技術有機結合,提出了多Agent的信息檢索系統,讓Agent挖掘網絡信息之間的關連,建立模糊關系,依據用戶個性化的模糊推理思維方式,為用戶提供高效、完整的信息搜索服務。
二、多Agent的信息檢索系統的優勢
目前Internet上的一些搜索引擎雖然解決信息定位的基本問題,但他們的工作原理于p/s結構,存在或多或少的的缺陷。在多Agent技術的應用網絡信息檢索系統中,它可以將基于用戶的檢索要求多個Agent移動到遠程的Web站點等信息數據源上,實時的進行本地信息分析,然后通過網絡傳輸用戶得到真正需要的索引信息。基于傳統的p/s結構的信息搜索方法相比,基于多Agent的信息檢索系統具有以下優勢:(1)執行動態方式。基于網絡的多Agent信息檢索系統,Agent動態地將用戶請求移動在網絡節點上執行,移動Agent可以在節點的搜索信息使用過濾器。然后用戶真正所需的信息通過網絡輸送回來,避免了網絡傳輸回大量的無關數據。由于Agent的網絡信息傳輸和信息搜索處于分開狀態,所以大大降低了網絡流量,降低了對帶寬的要求。(2)計算異步能力。Agent是在服務器上執行,因此只需要傳輸源碼、數據和操作狀態的信息網絡時確保穩定的網絡連接,而在服務器上的信息過濾、搜索等占用大量時間的操作則不需要連接網絡。這使得基于多Agent的信息檢索系統對網絡可靠性的依賴也大大降低,即使是在一個不穩定的網絡環境下仍能保證穩定的工作。(3)路由自行選擇。在信息檢索過程中,根據任務目標,多Agent可以在網絡通信和服務器的負載等因素自行動態規劃下一步的操作。多Agent自主選擇路由,可以用來優化網絡信息資源,實現負載均衡,避免盲目對資源的訪問。(4)并行搜索功能。該系統可以創建多個Agent到相同或不同的網絡節點進行搜索,從而大大降低了時間來完成搜索任務。
綜上所述,Agent具有智能化程度高,強適應性等特性,多Agent的信息檢索技術是在分布式環境下,由多Agent相互通信、相互協作完成指定的任務。所有Agent由控制Agen統一的調控來完成信息檢索和自動更新功能。
三、本系統關鍵技術探討
在該系統中,多Agent通過引擎檢索出用戶需求的信息資源。而用戶信息的表示方法,信息特點的采集,都不一定有規范性加上不確定性的知識,諸多的關鍵技術值得去探討:(1)檢索信息的收集。①元搜索技術。元搜索又稱多搜索,通過一個統一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的(甚至是同時利用若干個)搜索引擎來實現檢索操作,是對分布于網絡的多種檢索工具的全局控制機制。②網絡蜘蛛技術。網絡蜘蛛是一種電腦“機器人”(Computer Robot),電腦“機器人”是指某個能以人類無法達到的速度不間斷地執行某項任務的軟件程序。③RSS聚合內容技術。也叫簡易信息聚合,是一種描述和同步網站內容的格式。(2)檢索結果合成方案。資源信息中都包括了每個信息的標題和信息的具體內容,可以充分利用這些信息屬性,將這些文本信息和用戶查詢之間的相似性文件進行計算,結合的分布位置排列搜索引擎來平衡之間的區別。將相似度最高的內容排在前面,從而提高了搜索質量。將搜索引擎查詢出來的結果相結合,并存儲在一個列表文件中,最后對列表進行過濾,排序。
網頁P的頁面等級值用PPR(p)表示,設用戶的查詢關鍵詞為q:
以PPR(p)值為依據對檢索結果進行排序,該過程具體由Agent完成。
四、總結
互聯網豐富的資源,方便用戶快速獲取所需信息,但傳統的搜索引擎返回的結果在數量的龐大和內容上的不相關性給用戶信息檢索的質量帶來了直接的影響,造成了用戶信息檢索的困難。為了避免了無關信息的干擾,幫助用戶更快,更準確地找到所需的信息,本文對基于網絡的多Agent信息檢索系統進行了研究,設計了多Agent信息檢索系統框架,分析了該系統的關鍵技術,使之能提高查全率和查準率。