摘要:隨著計算機和網絡技術的發展,互聯網公開情報搜集已經成為一種重要的情報搜集手段。網絡信息的爆炸式增長,使得通用搜索引擎工具用于公開情報搜集的缺陷越來越凸顯。在通用搜索引擎的基礎上,對查詢輸入利用語義詞典進行查詢擴展和檢索結果聚類處理,能有效地提高檢索的精度和有效性,利用智能代理實現互聯網公開情報的自動化搜集,加快了情報搜集的速度和工作效率。
關鍵詞:互聯網;公開情報;搜索引擎;查詢擴展;聚類
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)26-1654-03
Automatic Open Intelligence Collection Module Based on Search-engine
ZOU Liang-qun, ZHOU Chun-lei
(PLA University of International Studies,Nanjing 210039,China)
Abstract: With the development of the computer and network technology, to collect the open intelligence on the internet has become a vital way of intelligence collection. The explosive growth of the network information increasingly magnifies the limitations of using the universal search-engine to collect the open intelligence. On the basis of the universal search engine, the use of the semantic dictionary to expand the query input and cluster the search results can effectively improve the search precision and validity. Furthermore, the realization of the automatic collection of the open intelligence on the internet via the intelligent agent quickens the intelligence collection and improves work efficiency.
Key words: internet; open intelligence; search-engine; query expansion;clustering
1 引言
互聯網以及計算機技術和信息技術的迅猛發展為公開情報研究提供了大量便利條件,互聯網公開情報搜集已經發展成為一種重要的公開情報的搜集手段,其地位和作用也進一步提高。美國等一些西方發達國家對于互聯網公開情報搜集的技術研究較早,他們成立專門的研究機構或依托大型軟件公司共同開發自動化的互聯網公開情報的搜集系統,能夠對互聯網公開情報進行自動化的搜集和分析。而我國由于起步較晚,自動化的程度不高,主要利用一些信息檢索工具(如搜索引擎等)進行搜索,然后在結果中進行人工篩選。這種搜集方式由于目前搜索引擎的缺陷,使得其搜集的效率不高。近年來由于信息檢索、人工智能、數據挖掘等技術的發展,對搜索引擎的優化和改進成為研究的熱點,但大部分都還處于理論階段。利用這些研究的理論基礎,在現有搜索引擎的基礎上,對查詢輸入和檢索結果進行處理,能有效的提高檢索的精度和效率。
2 搜索引擎
互聯網公開情報是從互聯網公開來源獲取和收集的情報。互聯網公開情報具有時效性強、更經濟、更全面、來源更廣泛的特點。同時通過互聯網獲取情報不受時間和空間的限制,具有高度的靈活性。80年代后,網絡公開情報的優點越來越突出,并越來越受到各國情報部門的重視,已經發展成為情報機構獲取情報資料的一種重要手段。
隨著網絡的普及和網絡帶寬的增加,越來越多的個人和組織把網絡當作一種與外界交流的工具,互聯網已經迅速地發展成為繼報紙、電臺和電視之后的“第四媒體”。在網絡這個高度開放的世界里,充滿著各種信息,有發生在世界各地的新聞,有各國政府發布的各種法律和規章制度,有科研機構公布的最新研究成果,又對競爭有利的各種經濟情報,有個人通過博客、論壇等發表的各種思想,還有恐怖組織和反政府組織為了宣傳和聯絡所建立的網站等等。據SIFY.COM報道,“西藏流亡政府”已將互聯網當作了一個“強有力的吸引藏人對抗中國的武器”,報道說,所謂的“西藏流亡政府”建立了自己的網站,而其它一些“藏獨”組織也非常倚重互聯網。不僅如此,達賴喇嘛等“藏獨”頭目也建立了自己的個人網站。某些網站還專門提供這些“藏獨”組織的網絡鏈接地址。
從1995年開始出現的搜索引擎,因其能幫助人們在浩瀚的信息海洋中方便、快速地找到自己所需的信息,已經成為人們網上沖浪的常用工具,同時也成為情報人員在互聯網上搜集情報的常用工具。其工作原理是:首先執行信息采集模塊,通過人工或自動采集,定期在網上收集相關的新網頁;然后利用自動標引模塊,對網頁進行標引,建立索引數據庫;信息檢索模塊執行檢索操作,根據檢索提問式,對檢索詞與索引詞進行匹配運算,檢索出包含檢索詞的網頁,進行相關排序,然后呈現給用戶。
隨著互聯網上數據量的迅速增加,利用搜索引擎工具進行情報搜集的缺陷已經越來越突出,其主要缺陷有:1) 現有搜索引擎單純考慮表達查詢的關鍵字和網頁文本的匹配性,不能根據情報人員查詢目的進行查詢內容的擴展,忽略了用戶需求的語義,導致搜索引擎往往不能得到滿意的檢索結果;2) 返回的結果根據搜索引擎所規定的排序方式按相關度從高到低分頁呈現,結果中包含了大量與查詢無關的信息,情報人員必須逐個點擊瀏覽才能確定是否是自己需要的,這種方式大大地限制了情報搜集的效率 [1]。有調查表明:71%的用戶在使用搜索引擎的時候遇到過麻煩,平均搜索12分鐘后發現搜索受挫;86%的互聯網用戶告倒應當出現更有效的、準確的信息搜索技術解決查詢結果[2]。
3 相關改進技術
3.1 查詢擴展技術
查詢擴展技術是改善信息檢索中查全率和查準率的關鍵技術之一,并成為近年來研究的熱點。查詢擴展指的是利用計算機語言學、信息學等多種技術,把與原查詢相關的詞語或者語言查詢語義相關的概念添加的原查詢,得到比原查詢更長的新查詢,然后檢索文檔,以改善信息檢索的查全率和查準率。
McCune最先開始在關鍵字檢索的基礎上引入基于概念的檢索。基于概念的檢索也稱為基于語義的檢索,利用關鍵詞在概念上的同義性和相關性,進一步擴展查詢請求,檢索結果將同時包含查詢關鍵詞同義詞的文檔。即把用戶提交的關鍵詞通過語義理解和計算轉換成語義概念,檢索出與此概念有關的、用戶真正想要的信息,而不只是字面上想要的,提高查全率。目前常見的做法是,通過對用戶的查詢條件進行概念/詞條擴展,從而轉化為關鍵字檢索。
語義資源的開發和應用是語義處理的基礎問題。近幾年來,國內外研究人員通過人工總結或人機輔助處理,開發出許多大規模的語義計算資源,在英語方面有WordNet、FrameNet、MindNet等,在漢語方面有知網HowNet、同義詞詞林等。
3.2 文本聚類技術
文本聚類就是完全根據文本文檔的內容相關性來組織文檔集合,將整個集合聚集成若干各類,并使得屬于同一類的文檔盡量相似,屬于不同類的文檔差別明顯。由于事先沒有關于這些文本信息的分類知識或可以使用的分類表,所以,文本聚類處理被看作是一種“無監督的學習”,他的特點可以概括為“先有文檔后有類”。聚類方法不象分類方法那樣需要預先定義類別,因此文本聚類多用于檢索系統中對檢索結果的后處理,即通過將檢索結果集合進行聯機實時聚類,以幫助用戶迅速提出自己不需要的文檔,同時還可以幫助他們發現單純使用輸出結果是很難發現的有用文檔。這樣,將大大縮小用戶所需瀏覽的結果數量,縮短用戶查詢所需要的時間。
目前針對文本聚類算法的研究也很多,但是常用于文本聚類的算法還是K-Means、SingleLink、DBSCAM和SOM算法,這些算法同時也是劃分聚類算法、層次聚類算法、基于密度和基于模型的聚類算法的典型代表[3]。
3.3 智能代理技術
智能代理技術是代表一切具有智能的實體的一個抽象名詞,它具有自治性、社會性、反應性和能動性的特性,與用戶有靈活的相互作用,在相互作用中能智能地協助用戶完成瑣碎的工作[4]。
4 互聯網多語種公開軍事情報自動化搜集系統模型設計
4.1 設計思想
本系統針對搜索引擎的在情報搜集上的缺陷,以及情報搜集工作的特點,依托商用搜索引擎Google強大的信息檢索功能,在Google的基礎上,利用語義詞典對查詢的輸入進行語義擴展,并對結果進行聚類處理,提高搜索的精度和效率,提高情報搜集的自動化處理程度。
在Google的基礎上改進的好處是:
1) Google作為全球最大的搜索引擎是最受歡迎的商用搜索引擎之一。其收錄的網頁達到20多億,網址達到10億,而且搜索時間通常不到半秒;
2) 避免了不必要的重復開發,節約了研究開發經費;
3) 能夠提供多種語言的搜索。
4.2 系統體系結構
根據系統的設計思想,本系統采用目前流行的瀏覽器/服務器模式,可以分為瀏覽層、中間層和數據層三層,如圖1所示。瀏覽層主要提供人機交互的接口,如查詢要求的提出、查詢結果的可視化顯示等。中間層主要是對查詢的整個過程進行處理,包括查詢前的語義和跨語言的擴展處理、查詢的調用以及查詢后對結果的聚類等。數據層存儲知識庫和中間層所需的數據庫。各層之間利用智能代理進行相互通信,實現系統的自動化。
4.3 系統各模塊及功能
本系統按照功能可分為四個模塊:查詢擴展模塊、搜索引擎檢索模塊、結果聚類模塊和可視化結果模塊,系統整體模型如圖2所示。下面就各子模塊進行一定的說明和分析。
4.3.1查詢擴展模塊
查詢擴展模塊的功能主要是對用戶輸入的查詢串利用語義詞典進行查詢擴展,其工作的流程圖如圖3所示。
在查詢擴展中需要對同義詞的詞語相似度進行計算。詞語相似度就是兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結構的程度。兩個詞語,如果在不同的上下文中可以互相替換且不改變文本的句法語義結構的可能性越大,二者的相似度就越高,否則相似度就越低。相似度是一個數值,一般取值范圍在[0,1]之間。一個詞語與其本身的語義相似度為1。如果兩個詞語在任何上下文中都不可替換,那么其相似度為0。
查詢擴展的算法為:
1) 利用語義詞典對用戶提交的查詢串進行同義詞查詢,如果有同義詞則轉步驟2),沒有則轉步驟3);
2) 計算每個同義詞與其詞語本身之間的詞語相似度,并按相似度大小進行排序,然后轉步驟4);
3) 利用分詞詞典對輸入的查詢串進行分詞,如果分詞后詞語數>=2,則對分詞后的每一個詞轉步驟1)進行同義詞查詢,否則轉步驟5);
4) 根據詞語相似度閾值,對同義詞進行選擇,一般不超過兩個;
5) 使用擴展后的詞利用搜索引擎進行檢索。
本模塊中所用到的是通用的語義詞典,中文語義詞典為知網HowNet,英文的語義詞典為WordNet。在實際的應用中將通用詞典與領域知識庫相結合[5],能使擴展的同義詞更符合用戶的語義要求,但領域知識庫的建立是一項龐大而繁瑣的工程,需要由領域專家來完成。因此我們可以使用智能代理跟蹤用戶的檢索行為,建立個性化的用戶數據庫,通過多次的反饋來逐步求精。
4.3.2 搜索引擎檢索模塊
搜索引擎模塊的功能是對經過語義擴展詞利用布爾表達式進行查詢串擴展,將擴展后的查詢串提交搜索引擎進行檢索。
設原始查詢串為q,擴展后的查詢串為Q,經分詞處理后原始查詢串q劃分成n個關鍵詞,每個詞的同義詞個數為m1,m2,…,mn。
則擴展后的詞為:q11,…,q1m1,q21,…,q2m2,…,qn1,…,qnmn。
擴展查詢子串的個數為:k=m1×m2×…×mn+1,則各查詢子串為:
q1=q,
q2=q11 and q21 and…qn1,
…
qk=q1m1 and q2m2 and…qnmn
擴展后的查詢串為:Q=q1 or q2 or…qk
4.3.3 結果聚類模塊
為了方便用戶瀏覽和選取網頁,搜索引擎返回的檢索結果通常包括標題、網頁鏈接地址、摘要和網頁快照等內容,標題和摘要能代表與網頁最相關的內容。大多數傳統的聚類算法是處理查詢結果的網頁內容,根據內容的相似性將文檔分成相關的組,但是下載原文要耗費很多時間,因此為了提高處理的速度,本系統只將標題和摘要作為處理的對象[6]。
本模塊用改進的K-Means方法進行聚類,步驟為:
1) 因為查詢串與標題相匹配的命中率高于摘要,即如果查詢串與標題相匹配,則該網頁通常就是所查詢的目標,因此賦予標題比摘要高的權值。選取與查詢子串完全匹配或匹配程度最高的文檔作為每個類的凝聚點;
2) 將經過查詢擴展后的查詢子串作為聚類的類名,類的個數k由查詢子串的個數決定;
3) 設定閾值dr作為文檔與各類凝聚點之間的最大距離;
4) 按照距離最近原則,將剩余n-k文檔逐個并入最近凝聚點所代表的類。每引入一個文檔,要計算它與各凝聚點的距離,當文檔與所有凝聚點的距離大于閾值dr則丟棄,否則將文檔合并進入最近的凝聚點所在的那一類。
該算法結合了語義擴展的特點,對搜索引擎返回的結果進行處理和篩選,使得處理后的結果在最大程度上符合查詢需求,提高了查詢精度。
4.3.4 可視化結果模塊
該模塊的功能主要是把最后的結果用分類列表的形式呈現給用戶,為用戶提供良好的、便于瀏覽的瀏覽界面。
5 結束語
本系統的設計是在現有資源的基礎上,本著實現互聯網公開情報怎樣實現自動化、智能化搜集的目的,力爭改變當前互聯網情報搜集嚴重依賴人工、處理速度低、成效差的現狀,為情報自動化處理探索一條新的途徑。
參考文獻:
[1] 高少琛.基于查詢拓展和聚類技術的資源檢索系統的研究與應用[D].上海交通大學共學碩士論文,2007.
[2] 蘇新寧.信息檢索理論與技術[M].北京:科學技術文獻出版社,2004:372.
[3] 余洋.聚類在信息檢索領域中的應用研究[J].信息系統,2007,30(3):405-408.
[4] 王汝傳,徐小龍,黃海平.智能Agent及其在信息網絡中的應用[M].北京:北京郵電大學出版社,2006.
[5] 梅翔.語義檢索中若干關鍵問題的研究[D].北京郵電大學博士研究生學位論文,2007.
[6] Zeng H J,He Q C,Chen Z,et al.Learning to Cluster Web Search Results[A].In:Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval[C].New York:ACM Press,2004.210-217.