余素雅
(空軍航空儀器設備計量總站 北京 100070)
信息檢索(Information Retrieval)廣義的定義是指信息按一定的方式組織起來,并根據信息用戶的需要找出有關的信息的過程和技術。 狹義的信息檢索就是信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程,即信息查尋(Information Search或Information Seek)。信息檢索是獲取知識的捷徑,是科學研究的向導,是終身教育的基礎。信息檢索的全過程包含兩個方面,一是信息標引和存儲過程,二是信息的需求分析和檢索過程。人工神經網絡(Artificial Neural Network,ANN)是一種模仿動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型。這種網絡依靠系統的復雜程度,通過調整內部大量節點之間相互連接的關系,從而達到處理信息的目的。人工神經網絡是通過直觀性思維方式模擬人的思維,是一種非線性動力學系統,將分布式存儲的信息綜合起來,在忽然間產生想法或解決問題的辦法。這種思維方式的根本之點在于信息是通過神經元上的興奮模式分布儲在網絡上,并且通過神經元之間同時相互作用的動態過程完成信息處理。將人工神經網絡應用于信息檢索技術中,可以建立一種更高效的信息檢索模式。
1.1.1 檢索的意義
信息具有共享性,信息資源共享 (Information Resource Sharing)是當今社會的一個熱點問題。為了分享人類共同的知識財富、研究成果,人們必須通過一種科學的方法從取之不盡的信息源中去識別和獲取所需要的那部分信息,即檢索(Searching)。信息的檢索、利用和創造是一個循環和增值的過程,通過工具(數據庫)檢索獲得信息,經過處理篩選出需要的部分,在利用信息的過程中又創出新的信息,這些信息經過核準后又被標引、組織進檢索工具(數據庫),再提供人們使用,信息在這個循環的處理過程中不斷得到擴充。
1.1.2 信息檢索的基本原理
信息檢索的基本原理是指用戶信息需求與文獻信息集合的比較和選擇,是兩者匹配(Match)的過程,它既是用戶的信息需求,也是組織有序的文獻信息集合。信息檢索從用戶特定的信息需求出發,對特定的信息集合采用一定的方法、技術手段,根據一定的線索與規則從中尋找出相關的信息。信息檢索原理如圖1所示。

圖1 信息檢索原理Fig.1 Principle of information retrieval
1.1.3 信息檢索的對象
1)文獻檢索(Document Retrieval):以文獻(包括題錄、文摘和全文)為檢索對象的檢索,分為全文檢索和書目檢索。
2)數據檢索(Data Retrieval):以數值或數據(包括數據、圖表、公式等)為對象的檢索。
3)事實檢索 (Fact Retrieval):以某一客觀事實為檢索對象,查找某一事物發生的時間、地點及過程的檢索。
信息檢索從技術上分為手工檢索 (Manual Retrieval)(手檢)和計算機檢索(Computer-based Retrieval)(機檢)兩大類。
1.2.1 手工檢索
手工檢索使用的多為印刷型或書本型檢索(Paper-based Retrieval)工具,早期有檢索卡片,現在使用最多的是檢索刊,它定期地將最新收集到的信息、文獻加以匯總、組織和報道。手工檢索的技術要求不高,以人的勞動為本,由人來翻閱、比較、選擇、完成匹配。手工檢索工具能提供的檢索點十分有限,檢索結果往往不盡人意。
1.2.2 計算機檢索
計算機檢索是通過數據庫系統實現的,其檢索系統包括計算機主機設備、外部存貯器、輸入輸出設備、終端設備、通信設備等硬件設施,還需要控制、提供檢索的軟件系統,包括通信軟件、操作系統、應用程序等,以實現對數據庫的信息存取。計算機檢索過程是在人與機器的合作、協同下完成的,它們經常用實時(Real Time)、交互(Interactive)的方式從計算機存貯的大量數據中自動分揀出用戶所需要的信息。計算、比較、選擇的匹配任務由機器執行,而人則是整個檢索方案的設計者和操縱者。計算機檢索的性能明顯優于手工檢索,主要表現在檢索的信息量大、數據更新快、檢索功能強、檢索結果輸出的多樣性等方面。
1.3.1 信息意識
信息意識是信息檢索的前提,它是指人們利用信息系統獲取所需信息的內在動因,具體表現為對信息的敏感性、選擇能力和消化吸收能力。信息意識含有信息認知、信息情感和信息行為傾向這3個層面。
1.3.2 信息源
信息源,及信息的來源,它是信息檢索的基礎,其構成按文獻載體可分為印刷型、縮微型、機讀型、聲像型,按文獻內容和加工程度可分為一次信息、二次信息、三次信息,按出版形式可分為圖書、報刊、研究報告、會議信息、專利信 息、統計數據、政府出版物、檔案、學位論文、標準信息。
1.3.3 信息獲取能力
信息獲取能力是信息檢索的核心,它用來了解各種信息來源、掌握檢索語言、熟練使用檢索工具、以及對檢索效果進行判斷和評價。判斷檢索效果的兩個指標,即查全率=被檢出相關信息量/相關信息總量(%)、查準率=被檢出相關信息量/被檢出信息總量(%)。
1.3.4 信息利用
信息利用是信息檢索的關鍵,社會進步的過程是一個知識不斷的“生產-流通-再生產”的過程。為了全面、有效地利用現有知識和信息,在學習、科學研究和生活過程中,信息檢索的時間比例逐漸增高。獲取學術信息的最終目的是通過對所得信息的整理、分析、歸納和總結,根據自己學習、研究過程中的思考和思路,將各種信息進行重組,創造出新的知識和信息,從而達到信息激活和增值的目的。
1.4.1 布爾邏輯檢索
利用布爾邏輯算符進行檢索詞或代碼的邏輯組配,是現代信息檢索系統中最常用的一種技術。常用的布爾邏輯算符有 3 種,邏輯或“OR”、邏輯與“AND”、邏輯非“NOT”。
1.4.2 截詞檢索
截詞檢索是計算機檢索系統中應用非常普遍的一種技術。由于西文的構詞特性,在檢索中經常會遇到名詞的單復數形式不一致;同一個意思的詞,英美拼法不一致;詞干加上不同性質的前綴和后綴就可以派生出許多意義相近的詞等等。這是就要用到截詞檢索。
1.4.3 位置檢索
位置檢索也叫全文檢索、鄰近檢索。所謂全文檢索,就是利用記錄中的自然語言進行檢索,詞與詞之間的邏輯關系用位置算符組配,對檢索詞之間的相對位置進行限制。這是一種可以不依賴主題詞表而直接使用自由詞進行檢索的技術方法。
1.4.4 字段限定檢索
字段限定檢索是指限定檢索詞在數據庫記錄中的一個或幾個字段范圍內查找的一種檢索方法。在檢索系統中,數據庫設置的可供檢索的字段通常有兩種:表達文獻主題內容特征的基本字段和表達文獻外部特征的輔助字段。
1.4.5 加權檢索
加權檢索是某些檢索系統中提供的一種定量檢索技術。加權檢索同布爾檢索、截詞檢索等一樣,也是文獻檢索的一個基本檢索手段,但與它們不同的是,加權檢索的側重點不在于判定檢索詞或字符串是不是在數據庫中存在、與別的檢索詞或字符串是什么關系,而是在于判定檢索詞或字符串在滿足檢索邏輯后對文獻命中與否的影響程度。
1.4.6 聚類檢索
聚類是把沒有分類的事物,在不知道應分幾類的情況下,根據事物彼此不同的內在屬性,將屬性相似的信息劃分到同一類下面。
科技信息檢索的流程如圖2所示。

圖2 科技信息檢索流程Fig.2 Sicence and technology information retrieval process
1987年美國計算機專家Robert Hecht-Nielsen將Kohonen特征映射網絡與Grossberg(格勞斯貝格)基本競爭網絡相結合提出了對向傳播神經網絡 (Counter Propagation Network,CPN),也稱作對傳網,它是一種新型特征映射網絡,提供了一個輸入模式和輸出模式之間的雙向映射,并被廣泛地應用于模式分類、函數逼近、統計分析和數據壓縮等領域。CPN讓網絡的隱藏層執行無監督學習,它是解決多級網絡訓練的另一個思路。CPN是將Kohonen特征映射網絡與Grossberg基本競爭型網絡相結合的一種新型特征映射網絡[4-7],它是監督學習和無監督學習相結合的神經網絡,既具有監督網絡分類準確精細的優點,也具有無監督網絡分類靈活、算法簡練的特點,將二者有機的結合起來。CPN一般分為前向對傳網(Forward Counter Propagation Network,Forward-CPN)和全向對傳網(Full Counter Propagation Network,Full-CPN)兩種。
Forward-CPN的結構由輸入層、競爭層、輸出層3部分組成,如圖3所示,輸入層和競爭層構成自組織特征映射(Selforganizing Feature Map,SOM)網絡,競爭層與輸出層構成基本競爭網絡。Forward-CPN屬于監督學習和無監督學習相結合的網絡,它從整體上分析屬于監督型網絡,從輸入層和競爭層構成的SOM網絡上分析屬于無監督型網絡。
Forward-CPN的隱層為競爭層,競爭層獲勝神經元調整其內星和外星權值向量。內星權值向量采用無監督學習算法,權值調整的目的是使得權值向量不斷靠近當前的輸入模式類,從而將該模式類的典型向量編碼到獲勝神經元的內星權值向量中;外星權值向量采用監督學習算法,權值調整的目的是使得外星權值向量不斷靠近并等于期望輸出,從而將該輸出編碼到外星權值向量中。

圖3 Forward-CPN模型Fig.3 Model of forward-CPN
Forward-CPN從輸入層到競爭層,網絡按照SOM學習規則產生競爭層獲勝神經元,并按照這一規則調整相應的輸入層到競爭層之間的連接權值。從競爭層到輸出層,網絡按照基本競爭網絡學習規則得到輸出層各神經元的實際輸出值,并按照有監督學習規則的誤差校正方法調整相應的競爭層到輸出層之間的連接權值。經過上述反復學習,將任意的輸入模式映射為輸出模式。
Forward-CPN算法可以分為兩個階段,第一階段對輸入層-競爭層的權值矩陣進行訓練,使權值向量不斷靠近當前的輸入模式類;第二階段對競爭層-輸出層的權值矩陣進行訓練,使權值向量不斷靠近并等于目標輸出。
1)將服務器系統中的每個分類主題詞分配給Forward-CPN輸入層的每個神經元,建立“輸入層-競爭層”權值矩陣。
2)將用戶的初始檢索提問詞集和作為神經網絡的輸入模式集合提供給網絡,通過提問詞集和的輸入模式通過網絡的競爭層,到達輸出層。
3)不斷地將輸入模式集合中的輸入模式反復提供給網絡,讓網絡完成學習,直到某一時刻,網絡的輸出神經元能夠滿足用戶期望輸出的結果,網絡達到穩定。
4)對網絡輸出端檢索出的信息進行智能分類,使用戶獲得更多的想得到的結果。
步驟1:輸入模式預處理
將每個輸入模式進行歸一化處理,將二進制離散數據{a1,a2,…an}轉換為雙極式數據{x1,x2,…xn},即

步驟2:初始化權值矩陣 w1和w2。
步驟3:將利用檢索提問詞建立的輸入模式集合提交給網絡。
步驟4:通過網絡的權值矩陣w1和w2,對輸入模式進行學習。
步驟5:當網絡檢索到所有信息時,網絡處于穩定狀態,停止運行,同時輸出檢索結果。
假設現有 6 篇文獻分別為 D1、D2、D3、D4、D5、D6,將其存儲于服務器進行檢索。Forward-CPN輸入層神經元為3個,隱層神經元為7個,輸出層神經元為6個。利用6篇文獻建立輸入模式,即

將其轉換為雙極數據模式,即

然后,利用Forward-CPN進行仿真,與傳統方法比較,前者具有更好的效果,如表1所示。

表1 Forward-CPN方法與傳統方法比較Tab.1 Compare between Forward-CPN and traditional method
通過對信息檢索技術的基本概念、原理、檢索方式、以及科技信息檢索流程的分析,在對前向對向傳播神經網絡的基本模型和算法的研究的基礎上,提出了基于前向對向傳播神經網絡的信息檢索的原理和算法,并將這種算法與傳統方法通過仿真實驗進行對比,在保持100%的查準率的情況下,將查全率由79.63%提高至85.59%,獲得了較好的效果。
[1]周瑛.神經網絡作為分類器的算法研究及其在信息檢索中的應用[D].合肥:安徽大學,2006.
[2]劉斌,黃鐵軍,程軍,等.一種新的基于統計的自動文本分類方法[J].中文信息學報,2002,16(6):18-24.LIU Bing, HUANG Tie-jun,CHENG Jun, et al.A new statistical-based method in automatic text classification[J].Journal of Chinese Information Processing,2002,16(6):18-24.
[3]Salton G,McGill M J.Introduction to modem information retrieval[C]//New York:McGraw Hill,1983.
[4]Hecht Nielsen R.Counter propagation network[C]//Proc.of IEEE First Int’l Conference on Neural Networks,1987(2):19-32
[5]Kuzmanovski I,Novic M.Counter-Propagation neural networks in matlab[J].Chemometrics and Intelligent Laboratory System,2008(90):84-91.
[6]金明曦,武妍.基于對向傳播神經網絡的人臉識別方法[J].電子科技大學學報,2004,33(5):573-576.JIN Ming-xi,WU Yan.Face recognition based on counter propagation network[J].Journal of University of Electronic Science and Technology of China,2004,33(5):573-576.
[7]葛哲學,孫志強.神經網絡理論與MATLAB R2007實現[M].北京:電子工業出版社,2007.
[8]Hagan M T,Demuth H B,beale M H,著.神經網絡設計[M].戴葵,等譯.北京:機械工業出版社,2006.
[9]Fredric M.Ham,Ivica Kostanic,著.神經計算原理[M].葉世偉,王海娟,譯.北京:機械工業出版社,2007.