張彥文
(桂林電子科技大學 圖書館,廣西 桂林 541004)
跨語言信息檢索及其相關問題
張彥文
(桂林電子科技大學 圖書館,廣西 桂林 541004)
網絡信息技術的飛速發展產生了豐富的海量信息資源。信息資源所采用語言的多樣性和用戶所掌握語言的差異性,帶來了信息檢索的多語言或跨語言困難。跨語言信息檢索是為了適應這一發展要求而誕生的信息檢索檢索方法和技術。本文對跨語言信息檢索的淵源、跨語言信息檢索方法以及跨語言信息檢索模型等進行了討論。
信息檢索;跨語言檢索;檢索模型;多語言信息資源
信息技術的發展產生了大量的數字信息,人們進入了海量信息資源和大數據時代。特別是互聯網技術的快速發展,因特網上的信息資源類型和數量愈來愈豐富,所使用的語言愈來愈具有多樣性。網絡資源語言的多樣性和網絡用戶所掌握語言的差異性不可避免地給人們利用網絡檢索信息帶來了語言障礙。這種語言障礙極大地限制了人們對信息資源的有效獲取,跨語言信息檢索由此應運而生。跨語言信息檢索由康奈爾大學的Salton于20世紀70年代初首先提出。他利用手工編制的英語—德語雙語種詞表,進行了跨語言信息檢索的嘗試;1973年,他又編制了英語—法語詞表,并對跨語言信息檢索的效率進行了評價。1964年,法國道路研究實驗室開發了“國際道路研究文獻系統”,該系統通過英、法、德三種語言索引詞構成的多語言受控詞表來實現跨語言信息檢索。跨語言信息檢索是指用戶以自己熟悉的一種語言來構建和提交查詢提問式,從多語言信息資源系統中檢索出符合用戶需求的另一種或多種語言描述的相關信息資源。例如,輸入中文的提問式,從多語言信息資源系統檢索出英文、法文或中文及其他語言描述的相關信息資源。用戶查詢提問時所使用的語言稱之為源語言,而系統檢索出的信息資源所包含的語言稱之為目標語言。跨語言信息檢索,可分為雙語言信息檢索和多語言信息檢索。雙語言信息檢索是指用戶以自己熟悉的語言提交查詢請求,除源語言之外,系統可檢索到另外一種語言表達的文獻信息,即目標語言為另一種語言。多語言信息檢索是指用戶以自己熟悉的語言提交查詢請求,除源語言之外,系統可檢索到另外多種語言表達的文獻信息,即目標語言為多種語言。相對于雙語言信息檢索,多語言信息檢索往往更符合網絡用戶的查詢需求。與跨語言信息檢索相對應,查詢提問式語言和檢索出信息資源表述語言相同的信息檢索稱為單語言信息檢索。跨語言信息檢索是傳統計算機信息檢索技術和語言自動處理技術的有機結合,涉及語言學、情報學、計算機科學等多門學科知識,是一個綜合性強、富有挑戰性的研究領域。源語言和目標語言的統一是跨語言信息檢索的關鍵技術,信息檢索模型則是實現查詢和信息資源匹配的重要理論基礎。本文對此都進行了討論,以利于圖書館員們更好地了解和掌握跨語言信息檢索相關技術。
跨語言信息檢索一般可以分為如下三個過程:①多語言信息資源的搜集以及多語言信息索引的建立;②應用語言自動處理技術實現提問語言(源語言)和信息資源表述語言(目標語言)的統一;③應用單語言信息檢索技術實現查詢提問式與索引信息的匹配,得到檢索結果。其中源語言和目標語言的統一是實現跨語言信息檢索的關鍵技術,主要通過提問式翻譯、文獻翻譯、中間語種轉換及非翻譯方法等四種方式來實現。提問式翻譯是指將用戶提交的查詢請求翻譯成系統支持的多種語言,然后對不同語言的信息集進行查詢。提問式翻譯主要有字典和語料庫兩種方法。其核心思想在于通過語料庫中不同語種同一信息的對應關系對提問式進行翻譯并且過濾提問式翻譯后產生的非正常翻譯結果。提問式翻譯是實現跨語言信息檢索較為經濟的方法。其缺陷在于,系統返回的信息仍然用目標語言表達,只能算一種不完全的跨語言信息檢索。文獻翻譯是指在信息檢索之前,將文獻信息資源表述的目標語言轉化為查詢提問式的源語言。目前實現文獻翻譯的方法主要有機器翻譯和基于字典翻譯文獻索引詞方法。文獻翻譯的優點是檢索結果用提問語言描述,用戶能夠方便地選擇利用。同時,文獻層次的翻譯與提問層次的翻譯相比,其語境更加寬泛,比較容易消除歧義。不足之處在于要求所有被檢索信息改變語言表述,而現有機器翻譯系統的正確率還難以達到令人滿意的程度,無法達到實用水平;此外,將數據庫中全部文獻從目標語種翻譯到提問語言工作量大,代價昂貴。中間語言轉換是將提問的源語言轉換成中間語言,再把中間語言轉換為信息資源的目標語言,或者是把提問的源語言和信息資源的目標語言都轉換為中間語言。中間語言通常是計算機容易自動處理的語言。這種方法常用于多于兩個語種的跨語言信息檢索或者兩種語言之間不存在直接對應轉換的跨語言信息檢索。非翻譯方法是指不對提問語種或者信息語種進行翻譯而實現跨語言信息檢索的方法,即潛語義索引。這種方法的實現方式是,首先將原始文檔與相對應的翻譯文檔建立聯系,構建訓練文檔集,然后利用奇異值分解技術對其進行分析,獲得雙語文檔集的特征信息和檢索詞的映射關系,最后以平行文檔中的語詞檢索出另一語言的相關信息。這種方法的優點是,不需要字典、詞表和機器翻譯系統,也不存在翻譯過程中消除歧義的問題,具有很高的靈活性和適應性;不足之處在于對具體問題構造優化的向量空間模型是一種經驗型的工作,且向量空間模型的奇異值分解計算需要時間,訓練文檔不容易獲取。
信息檢索模型是信息檢索中的一個重要理論問題。已有的單語言信息檢索模型包括布爾模型、向量空間模型、概率模型、統計語言模型和語義處理模型等。這些信息檢索模型在跨語言信息檢索中有著重要的作用。布爾模型是一種基于集合論的檢索模型。在該模型中,一篇文檔通過稱之為標引詞的關鍵詞來表示,文檔語義內容中標引詞的重要性用一個二值權值來表示,一個查詢表示為多個標引詞通過邏輯聯結詞連接的表達式。布爾模型結構簡單、容易實現,但只能判斷文檔相關或不相關,無法描述與查詢條件的匹配程度情況。模糊集合模型和擴展布爾模型在此方面進行了改進。在模糊集合模型中,將文檔看成與查詢在一定程度上相關,每一標引詞都存在一個模糊的文獻集合與之相關。擴展布爾模型吸取了模糊集合模型和向量空間模型的長處。在該模型中,一篇文檔對應的標引詞被賦予了一個0~1之間數值的權值,文檔與查詢的相似度通過公式來計算。布爾模型及其擴展模型在跨語言信息檢索的查詢翻譯消歧中得到成功應用。向量空間模型是將文檔和查詢表示為向量的檢索模型。在該模型中,標引詞在一篇文檔中的權值是一個0~1之間的實數。查詢中的標引詞也有一個正的加權值。文檔向量與查詢向量夾角的余弦用來計算它們之間相似度。向量空間模型能根據相似度對檢索結果進行排序,有效地提高了檢索效率。其不足之處在于標引詞被假定為相互獨立,這樣會丟掉大量的文本結構信息,且相似度計算量大。為此,人們對向量空間模型進行了改進,提出了廣義向量空間模型。廣義向量空間模型已應用于跨語言信息檢索,其基本思想在于根據雙語言訓練文檔集分別建立源語言與目標語言的檢索詞——文檔關聯矩陣。在源語言與目標語言之間建立映射關系,在不需要翻譯的條件下實現跨語言信息檢索。概率模型是基于概率和隨機過程理論的檢索模型。在該模型中,一個用戶查詢對應一個由相關文檔構成的集合,稱之為理想集合。如果知道理想集合的特征,就可以找到所有的相關文檔,剔除所有的無關文檔。概率模型具有嚴格的數學理論基礎,采用相關反饋原理克服了不確定性推理的缺點。但其參數估計難度較大,缺乏理論知識。于是人們將統計學引入到概率模型中,形成了各種基于貝葉斯網絡的檢索模型。推理網絡模型是概率模型的一種擴展形式,它模擬人腦的推理思維模式,將文檔與用戶查詢匹配的過程轉化為一個從文檔到查詢的推理過程。跨語言信息檢索系統InQuery是基于貝葉斯推理網絡模型的信息檢索系統,InQuery允許使用查詢算符,這在跨語言信息檢索中是非常有用的。統計語言模型是關于某種語言所有語句或者其他語言單位的分布概率,也可以將統計語言模型看作是生成某種語言文本的統計模型。根據馬爾可夫鏈的階數,統計語言模型分為一元語言模型和多元語言模型。一元語言模型假設詞與詞之間是相互獨立的,一個詞出現的概率與這個詞前面的詞沒有必然聯系。多元語言模型假設詞與詞之間是相互關聯的,一個詞出現的概率與這個詞前面的詞存在一定的關聯。根據目標詞前面其他詞個數的多少,多元語言模型可被劃分為二元語言模型、三元語言模型等。統計語言模型檢索方法能夠利用統計語言模型來估計與檢索有關的參數,在如何改善檢索系統性能方面有更加明確的指導方向。但該方法隱含著詞匯相互獨立關系,沒有考慮詞匯間的相互影響。統計語言模型已經應用于跨語言信息檢索,并在解決查詢翻譯的語言歧義性中發揮重要作用。概率模型和統計語言模型可以看作在同一概率框架下不同的推導結果,然而統計語言模型卻克服了傳統概率模型在概率估計上的不足。如果不進行查詢擴展,概率模型的效果要稍好于統計語言模型。如果進行查詢擴展,那么統計語言模型進行跨語言信息檢索的效率更高。語義處理模型能夠探究詞語背后所指代的本質概念,明確詞語的主題范疇,識別同一概念的各種表示形式。在該模型中,詞語的含義、詞語和文檔之間的語義關聯、文檔的相似度分析,采取了從文檔結構入手的潛在語義分析方法,以及從內容入手的利用知識組織體系的本體方法。潛語義標引模型將標引詞之間、文檔之間的相關關系以及標引詞與文檔之間的語義關聯都考慮在內,將文檔向量和查詢向量映射到與語義概念相關聯的較低維度空間中,從而將標引詞向量空間轉化為語義概念空間,并在降維后的語義概念空間中,計算文檔向量和查詢向量的相似度。潛語義標引模型克服了同義詞和多義詞對檢索結果的影響。本體模型將用戶的信息需求通過共享本體轉化為計算機可理解的查詢表達。為了提高查全率,再通過共享本體中概念與概念之間的關系擴展查詢表達。在跨語言信息檢索中,潛語義標引模型將有代表性的文檔與其對應的翻譯文檔聯系起來形成訓練文檔集,利用奇異值分解技術對雙語檢索詞——文檔關聯矩陣進行奇異值分解,獲得雙語文檔集的特征信息以及檢索詞用法上的映射關系,最后根據平行文檔中語詞的用法特征檢索出另一種語言的相關信息。基于本體的跨語言信息檢索比常規的單一語言信息檢索在查全率和查準率方面有明顯的優勢。
傳統的信息檢索技術,往往只能幫助用戶使用自己熟知的一種語言提出查詢。互聯網技術與數字圖書館技術的發展產生了大量的多語言信息資源。這樣,不同的用戶可能會使用不同的語言提出查詢,同一個用戶也可能采用同一種語言來查詢不同語言表述的信息資源。由此,表述信息資源的語言的多樣性以及用戶使用語言的差異性,帶來了信息檢索的語言障礙。跨語言信息檢索是為滿足此要求應運而生的新方法和技術。數字圖書館以及網絡信息資源服務是圖書館業務拓展的新平臺,跨語言信息檢索是這些資源服務中必須采用的技術手段,了解和掌握跨語言信息檢索相關技術對于圖書館員有著重要的意義。
[1]Witten Ian H.et.al.Greenstone:Open-Source digital Library Software[J].D-Lib Magazine,2001,7(10):288-298.
[2]Wiederhold Gio.Digital Libraries:Value and Productivity[J]. Communication of the ACM,1995,38(4):85-96.
[3]Douglas W Oard,Anne R Diekema.Cross-language Information Retrieval[J].Annual Review of Information Science and Technology,1998,(6):223-256.
[4]駱衛華.跨語言信息檢索方法概述[J].數字圖書館論壇,2006,(9):1-7.
[5]Kazuaki Kishida.Technical issues of cross-language information retrieval:a review[J].Information Processing&Management,2005,(41):433-455.
[6]吳丹,齊和慶.信息檢索模型及其在跨語言信息檢索中的應用進展[J].現代情報,2009,29(7):215-221.
G2
A
1674-9324(2014)01-0132-03