摘 要:信息檢索本質上是語義檢索, 而傳統信息檢索系統都是基于獨立詞索引, 因此檢索效果并不理想. 概率潛在語義索引是一種新型的信息檢索模型, 它在潛在語義索引模型思想的基礎上, 通過EM迭代算法將詞向量和文檔向量投影到一個低維空間, 消減了詞和文檔之間的語義模糊度, 使得文檔之間的語義關系更為明晰。論述了概率潛在語義索引的理論基礎, 探討了隱含語義索引在信息處理處理中的應用。
關鍵詞:信息檢索;潛在語義索引;SVD分解;概率潛在語義索引
中圖分類號:G40-03 文獻標識碼:A 文章編號:1672-3198(2007)07-0160-03
1 簡介
傳統的信息檢索模型可歸為三類:布爾模型、向量空間模型和概率模型。它們都分別把文本和查詢表示為索引詞的集合,盡管使用了不同的方法,但本質上均為某種形式的索引詞的匹配,而沒有進一步做語義上的分析。自然語言中存在大量的同義詞、多義詞,這分別對傳統檢索模型的召回率和準確率有不利的影響。檢索系統要求用戶提供足夠多精確、無歧義的關鍵詞才有可能得到所需要的信息,這大大增加了系統使用的難度。為了進行更自然更人性化的查詢,檢索系統必須能夠處理自然語言中的同義、多義現象,進行語義上的分析。
潛在語義分析(LSA)是一種發現潛在語義并分析文檔、詞和語義三者之間關系的方法。其主要思想是通過統計分析來發現文檔中詞與詞之間存在的某種潛在的語義結構,并且使用這些潛在的語義結構來表示詞和文本。
雖然潛在語義分析在信息檢索領域取得了令人滿意的效果,但是它存在幾個缺陷:首先由于潛在語義分析過程中奇異值分解的物理意義不夠明確,較難控制詞義聚類的效果;此外這個算法的空間和時間復雜度太大,在目前的計算機硬件條件下很難實際適應實際應用。
針對潛在語義分析的這些缺陷,Hoffmann 提出了一種新的方法-概率潛在語義分析(PLSA),該方法使用概率模型來表示“文檔—潛在語義—關鍵詞”三者之間的關系,文檔和關鍵詞都可以映射到同一個語義空間,這樣,文檔和文檔以及文檔和關鍵詞之間的相似度都可以通過計算語義空間上的夾角而得以量化。
2 潛在語義索引(LSI)
潛在語義索引(Latent Semantic Indexing) 是S. T. Dumais)等人提出的。其基本思想是文本中的詞與詞之間存在某種聯系,即存在某種潛在的語義結構,因此采用統計的方法來尋找該語義結構,并且用語義結構來表示詞和文本。這樣的結果可以達到消除詞之間的相關性,化簡文本向量的目的。潛在語義索引的算法基于矩陣的奇異值分解
選擇適當的K 值,將S0中刪除相應的行和列得到S,刪除T0、D0的相應的行和列分別得到T、D,運算得到新的矩陣A = TSDT,用它去近似原始矩陣,這個秩為K 的新矩陣在最小平方意義上最接近原始矩陣。即:
潛在語義索引與其它相關模型相比其好處在于一是可調節的表示能力;二是項和文本在同一空間內的確定性表示;三是對于大型數據集合的計算簡便性,對于某些單模式分析模型的計算復雜度達到O(N4) 或O (N5),而潛在語義索引為O (N2K3),其中N為矩陣行數加列數。
SVD 分解的重要意義在于將項和文本映射在同一個K維的語義空間內, 這樣較之傳統的單模式因子分析,它的基礎不再是同一類型的兩個事物的相似矩陣,而是任意的矩陣,其結果是將項和文本表示為K 個因子的形式, 而且保持了原始的大部分信息。SVD 分解并不是為了描述這些潛在的語義結構,而是利用潛在語義結構來表示項和文本,克服單純項表示時產生的同義、多義以及“斜交”現象。
利用SVD 分解不僅能夠分析傳統的項與項或者文本與文本的之間的相似關系,而且更關鍵的是能夠分析項和文本的關系。在新的語義空間分析計算項與項或者文本與文本的之間的相似系數,比直接利用原始的特征向量進行點內積運算,具有良好的效果。因為它是基于語義層,而前者是基于詞匯層。
3 概率潛在語義索引(PLSI)
雖然潛在語義模型在傳統的信息檢索模型的基礎上加入了語義的概念,并在很多領域取得了令人滿意的實驗結果。但是由于LSI 自身的物理意義不夠明確,所以較難控制詞義聚類的效果。此外這個算法的空間和時間復雜度太大,在目前的硬件條件下很難實際應用。1999 年,Hofmann 提出了統計隱含語義標引(PLSI)的概念,在理論和算法上都有所突破。
3.1 概率潛在語義索引模型描述
(1)構造“文檔—詞”索引矩陣。
如圖1所示,構造文檔—詞的索引矩M(Word,Document ),其中的文檔按照類型排序。矩陣M中元素的初始值c(d,w)設為單詞w在文檔d 中出現的次數。然后,需要進行歸一化的操作,主要基于以下兩個原因:第一,每篇文章中詞的個數多少不同,因此一個詞在短文章中出現一次的價值,顯然應該大于在長文章中出現一次的價值;第二,一個很少出現的詞,一旦出現在文檔中,其價值應該大于普遍出現的詞。事實上,類似于“the, 我們,的,of”之類的詞幾乎在任何文檔中都會出現,因此其價值應該是趨向于零的。

其中,c(d,w)是矩陣M 初始值,b 是系數,Count(w)是詞w 在所有文檔中出現的總次數,Length(d)是文檔d 中所有非停用詞數。
(2)構造語義空間,確定映射初始值。
構造k維的語義空間Z,并且依據(1)中的粗分類結果給出語義空間的先驗概率p(z)。具體的操作如下:設有n 篇文檔,文檔共分為t 種類型,其中第1 篇到第i 篇是同一類型的,那么有:
其中,''表示取整操作,k 值的選取依賴于經驗,如果太小則無法把各類分開,如果太大則太敏感,容易引入噪聲;在一般應用中可取20到100。有了語義空間后,需要分別構造“文檔—主題”的映射矩陣P(D,Z)和“詞—主題”的映射矩陣P(W,Z),并給出初始值。設共有文檔n 篇,其中文檔d 屬于第一類,而第一類的文檔共有i
而對矩陣P(W,Z),由于不知道任何的先驗知識,所以就給隨機值作為其初始值;需要注意的是,必須滿足概率矩陣的條件,也就是任何一行的值之和必須是1。
(3) 采用EM 迭代算法,求得結果。
根據上述的結果,可以求得“文檔—詞”的相似度矩陣P(W,D)初始值:
然后,在最小熵的意義下,進行優化。即最大化以下函數(其中m(w,d)是索引矩陣M中的元素):
反復應用公式⑥⑦,直到函數⑤的變化量很小,即可認為達到了最大值。從而就獲得了最優化的P(Z),P(W,Z),P(D,Z)矩陣。
3.2 概率潛在語義索引的應用
文本分類問題的核心是計算文本之間相似度。設從文本do 中抽取詞向量Wo,其維度等于P(W,W)矩陣的行向量維度,其元素Wo(word)為詞word 在文本中出現次數的歸一化值。利用P(W,W),得到文本相似度:
(3) PLSI 跨語言查詢關鍵詞擴展。
基于PLSI 的跨語言關鍵詞擴展,實際上整合了機器翻譯,詞義消歧,語義擴展等多項功能。所有的工作綜合起來,乘一個詞間相似度矩陣即可完成。首先構造查詢關鍵詞向量Wq,擴展后的關鍵詞向量We。Wq是相當稀疏的,而We乎在每一項上都有值。這是符合設計思想的,任何詞之間(包含中英文詞或其他語言的詞)都有一定程度的語義聯系,區別僅僅在于這種聯系的強弱。
(4)基于PLSI的中文文本聚類。
利用PLSI也可以進行文檔的聚類分析. 聚類分析就是根據對象之間的相似性, 把一組對象劃分為一個個更小的組, 使得組內對象盡可能相同, 而組與組之間盡可能不同. 可以選擇任何一種基于向量模型的聚類方法. 其中, 核心任務是計算向量間的相似度。當進行文檔聚類時, 利用公式(9)中的方法計算文檔間的相似度;對文本庫中的詞進行聚類分析時,利用“詞-詞”相似度矩陣P(W,W)計算詞之間的相似度。詞聚類可應用于自動詞典建立、自動尋找索引詞和文本分類等.
參考文獻
[1]金千里,趙軍,徐波.弱指導的統計隱含語義分析及其在跨語言信息檢索中的應用.
[2]周水庚,關佶紅,胡運發.隱含語義索引及其在中文文本處理中的應用研究,小型微型計算機系統,2001 Vol.22 No.2.
[3]THOMAS HOFMANN, Unsupervised Learning by Probabilistic Latent Semantic Analysis, Machine Learning, 42, 177-196, 2001
[4]Thomas L. Gri_ths and Mark Steyvers, A probabilistic approach to semantic representation.
[5]Peter W. Foltz, Walter Kintsch and Thomas K. Landauer, The Measurement of Textual Coherence with Latent Semantic Analysis.
[6]Christos H. Papadimitriou, Prabhakar Raghavan, Hisao Tamaki and Santosh Vempala, Latent Semantic Indexing: A Probabilistic Analysis, Journal of Computer and System Sciences 61, 217_235 (2000).
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”