曹慧
摘 要:本文所研究的三種基于語料庫的統計意義解析方法,試圖通過對詞的共現模式的了解來推斷一個多義詞的正確意義。該技術基于貝葉斯決策理論、神經網絡和信息檢索中使用的內容向量。為了更好地理解這些方法,我們給定一組上下文,每個上下文都包含已知意義上的名詞line,構造一個分類器來為新的上下文選擇正確的行意義。為了了解多義的程度如何影響表現,我們比較了三種和六種感覺任務的結果。結果表明,每一種方法都能準確區分六種線形感官,準確率達70%以上。此外,分類器的響應模式在很大程度上在統計上是不可區分的。兩項任務的比較表明,解決個體感官困難程度是一個比多義程度更大的表現因素。
關鍵詞:語料庫; 統計; 多義詞
中圖分類號:G642 ? ? ? ? ? ? ?文獻標識碼:A ? ?文章編號:1006-3315(2019)07-159-002
1.引言
語料庫指的是為某一個或多個應用而專門收集的、有一定結構的、有代表性的、可以被計算機程序檢索的、具有一定規模的語料的集合[1]。本研究的目的是系統地探討基于語料庫的統計意義解析方法中,每個詞的義數、每個義的訓練例數等變量對統計意義解析方法的影響。為了研究詞義數量的影響,我們選擇了高度多義的名詞line,在詞匯網絡中有25個詞義。
2.文獻綜述
Yarowsky[2]將貝葉斯統計方法與其他基于語料庫的統計模型發表的結果進行了比較。他通過使用相同的詞語,用相同的意義定義,將這些差異最小化。令人信服地指出,貝葉斯模型與代價更高的方法一樣好,甚至更好。
作為本研究的試點,利用內容向量和神經網絡分類器對線進行了兩種意義上的區分任務,準確率達到90%以上。然后運行一個三感區分任務。
3.研究方法
培訓和測試的內容取自1987-89《華爾街日報》語料庫和來自APHB語料庫。從WordNet中提取2個包含“[L1]ine(s)”的句子,并手動分配單個意義。
通常,實驗在目標的兩側使用固定數量的單詞或字符作為上下文。在這個實驗中,我們使用語言單位-句子-代替。選擇使用兩句上下文:包含行和前一句的句子,訓練和測試上下文的平均大小為44.5個單詞。
詞義解析任務使用名詞行以下六種意義:
1.a product: ‘ a new line of workstations
2.a formation of people or things: ‘stand in line
3.spoken or written text: ‘a line from Shakespeare
4.a thin, flexible object; cord: ‘a nylon line
5.an abstract division: ‘a line between good and evil
6.a telephone connection: ‘the line went dead
為了檢驗訓練樣本的數量對分類器性能的影響,我們從200個訓練集中提取了較小的訓練集,每個意義的前50和100個上下文被用來構建新的訓練集。在給定的試驗中,對每個訓練集使用相同的894個測試上下文集。每個分類器在相同的試驗中使用相同的訓練和測試上下文,但是根據方法的需要對文本進行不同的處理。
4.分類
這三個分類器使用的唯一信息是字符串在上下文中同時出現。它們不使用其他線索,如句法標記或詞序。它們也不需要任何不是完全自動的訓練上下文的增強。
4.1貝葉斯法
由Gale,Church和Yarowsky[3]開發的貝葉斯分類器使用貝葉斯決策理論對與多義目標的每個意義同時出現的令牌進行加權。模型的主要組件標記被定義為任何字符串:單詞、數字、符號、標點符號或任何組合。整個標記都是重要的,因此基本單詞(wait vs. wait)和混合大小寫字符串(Bush vs. Bush)的變形形式是不同的標記。與每個標記相關聯的是一組顯著性,每個顯著性對應一種感覺,由訓練數據計算得出。給定意義的標記的顯著性是Pr(token/sense)/Pr(token)。給定意義的標記的影響是其顯著性的對數。
為了在(測試)上下文中選擇目標單詞的意義,分類器計算每個標記意義在上下文中對所有標記的影響總和,并選擇和最大的意義。在意義分辨的情況下,顯著標記包括出現頻率低得多的內容詞。貝葉斯分類器實驗由AT&T貝爾實驗室的Kenneth Church進行。在這些實驗中,兩句話環境使用的一個固定大小的窗口±50標記周圍的目標詞,Gale等人找到導致一個小數量的上下文用于估計概率最優值。
4.2內容向量
信息檢索系統的向量空間模型推動了感知分辨率的內容向量方法,其中,語料庫中的每個概念都定義了向量空間的一個軸,語料庫中的文本表示為該空間中的一個點。語料庫中的概念通常定義為出現在語料庫中的詞干集,兩個文本之間的相似性被計算為表示兩個文本的向量的函數。
對于感知解析問題,每個感知都由一個由該感知訓練上下文構造的單個向量表示。由訓練上下文定義的一個空間向量也是為每一個測試上下文構造的。要為測試上下文選擇一個意義,需要計算其向量與每個意義向量之間的內積,并選擇其內積最大的意義。
4.3神經網絡
神經網絡方法將感知分辨率作為一種監督學習范式。成對的(輸入特性,期望的響應)出現在一個學習程序中。該程序的任務是設計一些方法來使用輸入特性將訓練上下文劃分為與期望響應相對應的非重疊集。
每個上下文都被轉換成位向量。在整個訓練集中出現至少兩次的每個概念都被分配到位向量位置。得到的向量的位置為1,與上下文中的概念對應,否則為0。這個過程創建超過4000個位置的向量。然而,這些向量是極其稀疏的,它們平均包含略多于17個概念。
對網絡進行訓練,直到每個訓練示例中對應于期望響應的單元的輸出大于任何其他單元的輸出為止。訓練一個網絡直到所有的例子都正確分類,這樣的結果是罕見的標記可以獲得不相稱的重要性。
為了確定網絡的良好拓撲結構,研究了各種網絡拓撲:將0到100個隱藏單元排列在一個隱藏層中的網絡;具有多層隱藏單元的網絡;以及具有單層隱藏單元的網絡,其中輸出單元連接到隱藏單元和輸入單元。在所有情況下,沒有隱藏單元的網絡配置要么優越,要么在統計上與更復雜的網絡難以區分。由于沒有網絡拓撲明顯優于沒有隱藏單元的網絡拓撲,所以這里報告的所有數據都來自這樣的網絡。
5.結論
所有分類器在訓練上下文數量最多(200)的情況下表現最佳。
三種方法的響應模式的收斂性表明,每種分類器都從訓練上下文中提取盡可能多的字數數據。如果是這樣,那么任何只使用單詞計數的技術都不會比這里測試的技術準確得多。
雖然一詞多義的程度確實影響了感官分辨任務的難度,但更大的表現因素是個體感官分辨的難度。從語境的考察來看,關鍵信息似乎離詞很近,而離詞較遠的語境則是噪聲。這些基于語料庫的統計技術使用了訓練上下文的貧乏表示:兩個句子中出現的標記的簡單計數。我們認為,除非將詞序或句法信息等其他信息納入該技術,否則不可能顯著提高分辨率的準確性。
基金項目:2013年安徽省教育廳人文社會科學研究一般項目(項目編號:SK2013B227)
參考文獻:
[1]何婷婷.語料庫研究[D]華中師范大學博士學位論文,2003
[2]Yarowsky,D.,Word-sense disambiguation using statistical models of Rogets categories trained on large corpora, COLING-92, 1992
[3]Gale,W.,Church,K.W.,and Yarowsky,D,A method for disambiguating word senses in a large corpus. Statistical Research Report 104,AT&T Bell Laboratories,1992