吳 華 羅 順 孫偉晉
(上海通用識別技術研究所 上海 201112)
隨著互聯網信息的爆炸式增長,如何讓機器具有類似于人類閱讀和理解信息的能力、學習和認識知識的能力、思考和解決問題的能力,從而使機器智能成為人類智能的延伸和拓展,已成為當前計算機領域的重要技術發展方向與產品開發策略之一。而詞匯的語義相似度計算正是機器智能的重要基礎之一,在信息檢索、自然語言處理、推薦系統等領域都有廣泛的應用,正在為越來越多的研究人員所關注[1]。
目前,詞匯語義相似度計算的主要方法是根據某 種 世 界 知 識 來 構 建 計 算 模 型,如HowNet[2~3]、CCD[4]、同義詞林[5~6]等語義詞典[7~8],按照概念在語言學中結構層次關系來計算詞匯語義相似度。這種方法直觀、簡單有效且易于理解,但是不可避免地面臨主觀性較強、領域敏感性較差、新詞或新語用的擴展性較弱等困難。
本文通過提取詞匯的上下文語境特征作為詞匯語義的承載單元,構建了一種基于特定語料的詞匯的語義相似度計算模型。模型通過對詞匯的語境特征的距離計算,來給出詞匯在當前語料中的相互可替代度量,并以此作為詞匯的語義相似度。
詞向量方法是目前統計語言學廣泛使用的一種方法,相關模型具有計算復雜度小、靈敏度高、易訓練等特點[5~6]。將詞向量方法應用于詞匯的語義相似度計算,分別取對象詞匯的上文和下文相鄰實詞作為語境特征向量,將基于樣本語料的詞匯語境特征向量之間的距離作為詞匯間的語義相似度度量。
舉例來說,若樣本語料如下:

語料1語料2語料3語料4語料5語料6新世紀充滿了希望。對國家未來的發展充滿信心。大數據技術的發展充滿了希望。相關政策的施行,使得新能源汽車市場的發展有了充足的動力。項目前期準備工作越充足,論證時就越有把握。對我們的事業,我有充足的信心。若我們取語境窗口為1,統計樣本語料中詞匯“充滿”和“充足”語境特征結果如下:充滿充足上文下文上文下文世紀:1次希望:2次發展:1次動力:1次發展:2次信心:1次工作:1次論證:1次我:1次信心:1次
設樣本的上文語境空間為{世紀、發展、工作、我},詞匯“充滿”的上文語境特征向量為{1,2,0,0},詞匯“充足”的上文語境特征向量為{0,1,1,1}。同樣的,設樣本的下文語境空間為{希望、信心、動力、論證},詞匯“充滿”的下文語境特征向量為{2,1,0,0},詞匯“充足”的下文語境特征向量為{0,1,1,1}。
一般而言,詞匯語義相似度都采用歸一化度量,相似度值域為[0,1]。詞匯語義相似度計算模型需要滿足以下幾個條件:
1)詞匯和其自身的相似度為1;
2)若兩個詞匯在任何上下文中都不可替換,那么其相似度為0;
3)相似度度量是單調的,即兩個詞匯語義越相似,其相似度就越高。
對于兩個詞匯S1和S2,我們記其相似度為Sim( S1,S2),只要滿足上述條件的計算模型,都可以作為語義相似度的度量。
若記樣本語料的語境空間為C={c1,c2,…,cn},其中ci表示語料中的某一個實詞。記詞匯S1和S2的語境特征向量分別為S1={s11,s12,…,s1n}、S2={s21,s22,…,s2n} ,其中sij表示第i個詞匯的語境特征向量中實詞cj的出現次數。
對照第3.1節中的相似度模型準則,基于詞匯的語境特征向量,我們構造基于語境特征向量的相似度計算模型如下:

易知Sim( S1,S2)∈[0 ,1]、Sim( S1,S1)=1,若有詞匯S3={s31,s32,…,s3n},那么

假設s31≠s11,s32=s12,s33=s13,…,s3n=s1n(s3i≠s1i的情況同理),我們從上述公式中可以發現,當 |s31-s21|< |s11-s21|時,有 Sim( S3,S2)>Sim( S1,S2) ;當 |s31-s21|> |s11-s21|時,則 有Sim( S3,S2)<Sim( S1,S2)。也就是說,當詞匯S3在樣本語境空間的投影(某一實詞的詞頻)相比詞匯S1更接近S2時,其語義相似度也就越高。
從而,上述構建的模型符合詞匯語義相似度度量的一般準則。
針對中文的語言特點,對上、下文語境空間分別賦以不同權重,對第3.2節中的相似度模型進行優化如下:
其中SU,i、SD,i分別表示詞匯Si的上、下文語境特征向量,( α,β)為權重向量,考慮到中文“語義后置”的特點,一般我們配置β>α。
step1:統計樣本語料中出現的主要實詞(為避免矩陣過于稀疏),作為語境特征空間;
step2:通過統計得到對象詞匯的上、下文語境特征向量,并向樣本的語境特征空間中進行投影;
step3:通過第3.2節或第3.3節中公式計算對象詞匯間的語義相似度;
step4:將計算結果保存至本地,構建面向語料或面向領域的語義詞。

仍以第2節中語料為例,利用第3.3節中語義相似度計算模型,配置上、下文語境特征權重( 0 .4,0.6),計算詞匯“充滿”和“充足”在當前語料中的相似度如下:

基本符合樣本語料實際。
若采用同義詞林[5],“充滿”=“Jd06A01=”,“充足”=“Ed39A01=”采用按位計算的方法計算相似度,結果為

語義相似度度量結果也較為接近。
本文提出的基于語料的詞匯語義相似度計算方法是一種基于計算的模糊認知類方法,把詞匯語義相似度度量的建立在基于樣本語料統計的語言事實上。因而具有以下三方面的特點,一是具有客觀性,詞匯語義相似度度量不受人為主觀影響,詞匯的語義相似度完全由語料統計給出;二是具有領域性,一方面能對領域中的新概念、新術語進行語義度量,一方面能對多義詞匯的領域義項自動識別;三是不需要詞法、句法、語義、語用等先驗知識,是一種模糊認知的經驗主義方法,便于組織大型的語義詞典。