張揚武 李國和 王立梅
(1.中國石油大學(北京)地球物理與信息工程學院 北京 102200)(2.中國政法大學法治信息學院 北京 102249)(3.中國石油大學(北京)石油數據挖掘北京市重點實驗室 北京 102200)
隨著移動、高速、大數據存儲的互聯網時代的到來,信息和數據的組織和管理將會越來越困難,也將越來越重要,如何推薦用戶所需的信息成為當前技術研究和應用的迫切要求。主題模型是一種文檔-主題、主題-詞的三層貝葉斯概率生成模型,當前在內容推薦、話題跟蹤、信息檢索、社交分析以及文本分類聚類等領域有著廣泛的應用。建立統一的司法信息資源是我國大數據戰略在司法領域的內容,司法業務信息資源分類與管理技術是實現智慧司法的重要基礎和前提。雖然我國法律體系不是判例法,但是參考已有類似判例,既可以維護法律的權威性,又可以避免法官濫用自由裁量權,同時,也大大降低了對有限的司法資源的浪費。司法資源信息化需要構建以審判為中心的智慧司法業務協同技術體系,建立智慧司法業務協同支撐平臺,強化檢察權、審判權、執行權相互配合和制約的信息能力。因此,有效利用已有的法院的裁定書、判決書以及電子文書進行判例推薦,在訴前可以為當事人提供咨詢意見,在訴中為律師提供辯護建議,在判決時為法官提供裁判參考。
Blei等2003年提出LDA(Latent Dirichlet Allocation)主題模型[1]。主題模型是一種多項式分布的概率生成模型,多項式分布的參數符合Dirichlet分布,并且后驗分布和先驗分布是一對共軛分布。在生成一篇文檔的某個詞時,通過一定概率選擇了某個主題,然后從該主題中以一定概率選擇某個詞,反復重復這個過程便生成了一篇文檔。為了解決主題之間的關聯問題,Blei于2006年提出模型相關主題模型(Correlated Topic Models,CTM)[2],將多項式概率的參數分布從Dirichlet分布修改為邏輯正態分布(Logistic Normal Distribution)。為了考慮時序變化對主題生成的影響,Blei又提出了動態主題模型(Dynamic Topic Models,DTM)[3]。
一般的主題模型根據貝葉斯概率假設生成文檔[4],每個詞表現為統計上的某種參數分布,通過后驗分布,重新調整參數估計。但是在法律文本中,一些重要位置上出現的關鍵詞對法律資源分類起著重要作用。Yao等提出文檔中的每個詞對文章的描述能力是不一樣的[5],區別每個詞對文章的貢獻是必要的,Chew提出對關鍵詞的合理加權將會更加突出對文本描述能力強的詞語在主題分布中的貢獻[6]。Huang提出一種主題模型和向量空間模型相結合的主題發現方法,在線性加權后計算文本相似度[7]。
主題模型可以根據文檔詞語生成潛在的主題分布,這是一種詞袋模型[8],文檔中的詞具有相同的語義權重[9]。詞匯具有同義性、近義性和多樣性,如果不對重要詞進行強調,簡單地以概率抽取全部詞,將會導致主題分布具有一定的局限性[10~11]。很顯然在法律文本中,應當在統計概率的基礎上,使有些關鍵詞具有比其它詞更高的權重[12~13]。提出一種基于關鍵詞加權的法律文本主題模型,從詞-主題的分布中,將關鍵詞所屬的最大主題進行標記,然后在文檔-主題分布中,將出現關鍵詞的文檔的標記主題加權,計算加權后的文檔-主題分布的相似度,進行主題推薦。
LDA是一種從隱含主題中生成詞的獨立重復實驗的概率模型[14],其過程如圖1所示。圖1中wm,i為文檔中生成的可以觀測到的詞,α是文檔到主題Dirichlet分布的超參數,M為文檔總數,θm是第m次文檔獨立抽樣的主題分布參數,也就是第m篇文檔的在主題上的多項分布參數。zm,i是第m文檔的第i位置的詞的隱含主題編號。β是主題到詞Dirichlet分布超參數,K為主題總數,φk是在第i個位置上隱含主題為k的詞抽樣的多項分布參數。圖中箭頭表示條件概率,θm,zm,i和φk都是潛在變量,方框表示獨立重復實驗,M和N為實驗次數,Nm為第m篇文檔中的詞的數量。

圖1 LDA模型
主題模型需要求解每個詞的隱藏主題,根據貝葉斯后驗概率和邊緣概率密度計算,整個文檔生成所有單詞的概率為

上式問題陷入項KN難題,難以直接求解。求解目標是K維概率分布,采用完全條件概率,在K維向量里輪流每個維度循環的方式進行迭代,最后達到收斂狀態,這就是吉布斯采樣。



按照上式進行采樣,對第m篇文檔wi進行隱含主題標記zm,i,在后驗分布后,作概率參數估計,即:



圖2 加權學習模型框架
將文檔集、超參數α、超參數β、以及主題數K輸入給定的LDA主題模型,該模型輸出文檔到主題分布的θ矩陣、主題到詞分布的φ矩陣以及每篇文檔的每個詞隱含主題標記 zm,i文件[16],加權學習模型框架如圖2所示。
其中,θ是M*K矩陣:

M為文檔集中的文檔數,K為主題數,θm為某篇文檔在各個主題上的概率分布情況,因此:
θ矩陣是從文檔到主題的分布,ωkm為第k個主題下抽樣為第m篇文檔的概率。

ω為主題到文檔的分布,是K*M矩陣。實際上,ω是θT的歸一化處理結果,某一主題在所有文檔上的概率分布之和為1,即:

在圖2中,φ是K*V矩陣:

V為文檔集中的所有詞構成的詞典中的詞語數,v是詞典中的詞編號,φk為某個主題在各個詞上的概率分布,因此:

φ矩陣是從主題到詞的分布,σvk是在第v個詞下抽樣為編號k主題的概率。

σ為詞到主題的分布,是V*K矩陣。實際上,σ是φT的歸一化處理結果,某一詞在所有主題上的概率分布之和為1,即:

在圖2中,φ的轉置為φT。在φT矩陣中進行關鍵詞標注,每一行代表一個樣本,每一列代表一個特征,將關鍵詞標注為正樣本,其他詞標注為負樣本。將訓練數據輸入到SVM分類器中[17~18],分類函數為

w是線性分類超平面權值參數,b為分類超平面的截距。x1變量表示第一個主題topic1,xK表示第K個主題topicK,因此:

關鍵詞標注可以根據司法實踐經驗,也可以通過文檔主題推薦。根據兩個文檔在主題概率上的分布差異的距離,計算文檔相似度距離[19],即:

docsim(di,dj)是未加權的文檔di和文檔dj之間相似度距離計算[20],可以作為關鍵詞標注方法之一。假定第M篇文檔為需要匹配的新文檔,根據與前M-1篇的文檔相似度,計算出最相似的文檔dmax,即:

相似度距離值最小的文檔為最相似文檔,在θ矩陣中找到第dmax行,獲得該文檔主題分布中的最大概率的主題編號kmax,即:

在σ矩陣中找到第kmax列,按照概率大小進行排序,返回前n個詞作為關鍵詞進行標注。按照關鍵詞標注以下矩陣,即主題到詞分布的轉置矩陣φT。然后,將標注后的數據集輸入到分類器中進行分類,經過SVM訓練后的數據集體現出在不同主題上的側重,獲得權重向量w。最后,計算用w更新后的θ矩陣中的文檔相似度距離[20~21],即:

實驗語料集選自Westlaw數據庫,文檔數為505篇,經過分詞后的詞典中詞數為1985。LDA的模型參數如表1所示。

表1 模型參數
LDA輸出θ矩陣,以第505篇文檔為新輸入文檔,按照主題分布計算與其它文本的文本相似度距離,如表2所示。返回的最為相似的文檔編號是386,在θ矩陣中查找該文檔最大主題編號kmax為第0類。

表2 文檔相似度距離
σ矩陣中的每一列對應一個主題,按照歸一化后的概率進行降序排列,結果是最能表達該主題的詞的排序。在σ矩陣中查找第0類主題的top20詞,按照top詞標記φT矩陣,SVM訓練后的權值如表3所示,從中可以看出,權重偏向第0主題。用weight更新θ矩陣,獲得加權后的文檔主題矩陣θˉ。

表3 SVM訓練后的沿主題上分布的權值
困惑度(perplexity)用以評價LDA模型好壞和參數改進的優劣。困惑度越小越好,這說明選擇文檔的似然函數最大,在一定程度上反應了模型的確定性。困惑度一般按照下式計算:

p(z|d)為文檔主題分布,經過計算,未經過加權的文檔集的困惑度 perplexity為 23。p(zˉ|dˉ)為加權后的文檔主題分布,經過計算,加權后的的perplexity為20??梢钥闯?,困惑度在加權后有著明顯改善。
法律文書有著與一般文本不同的特點,判例中的時間、地點和法律詞匯要比一般詞語更加重要。本文提出一種法律文本中的關鍵詞加權的主題模型,在主題模型訓練基礎上,在詞-主題的矩陣中標記那些具有法律意義的關鍵詞,以此作為正類訓練,獲得這些關鍵詞在主題上的偏好和權重,再將權重更新到文檔-主題分布中。實驗結果表明,與主題分類模型相比,加權的主題模型具有較好的困惑度,能夠在法律文本中過濾掉垃圾詞語向量,取得較好的效果,可以提高法律判決文本自動分類的效率。法律文本分類具有交叉性、模糊性和適應性,不同的司法領域對于法律主題存在著不同的理解。因此,不同司法領域下的主題模型的研究將是下一步深入研究的問題和工作方向。