王 霄 萬玉晴
(太極計算機股份有限公司 北京 100102)
近年來,深度神經網絡在人工智能多個應用領域表現出了優越的性能,作為自然語言處理重要任務之一的命名實體識別(Named Entity Recognition,NER),也出現很多基于深度學習的研究成果,與傳統的基于規則的方法或者基于統計機器學習的方法相比,深度神經網絡模型具有更好的泛化性、更少的人工特征依賴等優點,在各領域命名實體識別中得到了廣泛的應用。
目前法院對所積累的海量電子卷宗具有結構化、知識化的迫切需求,法律文書命名實體主要包含人名、地名和機構名等通用實體,以及案件名、案由和法律條文等領域實體。法律文書命名實體識別的主要問題在于:1) 不同命名實體之間長度差別大,使得語言表示的語義粒度對模型訓練效果影響較大,造成不同命名實體的識別性能差異大的問題。2) 在不同案件類型的卷宗文書中,命名實體的上下文特征具有顯著差異,造成模型應用在不同類型案件卷宗上的魯棒性較差。3) 當前法律文書的標注語料不充足。
針對前兩點問題,本文從輸入模型的語言表示入手,對不同尺度的嵌入表示,以及結合方式的有效性進行了研究驗證,形成涵蓋字向量、詞向量和主題向量三個語義粒度的語言表示。對于標注語料匱乏問題,文本從模型訓練入手,使用一種輔助優化的訓練方式,減少模型對人工標注語料的依賴?;谝陨涎芯績热?訓練了適用于法律文書的命名實體識別模型。
命名實體識別是實現信息抽取的主要技術手段,其研究方法種類很多,當前獲取很好性能及研究熱情的方法是基于深度學習命名實體識別方法。例如:Hammerto[1]使用一種序列自組織圖模型SARDNET訓練單詞表示向量,輸入LSTM模型進行命名實體識別。Collobertd等[2]通過訓練詞向量來完成多個序列標注任務,提出了窗口和句子兩種方法,在后者的模型中加入了一層卷積神經網絡以獲取全局特征。Ma等[3]預訓練了詞向量和單詞的字符級表示,組合了CNN,BiLSTM和CRF進行命名實體識別。Kuru等[4]提出的CHarNER模型,是使用字符級的語義單元輸入雙向LSTM的技術方案。Huang等[5]系統研究了序列標注任務在多種基于LSTM模型的性能,證明了BiLSTM-CRF模型的健壯性。Chiu等[6]提出了BiLSTM-CNNs的模型架構進行命名實體識別,其中CNNs用來獲取字符級的語義特征向量,并與原有的詞向量結合,BiLSTM用于NER預測。Lample等[7]提出兩種模型用于命名實體識別,第一種是BiLSTM結合CRF的模型結構,另一種是基于轉換的分塊模型。上述模型均在各種領域命名實體識別的應用中得到過驗證,例如:Liu等[8]使用KNN結合CRF的模型在推特文本中進行命名實體識別;李麗雙等[9]通過結合深度神經網絡構建CNN-BILSTM-CRF模型對生物醫學命名實體進行識別;梁立榮等[10]構建層疊條件隨即場模型CCRF,用于醫院電子病歷文本信息抽取獲取了較為理想的效果;龔啟文等[11]結合循環神經網絡設計了BiRNN-CRF算法模型來提取法院命名實體。
基于深度學習的命名實體識別模型通常接受的是數學化的語言表示,即通過Word2vec[12]、GloVe[13]和BERT[14]等方法訓練得到的字、詞和句等不同語義單元粒度的嵌入向量,向量中包含的語義特征對模型識別性能具有非常關鍵的影響。因此,一些學者的研究工作是如何獲取具有更好語義特征的向量表示,例如:Alexandrescu等[15]提出了一種新型的神經概率語言模型,學習從單詞和顯式單詞因子到連續空間的映射關系,將其用于單詞預測。Luong等[16]提出結合RNN與NLM的模型,在學習形態感知的單詞表示時,同時考慮其上下文信息。Huang等[17]提出一種新的神經網絡架構,通過結合局部和全局文檔上下文來學習詞嵌入,并通過學習每個單詞的多個嵌入,以得到不同語義下的詞向量表示。Li等[18]提出了兩種組件增強的漢字嵌入模型及其雙字擴展,通過對詞相似性和文本分類的評估驗證了模型的有效性。Chen等[19]提出一種中文字符增強型詞嵌入模型(CWE),通過結合詞內部信息,解決字符歧義和非組成詞的問題。可以看出,大多相關研究關注的重點在于,如何結合外部信息來豐富詞向量蘊含的語義特征,但對不同粒度語義單元如何有效結合上關注較少。
目前針對司法領域命名實體識別任務,還沒有數量充分的標注語料集,本文的語料數據主要來源于中國裁判文書網,共計2 200份案件判決書,其中包含民事、刑事和執行三種類型的案件。在實體標注上,本文面向司法領域需求,設定5類命名實體:人名(Nr)、地名(Ns)、機構名(Nt)、案件名(Nc)和法律條文(Nl),采用BIOES方式進行標注,對語料分別進行字標注和詞標注,如圖1所示。在詞標注中使用HanLP開發工具進行分詞。

原告/O:/O萬?娟/S-Nr,/O女/O,/O1979/O年/O?月/O?日/O出生/O,/O漢族/O,/O戶籍地/O浙江省/B-Ns麗水市/I-Ns蓮?區/I-Ns黃?村/I-Ns ??號/E-Ns,/O 現/O 住/O 陜西省西安市甘亭街道辦事處/B-Ns ??村/I-Ns ?/I-Ns 組/I-Ns ?/I-Ns 街/I-Ns ???號/E-Ns。/O 委托/O 訴訟/O 代理人/O:/O 陳?/B-Nr 進/E-Nr,/O 浙江??律師事務所律師/S-Nt。/O
在標注方式上,本文采用人工標注和自動標注兩種方式,人工標注語料集中包含200份裁判文書,經過人工標注和檢驗,獲取高質量標注語料集。對于另2 000份文書,根據法律文書中一些半結構化特點和關鍵詞典,使用正則表達式和詞性標注工具定義了相應啟發式規則,例如:當事人姓名和機構名前通常會有“原告”“被告”這樣的訴訟地位;地名前通常會有“住址”“籍貫”等詞出現;案件名通常由當事人名稱和案由名稱組合而成;法律條文更是具有典型的結構化特征?;谶@些啟發式規則開發了相應命名實體的自動標注工具,可以快速獲取標注語料集,但其標注質量,尤其在召回率上與人工標注語料相比有一定差距。
目前被廣泛使用NER模型是基于BiLSTM-CRF[5]的網絡結構,并在各領域應用中得到驗證。本文面向法律文書命名實體識別的3個主要問題,有針對性地對BiLSTM-CRF模型進行改進,并以該模型作為實驗對比的基準方法。
本文采集了一個包含400多萬份裁判文書的中文語料集,采用Word2vec的Skip-gram模型,分別訓練得到司法領域詞向量和字向量模型,向量維度均為200維。
根據基準方法BiLSTM-CRF模型在標注語料上的表現來看,使用字向量對較短的命名實體(例如人名)具有更好的識別效果,而對于法律文書中地名、機構名較長的特點,采用詞向量效果更好一些。分析主要原因在于:詞向量忽略了詞內字的語義信息,另外,分詞質量對采用詞向量的識別結果有很大影響,但另一方面,以單字作為語義單元的歧義性較大,可見詞向量和字向量各有優劣,兩種語義單元相結合可以包含更全面的信息表示。
另外,不同案件類型的裁判文書中,命名實體的上下文具有顯著差異,這種差異特征無法在細粒度語義單元中得到很好的表示,需要結合更大粒度的語義信息。目前句向量的構造通常基于詞向量,即句子粒度在語義上和詞的作用相近,而且不同類型案件的文書中,大多數句子間的類型差異并不明顯,因此從案件類型語義差異上考慮,篇章級的主題信息比句子粒度的語義信息具有更好的補充作用。本文使用LDA[20](Latent Dirichlet Allocation)模型的統計推理過程分別基于中文詞和字構建主題模型。
1) 基于LDA模型的主題向量模型,如圖2所示。
LDA模型的訓練語料是根據設定的主題,從Word2vec訓練語料集中篩選出的子集,本文只選取了民事、刑事、執行三類案件的裁判文書,再根據案件審理階段分為一審、非一審兩種情況,設定主題個數為6。Word2vec模型是通過語料中上下文對詞或字的語義表示,而LDA模型是針對所選定的主題及對應語料,獲取主題在詞或字上的語義表示。以詞為例,按圖2所示構建基于詞的主題模型,首先做出以下設定:
θ~Dir(α)
(1)
φ~Dir(β)
(2)
Z~P(θ)
(3)
W~P(Z,φ)
(4)
Dir=f(x1,x2,…,xK;α1,α2,…,αK)=
(5)
式中:θ是裁判文書中主題的概率分布,該分布是服從參數為α的Dirichlet分布的變量,如式(5)所示,α為K維向量,即對于任一篇裁判文書d,其主題分布為:θd=Dirichlet(α);同樣設定φ是主題中詞的概率分布,該分布是服從參數為β的Dirichlet分布的變量,β為V維向量,V表示文書語料集的詞典長度,即對于任一主題z,其詞分布為φz=Dirichlet(β);Z是服從θ分布的主題變量,對文檔d中的第n個詞,可以從θd中得到主題編號zdn的分布:zdn=multi(θd),zdn∈{1,2,…,K};W是服從Z和φ分布的詞變量,可以得到詞wdn的概率分布:wdn=multi(φzdn),本文設定K=6。基于以上設定,可以得到如式(6)所示的聯合概率關系。
P(W,Z,θ,φ;α,β)=
(6)
式中:K為主題數;M為裁判文書數;N為文書中的詞數,W是唯一可以觀察到的量,Z、θ、φ是中間隱含變量,α、β是需要確定的超參數。對式(6)進一步處理:
(7)
(8)
本文要計算的就是超參α、β的極大似然估計值:
(9)
通過以上方法分別得到了字、詞和篇章三種粒度上的語義信息表示,對此,本文提出以下兩種結合方式分別獲取詞向量和字向量。

(10)
(11)
式中:i是指詞在句子中的位置;j是指字在詞中的位置;n是指詞的字數。

(12)
以上過程確定了模型的輸入向量,在模型的結構上,本文在基準模型BiLSTM-CRF中增加了Attention[21-22]機制。BiLSTM可以預測出每個語義單元屬于不同標簽的概率,但無法感知標簽之間的關聯性,在BiLSTM上接入CRF,使得模型在計算最優標簽序列時,考慮到標簽組合的合理性,這種合理性體現在CRF的轉移矩陣中。在BiLSTM和CRF之間加入Attention機制,可以在語義單元特征中加入全局注意力信息,為CRF計算最優路徑時突出關鍵詞的影響。
(13)
(14)
(15)
得到雙向LSTM提取的特征狀態值,進入全連接層,該層在基于輔助優化的訓練中,具有融合輔助特征到統一維度的作用。
(16)

ha=dense(hm)=φ(θahm+ba)
(17)
α=softmax(ha)
(18)
(19)

(20)

(21)
式中:A為CRF的轉移矩陣,P為BiLSTM-Attention輸出的標注概率矩陣??梢杂嬎惆演斎刖渥觴標記為序列y的概率為:
(22)
式中:Yx是句子x所有可能的標注序列集合。根據式(22)得到如下對數似然函數:
(23)
CRF在預測中使用Viterbi算法來求解最優路徑,即得到概率最大的一組標注序列:
(24)
針對司法標注語料匱乏問題,文本采用輔助優化[24-25]的訓練方式,借助快速獲取的自動標注語料集提高模型性能,減少模型對人工標注語料的依賴。訓練過程如圖3所示。

圖3 基于輔助優化的模型訓練方式

hi,main=BiLSTMmain(xi)
(25)
hi,aux=BiLSTMaux(xi)
(26)
(27)
當輸入的句子是自動標注語料時,只執行輔助任務,當輸入來自人工標注語料集時,會同時執行主任務和輔助任務,因此訓練依據的損失函數是兩者損失函數的加權組合,λ是一個可調控的組合系數。對λ在[0,1]區間取值,通過實驗對比發現,當λ取值0.65時,本文模型獲取最高的F1值,因此設λ=0.65。
lossauxopt=λlossmain+(1-λ)lossaux
(28)
本文從人工標注語料集中隨機選取150份裁判文書作為NER主任務的訓練語料,剩余50份用于測試,自動標注語料集中全部2 000份文書用于輔助任務訓練。另外,根據句長分布情況,無論以詞還是字作為語義單元,模型接收的句子長度設為200。數據集情況如表1所示。

表1 數據集情況
為了驗證本文方法的識別效果,實驗模型時采用相同數據集,以及相同參數設置,如表2所示。評測采用在NER任務上廣泛使用的指標:Precision、Recall和F1。

表2 模型參數設置
本文以BiLSTM-CRF為基準方法,對比測試BiLSTM-Attention-CRF網絡結構增加輔助優化訓練前后的識別效果,分別采用詞向量、結合字及主題信息的詞向量、結合詞及主題信息的字向量,三種語義表示進行測試,結果如表3所示,其中指標是對所有實體識別結果的統計。

表3 模型結果對比(%)
可以看出,與基準方法相比,增加了Attention機制的模型實驗效果更好,根據模型分析,CRF學到的是標簽之間的轉移概率,而Attention機制在每個語義單元特征中加入全局注意力信息,為CRF計算最優路徑時突出句中關鍵詞的作用,弱化非關鍵詞的影響。以表4中的標注語料為例,基準模型對當事人現住地址識別為:“陜西省西安市甘亭街道辦事處/B-Ns **村/E-Ns */O 組/O */O 街/O ***號/O”,而增加Attention的模型識別結果與標注語料一致,對比結果分析:語料中存在較多以某村為結尾的地名,使得學習到的基準模型沒有標注完整,但Attention機制對后半段地址的強化作用起到了修正的效果。

表4 各實體結果對比(%)
另外,從結果可以看出,使用本文提出的結合多粒度語義單元信息的表示方式,實驗結果明顯由于詞本身的向量表示,證明了多個粒度上的語義信息對NER任務的有效性。對本文提出的兩種結合方式比較,結合詞及主題信息的字向量比結合字及主題信息的詞向量具有更好的效果,為了更好地分析原因,采用BiLSTM-Attention-CRF+輔助優化的方式,對本文設定的5種實體類型分別統計指標值進行對比,如表4所示。
從各實體識別結果分析,使用字向量優于詞向量的原因主要有三方面:一是法律文書中人名實體較多,這種短實體更適用于字向量,例如基于詞向量會把表4中的一處人名標注為“委托/O 訴訟/O 代理人/O:/O 陳*/S-Nr 進O”,而基于字向量得到正確結果;二是在同樣規模的語料中,字相比于詞具有更短的詞典,可以得到更充分的訓練;三是分詞結果并非完全準確。
本文深入探究了法律文書命名實體識別的主要問題,并針對具體問題提出相應的解決方法。對于識別模型在不同案件類型的文書中魯棒性差的問題,采用LDA模型獲取主題向量,提供篇章級粒度的語義信息。對于語義表示涵蓋信息片面的問題,提出了兩種多粒度語義單元結合方式:結合字及主題信息的詞向量、結合詞及主題信息的字向量,為模型輸入提供了更全面的語義表示。對于法律文書命名實體識別標注語料不充足的問題,采用基于輔助優化的模型訓練方式,減少模型對人工標注語料的依賴。在模型上采用BiLSTM-Attention-CRF網絡結構,通過增加Attention機制,為每個語義單元特征中加入全局注意力信息,從而強化了句中關鍵詞對當前標簽判斷的作用。最后通過實驗證明,本文提出的各種優化方法都是有效的,在現有分詞工具的性能基礎上,采用結合詞及主題信息的字向量作為BiLSTM-Attention-CRF模型的輸入語義表示,可以獲取最好的識別效果。
雖然本文在模型結構、輸入表示、訓練方式進行了優化研究,但在具體參數上還可以進一步通過細化實驗,對最優方案進行深入研究,比如在多粒度語義單元的結合方式上,本文采用的是淺層結合的方式,可以嘗試如CNN和RNN這類深層結合方式進行對比測試。另外,輔助優化語料數量對主任務影響的關系,也需要進行更深入的研究。