張 虎 潘邦澤 張 穎
(山西大學計算機與信息技術學院 山西 太原 030006)
近年來,大數據與人工智能技術的快速發展引起了各個行業和領域的高度重視。2017年7月,國家人工智能戰略《新一代人工智能發展規劃》對人工智能理論、技術和應用做出前瞻布局,呼吁加強人工智能相關法律、倫理和社會問題研究。同時,新規劃力挺智慧法庭建設,提出促進人工智能在證據收集、案例分析、法律文件閱讀與分析中的應用,實現法院審判體系和審判能力智能化。顯然,人工智能與法律服務的結合,法律人與法律機器人之間的協同已成為一個顯著的趨勢。人們正在邁入智能法律服務的新時代,無論是律師、法官等法律人,還是普通消費者都將受到或多或少的影響。在智慧司法服務的體系下人們對糾紛解決、正義實現方式等概念的理解將被重塑,同時,利用人工智能技術提升法律服務水平的思想也將被進一步普及。
判決預測是智慧司法服務體系下一項重要研究任務,其在學術界和企業界受到廣泛關注。為了促進自然語言處理技術在智慧司法研究中的深入應用,中國司法大數據研究院和中國中文信息學會等機構從2018年起啟動了中國“法研杯”司法人工智能挑戰賽,使用裁判文書網中的真實法律文書作為比賽數據,分別就判決預測、要素識別和法律閱讀理解等任務開展了公開評測。法律文書主要由案件類型、事實描述和判決結果等部分組成。事實描述是一個司法案件的核心,包含邏輯清晰的原被告關系、事情的起因經過、案件涉及到的傷亡程度和損失金額等相對關鍵的信息,這些信息是判決預測的重要依據,一般被認為是案件的判決要素。如圖1所示,事實描述中的三個要素句分別對應判決結果中的婚后有子女(DV1)標簽、不履行家庭義務(DV6)標簽與婚后分居(DV13)標簽,三個要素都是案件判決的重要依據,因此以案件的事實描述部分為原始數據,研究事實描述要素抽取具有重要的意義。

圖1 判決要素對判決結果的影響
法律案件種類眾多,本文主要針對2019中國“法研杯”要素識別任務中的離婚、勞動和借貸三種案件類型進行判決要素抽取研究。數據分析結果顯示,不同類型案件的判決要素相差較大。離婚類案件關注要素包括:有無夫妻共同財產、有無夫妻共同債務和婚后有無子女等要素。勞動類案件關注是否存在勞務關系、是否支付足額勞動報酬和是否擁有法人資格等要素。借貸類案件關注有無借貸證明、有無還款承諾和承擔借貸的人數等要素?;诖?,要素識別評測任務將每類案件的事實描述部分分別標注為20個要素類別。
本文將判決要素句抽取任務形式化為對事實描述語句的多標簽分類模型,主要難點包括:1) 判決要素分類任務是一個經典的一對一或一對多的問題,判定每條事實描述屬于一個或多個要素標簽是傳統方法較難解決的問題;2) 事實描述語句的長度參差不齊,最短要素句的長度為30~40字,較長要素句的長度會達到300字以上,傳統模型多采用固定參數作為向量維度,對短句采用0填充的方式補齊向量,不能有效捕獲不同長度句子的特征表示。
近年來,越來越多的自然語言處理研究任務開始使用BERT[1]等預訓練模型作為詞嵌入方法,可以得到更好的文本表示?;诖?,本文提出融合BERT和CNN(BERT-CNN)的判決要素抽取方法,同時,為了弱化不同句子的長度差異對模型效果的負面影響,進一步在BERT-CNN模型上融入基于Mask方法的多頭自注意力機制(MAT)。為了驗證模型的有效性,本文在2019中國“法研杯”司法人工智能挑戰賽的“要素識別”任務公開數據上進行了多項對比實驗。
早在20世紀50年代法律研究者就開始使用數據分析方法得到的結果作為法律判決的重要依據。Kort使用數學與統計學的經典算法來分析法律問題,用數學方法預測了最高法院的判決,同時對“律師權利”案例進行了定量分析[2]。文獻[3]使用規則分析了不同法律案件的數據,達到了協助法官梳理案件證據的目的。文獻[4]通過研究大量法律數據得到了一些法律變量來為法官服務,并幫助公眾更好地得到法律援助。文獻[5]使用數學建模的方法研究了法律案件的判決預測。文獻[6]以環境民事訴訟為例研究了司法判決。文獻[7]利用不同案例之間的相似度信息來估計不同法律問題的相似性。這些研究的思路是從法律文本[8]或法律案例概要[9]中提取出相應的特征。這種使用表面文本特征和人為設計要素的方法不僅需要耗費大量人力,并且對新推出法條的泛化能力也十分有限。
近年來,基于深度學習的方法在文本分類任務上獲得了較好的效果。文獻[10]使用卷積濾波器處理滑動窗口中的文本序列,并使用最大池化的方法來捕獲有效的局部特征。文獻[11]提出了一種動態卷積神經網絡,利用動態k-max池操作對句子進行語義上的建模。Lei等[12]提出了一種新的特征映射算子來生成不連續的n-gram特征,以更好地處理文本數據。文獻[13]利用大量的分類知識庫來增強模型性能。文獻[14]直接將CNN應用到高維文本數據中,提出了卷積層中的詞袋轉換變量,以提高文本分類的準確性。文獻[15]提出了一種神經網絡結構,該結構利用卷積和循環層對輸入字符進行有效編碼,通過較少的參數可以獲得更好的性能。文獻[16]使用微調的BERT模型進行短文本分類研究得到了高于深度學習的效果,證明了BERT模型對文本分類任務同樣可以獲得較好的實驗效果,為BERT模型應用于司法等其他領域提供了理論基礎。
受上述研究的啟發,Kim[17]嘗試將神經網絡模型與法律知識相結合,進行法律判斷預測。Luo等[18]提出了一種基于注意力機制的神經網絡,將法律條文加入到指控預測的任務中。Hu等[19]試圖用10個法律判別屬性來預測易混淆的法律案件。以上研究均采用刑事案件作為實驗數據集。Ye等[20]使用seq2seq模型,根據案件事實描述和民事法律文件中的指控預測生成可解釋的法院意見。針對法律文章預測的任務,Liu等[21]設計了一種基于文本挖掘的方法,讓普通大眾使用日常詞匯來描述他們的問題,并為他們的案例找到相關的法律文章。Liu等[22]在法律論文分類任務中采用基于實例分類和強化學習的方法。Zhang等[23]使用了融合CNN的方法預測案件適用的法條,又針對普通模型對金額、年齡等數字信息普遍關注度較低的問題提出了數據離散化的方法進一步提升了法條預測的效果[24]。
現有研究主要圍繞類案推薦和判決預測等任務,主要利用了具體任務相關的詞特征,基于句子級特征要素的研究還相對較少。在此基礎上,本文進行了深入的數據分析,提出了面向法律文書事實描述的判決要素抽取方法。
判決要素抽取模型主要包括三個部分:基于BERT的句子語義表示、MAT注意力機制和基于CNN的句子標簽預測。句子語義表示利用BERT模型生成句子向量表示。MAT注意力機制弱化輸入向量的填充部分,并為其賦予真實向量字符級的權重。句子標簽預測對輸入向量做三重卷積與最大池化后,再使用Softmax分類器預測最終的標簽。結構如圖2所示。

圖2 模型結構圖
具體描述如下:
輸入是一個字數長度為n的字序列E=(w1,w2,…,wn),將每個字分別映射為一個對應的向量xi∈Rd,字序列E最終可以被表示為矩陣S=x1⊕x2⊕…⊕xn,S∈Rn×d。
要素標簽被映射為集合L={l1,l2,…,lq},q為該類法律文書要素標簽種類個數,li∈(0,1),若事實描述屬于第i種要素,則li為1,其他為0。
將事實描述句S的向量表示作用于函數f,可得到對應的預測標簽L:
f(S)=L
(1)
BERT模型可以充分地表示出字、詞、句與句子之間的關系特征,使用BERT模型作為詞嵌入方法可以使模型的效果得到較高的提升。法律判決要素的句子長度大都在100字以內,而BERT模型最好效果的句子長度參數通常為512,句子長度相差較大。傳統模型多采用固定參數規定所有向量維度,對短句采用0填充的方式補齊維度,該方法很難精確地捕獲到句子的有效特征。為了弱化這種差異對模型效果的負面影響,本文提出了基于Mask方法的多頭自注意力機制。以事實描述中“婚后生有一子?!钡木渥酉蛄繛槔琈ask方法弱化了不代表任何含義的填充向量,如圖3所示,在進行Softmax操作時,無關0向量將幾乎不會再被分配權重,有效減少無關向量對真實向量的影響。

圖3 Mask方法效果圖
基于Mask方法的多頭自注意力機制具體實現方法如下:
① 使用BERT模型對事實描述進行語義表示得到矩陣S,將矩陣S與自身轉置矩陣ST做非線性變換得到中間變量S′:
(2)
式中:dk表示隱藏層的向量維度。
②S′是一個事實描述真實向量與填充0向量組合矩陣,為了使填充0向量對真實句向量的權重影響降到最低,本文將得到的矩陣S′使用Mask方法弱化填充向量得到矩陣a,弱化方法為將矩陣的事實描述向量進行高數量級的定量變換,本文使用的數量級為e10,從而讓矩陣S′的填充向量數值比足夠小,則填充向量在進行Softmax權重分配時分配到的權重也足夠小從而被忽略達到去除的效果。
a=S′-(1-m)×e10
(3)
式中:矩陣m為BERT模型輸出的Mask矩陣。
③ 將得到的矩陣a進行Softmax歸一化操作得到事實描述矩陣的字向量關聯強度a′:
a′=softmax(a)
(4)
④ 將關聯強度a′與矩陣S一一對應進行向量的權重計算得到最終的事實描述矩陣oi:
oi=(a′?S)Wi
(5)
⑤ 使用n個不同的Wi得到n個不同的oi,通過式(6)將全部的oi拼接后得到融入詞義權重的事實描述矩陣Hatt,將Hatt作為卷積的輸入部分。
Hatt=concat(o1,o2,…,on)
(6)
本文使用了多卷積核的卷積神經網絡,卷積神經網絡采用滑動卷積核的方式可以較為準確地提取到卷積核內的局部特征信息,而多卷積核融合可以擴大采集信息范圍的大小。將Hatt矩陣使用三個濾波器W1、W2、W3,分別用于大小為h1、h2、h3的窗口生成局部特征:
(7)

Z1=[C1,1,C2,1,…,Cq,1]
(8)
Z2=[C1,2,C2,2,…,Cq,2]
(9)
Z3=[C1,3,C2,3,…,Cv,3]
(10)
整個特征提取層提取到事實描述的總特征Zall為:
Zall=concat(Z1,Z2,Z3)
(11)
將Zall使用Max Pooling的池化方法選取局部最優特征得到ZM:
ZM=max(Zall)
(12)
再將ZM經過全連接層后作為模型的最終分類器進行判決要素種類預測。
本文統計了每種法律文書中案情描述所涉及到的標簽組合,將多種單標簽組合全部轉換成一個獨立的單標簽。則整個要素種類預測問題被等價轉化成多個單標簽的分類問題。具體的實現方法如下:
首先將每種要素種類標簽都映射成為[l1,l2,…,lq]的標簽向量。設標簽的真實概率分布為p(xi),標簽的預測概率分布為q(xi),p(xi)由one-hot映射得到,q(xi)則由Softmax函數對logitsi進行激活后得到logitsi為未經過歸一化的預測概率分布。
q(xi)=softmax(logitsi)
(13)
本文使用交叉熵損失函數對標簽預測概率分別進行損失值計算。單個標簽的損失值計算如下:
(14)

整體事實描述的loss值lossall如下:
lossall=loss1+loss2+…+lossn
(15)
Adam優化函數優化lossall后,將新的lossall反向傳遞給模型使模型迭代更新模型參數,使用最優參數對標簽進行預測得到預測概率q(xi),選取概率最高的標簽即為該事實描述的預測標簽。
本文實驗采用了2019中國“法研杯”司法人工智能挑戰賽中要素識別任務的數據集,包含離婚、勞動、借貸三種類型案件。每類數據集分別包含1 000篇事實描述,其中每一個語句有0到多個要素標簽。圖4為判決要素識別任務的一條原始數據,“labels”表示對應的標簽,“sentence”表示句子。

圖4 原始數據樣例
為了便于模型處理,本文將數據集中的事實描述段落轉變為對應的多個事實描述語句,把多標簽合并為單標簽,加入“0”標簽對應非要素語句,處理后的實驗數據如圖5所示。并且為了提升訓練數據的質量和降低數據集的非平衡性,本文舍棄了一些如離婚數據中的“按月支付撫養費”和勞動數據中的“勞動仲裁階段為提起”等出現次數占比少于約0.1%的標簽與數據。處理后的數據集樣本數量與標簽數量統計如表1所示。

圖5 處理后數據樣例

表1 各類型數據集的樣本數目
根據各標簽數據量在整體數據量中的比重從三種數據集中分別劃分出1 500條數據作為評價實驗結果的測試數據,并將剩余數據按照8 ∶1的比例劃分為訓練集與驗證集。
實驗所用的評價指標包括精確度P、召回率R和F1值。
(16)
(17)
(18)
式中:TP表示屬于該類也被劃分為該類的樣本數量;TN表示沒有分為該類且不屬于該類的樣本數量;FN表示沒有分到該類但屬于該類的樣本數量;FP表示分到該類但不屬于該類的樣本數量。
實驗采用了5種基線模型:卷積神經網絡模型(CNN)、循環神經網絡模型(LSTM)、BERT配合全連接層模型(BER-ALL)、BERT融合循環神經網絡模型(BERT-LSTM)、BERT融合卷積神經網絡模型(BERT-CNN)。
在參數設置上,所有模型均在訓練集上使用0.000 05的學習率進行5個epoch的訓練;學習衰減率設為0.9,dropout設為0.5,優化器使用AdamOptimizer。MAT方法使用了12頭5層的多頭自注意力機制進行權重劃分。卷積神經網絡中的三重卷積核窗口大小分別為2、3、4。
利用劃分好的3種數據集在5種基線模型上分別進行了判決要素抽取實驗,結果如表2所示。顯然,在3種數據集上CNN模型的結果均優于LSTM模型,同樣,利用BERT作為詞嵌入方法的實驗中BERT-CNN模型在3種數據集上的結果都明顯好于所有基線模型。

表2 5種基線模型的實驗結果

續表2
在使用BERT模型作為詞嵌入方法時,最大句子長度參數的設置會直接影響實驗結果。為了驗證不同句子長度對結果的影響,本文使用BERT-CNN模型分別進行了不同句子長度的對比實驗,在其余參數均相同的前提下分別將最大句子長度參數設置為64、128、256、512,實驗結果如圖6所示。

圖6 最大句子長度對結果的影響
圖6顯示,3個數據集的實驗結果都會隨著最大句子長度參數的增大而提高。為了讓模型在最優的參數配置下還能適應司法類數據中句子普遍較短的特點,本文分別在BERT-CNN和BERT-LSTM兩個模型中融入了基于Mask方法的多頭自注意力機制(MAT)。BERT-MAT-LSTM模型和BERT-MAT-CNN模型在3個數據集上的實驗結果如表3所示,結果顯示BERT-MAT-CNN模型在3個數據集上取得的F1值分別為0.765、0.820和0.710,均優于其他模型。

表3 兩種模型融入MAT后的實驗結果

續表3
在三個數據集中,每種標簽對應的樣本數目分布不均勻導致的模型訓練偏置是影響最終分類效果的重要原因。在法律文書的事實描述中,屬于法律判決要素的句子樣本數目僅占到整個事實描述句子數目的40%~45%,且每種類型的要素必定會有涉及較為頻繁與涉及相對較少的要素種類,這就決定了數據集中每種標簽的樣本數目會大不相同,并且代表非要素部分的0標簽一定是占比最多的標簽種類。圖7中列出了每種數據集部分標簽樣本數目的條形圖??梢钥闯?,離婚數據集中的“0”標簽(DV0)樣本數目與“DV6DV7”標簽樣本數目比約為107 ∶1,勞動數據集中的“0”標簽(LB0)樣本數目與“LB18LB1”標簽樣本數目比約為148 ∶1,借貸數據集中的“0”標簽(LN0)樣本數目與“LN2”標簽樣本數目比約為111 ∶1。

圖7 三種數據集部分標簽樣本數目條形圖
另外,由于本文使用的數據集全部是由人工標注獲得的,每種數據集中都存在一些標注錯誤的樣本,如離婚訓練數據中樣本“準予原告吳某與被告喬某甲離婚”被標注“DV9(法定離婚)”標簽,樣本“準予原告張某與被告薛某甲離婚”被標注“DV12(準予離婚)”標簽,但兩個樣本應為同一種標簽。顯然,一定數量的錯誤標注樣本會影響模型的分類效果。
本文研究了智慧司法領域的要素抽取任務,將判決要素句抽取任務形式化為對事實描述語句的多標簽分類模型,提出融合BERT和CNN(BERT-CNN)的判決要素抽取方法。同時,為了弱化不同句子的長度差異對模型效果的負面影響,進一步在BERT-CNN模型上融入基于Mask方法的多頭自注意力機制(MAT)。相比現有的抽取方法本文構建的模型能更準確地提取司法類數據的特征。然而,法官選擇案件判決的參考因素不僅僅依賴案件的事實描述,通常案件相關的法條也是案件判決要素選擇的重要依據。因此,探索融入相關法條的要素抽取模型也是接下來重要的研究點。