基于BERT閱讀理解框架的司法要素抽取方法

2021-11-22 02:00:48黃輝秦永彬陳艷平黃瑞章

大數據 2021年6期

黃輝，秦永彬, ，陳艷平, ，黃瑞章,

1.貴州大學計算機科學與技術學院，貴州貴陽 550025；2.公共大數據國家重點實驗室，貴州貴陽 550025

1 引言

隨著智慧法院建設的提出，大數據、人工智能與司法實踐的融合開始不斷推進。司法人工智能的本質是基于已有案例的審判工作，提示和輔助司法人員進行審判決策。因此，為司法人員提供可解釋的決策依據是司法智能化建設的重點。將端到端的深度學習應用于司法領域通常會存在可解釋性差的問題，無法為司法人員提供模型決策依據。案情要素體系是司法領域專家根據法院審判流程總結、建立的體系，主要由司法人員在決策過程中關注的案情要點構成。利用深度學習模型識別裁判文書中的關鍵案情要素，可以為案件判決預測提供依據，在一定程度上實現可解釋性。并且，司法要素是判定案件之間關聯性的重要依據之一，具備相同案件要素的案件擁有類似的案情和判決結果，結合司法要素可以有效地實現具有可解釋性的類案推送。因此，司法要素抽取工作是司法人工智能中必不可少的一環。

司法要素抽取任務需要根據既定案情要素體系，判定裁判文書案情內容包含哪些具體案情要素。例如，給定句子“原告認為被告違法解除與原告的勞動關系，故原告起訴至法院，要求判決：被告向原告支付賠償金186600元”，根據語義信息可以判定該句子包含既定司法要素中的“解除勞動關系”“支付經濟補償金”。以往的司法要素抽取采用自然語言處理（natural language processing，NLP）中的多標簽分類方法來完成，然而多標簽分類方法只利用了句子的文本信息，從上述例子中可以看出，司法要素和句子之間有很強的關聯性，如何充分利用要素標簽信息是本文研究的重點。

此外，司法要素抽取數據集中通常會存在樣本分布不均衡的問題。在勞動爭議案由中，大量裁判文書包含“解除勞動關系”要素，但涉及“經濟性裁員”和“有調解協議”兩種要素的案件非常少。在借款合同案由中也是如此，“債務人轉讓債務”“約定利率不明”等要素極少在案件中出現。訓練樣本分布極度不均衡導致分類模型的推理能力較差。

綜上，本文提出基于BERT（bidirectional encoder representations from transformer）閱讀理解框架的司法要素抽取方法。該方法基于BERT抽取式機器閱讀理解框架，通過引入要素標簽信息和法律先驗知識構造相應的輔助問句，建立輔助問句和文本之間的語義聯系，為模型提供語義完整的標簽信息和先驗知識。同時，在問句中標簽所在位置前后增加特殊標識符以增強模型的學習能力。實驗證明本文方法不同于傳統分類方法，不再受限于樣本，可被很好地應用于分布不平衡的數據集。

2 相關工作

在司法領域，一段案情描述往往涉及多個標簽，因此，司法要素抽取工作大多以多標簽分類的形式開展。當前解決多標簽文本分類任務的方法可以分為兩類：機器學習方法和神經網絡方法。傳統機器學習方法需要對特征進行篩選，Elisseeff A等人[1]采用類似于學習系統的支持向量機（support vector machine，SVM）來解決多標簽問題；Ghamrawi N等人[2]將條件隨機場應用于該任務；Li C等人[3]提出了基于條件伯努利混合的多標簽分類方法，通過引入多個特征來捕獲標簽依賴，這些特征的處理效果將對模型的分類結果造成很大的影響。

近年來，神經網絡在自然語言處理領域取得了巨大的成功。神經網絡方法可以根據訓練樣本進行特征篩選、提取，因此現有的文本分類模型多基于神經網絡實現。卷積神經網絡（convolutional neural network，CNN）具有較強的表征學習能力，自Kim Y[4]提出文本卷積神經網絡（TextCNN）模型以來，卷積神經網絡在文本分類任務中的應用愈加廣泛。Conneau A等人[5]提出了VDCNN模型，模型堆疊了高達29層的卷積層，并且在大部分文本分類數據集上證明了深度卷積網絡可以有效地抽取文本特征。卷積神經網絡具有很強的局部特征提取能力，但是文本中的詞序依賴關系也很重要。因此，Sun X等人[6]將TextCNN和長短期記憶（long short term memory，LSTM）網絡進行結合，提出TC-LSTM模型，有效地改善了分類任務的精度。Lin J Y等人[7]則將膨脹卷積和注意力機制進行結合，從而有效地提取單詞的語義信息。隨著語言模型的出現，多標簽文本分類任務開始使用微調方式。ELMo[8]、GPT[9]、BERT[10]、XLNet[11]等預訓練語言模型使用了大規模語料進行預訓練，并且相較于之前的網絡模型具有很強的特征抽取能力，因此極大地提升了多標簽分類任務的性能。上述方法聚焦于文本信息，如果采用這些方法進行司法要素抽取，模型易過度依賴數據樣本，進而導致過擬合問題。

目前，與司法要素抽取任務相關的研究較少，與其任務場景相似的罪名預測和法條推薦已具有一定的研究方案。Luo B F等人[12]通過提取案情文本特征對法條和罪名預測進行聯合訓練。Zhong H X等人[13]在此基礎上提出多任務拓撲依賴學習模型 TOP JUDGE，對法律審判的多個子任務（如適用法律條款、指控、罰金、刑期）進行建模。陳文哲等人[14]在犯罪行為鏈[15]的研究基礎上，結合裁判文書文本特征和犯罪行為序列特征，增強了法條推薦效果。然而，這些研究都在文本分類的框架下進行，對文本特征的依賴程度很高，存在泛化能力不足的問題。同時，文本分類框架下的方法沒有充分利用標簽信息，缺乏文本和標簽之間的語義聯系。

抽取式機器閱讀理解任務通過捕獲問題和段落之間的聯系，推理出答案在段落中的位置。機器閱讀理解模型包含很強的交互層，如R-NET[16]、BiDAF[17]、BERT[10]等模型在內部利用注意力機制進行問句和段落的語義交互，從而在多數機器閱讀理解任務上具有很好的表現。Levy O等人[18]和McCann B等人[19]將關系提取作為一項單輪問答任務。在此基礎上，Li X Y等人[20]將實體關系抽取任務轉換成多輪機器閱讀理解問答形式開展，利用問題查詢向模型提供重要信息。劉奕洋等人[21]將實體識別轉化為問答任務，通過卷積神經網絡捕捉文檔級文本上下文信息，通過分類器實現答案預測。

BERT[10]由Google團隊于2018年提出，其憑借大規模語料的預訓練和強大的語義特征提取能力，極大地提升了多項NLP任務的表現。BERT模型的嵌入層包含詞、位置、句子類型3種特征，然后經過多層雙向Transformer[22]層得到輸入的特征表示。Transformer完全拋棄了CNN和循環神經網絡（recurrent neural network，RNN）結構，采用自注意力網絡實現了長距離依賴。結合司法要素抽取任務的現實需求，本文以BERT為主要模型結構，引入要素標簽信息構造輔助問句作為模型輸入，使用機器閱讀理解框架完成司法要素抽取任務。

3 司法要素抽取方法

本文將司法要素抽取任務轉換成閱讀理解模式來解決，機器閱讀理解模型輸入包括問句和段落，因此首先需要針對司法要素標簽進行問句構造；其次，采用BERT抽取式機器閱讀理解模型對問句和裁判文書進行深度交互，得到答案位置的概率分布，從而判別句子中是否包含涉及的要素標簽。

3.1 基于標簽信息增強的輔助問句構造方法

由于裁判文書中存在的標簽數量不確定，本文對每一個標簽都進行問題構造，以此判定文本是否包含此要素。預定義問題模板為“句子中是否包含_element_，_knowledge_。是或者否？”其中，_element_為可替換標簽占位符，不同的要素標簽可被替換成相應的標簽文本描述；_knowledge_為與要素相關的先驗知識；“是”和“否”為需要抽取的答案。3種案由的輔助問句構造樣例見表1。對于每一個句子，使用所有標簽的輔助問句進行多輪問答，以確定是否包含相應的要素標簽。

表1 3種案由的輔助問句構造樣例

在構造的輔助問句中，標簽文本信息極為重要，為了增強模型的學習效果，在問句中要素文本描述的前后位置插入特殊標識符。對于BERT模型，可以使用預留的“[unused*]”tokens作為特殊標識符。將原始問句表示為：

其中，t1,…,tn表示除要素標簽外的token，e1,…,ek表示要素標簽的token。在問句中添加特殊標識符后的問句Q-表示為：

其中，u為插入的特殊標識符。

3.2 基于BERT的司法要素抽取模型

將裁判文書句子表示為P=(p1,p2,…,pm)，輔助問句表示為Q=(q1,…,u,e1,…,ek,u,…,qn)，m、k、n分別表示裁判文書、要素標簽、輔助問句的token個數。本文將BERT作為模型主體，提取句子和問題編碼特征。如圖1所示，將P和Q與BERT既定標識符CLS、SEP進行拼接，作為模型的輸入序列。其中CLS置于首位，用于標識整個輸入的語義；SEP用于分割問句和段落的字符輸入。在嵌入層，模型將輸入字符序列映射為字符嵌入（token embedding）、位置嵌入（position embedding）、句子類型嵌入（segment embedding），并將3種嵌入表示相加得到裁判文書句子和問句的特征表示X。

圖1 基于BERT閱讀理解框架的司法要素抽取模型

BERT模型主要由多個Transformer的編碼器堆疊而成，每一層的輸入來自上一層的輸出：

其中，Hi表示第i層Transformer的輸出，n表示編碼器的Transformer層數。

通常機器閱讀理解模型使用Softmax得到答案開始和結束位置的概率分布，這種模式主要針對答案為片段類型的數據集。在本文構造的輔助問句中，定義的候選答案（“是”和“否”）都只占一個位置，因此只需要預測一個位置概率分布。將BERT輸出特征Hn中問句字符所在位置對應的向量表示Hqn={hq1,hq2,…,hqn}輸入全連接層，得到位置概率分布a：

其中，W為全連接層的權重參數矩陣，b為偏置向量。

在推理階段，通過比較輔助問句中“是”和“否”所在位置的概率大小，判定裁判文書句子是否包含問句指向的要素標簽：

4 實驗及結果分析

4.1 數據集

本實驗建立在2019中國“法研杯”司法人工智能挑戰賽（CAIL2019）要素抽取任務數據集上，實驗分別使用賽題第一、第二階段提供的訓練集作為訓練集和測試集。數據涉及婚姻家庭（divorce）、勞動爭議（labor）和借款合同（loan）3種案由，每種案由都包含20類要素標簽。數據集文檔及句子分布統計具體見表2。

表2 數據集分布統計

在數據集中，每個案由樣本分布都具有長尾分布的特點。勞動爭議案由的要素標簽樣本正例分布如圖2所示，從圖2可以看出，標簽分布極度不均衡，這將對模型訓練產生極大的影響。

圖2 勞動爭議案由要素標簽樣本正例分布

4.2 評價指標

本文采用F1值的宏平均（macro average）和微平均（micro average）兩種評價指標（即F1-macro和F1-micro）共同對模型進行評估。宏平均是每一個標簽的性能指標的算術平均值，而微平均是每一個樣本示例的性能指標的算術平均值。因此，宏平均更加關注數據集中樣本較少的類別，微平均更加關注數據集中樣本較多的類別。在本文的實驗數據集上，由于樣本不均衡，模型的宏平均會低于微平均。

4.3 參數設置

實驗對多標簽分類方法和本文方法進行了對比，具體參數見表3。其中，分類方法涉及傳統神經網絡模型和語言模型，括號內的參數為傳統神經網絡模型的參數值。

表3 實驗參數設置

4.4 實驗結果與分析

為了全方位地對本文提出的模型進行評估，設計了3組對比實驗。實驗A使用本文方法與多標簽分類方法、文本匹配方法進行對比實驗；實驗B設計消融實驗驗證閱讀理解框架和特殊標識符的效果；實驗C對本文方法在不同案由上的標簽進行遷移分析。

（1）實驗A：模型對比實驗

多標簽分類模型包括以下幾種。

● 循環遞歸神經網絡（TextRNN）[23]：基于傳統的循環神經網絡，針對句子內單詞之間的序列依賴關系進行建模。

● 基于注意力機制的長短期記憶網絡（Att-LSTM）[24]：基于傳統的LSTM模型結構，結合注意力機制對所有時序特征進行加權求和。

● TextCNN[4]：將文本當作一維圖像，利用一維卷積神經網絡來捕捉臨近詞之間的關聯。

● BERT[10]：基于雙向Transformer的預訓練語言模型，采用微調方式進行多標簽分類。

● ALBERT[25]：采用參數共享的方式解決BERT參數過多的問題，并改進BERT預訓練方式。

● ERNIE[26]：在BERT的基礎上對先驗語義知識單元進行建模，增強了模型語義表示能力。

● RoBERTa-WWM-zh[27]：在BERT基礎上，結合中文詞特性，采用全詞mask的方式在更多的語料上進行預訓練。

為了驗證輔助問句和機器閱讀理解框架的有效性，將本文模型與文本匹配模型進行了對比。實驗使用BERT句子匹配模型進行對比，其中模型輸入構造為“[CLS]標簽[SEP]文本[SEP]”。

模型對比實驗結果見表4，其中F1值為宏平均和微平均的平均值，而F1-search為多標簽分類方法經過閾值搜索后的F1值，JRC（judicial reading comprehension）指本文方法，MATCH指文本匹配方法，RBT指RoBERTa-WWM-zh。其中TextRNN、Att-LSTM、TextCNN屬于傳統神經網絡模型，ALBERT、BERT、ERNIE、RBT屬于預訓練語言模型。

表4 模型對比實驗結果

實驗結果顯示，在多標簽分類框架下，預訓練語言模型在婚姻家庭和勞動爭議案由上的表現大多遠超過傳統神經網絡模型。這主要是因為預訓練語言模型在大規模通用數據上進行過預訓練，模型具備很好的先驗知識，因此在下游任務上收斂更快、效果更好。但是由于數據集中存在一部分標簽的樣本可以根據局部關鍵詞進行判定，而CNN具有很好的局部特征提取能力，非常適用于此類數據；而且預訓練語言模型使用的通用數據與司法數據分布相差較大，大規模數據預訓練的優勢在司法數據集上也不如其他數據集明顯，因此TextCNN模型在借款合同案由上取得了高于預訓練模型的結果。

與多標簽分類框架下的模型（TextRNN、Att-LSTM、TextCNN、ALBERT、BERT、ERNIE、RBT）相比，本文方法在3個案由上F1值分別至少提高2.7%、11.3%、5.6%，顯著超過了多種多標簽分類模型。為了進一步證明本文方法的優越性，對多標簽分類方法增加了閾值搜索操作。實驗表明，本文方法依然優于經過閾值搜索后的多標簽分類模型。文本匹配方法和本文方法都使用了標簽信息和文本信息，但本文構造的輔助問句中除了標簽信息，還包括法律先驗知識，能夠為模型提供更多信息。此外，語言模型在預訓練階段會學習到語言之間的相關性，為模型提供高質量、具有完備語義信息的輔助問句，從而提升模型的推理能力。因此，相對于文本匹配方法，本文方法在3種案由上F1值分別提升1.1%、4.2%、0.4%。

（2）實驗B：消融實驗分析

本文使用RoBERTa-WWM-base預訓練權重進行了消融實驗。對分類方法（CLS）和機器閱讀理解方法（MRC）進行了對比，并且驗證標簽、標識符、法律先驗知識3種特征的效果，具體見表5。

從表5可以看出，融入標簽信息的機器閱讀理解方法（RBT-MRC）相比多標簽分類方法（RBT-CLS）具有明顯提升，尤其是F1-macro在3種案由上分別提升5.1%、21.7%、13.8%。這說明引入標簽信息后，通過機器閱讀理解模型對標簽信息和文本信息進行語義交互，可以指導模型更好地進行推理。其次，模型增加了標識符后，在3種案由數據集上F1值都得到了一定的提升，這進一步說明了標簽信息在輔助問句中占據主導地位。將BERT最后一層Transformer的多頭注意力權重進行可視化，如圖3所示，在未增加標識符時，要素標簽部分token的注意力主要集中在“補償金”以及“除”，并且權重分布比較散亂。增加了標識符后，注意力便集中在“解除勞動合同”，這更符合人類判定的關注點。最后，在輔助問句中增加法律先驗知識，進一步提升了司法要素抽取的性能，提升分值僅次于標簽信息。說這明輔助問句中引入更多的先驗信息能夠使模型更好地擬合目標任務，但是該方式非常依賴引入先驗知識的質量。在實驗中，由于借款合同案由數據中添加的先驗知識質量不如其他兩種案由，因此提升并不明顯。

圖3 BERT注意力權重可視化

表5 消融實驗結果

（3）實驗C：標簽遷移分析

機器閱讀理解模型通過構造的輔助問句可以指導模型根據不同的問句判定文本中是否包含要素標簽，因此本文方法在不同的標簽之間具有較好的遷移性。此外，本文在構造輔助問句過程中引入了標簽信息和人工構造的先驗知識，也能夠提升模型在標簽遷移上的效果。為了證明本文方法的標簽遷移性，選定使用其中一個案由訓練集訓練的模型，測試該模型在其他案由上的效果，具體結果見表6（多標簽分類的訓練方式需要固定標簽，因此無法進行標簽遷移）。

表6 標簽遷移實驗結果

從表6可以看出，使用本文方法訓練的模型可以在不同案由數據下進行標簽遷移，而遷移的結果主要取決于訓練和測試數據之間的相似性。因此，具有標簽信息和先驗知識的輔助問句可以幫助模型將從正樣本多的標簽數據中學習到的推理知識遷移至正樣本少的標簽上，從而提升模型在標簽分布不均衡條件下的表現。從圖4可以看出，在勞動爭議案由下，本文提出的方法在正樣本越少的標簽上相對于多標簽分類方法提升效果越明顯，這也說明了標簽遷移性可以有效地解決樣本分布不均衡的問題。

圖4 RBT-CLS和RBT-MRC在勞動爭議案由各標簽上的性能

5 結束語

司法要素抽取任務通常采用多標簽分類方法建模，模型只從案情文本的維度進行分析預測，沒有利用要素標簽的語義信息。并且，司法要素抽取數據存在類別分布不均衡的問題，導致多標簽分類模型表現較差。針對這兩個問題，本文提出基于BERT閱讀理解框架的司法要素抽取方法，將司法要素抽取任務轉換成抽取式機器閱讀理解任務來解決。通過構造包含要素標簽信息和法律先驗知識的輔助問句，為模型提供推理線索。同時，利用BERT機器閱讀理解模型實現問句和案情描述之間的深層次語義交互，充分利用了標簽信息。此外，實驗證明該模型具有良好的標簽遷移性，可以解決數據分布不均衡的問題。

目前，本文方法沒有考慮司法要素之間的依賴性。在未來工作中，筆者將探索如何利用機器閱讀理解框架對標簽依賴進行建模，并且將本文方法在更多案由上進行實踐、驗證，以推進司法智能化建設。