999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的司法判決預測算法研究

2022-02-13 11:53:12周法國劉文葛逸凡李夷進
科學技術與工程 2022年36期
關鍵詞:信息模型

周法國, 劉文, 葛逸凡, 李夷進

(中國礦業大學(北京)機電與信息工程學院, 北京 100083)

2020年最高人民法院工作報告指出,地方各級人民法院和專門人民法院受理案件3 080.5×104件,而在2010年,這個數字為1 170×104件。由于法律工作的專業性,面對龐大且不斷增長的各類糾紛,從事司法相關工作的人員缺口也越來越大。2015年3月25日,最高人民法院信息化建設工作領導小組首次提出智能法院的概念,2018年開始舉辦的司法人工智能挑戰賽[1]也加速了司法人工智能研發,促進了學科發展。將人工智能應用與司法領域有很多場景,如司法判決預測、相似案件匹配以及信息抽取等。

司法判決預測指的是依靠真實案情陳述文本,確定案件的最終判決。它在智能司法中發揮著不可替代的作用。它不僅能為法律工作者提供參考,也能為不了解法律相關知識的普通人提供法律建議。

司法判決預測的研究工作已經進行了幾十年。早期的研究人員使用數學計算方法來分析影響決策的事實因素并預測罪名。但是只有特征明顯的案例和規模較小的數據集才會有一定的效果,很難將方法進行推廣。后來,隨著機器學習的發展,研究人員開始從案情陳述中提取有效特征,并通過機器學習方法進行預測,如樸素貝葉斯或支持向量機等[2]。然而,這些方法對手動特征有嚴重的依賴,很難在更大的數據集上收集特征。近年來,隨著深度學習在自然語言處理、計算機視覺和語音方面的成功,神經網絡被廣泛應用于對案情陳述文本進行建模。

然而,罪名預測在現實場景中仍然存在兩個主要挑戰:少樣本罪名和易混淆罪名預測,并且有些容易混淆的罪名往往樣本數量少。一方面,在真實司法數據集中,不同罪名的案件數量極不平衡,前10種罪名占數據集中近80%的案件;后10種罪名在數據集中的占比不到0.2%。在少樣本數據類別較多的情況下,一般的深度學習模型表現不佳。為了解決這個問題,Wang等[3]引入Mixup方法進行數據增強,同時提出使用圖卷積神經網絡進行特征提取并增強。Zhang等[4]使用基于共同信息的損失函數解決樣本不平衡問題。另一方面,在真實的司法數據集中,還存在一些難以區分的罪名,如放火罪和失火罪、濫發林木罪和盜伐林木罪等。這些罪名在案情描述上極其相似,但司法判決結果卻各不相同。為了區分相似罪名在案情陳述上的細微差別,Xu等[5]提出了使用圖神經網絡來提取法律文本之間的易區分特征,從而提高模型識別能力。Hu等[6]引入10個具有區分性的罪名屬性標簽,為區分混淆罪名提供了幫助,同時人工標注只需要少量的工作,但模型可解釋性欠佳。Zhong等[7]提出了QAjudge,提高了司法判決預測可解釋性。殷敏等[8]結合支持向量機與預測解釋框架,對影響因素進行分析,提高預測結果解釋性。張虎等[9]對裁判文書進行要素抽取,提高模型預測效果,但子任務間耦合度較高。王婉臻等[10]總結了近年來人工智能在司法判決預測領域的研究成果。

綜上,提出一種基于BERT(bidirectional encoder representations from transformer)預訓練模型和雙向門控循環單元(bidirectional gated recurrent unit,BiGRU)的混合模型提升性能,并借鑒了Hu等[6]提出的罪名屬性標簽思想,使用自注意力機制對每個屬性標簽進行對應的特征提取,同時利用10個屬性標簽增強司法判決預測任務的可解釋性,并通過實驗證明所提方法的有效性。

1 自注意力機制

自注意力使得每個詞向量都能考慮整句話的前后文相關信息[11],假設向量a1、a2、a3表示某句案情陳述所提取的特征向量,那么自注意力層的流程操作如圖1所示。

通過輸入向量a1、a2、a3,得到輸出向量b1、b2、b3。其中每一個bi都是考慮過整句信息的,具體流程如下。首先對每一個向量a,都要計算自身和其余向量之間的注意力分數,也就是找到序列中的相關向量,計算方式有很多,采用常見的點積進行計算,具體地,由向量a1乘以矩陣Wq計算得出q1,再由其余向量如a2乘以矩陣Wk得到k2,最后計算q1和k2的點積,即可得出向量a1和向量a2之間的注意力分數。值得注意的是,每一個向量ai均要與a1進行計算,包括a1本身。

圖1 自注意力機制結構圖Fig.1 Self-attention mechanism structure diagram

(1)

式(1)中:qi為查詢向量;ki為特征向量;Wq和Wk為系數矩陣,隨模型訓練進行計算更新。

經過上述計算得到向量a1和其他向量的相關程度a1,1、a1,2、a1,3,然后采用常見的softmax進行歸一化處理得到注意力分數α′1,1、α′1,2、α′1,3,其表達式為

(2)

將向量ai乘以矩陣Wv得到對應的向量vi,將vi與式(2)得到的注意力分數相乘并求和得到b1,其余向量bi的計算方式類似,故不再贅述。計算過程可表示為

(3)

式(3)中:vi為值向量;系數矩陣Wq、Wk、Wv由神經網絡通過大量文本語料訓練得到。

自注意力機制自2017年開始受到研究人員的廣泛關注,并將其應用于自然語言處理的各個任務中。

2 BERT預訓練模型

BERT模型是基于Transformer的網絡模型,僅使用其編碼器部分。因此在介紹BERT前,首先進行Transformer介紹,2017年 Google團隊提出了Transformer新型網絡架構,它完全基于注意力機制,如今已有多種變體[12],其模型結構如圖2所示。

圖2 Transformer模型結構圖Fig.2 Transformer model structure diagram

2.1 自注意力

自注意力使用注意力機制來推斷句子中標記之間的關系,并學習同一個句子的表示。在Transformer中,自注意力是通過縮放點積注意力和多頭注意力來實現的。

(4)

式(4)中:Q、K和V分別為query、key和value序列;dk為k的維數。

多頭注意力之所以如此命名,是因為它依賴于多個注意力實例。將從輸入向量中獲得的K、Q和V乘以不同的學習矩陣,以生成多組K、Q和V。每組K、Q和V都被送入縮放的點積注意力函數并返回輸出值。然后將所有返回的頭連接為矩陣并投影以得出最終值。與單頭注意力相比,多頭注意力擴展了模型在不同位置處理信息的能力,而不會增加總計算成本,計算公式為

(5)

2.2 位置全連接前饋網絡

在自注意力層之后,是一個完全連接的前饋網絡(fully connect feedforword network, FFN),獨立地應用于輸入序列的每個位置。自注意力的輸出被送到一個線性函數,然后是一個Relu函數,最后后用另一個線性函數進行投影,可表示為

FFN(x)=max(0,xW1+b1)W2+b2

(6)

式(6)中:Wi為權重矩陣;bi為偏置向量;x為輸入的向量。

2.3 殘差連接和層歸一化

編碼器和解碼器層中每個子層的輸出通過殘差連接和層歸一化進行修改。殘差連接被提出來解決深度卷積神經網絡中增加的訓練錯誤和模型性能的下降,殘差學習將輸入添加到神經網絡層的輸出。層歸一化使用層中所有輸入值的均值和標準差對神經網絡層中的輸入值進行歸一化,這種歸一化加速了神經網絡的訓練時間。

2.4 位置編碼

與考慮序列中標記順序的循環神經網絡相比,Transformer結構不存儲位置信息。為了解決這個問題,在編碼器和解碼器堆棧的入口處的輸入中添加了位置編碼。Transformer中的位置編碼采用正弦函數對序列中的位置信息進行編碼,因為它可以毫不費力地處理相對位置,位置編碼PE的表達式為

PEpos,2i=sin(pos/10 0002i/dmodel)

PEpos,2i+1=cos(pos/10 0002i/dmodel)

(7)

式(7)中:pos為位置;i為維度;dmodel為詞向量維數。

BERT是預訓練語言表示的最先進模型,通過執行掩碼語言模型任務和下一句預測任務來考慮雙向表示[13],適合處理文本數據。

2.5 掩碼語言模型任務

通過隨機屏蔽輸入序列中特定百分比的標記并基于未屏蔽標記預測被屏蔽標記來處理輸入序列的左右上下文。在將日志序列中的標記轉換為嵌入向量之前,選擇了15%的標記并替換為[MASK]標記。在實踐中,[MASK]標記不會出現在微調過程中。為了減輕這個,當一個標記被屏蔽之后,80%的時候這個標記都會被替換為[MASK]標記,10%會替換成語料庫里隨機的詞,還有10%不變,BERT的目標函數只考慮被屏蔽的標記的預測。

2.6 下句預測任務

NSP(next sentence prediction)專為需要理解句子關系的下游任務而設計。在預訓練中,下一句預測從語料庫中生成由兩個句子A和B組成的句子對。給定前面的句子A,50%的時候B是A之后的后續句子,而50%的時候B是來自語料庫的隨機句子。為了區分兩個句子,在每個句子的末尾注入了一個特殊的標記[SEP]。此外,在輸入樣本的開頭插入了[CLS]標記。[CLS]表示可以饋送到輸出層進行分類。在將這些特殊標記合并到輸入序列中后,將段嵌入添加到標記嵌入和位置嵌入中。段嵌入暗示每個標記屬于哪個句子。NSP任務使用IsNext或NotNext標簽來確定句對之間是否存在連接。因此,NSP損失函數被視為二元分類損失。

3 BiGRU模型

介紹GRU(gated recurrent unit)之前,首先需要了解RNN(recurrent neural network),它是一種具有記憶功能的人工神經網絡。RNN之所以被稱為循環神經網絡,是因為它們可以學習并保存過去的信息,然后將其用于未來的預測,可表示為

ht=tanh[Wx(t)xt+Uh(t)ht-1+b)

(8)

式(8)中:xt為時間t的輸入;ht為單元在時間t的隱藏信息;Wx(t)為x在t時刻的權重矩陣;Uh(t)為ht-1在時間t的權重矩陣;b為偏差。

在t時刻,新的輸入和上一個單元格的記憶同時輸入,在兩個不同的權重矩陣的作用下組合成一個新的向量。這個向量包含了當前的輸入信息和之前的記憶,在激活函數tanh的激活下,得到了t時刻新的隱藏記憶。然后輸入下一個以時間t的信息作為輸入的單元格。

循環神經網絡(recurrent neural network,RNN)在處理長文本時容易出現梯度消失的問題,因此產生了長短期記憶(long-short-term-memory,LSTM),它是一種用于深度學習領域的長期短期存儲網絡,可以學習長期依賴,LSTM在每個時刻t都引入了細胞狀態Ct,用于表示當前時刻保存的信息。LSTM的具體步驟如下。

步驟1決定哪些信息將被稱為“遺忘門”的sigmoid層放棄或保留在細胞狀態中。門的輸入是隱藏特征ht-1和當前時刻輸入xt,輸出是細胞狀態Ct-1的權重(0-1)矩陣,其中1代表“完全保留”,0代表“完全擺脫”,遺忘門的表達式為

ft=σ(Wfxt+Ufht-1+bf)

(9)

(10)

步驟2中,通過從輸入門獲得的信息更新舊的細胞狀態Ct-1。首先,將“遺忘門”中得到的ft與Ct-1相乘,對舊信息進行過濾,確定舊信息的保留和丟棄,乘以1表示信息完全保留,乘以0表示信息完全丟棄。然后將輸入門中得到的結果相乘,得到需要添加的新信息,將更新后的舊信息組合起來,形成新信息記錄在細胞狀態中,可表示為

(11)

步驟3需要從細胞狀態決定這個重復模塊的輸出是什么。首先,生成一個加權矩陣,通過一個sigmoid層來決定細胞狀態的輸出部分,其中“1”代表輸出所有信息,“0”代表什么都不輸出。然后,通過tanh函數將單元格狀態的值推到-1和1之間,然后將其乘以加權矩陣以輸出決定的單元格狀態ht部分,如式(12)所示。

(12)

式中:ft為遺忘門;it為輸入門;ot為輸出門;Wi、Wo、Wf、WC為不同門控機制對輸入xt的權重;Ui、Uo、Uf、UC為不同門控機制對隱藏特征ht的權重;bi、bo、bf、bC為偏置向量;σ為sigmoid函數,作用是把數據范圍映射在0~1內,成為門控制信號;ct為當前t時刻的存儲單元信息

GRU是LSTM的一種變體,它將遺忘門和輸入門組合成一個“更新門”,并且還合并了單元狀態和隱藏狀態,將長期和短期信息保持在一起。因此,與傳統的LSTM相比,GRU的效率更高[14],算法流程可表示為

(13)

GRU繼承了RNN的優勢,也解決了RNN在長文本下梯度消失的問題。但GRU只能順序進行,也就是說只能聯系前文信息。BiGRU能同時關注到上下文信息,適合處理長文本任務。

4 算法流程與實現

傳統的基于深度學習的司法判決預測方法,存在各種各樣的問題,有些方法需要借助額外法條任務輔助,有些方法從未考慮少樣本罪名和易混淆罪名預測場景或者僅考慮一種情況,有些方法使用不同的網絡模型進行偽數據生成來解決數據不平衡問題,有些方法則沒有考慮司法判決預測任務的特殊性而進行可解釋性分析。因此,使用BERT模型和BiGRU模型進行文本的特征提取,通過添加AATT模塊(罪名屬性標簽模塊)輔助司法判決預測任務,緩解了易混淆罪名判別問題,借助10個罪名屬性標簽,可以提升模型對混淆罪名的識別準確率。例如,放火罪和失火罪在案情描述中內容極度相似,但在罪名屬性標簽故意犯罪中,兩種罪名的標簽具有區分性,放火罪的故意犯罪標簽為是,失火罪的故意犯罪標簽為否,為混淆罪名的判別提供輔助。同時,AATT模塊還有另一個功能,就是通過添加自注意力機制生成可視化圖來緩解司法判決預測可解釋性。

為了緩解司法數據集樣本極度不平衡的問題,提出罪名分類權重方案,具體如下:首先用數據集樣本總數除以各個罪名在數據集中的數量得到初步權重信息,通過對權重信息的分析觀察,將權重值縮小 2 000 倍,得到的最小權重值為0.001 746,最大權重值為9.594 875。通過上述簡單計算,將所有罪名分類的權重值壓縮在10以內,需要注意的是,為了模型總體效果不受影響,故將權重值不足1的所有權重變為1,減少權重對樣本數量很多的罪名的影響,同時使少樣本罪名權重提升,增強其性能表現。最后在罪名分類和屬性標簽分類中均添加自注意力機制,通過可視化來增強算法的可解釋性,總體算法流程如圖3所示。

圖3 算法流程圖Fig.3 Flowchart of the algorithm

5 實驗結果與分析

所使用的數據集均來自中國裁判文書網公開的真實案件判決。數據集分布如表1所示,數據集中的罪名屬性標簽說明如表2所示。

表1 不同數據集分布Table 1 Distribution of different datasets

表2 罪名屬性標簽信息Table 2 Charge attribute tag information

所使用的評價指標為司法判決預測常用的Acc(準確率)、P(精確率)、R(召回率)和F1(綜合考慮P和R的指標),計算公式為

(14)

式(14)中:TP為預測為正例且預測正確;TN為預測為負例且預測正確;FP為預測為正例且預測錯誤;FN為預測為負例且預測錯誤。

圖4展示了模型訓練過程中損失函數loss和Acc的變化趨勢。其中,模型的訓練損失前期快速下降后期趨于穩定,驗證損失穩中有降;模型的訓練準確率無限接近于1,驗證準確率穩步提升并趨于穩定。綜上所述,所提出的BGAAT(BERT BiGRU attribute self-attention)網絡模型符合深度學習神經網絡訓練客觀規律,結果也符合預期。

表3展示了模型在3個數據集上的表現,并與基線模型及研究人員近兩年提出的模型進行對比,由表中可以看出,本文模型效果有顯著提升。

借助更為詳細的罪名屬性標簽,提高模型效果的同時也將屬性標簽預測時的權重進行了可視化,如圖5所示,由于案情描述文本過長,僅選擇3處進行展示。圖5中案例為尋釁滋事罪,可以看出各屬性對關鍵信息權重更高,在提升性能的同時更好的解釋了模型根據哪些內容進行罪名屬性預測,提高了模型的可解釋性。

為了說明模型在少樣本罪名預測上的準確性,部分研究人員把數據集分為3部分,其中數據集中罪名出現次數小于10次的定義為少樣本罪名,數據集中罪名出現次數大于100次的定義為高頻罪名,中間部分定義為中頻。

由表4可知,所提出的司法判決預測方案在保證中高頻罪名預測效果的前提下,顯著提高了模型在少樣本罪名分類中的有效性,具體表現為保證中高頻罪名預測任務中的F1指標不降低甚至有微弱提升的前提下,顯著提升模型在少樣本罪名預測任務中的F1值。

圖4 模型訓練過程中指標變化趨勢Fig.4 Trend of metrics during model training

表3 3個數據集上各模型的效果對比Table 3 Comparison of the effects of each model on the three datasets

圖5 罪名和屬性標簽的權重分布Fig.5 Distribution of charge and attribute labels

為了說明模型在易混淆罪名預測上的有效性,以常見的4組易混淆罪名為例,進行有效性分析和效果對比,它們分別是盜伐林木罪與濫伐林木罪、行賄罪與受賄罪、放火罪與失火罪、搶奪罪與搶劫罪。表5展示了本文模型與其他模型在易混淆罪名預測下評價指標F1值的比較結果。

為了更好地說明這些工作的有效性,進行了一系列的消融實驗,驗證所提出的AATT模塊、標簽屬性損失權重以及各個罪名分類權重對模型性能的影響。

首先是AATT模塊對司法判決預測結果的影響,表6展示了添加前后的結果,可以看出雖然Acc

表4 低頻罪名預測Table 4 Low-frequency charge prediction

表5 易混淆罪名預測Table 5 Confusing charge prediction

表6 AATT模塊添加前后對比Table 6 Comparison of AATT module added and not added

值僅有微弱的提升,但F1值提高了8.7個百分點,說明本模塊對模型性能有明顯的輔助作用。

其次是罪名屬性標簽損失權重對司法判決預測結果的影響,在多任務模型中損失權重的分配會對模型產生極大的影響,不同的權重分配會導致模型更關注某一個罪名屬性標簽信息,影響模型整體效果。表7顯示了不同的標簽屬性損失權重產生的預測結果,可以看出,在罪名分類權重與罪名屬性標簽權重比例為2∶1時,模型的Acc、F1值更高,效果表現更好。

最后是各個罪名分類的權重對模型性能的影響,由于引入10個罪名屬性標簽,司法判決預測任務模型變為多任務模型,焦點損失函數無法適用。并且司法判決預測任務數據集罪名分布極其不均衡,故添加罪名分類權重并對權重壓縮范圍進行對比實驗得到最優方案。如表8所示。

表7 不同標簽屬性權重對比Table 7 Comparison of different label attributes weights

表8 不同分類權重對比Table 8 Comparison of different classification weights

6 結論

目前的司法判決預測算法存在很多問題,例如模型性能欠佳,過于依賴偽樣本生成或外部法條預測任務,沒有考慮少樣本和易混淆場景下的性能表現或者僅考慮其中一種情況,在可解釋性方面沒有細分等問題。結合BERT和BiGRU深度學習網絡,同時借鑒了罪名屬性標簽的思想,提出BGAAT網絡模型。使用BERT預訓練模型進行文本向量化表示,使用BiGRU網絡進行特征提取并通過訓練更新參數,最后將自注意力機制應用在每一個罪名屬性標簽中并進行分類,通過可視化圖形提高模型可解釋性。本文算法在司法判決預測任務中Acc、F1指標均優于其他算法,并在少樣本罪名預測和易混淆罪名預測場景中均有明顯提升,可視化圖形也有良好的解釋性效果,從而提高模型在司法判決預測任務的效果。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 在线观看av永久| 99在线小视频| 丰满少妇αⅴ无码区| 伊人久久大香线蕉影院| 中文字幕人妻av一区二区| 四虎国产在线观看| 国产午夜福利在线小视频| 成年片色大黄全免费网站久久| 欧美视频在线第一页| 亚洲av日韩av制服丝袜| 国产区精品高清在线观看| 国产又粗又猛又爽视频| 亚洲av无码人妻| 久久精品嫩草研究院| 久久综合伊人 六十路| 好紧太爽了视频免费无码| 午夜福利视频一区| 免费国产高清视频| 狠狠干综合| 国产91小视频在线观看| 国产久操视频| 呦视频在线一区二区三区| 毛片基地视频| 国产精品亚洲一区二区三区在线观看| 久久永久精品免费视频| 女人18毛片一级毛片在线 | 四虎永久在线精品国产免费 | 国产免费看久久久| 日韩天堂视频| AV不卡在线永久免费观看 | 欧美a在线| 亚洲午夜久久久精品电影院| 性网站在线观看| 国产Av无码精品色午夜| 超级碰免费视频91| 毛片一级在线| 一本色道久久88综合日韩精品| 国产精品三区四区| 久久鸭综合久久国产| 一级福利视频| 香蕉视频国产精品人| 免费看一级毛片波多结衣| 日本高清成本人视频一区| 久久午夜夜伦鲁鲁片不卡| 国产精品va| 日日碰狠狠添天天爽| 国产美女丝袜高潮| 国产福利在线免费观看| 亚洲精品另类| 欧美一级高清片久久99| 国产拍揄自揄精品视频网站| 亚洲中文无码h在线观看| 在线免费观看a视频| a欧美在线| 超碰色了色| 亚洲精品欧美日韩在线| 国产91av在线| 国产门事件在线| 日本国产在线| 国产夜色视频| 成人蜜桃网| 波多野结衣一区二区三区AV| 中文一级毛片| 国产91丝袜| 亚洲综合精品香蕉久久网| 无码在线激情片| 亚洲女人在线| 久久精品中文字幕少妇| 久久99精品久久久大学生| 无码中文AⅤ在线观看| 久久人人97超碰人人澡爱香蕉| 毛片免费在线| 永久免费精品视频| 免费看av在线网站网址| 亚洲一级无毛片无码在线免费视频| 色婷婷狠狠干| 色婷婷在线影院| 亚洲视频一区在线| 国产亚洲日韩av在线| 亚洲乱码在线播放| 国产超碰一区二区三区| 久久亚洲黄色视频|