999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖注意力網絡的案件罪名預測方法:CP-GAT

2021-12-20 13:36:10趙琪琿李大鵬高天寒聞英友
東北大學學報(自然科學版) 2021年12期
關鍵詞:案例文本方法

趙琪琿, 李大鵬, 高天寒, 聞英友

(1. 東北大學 軟件學院, 遼寧 沈陽 110169; 2. 東北大學 計算機科學與工程學院, 遼寧 沈陽 110169; 3. 東北大學 計算機科學與工程學院/東軟研究院, 遼寧 沈陽 110169)

近年來,人工智能技術的穩健發展使得自然語言處理、計算機視覺、語音識別等領域都取得了顯著的進步.在法律智能[1]這個新興的研究領域中,自然語言作為法律的載體,有著形式豐富的文本數據,所以面向自然語言處理的法律智能各項任務都得到了長足的發展,如智能案例檢索、法律判決預測、法律風險提示、法律智能問答等.這些任務可以極大簡化法律工作者的工作,并且可以給與非法律工作人員專業的法律建議.其中法律判決預測作為重要的一項子任務,以其自身的實用性以及對于法律從業人員的參考性,得到了學術界的極大關注.法律判決預測(legal judgment prediction, LJP)包含三個子任務:罪名預測、刑期預測和法條預測.罪名預測任務的目的是通過給定的一段司法文本(一般為案情描述)來自動判定所屬罪名.這一任務是法律人工智能中重要的一項子任務,它能夠給與法官等法律從業人員輔助參考意見,極大簡化了他們的工作量,有著重要的實用價值.

過去幾年,學術界一直把案件罪名預測這一任務等同于文本分類任務去處理.文本分類是自然語言處理領域的經典且重要的任務[2].文本分類任務通??梢苑譃?類.第一類是基于數學和定量分析方法[3-4],都是基于少量數據和少量標簽的數據集.第二類是基于人工構建特征工程的方式,再通過傳統機器學習算法去做預測. Liu等[5]在K最近鄰算法(K-nearest neighbors,KNN)中使用了詞和段落級別的特征去預測罪名.Liu等[6]的方法是首先使用支持向量機(SVM)去做第一次分類,然后再利用文本數據的詞級別特征和詞共現頻率做重新排序,得到罪名分類結果.Katz等[7]利用了案例配置信息如:地點、時間等,作為罪名預測的特征信息.但是這類方法是通過人工提取淺層特征,不僅需要法律專業人員提供幫助,而且還不足以完全提取法律文書的不同層次的語義特征.第三類是利用深度神經網絡模型來預測罪名.近期隨著基于深度學習的語言模型的發展,越來越多的法律相關工作應用了神經網絡模型作為法律文本數據的特征提取器.Luo等[8]在使用注意力的神經網絡中融入了法條信息.Jiang等[9]提出了一種基于神經網絡與強化學習相結合的方法解決了罪名預測任務以及其中的可解釋性問題.Long等[10]開創性地把罪名預測任務從普遍的文本分類任務轉化成了文本閱讀理解任務,取得了良好的效果.Zhong等[11]基于有向無環圖(directed acyclic graph,DAG)定義子任務之間的拓撲性的依賴關系這個理論,創建了罪名預測系統.Duan等[12]融合了外部知識從而對罪名預測模型進行了加強.

案件罪名預測任務目前有兩個待解決的問題:一是如何應對具有長尾效應的數據集,也就是如何保證模型能夠盡可能從只有少量樣本的數據中學習到更多的信息;二是罪名混淆問題,其根本原因就是不同罪名所依賴的法條可能在語義上存在很大的相似性,例如在危險駕駛罪和交通肇事罪中,就包含大量重疊的詞匯描述.

為了解決上述問題,本文受文獻[13-14]工作的啟發,提出了一種基于圖注意力網絡(graph attention network, GAT)的罪名預測模型,名為CP-GAT(charge prediction based on graph attention network).本文使用CAIL2018[15]數據集中的法律文書即裁判文書作為構建圖數據集的基礎.所構建的圖結構包含兩種節點:文書節點、詞節點及兩種邊:詞節點之間的邊、詞節點與文書節點之間的邊.本文提出的方法首先將數據集中關于案情描述部分的文本數據和案例對應的法條文本數據做分詞,然后把去重后的詞與每個文書作為圖的節點.詞節點間的邊權值是通過計算詞共現矩陣從而得到的,文書詞節點間的邊權值是通過計算TF-IDF(term frequency-inverse document frequency)[16]得到的.通過上述流程得到可以用于輸入到圖注意力網絡的數據,最后通過GAT模型提取到圖節點的特征信息,進而把基于司法文書的罪名預測問題轉化為圖節點的分類問題.本文提出的方法在CAIL2018這個數據集上進行罪名預測任務的表現好于對比實驗所用的模型,并且在選取數據集中長尾數據作為訓練數據的情況下,依然取得了遠高于實驗對比模型的預測效果,進一步證明了本文方法行之有效.

1 構建基于GAT的罪名預測方法

本文提出的罪名預測方法(CP-GAT)的整體結構如圖1所示,共包含三層結構,第一層是圖結構構建層,這一層的主要工作是通過數據預處理手段把案例文書(包括案例對應的事實描述,法條信息)數據轉換成對應的圖數據,其中把法條也加入到圖數據的構建中,這也是融合法條知識的一種手段,可以提高模型本身的性能;第二層是基于圖注意力網絡的特征提取層,在這一層中使用了圖注意力網絡對節點進行特征提取;第三層是罪名預測層,本文使用了softmax分類器對罪名做出預測.

圖1 CP-GAT的整體架構圖

1.1 面向司法文書的圖結構數據構建

本文所使用異質圖結構的數據是基于CAIL2018數據集中的案例以及案例中包含的事實描述(fact)與對應法條(relevant law article)所構建成.異質圖包含多種類型的節點或者關系,每個節點屬于一個特定的對象類型,每條關系屬于一個特定的關系類型,這樣的圖被稱作異質圖,真實世界中的圖大部分都可以被自然地建模為異質圖,所以目前基于異質圖的研究如火如荼.本文所構建的圖數據中包含兩種節點:詞節點、案例節點,兩種邊:詞-詞、詞-案例.圖數據的可視化樣例如圖2所示,包含兩種節點,例如:王某是詞節點,A185是案例節點,代表第185篇案例文書.

圖2 基于裁判文書構建的圖樣例

本文構建后的圖數據的節點數量為案例個數與文本數據(案例中的事實描述與法條)中不重復詞個數的總和.圖中的邊計算方式分為兩種,如下所示:

(1)

其中:Sij代表節點i與節點j間的邊權值.詞-案例類型的邊權值是通過計算TF-IDF(term frequency-inverse document frequency)詞頻-逆文檔頻率值得到的.其中:TF是詞頻,其含義是單詞出現在文檔中的次數;IDF是逆文檔頻率,其含義是衡量詞語在文檔中的普遍重要性.某一特定詞語的逆文檔頻率是由總文檔數目除以包含該詞語的文檔數目,再將得到的商取以10為底的對數得到的.為了得到更好的實驗效果,本文方法使用固定大小的滑動窗口來計算TF-IDF值.第二種類型的邊是詞-詞類型的邊,通常這種類型的邊權值都是計算詞之間的相似度,本文采用計算詞語與詞語的PMI(point-wise mutual information)點分互信息的值來給詞-詞邊賦權值:

(2)

其中:NW(i)是在語料集上包含詞語i的滑動窗口個數;NW(i,j) 是包含詞語i和詞語j的滑動窗口個數;NW 是整體滑動窗口的個數.PMI是一種計算詞關聯度的方式,其值的大小代表兩個詞之間的關系是否緊密.PMI的基本思想是統計兩個詞語在文本中同時出現的概率,概率越大,其相關性就越緊密,關聯度越高.

本文方法所構建的圖結構數據,便于在全局的層面上對共現信息進行建模,也可以更好地應用圖注意力網絡對圖中節點進行特征提取.

1.2 基于GAT的特征提取層

本文在圖節點的特征提取部分,使用了圖注意力網絡(GAT)對整個圖結構進行建模,從而獲取網絡中的案例節點對應的特征表達.

卷積神經網絡(CNN)、循環神經網絡(RNN)無法將非歐氏空間上的數據作為網絡的輸入,因為非歐氏空間上的數據是無法保證平移不變性的.圖神經網絡(graph neural networks,GNN)的出現解決了非歐式空間數據的處理問題.Kipf等[17]提出一種圖卷積網絡(graph convolutional network,GCN),該網絡是直接作用在圖數據上的,并且可以通過節點的鄰居信息來得到自身節點的特征向量,圖卷積網絡屬于頻域方法,該網絡的思想是利用圖的拉普拉斯矩陣的特征值和特征向量來研究圖的性質.門控圖神經網絡(gated graph neural network,GGNN)[18]主要是解決過深層的圖神經網絡導致過度平滑的問題,使用門控循環單元(gated recurrent unit, GRU)更新節點狀態.

本文采用圖注意力網絡對整個圖進行建模,GAT模型在GCN的基礎上進行了改進,結合了 Attention 機制,Attention機制可以為不同節點分配不同權重,在訓練時依賴于成對的相鄰節點,而不依賴具體的網絡結構.CAT假設圖中包含N個節點,則輸入網絡的節點向量記作:h={h1,h2,…,hN},hi∈F,圖注意力網絡的輸出向量記作:F.本文方法所使用的模型在計算節點間的信息聚合時引入了自注意力機制(self-attention),對應的計算公式為

eij=a(Whi,Whj) .

(3)

其中eij表示節點j對于節點i的重要性,并且節點i必須是節點j的一階鄰居,在計算節點間的注意力得分時則使用了masked attention來實現上述對于鄰居節點必須為一階鄰居的假設要求.計算節點間注意力分值的過程如圖3所示.

圖3中hi是需要計算注意力分值的節點特征向量,此處假設節點i有4個一階鄰居節點,即:hj1,hj2,hj3,hj4,為4個一階鄰居節點對應的特征向量.aij1,aij2,aij3,aij4為經過注意力機制計算后對應的分值.

計算注意力分值的公式如下:

αij=softmaxj(eij) .

(4)

圖3 計算節點間注意力分值的過程圖

本文中用到的注意力機制是通過單層前饋神經網絡來實現的,其中激活函數使用LeakyReLU函數,進而計算注意力分值的公式可以擴展為

(5)

其中:βT是前饋神經網絡的可訓練參數;W是可訓練的參數.GAT中還加入了多頭注意力機制,經過K頭注意力機制計算后的特征向量進行拼接后,對應的輸出特征向量表達如下:

(6)

(7)

1.3 輸出層

在輸出層,本文采用softmax分類器,將經過GAT模型計算后的向量記作H,并輸入到分類器中,對應的公式如下:

O=softmax(H) .

(8)

本文在模型訓練階段,采用交叉熵損失函數作為本方法的損失函數,公式如下:

(9)

其中:γD為帶標簽的文書索引集合;Y是輸出特征的維度,為實驗使用數據集中包含的罪名類別的總個數.

2 實驗結果分析

2.1 數據集

為了驗證本文提出方法的有效性,本文使用CAIL2018法律數據集中的CAIL-big數據集,該數據集中的每個案例都包含案例事實描述,對應法條,對應罪名以及刑期.在數據集的前期處理工作中,本文首先過濾出小于10個詞的樣本,然后篩選出單罪名的樣本,最后把處理后的數據再分為兩部分,分別是CAIL-N(訓練集數量為1 001 185)和CAIL-S(訓練集數量為80 000),其中CAIL-N數據集包含更多的案例、法條以及罪名數量,相較于CAIL-N,CAIL-S數據集規模較小.表1展示了所用數據集的詳細信息.

表1 實驗數據集統計信息

2.2 實驗評價標準

本文使用準確率、精確率、召回率、宏平均F1值作為方法的實驗評價標準.

2.3 實驗對比模型

本文在實驗中使用了以下對比模型:

TFIDF+SVM:該方法使用了TF-IDF為文本構建特征信息,然后使用SVM[19]作為分類器.

CNN[20]:該方法使用了多種過濾器的CNN來提取文本特征信息,最后使用softmax作為分類器.

RCNN[21]:方法靈活地結合RNN和CNN構造了新的模型,利用了兩種模型的優點,提升了文本分類的性能.

HARNN[22]:該方法使用了層次化注意力機制的RNN作為文本特征提取器,也使用softmax作為分類器.

FLA[8]:該模型在文本特征提取器中利用注意力機制融入了案例對應的法條信息,進一步提升了罪名預測效果.

TOPJUDGE[23]:該方法框架是通過使用有向無環圖結構來捕捉LPJ子任務之間的拓撲依賴關系的拓撲多任務框架.

GCN:該方法創新性提出了可用于節點分類等任務的圖卷積網絡,取得了良好的效果.

2.4 實驗參數設置

本文使用THULAC[24]作為中文分詞工具,THULAC是目前針對中文分詞效果優秀并且運行速度很快的工具包.對于基于CNN的對比模型,設置了文本的最大長度為512個詞,過濾器個數設置為256,針對多窗口CNN模型,分別設置了2,3,4,5的滑動窗口長度.對于基于RNN的對比模型,設置了單句最大長度為64,單個文本數據包含最大的句子個數為64.本文使用的詞向量維度設置為200維,使用skipgram[25]方法訓練詞向量.

本文提出的CP-GAT方法所使用的實驗參數,則是選取了實驗中最優結果的參數,在圖注意力網絡中,首先是采用了3層圖注意力網絡,節點向量維度設置為200維,窗口大小設置為25.在計算注意力分值時,僅計算節點的一階鄰居,在每一層都采用了6頭注意力機制來產生節點的輸出.實驗設置最大輪數為100輪,并且使用Adam(adaptive moment estimation)[25]作為模型訓練的優化器,其學習率設置為0.02, Dropout為0.5,L2損失權重設置為0.001.

2.5 實驗結果分析

從表2,表3中可得到,本文提出的方法在所有對比指標上都好于對比模型.基于卷積神經網絡和基于循環神經網絡的方法在對比指標上都要好于傳統機器學習模型SVM.而在文本特征信息的提取效果上基于RNN的方法也要好于基于CNN的方法.而TOPJUDGE本質也是基于CNN的框架,只是將多個任務進行了一定程度的關聯,從而達到了很好的效果.基于圖神經網絡的方法在對比指標上全面領先于深度學習和傳統機器學習方法,尤其是在宏觀F1值這個指標上表現要優秀很多,而宏觀F1值在一定程度上也驗證了對易混淆罪名的處理能力,本文提出的方法在這個指標上也達到了最優效果,進一步證明了本文模型處理易混淆罪名的有效性.

表2 基于CAIL-N數據集的罪名預測結果

本文也進行了有關模型結構的消融實驗,實驗結果如表4所示.實驗中控制的模型結構變量包括:圖卷積層的層數,使用的多頭注意力機制的頭數.在本文進行的消融實驗中,選取了1,2,3,4層不同層數的圖卷積結構,4,6,8頭的多頭注意力機制.從表4中可以看到,當模型采用的層數為3,注意力機制頭數為6時,取得了最優效果.

表3 基于CAIL-S數據集的罪名預測結果

表4 消融實驗——采用不同層數及注意力頭數的 CP-GAT預測結果(CAIL-N)

而由于本文實驗用到的數據集是不平衡的數據集,部分罪名樣本數量很少,為了進一步驗證基于圖神經的方法在處理小樣本數據方面的優勢,將數據集中的罪名按照數量進行了分類統計,分別為數量小于10(罪名個數為49),數量在10到100之間(罪名個數為51),數量大于100(罪名個數為49).實驗的對比模型使用了深度學習模型中表現較好的HARNN和基于圖神經網絡的兩個方法,實驗結果如表5所示.

由表5可以得到,基于圖神經網絡的方法處理小樣本數據的能力要強于本文選用的基于RNN的對比模型,而本文提出的方法在F1值這個指標上是領先于所有對比模型的,尤其是在樣本數量小于10的罪名樣本的罪名預測上.以上實驗表明,本文提出的方法在小樣本罪名預測任務上同樣具有很高的有效性.

表5 分類數據集的罪名預測的宏觀F1值

本文提出的罪名預測方法CP-GAT效果能夠領先于其他對比模型,主要原因在于圖注意力網絡對于圖結構數據的強大建模能力,圖注意力網絡本身是基于GCN的基礎上引入attention思想去計算每個節點的鄰居節點對它的權重,從而實現從局部信息去獲取到整個網絡整體信息,同時通過堆疊隱藏的自注意層能夠獲取臨近節點的有用特征,不僅避免大量矩陣運算,而且可以更加精確獲得節點的特征信息.并且CP-GAT也融合了法條信息,法條信息中包含了大量模型可以用到的知識,進一步提升了罪名預測效果.

3 結 語

本文基于圖注意力網絡提出了一種新的罪名預測方法(CP-GAT),該方法首先通過文本數據構建異質圖數據,然后在異質圖上使用圖注意力網絡進行圖節點特征學習,得到用于預測罪名的案例節點特征向量,最后通過分類層得到案例所屬罪名.通過實驗驗證,CP-GAT在所有對比指標上都要好于其他對比方法,并且在處理小樣本數據上也具有很高的有效性.

以后的研究工作:1)通過改進圖神經網絡結構更好地提高小樣本數據的預測效果;2)更好地結合外部知識以提高罪名預測任務的效果,并使罪名預測任務具有可解釋性.

猜你喜歡
案例文本方法
案例4 奔跑吧,少年!
少先隊活動(2021年2期)2021-03-29 05:40:48
在808DA上文本顯示的改善
隨機變量分布及統計案例拔高卷
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
發生在你我身邊的那些治超案例
中國公路(2017年7期)2017-07-24 13:56:38
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一個模擬案例引發的多重思考
中國衛生(2015年4期)2015-11-08 11:16:06
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲69视频| 亚洲欧美国产视频| 女人av社区男人的天堂| 18黑白丝水手服自慰喷水网站| 婷婷色在线视频| 亚洲香蕉伊综合在人在线| 亚洲精品大秀视频| 久久精品无码一区二区国产区| 97一区二区在线播放| 亚洲色图综合在线| 午夜福利在线观看成人| 黄色三级毛片网站| 亚洲乱强伦| 亚洲国产成人精品无码区性色| 成人免费一级片| 天天婬欲婬香婬色婬视频播放| 婷婷五月在线| 制服丝袜国产精品| 五月婷婷综合在线视频| 在线亚洲小视频| 首页亚洲国产丝袜长腿综合| 伊人久久综在合线亚洲2019| 国精品91人妻无码一区二区三区| 亚洲娇小与黑人巨大交| 天天色天天综合网| 99视频精品全国免费品| 欧美一级特黄aaaaaa在线看片| 97国产精品视频自在拍| 国产高清不卡| 欧美激情第一欧美在线| 蜜芽一区二区国产精品| 亚洲精品无码不卡在线播放| 无码免费试看| 欧美日本视频在线观看| 在线看片中文字幕| 美女无遮挡免费网站| 欧美色伊人| 狠狠做深爱婷婷久久一区| 国产成人永久免费视频| 激情爆乳一区二区| 中文字幕亚洲另类天堂| 久久夜色精品国产嚕嚕亚洲av| 亚洲最黄视频| 波多野一区| 国产三级国产精品国产普男人| 免费无码AV片在线观看中文| 国产91视频免费| 亚洲国产无码有码| 亚洲AV一二三区无码AV蜜桃| 亚洲精品高清视频| 免费看美女自慰的网站| 青青草原国产一区二区| 黄色网页在线播放| 视频二区国产精品职场同事| 女人毛片a级大学毛片免费| 亚洲精品无码AⅤ片青青在线观看| 免费亚洲成人| 19国产精品麻豆免费观看| 少妇人妻无码首页| 成人无码一区二区三区视频在线观看 | 亚洲天堂成人在线观看| 国产日韩欧美视频| 亚洲国产中文精品va在线播放| 一级毛片在线播放免费观看| 四虎影视无码永久免费观看| 国产成人精品免费视频大全五级| 亚洲AV电影不卡在线观看| 精品国产三级在线观看| 午夜成人在线视频| 欧美色图第一页| 久久免费精品琪琪| 天天摸夜夜操| 好紧好深好大乳无码中文字幕| 亚洲AV一二三区无码AV蜜桃| 99久久精品无码专区免费| 亚洲AV一二三区无码AV蜜桃| 少妇被粗大的猛烈进出免费视频| 大香伊人久久| 国产一区二区三区在线精品专区| 亚洲最大综合网| 免费黄色国产视频| 日日拍夜夜操|