999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

聯合多源分析的罪名預測研究

2023-02-28 09:20:18毛國慶林鴻飛
計算機工程與應用 2023年4期
關鍵詞:文本實驗模型

彭 韜,楊 亮,張 琍,毛國慶,林鴻飛,任 璐

1.大連理工大學 計算機科學與技術學院,遼寧 大連 116024

2.北京計算機技術及應用研究所,北京 100854

3.北京國雙科技有限公司,北京 100083

隨著人工智能的發展和司法信息化體系的構建,運用人工智能解決司法領域的需求成為近年來自然語言處理領域的研究熱點。一系列人工智能在法律行業的應用被提出,例如法律判決預測、法律檢索、法律文件生成等應用場景[1-3],這些法律人工智能應用與云平臺和人機對話等技術結合,催生出在線法律服務、法律智能客服等新的法律電商平臺LegalZoom、法信等,正逐步改變現在的法律服務市場。法律人工智能一方面可以為司法工作者提供輔助服務,如法律文書的整理分析和生成,簡化司法人員的工作流程,另一方面為廣大人民群眾提供便捷、廉價的法律咨詢服務,促進法律咨詢行業標準化、透明化發展。人工智能在未來數十年間將會引起法律行業的一場大變革。

法律判決預測一般包括多類子任務:罪名預測、法條預測和刑期預測等[4]。本文主要關注于罪名預測任務,該任務是基于刑事法律文書中的案情描述和事實部分,預測被告人被判的罪名[5]。因為司法實踐中存在被告犯有多個罪名的情形,所以罪名預測一般是多標簽文本分類問題[6-7]。現有的罪名預測研究中使用的刑事法律文書數據集基本來源于裁判文書,裁判文書記錄了當事人的訴辯主張、認定事實及說理部分和主文裁判結果部分[8]。裁判文書主要是司法人員在案件審理完成后整理撰寫出來的書面性文本,精煉客觀地描述了案件的經過,是提取案件描述內容的優質數據來源。但是,裁判文書側重于對客觀事實的描述(如司法鑒定結果)以及法院推定的案件邏輯,文書中往往省略了案發時雙方的主觀動機以及案件細節等因素,而這些因素往往在司法案件中難以確定,且對案件的判決結果起關鍵指導作用。為了進一步補充和豐富裁判文書中的細節,本文收集了部分裁判文書對應的庭審文書,結合裁判文書和庭審文書進行罪名預測。

針對目前罪名預測數據集依賴于裁判文書,但裁判文書對案件細節記錄不夠詳實的問題,本文構建了一個裁判文書和庭審文書一一對應的多源聯合分析數據集,并實現了罪名預測的部分深度學習模型探究單一文書對預測結果的影響。最后通過兩種文書聯合分析的實驗結果,驗證了庭審文書確實能補充裁判文書中缺乏的案件細節,增強模型罪名預測的準確性。

1 相關研究

法律判決預測任務起源于20 世紀六七十年代,受限于當時的研究手段,主要以統計方法結合司法知識,從文書法條表示、推理決策等角度構建系統化的判決預測模型[9-11]。基于數學模型和法律規則的這些方法的可解釋性較好,但是模型的預測效果卻不甚理想,法律判決任務還有較大的提升空間。

隨著司法信息化和人工智能的發展,研究者逐漸開始利用機器學習算法處理法律判決預測問題,主要思路是手動構造與提取案情描述的文本特征進行文本分類。Liu 等[12]收集了12 類罪名的刑事訴訟文檔,從這些文檔中提取重要的法律信息構建案件實例,然后通過k近鄰(k-nearest neighbors,KNN)算法合并相似的案例,提取每一類案由的淺層文本特征作為依據,用以對訴訟文書進行判決預測。Sulea 等[13]通過提取犯罪事件、犯罪事實和法律依據等特征構建支持向量機(support vector machine,SVM)分類模型,在所構建的法國最高法院司法文書數據集上取得了不錯的實驗結果。Lin等[14]將研究重點放在“強盜罪”和“恐嚇取財罪”兩類罪名的區分上,通過定義21種法律要素標簽,采用條件隨機場(conditional random field,CRF)模型自動化標記文書中涉及的法律要素,將這些手動構造的特征輸入廣義加性模型進行分類。基于機器學習方法的法律判決預測主要有兩方面局限性:一方面依賴于手動提取文本特征,這往往需要先驗的領域知識為指導且操作較為繁瑣;另一方面受限于較小的數據規模和有限的案件類別,這些機器學習模型往往只能在部分罪名案件類別實現較好的結果,當遷移到其他罪名的案件時,由于不同罪名的案件要素不同,機器學習模型的效果不甚理想,泛化性能較差。

深度學習技術的興起不僅推動了許多自然語言處理應用的落地,也為法律判決預測提供了新的思路與解決方案。由于深度學習規模對數據的需求量較大,許多大規模的高質量司法文書數據集發布。以中國大數據司法研究院在2018年“法研杯”法律智能挑戰賽發布的CAIL2018司法數據集[7]影響力最大,其中包含了268萬份刑法法律文書,共涉及183 項罪名,極大地促進了深度學習算法在司法領域的落地與應用。一系列文本分類算法率先被遷移到法律判決任務中,循環神經網絡(recurrent neural network,RNN)[15]因其優秀的序列建模能力被用于對文本上下文建模。為了進一步增強RNN的長文本雙向建模能力,長短期記憶網絡(long shortterm memory,LSTM)[16]作為RNN的變種在文本分類問題中性能進一步加強。卷積神經網絡(convolutional neural network,CNN)因其易并行性和捕捉局部特征的能力,首先被大規模用在計算機視覺領域。隨著TextCNN[17]模型的提出,CNN才開始逐步被用于文本分類任務中。TextCNN 模型利用多個不同大小的卷積核捕捉文本上下文中的n-gram 特征,通過池化層提取全局信息中的差異化部分實現文本建模。深度金字塔卷積神經網絡(deep pyramid CNN,DPCNN)[18]為提升CNN提取深層特征的能力,采用了殘差連接和步長為2的池化層,使得多層CNN 模型的收斂性能和算法復雜度都得到了保證。DPCNN模型如圖1所示。Wang等[19]將CNN與LSTM模型相結合,提出了CRNN(convolutional recurrent neural network)模型用于文本分類。

圖1 深度金字塔卷積神經網絡Fig.1 Deep pyramid convolutional neural network

許多研究人員對罪名預測任務也研發了許多特定的深度學習模型。Jiang等[20]2018年在ACL會議上提出了一種基于深度強化學習的罪名預測模型,該模型可以提取案件描述中的關鍵性要素,模型的可解釋性和實驗性能都獲得了較好的實驗結果。Xu等[21]針對易混淆罪名的語義相似導致錯誤分類的問題,使用了圖蒸餾算子計算相似罪名之間的差異化信息,再通過注意力機制[22]提取這些差異化信息,提高了CAIL2018 數據集上罪名預測任務的準確率。以上工作主要是基于單一的裁判文書進行,但裁判文書只對案件進行了概括性描述,內容不夠全面詳實。

2 多源聯合分析數據集構建

2.1 多源數據集構建

為了進一步擴充數據來源,本文選擇司法信息化程度較高的上海市,從上海法院網的網絡直播板塊(http://shfy.chinacourt.gov.cn/chat/more/state/4/page/1.shtml)中收集了上海市地區的高質量庭審對話文本,包含了上海市14個區人民法院以及上海市第一、第二、鐵路運輸中級人民法院的4 863 個案件,時間跨度從2010 年3 月至2020 年8 月。本文依據庭審文書的時間、法院名、罪名等要素,在中國裁判文書網(https://wenshu.court.gov.cn/)上檢索對應的裁判文書,將庭審文書與裁判文書一一對應,總計獲得2 647個相互匹配的案件文書,其中包含刑事案件1 743個,民事案件820個,以及行政案件84個。刑事案件案由占比如圖2所示。

圖2 刑事案件案由分布Fig.2 Distribution of criminal cases

本文主要研究罪名預測任務。鑒于民事案件主要是關于民事權利、義務性質的糾紛,不涉及罪名判決,因此只選擇刑事案件數據展開后續研究。

2.2 數據篩選與標注

由于多人多節案件涉及的作案主體比較復雜,本文參考CAIL2018 數據集的形式,進一步篩選了單人犯罪案件1 426起,針對這些案件,結合裁判文書與庭審文書一一標注其罪名。因為數據規模比較有限,本文標注完成后發現所有案件均只涉及單一罪名,不存在數罪并罰的情況,所以本文的罪名預測任務為單標簽分類任務,不同于CAIL2018中的多標簽分類。

本文運用正則表達式進一步去除裁判文書和庭審文書中出現的罪名,并考慮到法律條文與罪名之間可能有較強的關聯關系,因此本文也進一步去除了所有正則匹配成功的法律條文信息,從而本數據集中裁判文書和庭審文書中所有罪名均用“###”符號替代,所有法律條文均用“$$$”符號替代。對標注后的1 426 條數據統計分析后,發現數據集分布極不均衡,部分罪名(例如非法狩獵、偷越國邊境等)出現頻次極低,不超過5 次,對后續劃分數據集和模型預測都會造成較大困難。為更好地驗證多源聯合分析數據集的有效性,將罪名出現頻次30次以下的數據全部篩去,最終保留了1 104條數據,其中涉及了8類罪名,各類罪名對應的數據規模如表1所示。

表1 刑事案件罪名分布Table 1 Distribution of crimes in criminal cases

2.3 多源數據分析

本文針對裁判文書和庭審文書進行了一些初步的統計分析,統計分析結果如表2 所示,其中詞表大小為采用jieba分詞工具的精確模式分詞后統計得出。從統計數據中不難分析得出,庭審文書的文本長度普遍長于裁判文書,且平均文本長度相差了7.8倍,從詞表大小亦可觀察出庭審文書的詞匯更加豐富,可能與庭審文書中較多的口語化表達有關。

表2 裁判文書與庭審文書文本特征統計值Table 2 Statistical values of text characteristics of judgment documents and court documents

為進一步分析兩類文書的區別,本文選取了一個故意傷害案件作為樣例,由于文本長度過長,只節選了部分內容,裁判文書全文和庭審文書全文鏈接已給出。示例如圖3所示。

圖3 裁判文書與庭審文書示例Fig.3 Examples of judgment document and court document

庭審文書主要由審判員、公訴人、被告人、辯護人等的對話內容組成,依據司法機關提供的各項證據,公訴人對被告人提出對案件關鍵細節的質詢,而被告人和辯護人為自己的動機和行為等進行辯護,審判員則通過雙方提供的信息挖掘案件事實進行司法判決。從圖3 中裁判文書與庭審文書的對比可以看出,裁判文書對案件的概述較為精煉簡潔,而庭審文書對案件動機、案發過程、案后處理等多個角度進行了補充,一方面為司法人員的審判提供了細節,另一方面庭審文書為實現基于庭審過程的法律判決人工智能系統提供了新的可能。

3 模型訓練與結果分布

為了驗證本文構建的多源聯合分析罪名預測數據集的效果,在該數據集上進行了大量的實驗及分析。

3.1 實驗設置

數據集劃分:本文在上一節構造的數據集的基礎上按照每一類罪名85%、5%、15%的比例劃分了訓練集、驗證集、測試集,數據規模如表3所示。

表3 數據集分布Table 3 Dataset distribution

評價指標:本文采用的評價指標參考CAIL2018 評測中罪名預測的評價指標[23],假定數據集中共有M類罪名,對每一類罪名i,計算得出TPi(真陽性)、TNi(真陰性)、FPi(假陽性)、FNi(假陰性)。宏平均指標計算公式如下:

微平均指標計算公式如下:

3.2 基線模型

本文主要實現了基于機器學習和深度學習的基線模型。

3.2.1 基于機器學習的模型

機器學習方法主要采取了數據預處理、特征工程和模型選擇三個步驟。數據預處理主要包括分詞、去除停用詞等步驟。特征工程主要提取句子中的一元分詞(unigram)和二元分詞(bigram)的詞頻逆文檔頻率(TFIDF)。模型選擇部分本文選擇了以下四個機器學習算法:

(1)支持向量機(SVM)[24]

(2)基于高斯分布先驗的樸素貝葉斯(Gaussian naive Bayes,GNB)[25]

(3)梯度提升樹(gradient boosting decision tree,GBDT)[26]

(4)隨機森林(random forest classifier,RFC)[27]

3.2.2 基于深度學習的模型

LSTM[16]:先用一個雙向LSTM 得到句子的上下文表示,然后通過兩層LSTM提取高層語義特征,取序列尾部的隱層向量送入分類器分類。

TextCNN[17]:使用大小分別為2、3、4、5 的一維卷積核建模文本的局部特征,再通過最大池化層提取特征,拼接不同卷積核的特征后送入分類器分類。

DPCNN[18]:如圖1所示。

CRNN[19]:用CNN提取局部特征后,通過兩層LSTM提取序列特征,取序列尾部的隱層向量送入分類器分類。

3.2.3 超參數設置

本文采用基于百度百科預訓練的中文300 維詞向量[28],學習率為0.000 3,訓練最大輪次為50 輪,dropout值為0.5。LSTM的隱藏層維度為256,由于裁判文書和庭審文書的長度不同,LSTM 針對兩類文本的最大序列長度分別設置為300 和2 000。CNN 的輸出通道數為250。

3.3 實驗結果

綜合分析表4實驗結果,可以得出一些結論:(1)基于深度學習的模型效果遠高于機器學習的方法,說明在判決預測任務上深度學習方法確實提取特征的能力更強。(2)機器學習方法中,梯度提升樹算法的效果遠優于其他機器學習算法,但與深度學習算法的表現尚有一段差距。(3)深度學習算法中卷積神經網絡類算法的整體表現優于循環神經網絡的表現,其中TextCNN模型表現最佳,說明裁判文書中的局部特征對于罪名預測任務有重要價值。

表4 裁判文書罪名預測分類實驗結果Table 4 Experimental results of charge prediction classification of judgment documents

結合表4 與表5 的實驗結果,可以得出一些新的結論:(1)庭審文書的實驗結果與裁判文書對比可發現,整體上實驗結果遜色于裁判文書的結果。這可能由兩部分原因構成,一是庭審文書的文本長度較長,且表達過于口語化,這對于模型的文本建模能力提出了巨大挑戰,二是庭審文書中部分數據記錄并不十分詳細,只記錄了一些司法審判的程序性對話內容,不包含案件的細節性信息。(2)LSTM 模型和CRNN 模型在裁判文書上效果較好,但是在庭審文書上模型效果崩潰。這可能是由于庭審文書文本長度過長,循環神經網絡在時間步上進行反向梯度傳播時會導致梯度消失,從而導致模型參數無法得到有效訓練。(3)Text-CNN 模型和DPCNN 模型依然表現最為良好,說明卷積神經網絡較適用于長文本的建模,也表明了庭審文書在一定程度上也可以作為罪名預測的原始文本,盡管其效果遜色于裁判文書,但是庭審文書不需要專業的司法人員撰寫,獲取成本較低,可作為切入罪名預測任務的另一角度。

表5 庭審文書罪名預測分類實驗結果Table 5 Experimental results of charge prediction classification of court documents

為研究裁判文書和庭審文書的互補性,本文進一步結合兩類文本進行罪名預測研究。對于機器學習模型,本文將兩個文本拼接起來輸入到機器學習模型中。對于深度學習,鑒于循環神經網絡在長文本中的不佳表現,且其訓練時間較長,因此未進行相關實驗。而Text-CNN 和DPCNN 模型,則分別建模兩個文書后,拼接其隱藏層向量再送入分類器分類。實驗結果如表6所示。

表6 裁判文書結合庭審文書罪名預測分類實驗結果Table 6 Experimental results of charge prediction classification of judgement documents combining court documents

從表6 實驗結果可看出:(1)SVM、GNB 和RFC 模型效果相較于單一的庭審文書的結果略有上升,但是較單一的裁判文書的結果相差較遠。這可能是兩類文本拼接會導致“噪聲”,“噪聲”對模型的影響占主導作用。(2)對于GBDT、TextCNN和DPCNN這些文本建模能力較強的模型,兩類文本聯合分析的實驗結果優于任一單一文本的實驗結果。說明庭審文書確實在一定程度上豐富了裁判文書的信息,兩者具有一定的互補關系,也側面驗證了GBDT、TextCNN和DPCNN模型的魯棒性,能夠消除兩類文本中的“噪聲”因素,提取有效的司法語義信息。

3.4 消融實驗

為研究不同領域的預訓練詞向量對模型的影響,本文采用Li等人[26]在百度百科、人民日報和微博等語料上預訓練的詞向量,分別評估對實驗結果的影響。實驗結果如圖4所示。

圖4 詞向量對模型的影響Fig.4 Influence of word vector on model

分析圖4可得:(1)對裁判文書分析,人民日報詞向量的實驗結果最好,微博詞向量的實驗結果不佳,可能是由于裁判文書與人民日報都是書面性表達。(2)對庭審文書分析,微博詞向量表現最佳,人民日報詞向量表現不佳,這可能是由于庭審文書與微博均為口語性表達。(3)對兩類文書聯合分析時,百度百科詞向量結果表現最佳,可能是由于百度百科詞向量的詞匯覆蓋度較好,能夠兼顧兩類文書的詞匯表達進行向量表示。

4 結束語

針對目前罪名預測任務主要基于單一的裁判文書,可能存在案件細節缺失的問題,本文構建了一個結合裁判文書和庭審文書的多源聯合分析司法罪名預測數據集,并采用了一系列機器學習和深度學習模型驗證兩類文書在罪名預測任務中的作用。實驗結果表明,兩類文書在信息上確實存在一定的互補性,可以提升罪名預測任務的準確性。

在下一步工作中,將從兩方面延續本文的研究內容:(1)繼續挖掘庭審文書中的多人對話文本結構,嘗試采用一些對話建模技術進一步提升分析庭審文書的能力。(2)將該數據集的任務繼續拓展到法條預測、刑期預測、司法問答等其他法律智能領域之中,以新的角度看待法律智能面臨的各個問題,進一步促進法律人工智能的落地與應用。

猜你喜歡
文本實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: AV老司机AV天堂| 99精品这里只有精品高清视频| 老司机aⅴ在线精品导航| 亚洲成av人无码综合在线观看| 日韩无码真实干出血视频| 国产成人亚洲无吗淙合青草| a在线观看免费| 国产欧美日韩18| 精品少妇人妻无码久久| 98精品全国免费观看视频| 91口爆吞精国产对白第三集 | 亚洲三级影院| 91视频精品| 香蕉久久永久视频| 欧美一级片在线| 亚洲欧美激情另类| 97无码免费人妻超级碰碰碰| 一本色道久久88亚洲综合| 精品国产免费观看一区| 久久久久久高潮白浆| 最新无码专区超级碰碰碰| 在线播放国产一区| 亚洲av日韩av制服丝袜| 午夜小视频在线| 72种姿势欧美久久久久大黄蕉| 伊人久久久久久久久久| 亚洲成a人在线观看| 宅男噜噜噜66国产在线观看| 亚洲人成影院在线观看| 国产精品成人AⅤ在线一二三四| 亚洲中文字幕av无码区| 国产色伊人| 一级爆乳无码av| 无码福利视频| 国产99精品久久| 日韩人妻精品一区| 国产白浆一区二区三区视频在线| 亚洲AV无码一区二区三区牲色| 一级毛片在线免费视频| 伊人久久精品亚洲午夜| 亚洲高清中文字幕在线看不卡| 国产色网站| 国产无码性爱一区二区三区| 国产经典免费播放视频| 性色在线视频精品| 亚洲精品日产精品乱码不卡| 免费看av在线网站网址| 欧美日韩国产系列在线观看| 在线不卡免费视频| 久久久久国产精品熟女影院| 五月激情婷婷综合| 大学生久久香蕉国产线观看| 黄色片中文字幕| 亚洲AⅤ波多系列中文字幕| 国产剧情国内精品原创| 色婷婷久久| 欧美a级完整在线观看| 亚洲成网777777国产精品| 国产精品一区在线观看你懂的| 亚洲欧美另类色图| 99在线观看精品视频| 无码'专区第一页| 亚洲欧美日韩视频一区| 波多野结衣无码视频在线观看| 国产黄色片在线看| 最新国产成人剧情在线播放| 亚洲欧洲自拍拍偷午夜色| 日韩精品毛片人妻AV不卡| 久久久精品无码一二三区| 欧美中文字幕在线二区| 亚洲不卡av中文在线| 91久久国产热精品免费| 国产精品妖精视频| 欧美日韩国产精品va| 亚洲色图欧美激情| 国产肉感大码AV无码| 香蕉综合在线视频91| 丁香亚洲综合五月天婷婷| 一区二区三区在线不卡免费| 色吊丝av中文字幕| 欧美日韩在线观看一区二区三区| 999国内精品视频免费|