999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分層學習的易混淆法條預測

2020-02-08 07:00:38趙紅燕譚紅葉
計算機工程與設計 2020年1期
關鍵詞:分類文本模型

程 豪,張 虎,崔 軍+,趙紅燕,3,譚紅葉,李 茹,2

(1.山西大學 計算機與信息技術學院,山西 太原 030006;2.山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;3.太原科技大學計算機科學與技術學院,山西 太原 030024)

0 引 言

隨著人工智能的興起,司法智能化已成為目前司法領域的研究熱點之一,相關人員提出“智慧法院”的觀點。法條預測作為法律判決預測的子任務,是構成“智慧法院”的重要部分。目前大多數(shù)現(xiàn)有工作采用文本分類方法完成法條預測,但未能較好解決易混淆法條預測問題。

本文以刑法類文書作為實驗數(shù)據(jù),輸入刑事案件的事實描述預測該案件所引用的法條。通過分析案情描述部分內容,發(fā)現(xiàn)較多法條區(qū)分性大,易于準確預測,但存在部分法條間內容較為相似,在法條預測時極易混淆。據(jù)此針對易混淆法條預測問題,采用分層學習的方法解決。首先按照各法條預測效果將其分為易區(qū)分法條和易混淆法條兩類;其次結合法條含義與相應事實描述兩部分內容將易混淆法條組合為不同的易混淆法條集,并單獨訓練各易混淆法條集的分類模型。依據(jù)易混淆法條集的類別情況與易區(qū)分法條類別數(shù),構建基于分層學習的易混淆法條預測數(shù)據(jù)集。根據(jù)分層預測思想,完成對兩類法條的預測。本文的研究主要貢獻有:

(1)通過分析刑事文書的事實描述與法條內容,將183個刑事法條整理組合為136個易區(qū)分法條和11個易混淆法條集,其中11個易混淆法條集總共包括47個易混淆法條;

(2)針對法條預測中易混淆法條問題,構建基于分層學習的易混淆法條預測模型。

1 相關工作

早期研究通常采用簡單數(shù)學模型進行法律判決結果預測,研究人員根據(jù)案情事實描述部分進行定量分析,提出法律判決計算公式;利用相關性分析預測案例判決結果;在法律判決預測中引入數(shù)學模型,這些方法僅適用于很少類別的小數(shù)據(jù)集。由于機器學習在許多領域的成功應用,研究人員開始將法律判決預測作為文本分類問題并利用機器學習的方法來解決。通過提取了法律因素標簽用于案件分類任務;Sulea等[1]提出了基于支持向量機的罪名預測模型,模型以案情事實描述和時間跨度信息作為輸入,輸出罪名信息。

隨著深度學習在語音[2-4]、計算機視覺[5-8]上的成功應用,研究人員提出許多基于深度學習的文本分類模型,為法律判決預測奠定良好的基礎。Yoon Kim等[9]最早提出將卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)用于文本分類任務,其中卷積層濾波器具有局部特征提取的功能,能夠捕捉文本上下文局部相關性;Xiang Zhang等[10]提出基于字符集的卷積神經(jīng)網(wǎng)絡文本分類模型,該模型不需要使用預訓練好的詞向量和語法句法結構等信息,并且可很容易的推廣到所有語言;Pengfei Liu等[11]提出將多個任務聯(lián)合起來,用來直接對網(wǎng)絡進行改善,基于RNN(recurrent neural network)設計了3種不同的信息共享機制進行訓練,并在4個基準的文本分類任務中獲得了較好的效果;Joulin A等[12]提出快速文本分類模型,該模型結構簡單高效,在保持分類效果的同時,大大縮短了訓練時間;Zichao Yang等[13]提出了層次注意力網(wǎng)絡模型(hiera-rchical attention networks,HAN),該模型針對文本分類問題采用層級注意力與雙向循環(huán)神經(jīng)網(wǎng)絡相結合的方法;Conneau A等[14]關注卷積神經(jīng)網(wǎng)絡的層數(shù)對分類效果的影響,通過增加層數(shù)抽取更加準確的文本特征信息。

在參照深度學習文本分類的基礎上,羅等[15]提出基于注意力機制的刑事罪名預測模型,在統(tǒng)一的框架中對罪名預測任務和相關法條提取任務進行建模,以提取的法條信息作為罪名預測的依據(jù);胡等[16]針對法條預測任務中低頻罪名問題,引入了法律區(qū)分性屬性來增加罪名預測的可解釋性。

現(xiàn)有研究中針對法條預測問題大多采用基于深度學習的分類模型,對易混淆法條的預測效果普遍不太理想。

2 基于分層學習的易混淆法條預測模型

2.1 問題描述

表1是易混淆法條實例,表中法條第347條是走私、販賣、運輸、制造毒品法條,法條第348條是非法持有毒品的法條,通過分析兩個法條的案情事實描述部分,發(fā)現(xiàn)其中包含許多與毒品相關的詞語,文本語義較為相似,在進行法條預測時容易相互混淆。

表1 易混淆法條實例

注:加粗字體為與“毒品”相關的相似或相同詞語。

2.2 篩選與組合

本文提出的模型首先根據(jù)法條預測中各法條的預測結果將法條劃分為易區(qū)分法條和易混淆法條,表2顯示了各法條的預測實驗結果。當法條預測的準確率、召回率、F1值高于法條平均指標值,實驗認為該法條為易區(qū)分法條,相反低于法條平均指標值,則認為該法條為易混淆法條。

對于易混淆法條,分析相關的法條內容與對應事實描述,將法條內容、相應事實描述相近的組合為易混淆法條

表2 各法條預測結果

集。我們將47個易混淆法條整理組合為11個易混淆法條集,對11個易混淆法條集進行編號。每個易混淆法條集包含法條預測時相互間容易混淆的多個法條,見表3。

2.3 模型構建

實驗數(shù)據(jù)集中共涉及183個刑事法條,篩選組合整理為147個法條類別,其中包括11個易混淆法條集類別與136個易區(qū)分法條類別。易混淆法條預測模型可通過兩層學習機制實現(xiàn)。該模型的整體架構如圖1所示,第一層分類學習中在易區(qū)分法條和易混淆集法條組建的147個新法條類別上訓練分類器模型,第二層分類學習中分別訓練11個易混淆法條集的分類器模型。我們利用新類別分類器模型完成第一層預測,預測結果為易混淆法條集或易區(qū)分法條。如果結果為易區(qū)分法條,則完成預測;如果結果為易混淆法條集,則調用相應易混淆法條集模型完成第二層預測,輸出易混淆法條預測結果。模型中分類器采用卷積神經(jīng)網(wǎng)絡文本分類器。

表3 易混淆法條集

圖1 基于分層學習的易混淆法條預測模型

2.4 分類器

2.4.1 編碼

易混淆法條預測模型中分類器模型包含有輸入層、卷積層、池化層、全連接層、Softmax層。其中卷積層負責抽取文本的特征,最大池化層負責選擇最主要的特征值,Softmax用于預測在各個類別上的概率。在輸入層對文本進行向量化表示,通過將文本序列中對應位置詞典元素的詞向量拼接起來,就得到整個文本序列的詞向量表示矩陣

x1∶n=x1⊕x2⊕…⊕xn

(1)

其中,⊕是詞向量連接運算符。xi是句子中第i個單詞的詞向量,xi∶i+j指的是xi,xi+1,…,xi+j共j+1個詞的詞向量。卷積操作涉及濾波器w,其應用于h個詞的窗口以產(chǎn)生新特征。例如,在單詞xi∶i+h-1Xi∶i+h-1上一個窗口生成特征Ci

ci=f(w·xi∶i+h-1+b)

(2)

其中,b是一個偏置項,f是一個非線性函數(shù)。這個濾波器用于句子 {x1∶h,x2∶h+1,…,xn-h+1∶n} 中,產(chǎn)生一個特征集

c=[c1,c2,…,cn-h+1]

(3)

2.4.2 正則化

y=w·(z°r)+b

(4)

其中,z表示m個濾波器組成的特征集,°表示按元素逐個相乘操作,r表示掩模向量。

2.4.3 優(yōu)化

模型采用交叉熵作為損失函數(shù)。法條預測損失可以形式化為

(5)

3 實 驗

為了驗證本模型在刑事案件預測中的有效性,本文基于中國裁判文書網(wǎng)的刑事數(shù)據(jù)構建了不同規(guī)模的數(shù)據(jù)集,并利用SVM模型、CNN模型與RNN模型和本文的模型(hierarchical learning confusing law prediction model,HLCLPM)進行了比較實驗。

3.1 數(shù)據(jù)集

本文基于“中國裁判文書網(wǎng)”公開的刑事法律文書構建Small和Large兩組數(shù)據(jù)集,其中每份數(shù)據(jù)由法律文書中的案情事實部分與引用法條兩部分組成。兩組數(shù)據(jù)集中涉及183個刑事法條,Small包括19.6萬條文書樣例,Large數(shù)據(jù)集包括150萬條文書樣例。在實驗中兩組數(shù)據(jù)集的劃分情況見表4。

3.2 基 線

本文采用3種典型的文本分類模型作為實驗基線:

TFIDF+SVM模型:實現(xiàn)了(TFIDF)來提取輸入的文本特征,并采用SVM(support vector machine)作為分類。

表4 兩個數(shù)據(jù)集數(shù)量統(tǒng)計/條

RNN模型:采用循環(huán)神經(jīng)網(wǎng)絡(RNN)作為文本分類器。

CNN模型:采用卷積神經(jīng)網(wǎng)絡(CNN)文本分類器。本文HLCLPM模型的基礎模型,選用該模型作為對比,可以更好地體現(xiàn)出分層學習的思想可以幫助易混淆法條的預測。

3.3 實驗設置和評價指標

本實驗卷積神經(jīng)網(wǎng)絡模型濾波窗口大小設置為3,4,5,詞向量維度大小為264維,全連接層神經(jīng)元為128,dropout保留比例為0.5,學習率為0.0001,bath_size大小為264。

實驗采用精確率(Precision,P)、召回率(Recall,R)、F1值(F-measure,F(xiàn))作為評價指標。計算方式如下

(6)

(7)

(8)

其中,TP是模型將正例預測成正例的數(shù)目,F(xiàn)P是模型將負例預測成正例的個數(shù),F(xiàn)N是模型將正例預測成負例的個數(shù)。

4 結果及分析

(1)實驗一:不同模型下法條預測

實驗對比了在兩組數(shù)據(jù)集下本文提出的模型與其它基線模型的預測結果。見表5。

表5 兩組數(shù)據(jù)集下各個模型法條預測的結果

其中加粗數(shù)據(jù)表示最優(yōu)結果。表5顯示:各模型在Large數(shù)據(jù)集下評價指標均優(yōu)于Small數(shù)據(jù)集的評價指標,表明數(shù)據(jù)越大越有利于易混淆法條預測模型的訓練。在相同數(shù)據(jù)集下本模型的評價指標均取得最優(yōu),表明基于分層學習的易混淆法條預測模型能較好完成易混淆法條預測。

(2)實驗二:驗證本模型在易混淆法條預測的有效性

為進一步驗證本模型能較好解決法條預測中易混淆法條預測問題,我們構建了兩個易混淆法條數(shù)據(jù)集,Data1和Data2。Data1包括走私類法條、合同詐騙類法條、逃稅漏稅類法條11個易混淆的法條,Data2包括走私類法條、合同詐騙類法條、逃稅漏稅類法條、毒品類法條17個易混淆的法條。見表6。

表6 Data1和Data2統(tǒng)計/條

我們將本模型與在TFIDF+SVM、RNN、CNN這3個分類模型在數(shù)據(jù)集1與數(shù)據(jù)集2上的預測結果進行對比,見表7。

表7 模型在Data1和Data2上的預測結果

表7顯示,在數(shù)據(jù)集Data1和Data2上本模型的預測結果都取得最優(yōu),表明本模型在處理易混淆法條預測上的有效性。

5 結束語

本文根據(jù)刑事案件的案情描述,專注于易混淆法條預測問題。我們通過分析各個法條預測結果并結合文書案情描述與法條內容的相似度,將常用的183個刑事法條分為136個易區(qū)分法條與47個易混淆法條,易混淆法條進一步組合為11個易混淆法條集。針對法條預測中易混淆法條問題,我們構建基于分層學習的易混淆法條預測模型,通過對易混淆法條集單獨訓練分類模型,增強對易混淆法條相應案情描述特征的學習能力。本文沒有將法條內容用于易混淆法條預測之中,同時沒有考慮一個案件引用多個法條的情況。因此接下來我們的研究重點為:如何將法條內容運用到法條預測之中,增加法條預測的司法可解釋性;如何解決易混淆法條中的一對多問題。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 沈阳少妇高潮在线| 在线观看无码a∨| 3p叠罗汉国产精品久久| 国产精品伦视频观看免费| 成人韩免费网站| 国模沟沟一区二区三区| 国产精品女在线观看| 亚洲视频一区在线| 五月天福利视频| 91在线高清视频| 国产精品hd在线播放| 国产91线观看| 又粗又硬又大又爽免费视频播放| 中文字幕日韩视频欧美一区| 国产一区二区色淫影院| 乱人伦视频中文字幕在线| 欧美一级高清片久久99| 日本五区在线不卡精品| 亚洲日本中文综合在线| 国产成人综合在线视频| 有专无码视频| 91精品亚洲| 无码福利视频| 免费不卡视频| 欧美一级色视频| 国产精品久久久久久久久久98 | 欧美天堂在线| 亚洲精品波多野结衣| 国产在线无码av完整版在线观看| 国产欧美性爱网| 亚洲一本大道在线| 国产精品福利一区二区久久| 91久久偷偷做嫩草影院精品| 亚洲欧美日韩中文字幕在线| 亚洲天堂精品在线观看| 无码中文AⅤ在线观看| 国产欧美日韩视频怡春院| 欧美成人精品在线| 国产精品妖精视频| 欧美一级在线| 美女无遮挡被啪啪到高潮免费| 美女潮喷出白浆在线观看视频| 免费人欧美成又黄又爽的视频| 久久香蕉国产线看观看精品蕉| 最新国产精品第1页| 免费一级无码在线网站| 免费A∨中文乱码专区| 免费看一级毛片波多结衣| 日本久久网站| 99热这里只有精品免费| 热伊人99re久久精品最新地| 又黄又湿又爽的视频| 国产一区二区三区夜色 | 999精品免费视频| 风韵丰满熟妇啪啪区老熟熟女| 久久婷婷六月| 五月婷婷伊人网| 国产手机在线ΑⅤ片无码观看| 在线看国产精品| 动漫精品中文字幕无码| 午夜啪啪福利| 日本午夜在线视频| 老色鬼久久亚洲AV综合| 中文字幕无线码一区| 国产成人高精品免费视频| 国产jizzjizz视频| 青草91视频免费观看| 亚洲欧洲自拍拍偷午夜色无码| 中文无码日韩精品| 欧美国产精品不卡在线观看| 2021国产乱人伦在线播放| 香蕉视频国产精品人| 国产精品永久在线| 天堂成人在线| 91系列在线观看| 又粗又硬又大又爽免费视频播放| 天堂av综合网| 欧美日本在线观看| 中文字幕va| 国产美女自慰在线观看| 国产成人一区| 91小视频在线观看免费版高清|