999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合特征提取的判決預測模型

2021-12-01 05:26:14劉璐瑤
智能計算機與應用 2021年8期
關鍵詞:分類特征文本

劉璐瑤,李 實

(東北林業大學 信息與計算機工程學院,哈爾濱 150006)

0 引言

在傳統的司法領域中,案件判決依賴于法官、律師等法律相關人士的專業解答和辯論流程。對于普通人而言,復雜的法律條文構成了專業壁壘,對于案件結果的預判也與專業人士存在較大差距[1]。對于專業人士而言,大部分案件都屬于常見案件,預測過程較為簡單。如果能用技術手段學習到這些案件的共性,讓量刑過程實現自動化或者半自動化,輔助法官的決策過程,一方面能將司法工作者從瑣碎的事務中解放出來,另一方面也有利于消除人的主觀因素的影響[2],實現同案同判。

當今時代,隨著法律的不斷完善,人民的法律意識也不斷提高,與此同時歷史案件在不斷累積,新案件也在不斷的增加[3],司法領域的各種公開案件量已足夠滿足深度學習需求,使得用深度學習技術進行司法領域相關問題的研究成為可能。

國外的研究者已經開展了大量的關于人工智能在司法領域各個方向的研究。Vlek 等通過貝葉斯網絡對案件的現有證據進行建模、分析與推理,在刑事案件的審判中,能夠更好的通過模型從文本中提取出當前案件的場景描述,并能夠直接的向法官或者陪審團提供對于現有證據的分析與結果展示[4];Ashley 等人通過建立案件數據庫,從已判決案件的文本描述中提取信息,并應用這些信息使用決策樹算法完成自動預測新案件的結果[5]。

英美司法智能研究與中國在許多方面有所不同。首先,英美量刑模式為普通法體系,又稱為判例法,而中國的量刑模式是基于成文法;其次,英語與漢字的差異導致文本處理方法的不同;另外,漢語法律詞匯與非法律詞匯的差異很大,一些流行的文本分類方法難以直接應用。基于此,在關于機器學習的研究中,高菲等在研究和借鑒英美法系的量刑模式后,提出了改進中國量刑模式的新思路[6]。通過對盜竊案件中年齡、主共犯、認罪態度等的量刑情節進行統計和數值化后,使用支持向量機技術預測刑期,使刑期結果精確到月份。本文是基于深度學習技術實現中文司法智能領域的罪名預測和刑期預測,擬利用抽取式文本摘要,對案情描述文本進行預處理,同時提出基于BiGRU-Attention-CapsNet 的文本分類模型進行罪名預測和28 類刑期預測。

本研究的主要貢獻如下:

(1)提出了一種基于注意力機制的混合特征提取網絡的文本分類模型,解決全局和局部特征的不完全特征提取問題。

(2)由于硬件和模型的限制,每條案情描述文本長度有限,通過對案情描述文本進行壓縮,在文本長度和文本信息量中找到平衡,在指定長度中保留盡可能多的信息。

(3)在刑期分類中,實現了較小的分類粒度,有更高的實際應用和參考價值。

1 相關工作

近年來判決預測的研究越來越受到人們的關注。目前在智能司法領域的研究方法主要分為3類:數學統計方法、機器學習方法和深度學習方法。

早期的判決自動預測主張使用統計學方法,試圖分析大量歷史案例找出共性規律并使用統計學模型模擬判決流程。典型工作如文獻[7]中提出的量化分析法和如文獻[8]提出的關聯分析法。但此類方法僅在特定領域的數據上有效,較難推廣到一般性案件中。

隨著機器學習的發展,一些研究者開始從案件文書中提取特征,利用機器學習模型來解決智能司法領域的問題。代表性工作如文獻[9]中基于文書淺層文本特征的K 近鄰算法分類預測模型;文獻[10]中將3 層神經網絡與退火算法相結合,通過定義和量化28 種監禁情況的特征,預測有期徒刑、死刑和無期徒刑;文獻[11]中利用多元伯努利模型進行分類的不均勻分布,然后采用樸素貝葉斯算法進行分類。該方法大大提高了分類的精度,但提取出的淺文本特征只能針對特定案例,泛化能力不強。雖然機器學習模型極大地自動化了學習,并且總是隨著經驗而改進,但其需要手動對大量的特性進行標記,這需要大量的時間和專業知識。

由于深度學習模型具有不需要標注大量特征的優點,研究者們開始基于文本分類框架構建預測模型,即以大量歷史法律文書作為訓練文本,以罪名為類別標簽,訓練深度學習分類模型[12-15]。Ye 等人從事實描述中生成法院視圖來解釋判決預測[16]。代表性工作如文獻[17]和文獻[18]中提出的基于深度神經網絡罪名分類模型;文獻[19]在2018 年使用“中國法研杯”司法人工智能挑戰賽(CAIL-2018)的數據集,提出了一種長文本分類的混合深度神經網絡模型HAC(hybrid attention and CNN model),利用殘差網絡,融合了改進的層次注意力網絡和深度金字塔卷積神經網絡,使用分類方法將刑期分為18 類對刑期進行預測;文獻[20]中,在CAIL-2018small 數據集上,針對單人多罪名多法條的刑事案件對比了3 種平均詞向量模型,并在多核CNN模型中加入不同層次的Attention 機制,融合BERT句向量特征,提出了BERT-ACNN 模型。

此類方法在預測效果上取得了一定的進步,但對特征提取不夠完整,沒有考慮局部特征和全局特征的融合。因此,本文使用膠囊網絡提取局部語義特征信息后,再使用加入注意力機制的BiGRU 提取全局語義特征信息,最后將兩個網絡合并,提取更加完整的信息來提升罪名預測和刑期預測的性能。

2 基于BiGRU-Attention-CapsNet 的預測模型

2.1 數據預處理

數據預處理包括案情描述預處理和標簽預處理。在案情描述預處理部分,考慮到法律文本的關鍵句經常在句子結尾才出現,而部分文本的長度超過了允許讀入的最大長度,本文先對數據進行抽取式摘要處理以確保關鍵句被讀入。抽取式摘要采用TextRank 算法抽取重要度最高的10 個句子作為摘要,之后主要是加入自定義詞典對摘要進行分詞去停、構建事實詞典、將分詞去停后的文本序列化、將序列處理為同一長度等預處理。在標簽預處理部分:對于罪名標簽,將202 種罪名放到一個文本文件中,再將其轉化為數字編號;而對于刑期標簽,考慮到以月為單位進行分類效果不佳,所以以年為單位將0~25 年的刑期分為26 類,無期徒刑和死刑各為一類,刑期一共分為28 類。

2.2 BiGRU-Attention-CapsNet 模型研究

2.2.1 BiGRU-Attention-CapsNet 模型

本文搭建的基于BiGRU-Attention-CapsNet 的文本分類模型結構如圖1 所示。文本分類模型主要包含輸入層、Embedding 嵌入層、BiGRU-Attention-CapsNet 層、全連接層、輸出層幾個部分。

圖1 BiGRU-Attention-CapsNet 模型Fig.1 BiGRU-Attention-CapsNet model

其中,BiGRU-Attention-CapsNet 層合并了BiGRU-Attention 層提取的全局特征向量和CapsNet模塊提取的局部特征向量。

2.2.2 BiGRU 層

門控循環單元GRU 是對長短期記憶網絡的一種改進,保留長期序列信息的同時通過門控機制優化了參數的規模[21]。在GRU 網絡中信息只能單向傳遞,但詞語可能與上下文的詞語都有依賴關系,使用BiGRU 融合上下文的語義信息,實現信息的雙向傳遞,模型效果會更好。本文BiGRU 層的目的是對輸入文本詞向量進行文本深層次特征的提取。式(1)、式(2)表示對輸入詞向量xi正向、反向編碼。式(3)表示對、進行向量拼接操作。

2.2.3 詞級別注意力層

為捕獲更準確的語義表達,本文在BiGRU 層后引入注意力機制,對案情描述語句進行編碼。不同的詞對句子意思的表達所起的作用也有所不同,因此采用詞級別Attention 機制來提取對句子含義重要的詞語。

詞級別Attention 機制可通過以下3 個步驟實現:

式中,wi為模型權重,bi為偏置。

(2)計算ui和上下文向量uc的相似性,并歸一化得到度量詞語重要性指標,如式(5)所示。

其中,上下文向量uc是對輸入的一種語義表示,是在訓練過程中隨機初始化和共同學習的,ε是一個很小的正數,是為了避免出現除零異常而添加的。

(3)計算詞語的加權向量得到句子向量,如式(6)所示。

2.2.4 膠囊網絡模塊

網絡使用了CapsNet 算法的最后一層DigitCaps層,將池化層用動態路由代替。該膠囊網絡模塊包括以下4 層:

第一層:卷積層

要在最嚴格水資源管理制度試點工作帶動下,全面推進最嚴格水資源管理各項工作,確保各項制度有措施、能落地。一是按照“節水優先、空間均衡、系統治理、兩手發力”的治水思路,以水定需,量水而行,因水制宜,嚴格水資源論證、取水許可管理和水資源有償使用制度。二是把節約用水貫穿于經濟社會發展和群眾生活全過程,優化用水結構,切實轉變用水方式,全面實行計劃用水管理,加快推進節水技術改造。三是全面落實 《全國重要江河湖泊水功能區劃》,從嚴核定水域納污容量,切實加強水污染防控,加強飲用水水源保護,推進水生態文明建設。四是按照最嚴格水資源管理制度考核工作要求,積極有序開展轄區內考核工作,切實落實水資源管理責任制。

通過不同的卷積核在句子的不同位置提取Ngram 特征。其輸入是文本詞向量,卷積操作就是卷積核矩陣Ma和對應輸入層中一小塊矩陣的點積相乘。卷積核通過權重共享的方式,按照步幅上下左右的在輸入層滑動,提取特征,以此將輸入層做特征映射作為輸出層。具體形式如下:

其中,b0是偏置項,f是非線性激活函數ReLU。

第二層:主膠囊層(第一個膠囊層)

膠囊將卷積操作的標量輸出替換為矢量輸出,從而保留實例化參數。每一個膠囊pi可由式(8)得到:

其中:g()表示非線性壓縮函數;b1為膠囊的偏置項;W是不同滑動窗口的共享濾波器;Mi是Ma中第i行向量。

第三層:卷積膠囊層

在這一層中,每個膠囊僅與下面層中的一個局部區域相連。這些膠囊與轉換矩陣相乘來計算子膠囊(低層膠囊)與父膠囊(高層膠囊)之間的關系,然后根據協議路由計算出上層的父膠囊。

第四層:全連接膠囊層

上一層的膠囊被展平成一個膠囊列表,并送入全連接膠囊層。在全連接膠囊層中,膠囊乘以變換矩陣,然后按協議路由生成最終的膠囊及其對每個類別的概率。

3 實驗

3.1 數據集

本文使用的數據集為“中國法研杯”司法人工智能挑戰賽(CAIL-2018)的數據集[22],數據集是來自中國裁判文書網公開的刑事法律文書。其中每份數據由法律文書中的案情描述和事實部分組成,同時也包括每個案件所涉及的法條、被告人被判的罪名和刑期長短內容。數據集共包括268 萬條刑法法律文書,共涉及202 條罪名、183 條法條,刑期長短包括0~25 年,無期徒刑和死刑。數據格式如圖2所示。

圖2 數據示例Fig.2 Sample data

其中,fact 表示案情描述;meta 表示標簽信息;punish_of_money 表示罰金(單位:元);accusation 表示罪名;relevant_articles 為相關法條;term_of_imprisonment 為刑期。刑期分為:是否死刑(death_penalty)、是否無期(life_imprisonment)、有期徒刑刑期(imprisonment)等。

3.2 實驗參數設置

參數設置上,使用word2vec 模型訓練詞向量,維度為100。由于本文訓練樣本的字符長度為1 000時,樣本覆蓋全部語料集的90%以上,故設定讀取的序列長度為1 000。對于長度不符的樣例進行padding 或cut 處理。訓練時部分參數見表1。

表1 部分參數設置Tab.1 Some parameters settings

3.3 結果與分析

表2 列出了CAIL2018 數據集在TextCNN,BiGRUAttention,CapsNet 和BiGRU-Attention-CapsNet4 個模型上的罪名和刑期的預測結果。評估指標為測試集的準確率和損失值。

表2 比較實驗Tab.2 Model comparison experiments

TextCNN 是2014 年由Yoon Kim 提出的經典文本分類模型;BiGRU-Attention 融合上下文的語義信息,實現信息雙向傳遞,注意力機制能對文本重要部分賦予更高的權重,起到優化特征向量的目的;CapsNet 與TextCNN 相比,具有空間同變性,將數個連續的神經元封裝為一個膠囊輸出,保留了文本中詞的本地順序和詞的語義表示。由表2 可知,在罪名預測和28 類刑期預測上,兩模型的分類準確率均優于TextCNN,而融合了全局特征和局部特征的BiGRUAttention-CapsNet 是一種雙向門循環單元注意機制混合膠囊神經網絡模型,其全局特征由BiGRUAttention 提取,局部特征由CapsNet 提取。由此表明,由于合并特征提取,提高了模型學習的語義信息,該模型的分類精度高于兩個獨立模型的分類精度。

本研究使用了與文獻[1]相同的數據集和評價指標。由表3 中數據表明,結合全局和局部特征的模型BiGRU-Attention-CapsNet 具有最佳的精度。

表3 不同模型實驗結果Tab.3 Prediction results for different models

對于刑期預測,文獻[19]與本文數據集相同,把預測刑期與真實刑期的差異作為評估指標。假設第i起案件的真實刑期是ti,而預測的結果是ˉti。其定義差異di如下:

然后,將得分函數f(v)定義如下:

最終得分如下:

文獻[19]將刑期分為18 類。為了便于比較,本研究也將刑期分為18 類。表3 顯示,BiGRU-Attention-CapsNet 的得分為82.76 分,比HAC 的得分高5.62 分。

4 結束語

本文在預處理部分對長文本采用TextRank 算法抽取關鍵句作為模型輸入,提出BiGRU-Attention-CapsNet 模型,將全局特征和局部特征進行融合,在罪名預測和28 類刑期預測的準確率上都有所提升。在未來的工作中,可以考慮引入外部法律知識庫或融合更多知識模型。實際司法過程中,刑期還受到許多因素的影響,如被告和受害者的年齡,是否存在自首行為等。因此,在刑期預測中還可以添加命名實體識別和實體關系提取等技術,以提高預測的準確率。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 精品91在线| 国产成人精品2021欧美日韩| 美女免费精品高清毛片在线视| 亚洲无码免费黄色网址| 91黄视频在线观看| 国产特级毛片| 色一情一乱一伦一区二区三区小说| 国产精品主播| 999福利激情视频| 手机成人午夜在线视频| 91成人免费观看| 亚洲人成网址| 91久久性奴调教国产免费| 五月天久久综合国产一区二区| 国产在线精品99一区不卡| 蜜桃视频一区| 伊人91在线| 欧美午夜网| 亚洲全网成人资源在线观看| 香蕉视频在线精品| 欧美一区二区人人喊爽| 麻豆精品在线| 亚洲无线视频| 日本一区高清| 久草视频精品| 成人免费黄色小视频| 亚洲综合久久成人AV| 久久久久亚洲精品成人网| 日韩精品无码免费一区二区三区| 免费在线国产一区二区三区精品| 人妻中文久热无码丝袜| 亚洲91在线精品| 91欧洲国产日韩在线人成| 老司机久久99久久精品播放| 女人18一级毛片免费观看| 夜夜高潮夜夜爽国产伦精品| 理论片一区| 国产亚洲精品va在线| 91精品视频播放| 欧美天天干| 日韩欧美国产精品| 九九精品在线观看| www.99在线观看| 亚洲欧美综合精品久久成人网| 99精品福利视频| 97久久免费视频| 亚洲天堂网2014| 日本亚洲最大的色成网站www| 99视频精品在线观看| 国产精品部在线观看| 久久一色本道亚洲| 国产门事件在线| 亚洲最猛黑人xxxx黑人猛交| 欧美午夜视频| 亚洲有码在线播放| 午夜精品久久久久久久无码软件 | 91成人在线免费观看| 日韩一区二区在线电影| 亚洲色婷婷一区二区| 亚洲一区色| 97久久人人超碰国产精品 | 狠狠亚洲五月天| 国产精品污污在线观看网站| 亚洲日韩Av中文字幕无码| 国产亚洲欧美另类一区二区| 亚洲va欧美ⅴa国产va影院| 亚洲AV色香蕉一区二区| 日韩人妻无码制服丝袜视频 | 亚洲AV永久无码精品古装片| AV熟女乱| 日韩精品久久无码中文字幕色欲| 久久精品无码一区二区国产区| 国产午夜精品一区二区三| 在线精品欧美日韩| 日韩av无码精品专区| 91免费国产在线观看尤物| 亚洲最大福利视频网| 激情综合网激情综合| 久久一色本道亚洲| 人妻丰满熟妇啪啪| 丁香婷婷在线视频| 亚洲国产天堂在线观看|