999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BBCAL模型的法條自動(dòng)推送方法

2022-03-22 03:34:54王肖霞孫豫峰楊風(fēng)暴
關(guān)鍵詞:特征法律文本

張 青,王肖霞,孫豫峰,楊風(fēng)暴

(中北大學(xué) 信息與通信工程學(xué)院,山西 太原 030051)

0 引 言

法條的自動(dòng)推送方法研究大多數(shù)采用神經(jīng)語(yǔ)言模型對(duì)法律案件進(jìn)行訓(xùn)練,獲取案件的語(yǔ)義信息,再進(jìn)行特征提取獲取更加抽象的文本特征信息,進(jìn)而實(shí)現(xiàn)法條的自動(dòng)推送。目前應(yīng)用于法律領(lǐng)域的神經(jīng)語(yǔ)言模型是在通用領(lǐng)域進(jìn)行訓(xùn)練,法條自動(dòng)推送作為新興起的研究任務(wù),暫時(shí)還沒有專門為法律領(lǐng)域訓(xùn)練的神經(jīng)語(yǔ)言模型。同時(shí)法律領(lǐng)域較通用領(lǐng)域而言,法律案件文本內(nèi)容更加復(fù)雜且法律專業(yè)術(shù)語(yǔ)偏多,專業(yè)術(shù)語(yǔ)特征信息能夠幫助模型理解法律案件,因此,尋找合適的神經(jīng)語(yǔ)言模型與特征提取模型來獲取有效的案件語(yǔ)義信息與特征信息成為本文的主要研究?jī)?nèi)容。

本文針對(duì)公益訴訟案件內(nèi)容復(fù)雜難以理解,專業(yè)術(shù)語(yǔ)特征信息難以有效提取等問題,提出了基于BBCAL(BERT-BiLSTM-CNN-Attention based on law)模型的法條自動(dòng)推送方法。該模型通過解決法律案件的兩大問題來提升法條自動(dòng)推送能力。一是針對(duì)法律案件較其它文本而言內(nèi)容復(fù)雜難以理解的問題,通過BERT模型來獲取法律案件詞向量,引入BiLSTM模型來建立長(zhǎng)序列信息,挖掘詞向量更深層次的含義。二是針對(duì)法律案件專業(yè)術(shù)語(yǔ)偏多難以有效提取的問題,引入CNN模型,構(gòu)造不同的卷積核尺寸來捕獲不同粒度專業(yè)術(shù)語(yǔ)的特征信息,獲取法律文本的專業(yè)術(shù)語(yǔ)特征信息,再結(jié)合注意力機(jī)制(Attention),來獲得與當(dāng)前任務(wù)最相關(guān)的特征,進(jìn)而提高法條自動(dòng)推送效果,最后輸入分類層實(shí)現(xiàn)法條的自動(dòng)推送。

1 相關(guān)工作

目前大部分法條的自動(dòng)推送智能化研究[1-3]是采用文本分類[4,5]技術(shù)來實(shí)現(xiàn),基于深度學(xué)習(xí)[6,7]的方法可以自動(dòng)提取文本的語(yǔ)義信息,能夠節(jié)省時(shí)間,彌補(bǔ)了由于人為失誤而造成語(yǔ)義信息提取不完善的缺點(diǎn)。Li等[8]構(gòu)造了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)應(yīng)用于法律文本分類任務(wù)中,通過CNN模型獲取文本的局部特征信息來提高文本分類精度。但是CNN模型需要提前設(shè)置卷積尺寸的大小,以至于無(wú)法建模更長(zhǎng)的序列信息,忽略了文本上下文關(guān)系。為解決這類問題,黃等[9]將BiLSTM模型引入分類任務(wù)當(dāng)中,采用前向LSTM與后向LSTM對(duì)文本進(jìn)行雙向編碼建模長(zhǎng)序列信息,進(jìn)而捕獲法律文本的上下文關(guān)系。但是BiLSTM模型并不適合單獨(dú)進(jìn)行分類任務(wù),因?yàn)樵谟?xùn)練過程中模型會(huì)丟棄一些在某些情況下可能有用的信息,無(wú)法聚焦文本局部特征問題。Li等[10]提出聯(lián)合LSTM與CNN模型的優(yōu)勢(shì),提取文本的局部特征信息以及上下文信息,結(jié)果表明其在分類任務(wù)上有較好的效果。但是CNN-BiLSTM模型將不同特征在一起進(jìn)行編碼,有可能忽略了文本重要特征,注重于次級(jí)特征。Xiao等[11]提出了在BiLSTM與CNN模型中引入Attention[12],對(duì)重要的特征信息賦予更高的權(quán)重,進(jìn)而提高分類的效果。

在以上的方法中,模型的輸入為初始化的文本詞向量,未能考慮文本中上下文的聯(lián)系。為了使語(yǔ)義信息的提取能夠達(dá)到理想的效果,該模型在訓(xùn)練過程中會(huì)浪費(fèi)大量時(shí)間,而且需要補(bǔ)充廣泛的語(yǔ)料庫(kù)進(jìn)行嵌入學(xué)習(xí),只有當(dāng)語(yǔ)料庫(kù)內(nèi)容足夠充足時(shí)才能達(dá)到理想的狀態(tài)。

Google AI提出一種基于深度學(xué)習(xí)的BERT[13](bidirectional encoder representations from transformers)語(yǔ)言預(yù)訓(xùn)練模型。BERT模型生成的向量能夠由周圍的單詞進(jìn)行動(dòng)態(tài)通知,能夠更高效處理一詞多義的問題,而且該向量表示還包含了其它形式的重要信息,這些信息產(chǎn)生更精確的特征表示,捕獲大量的語(yǔ)義信息。Sun等[14]采用BERT模型來獲取文本的語(yǔ)義信息,再進(jìn)行微調(diào)應(yīng)用于分類任務(wù)中。楊[15]融合BERT、CNN與Attention模型進(jìn)行罪名與法條的預(yù)測(cè),通過BERT模型獲取法律文本的語(yǔ)義信息,再通過Attention對(duì)重要的語(yǔ)義信息賦予更高的權(quán)重,最后利用CNN模型提取法律案件的局部特征信息,在一定程度上提高了法條預(yù)測(cè)效果,但是該方法也忽略文本的長(zhǎng)序列信息。

2 BBCAL模型

在公益訴訟案件的法條自動(dòng)推送任務(wù)中,為了能夠更好捕獲法律案件中的語(yǔ)義信息,以及有效提取法律案件中專業(yè)術(shù)語(yǔ)特征信息,提出了一種基于BBCAL模型的法條自動(dòng)推送方法。該方法主要由4個(gè)部分組成,分別為預(yù)處理、BERT預(yù)訓(xùn)練、BiLSTM-CNN-Attention以及輸出部分,整體流程如圖1所示。

圖1 BBCAL模型

2.1 文本預(yù)處理

公益訴訟案件文本包含了多方面內(nèi)容,如違法事實(shí)、行政部門不作為、損害后果、涉及的法律法規(guī)等,因此需要對(duì)文本進(jìn)行預(yù)處理,提取模型所需要的內(nèi)容。篩選其中的違法事實(shí)與涉及的相關(guān)法條,根據(jù)篩選出的法條建立一個(gè)法律法規(guī)字典,每一個(gè)法條對(duì)應(yīng)一個(gè)索引,最后將篩選的違法事實(shí)作為文本的內(nèi)容,涉及的法律法規(guī)索引作為標(biāo)簽,標(biāo)記后的文本見表1,將其作為BERT預(yù)訓(xùn)練模型的輸入。

2.2 BERT模型

BERT使用Transformer作為算法的主要框架,它能更徹底捕捉語(yǔ)句中的雙向關(guān)系,獲取法律案件中豐富的語(yǔ)義信息。BERT主要包括文本嵌入模塊和特征提取模塊。

2.2.1 文本嵌入模塊

BERT預(yù)訓(xùn)練模型中文本嵌入模塊包含了MASK掩蓋語(yǔ)句(MLM)和預(yù)測(cè)下一段語(yǔ)句(NSP)兩項(xiàng)任務(wù)。MLM任務(wù)可以用來訓(xùn)練獲得語(yǔ)句的雙向特征,即在文本的每個(gè)句子中用[MASK]來隨機(jī)遮蔽15%的詞,然后讓模型預(yù)測(cè)被遮蔽的詞。其中,并不是每個(gè)句子中都用[MASK]去隨機(jī)遮蔽,而是有80%的概率去遮蔽,10%的概率用其它的詞代替,10%的概率保持不變。NSP任務(wù)可以

表1 標(biāo)記后的文本

用來捕捉兩個(gè)句子的聯(lián)系,目的是預(yù)測(cè)下一個(gè)句子是否與當(dāng)前句子有關(guān)。

公益訴訟案件文本嵌入過程如圖2所示,將標(biāo)記后的文本輸入到模型中,進(jìn)行Token嵌入(Token Embeddings)、句子嵌入(Segment Embeddings)與位置嵌入(Position Embeddings),該3種嵌入表示再次進(jìn)行處理后得出最終的文本嵌入表示,其中[CLS]和[SEP]分別為開始標(biāo)志與結(jié)束標(biāo)志。記文本嵌入表示為Vi,其計(jì)算如式(1)所示

Vi=TiWt+SiWs+PiWp

(1)

式中:Ti,Si,Pi分別為字符編碼、分割編碼、位置編碼,Wt,Ws,Wp為可調(diào)參數(shù)。

2.2.2 特征提取模塊

特征提取模塊采用Transformer框架為基礎(chǔ)進(jìn)行構(gòu)建,利用多個(gè)Transformer堆疊對(duì)文本向量進(jìn)行深層次編碼,原理如圖3所示,其中Vi為文本嵌入表示,Qi為經(jīng)過Transformer特征提取后的輸出。

Transformer中采用編碼器-解碼器架構(gòu),由多個(gè)編碼(encoder)層與解碼(decoder)層構(gòu)成。在每一個(gè)encoder層首先使用自注意力機(jī)制(self-attention)結(jié)構(gòu)進(jìn)行數(shù)據(jù)處理,可以使當(dāng)前節(jié)點(diǎn)不僅能關(guān)注當(dāng)前的詞,也能注意到周圍詞的影響,從而獲取具有上下文聯(lián)系的語(yǔ)義信息,然后在將處理后的數(shù)據(jù)輸入前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)行前向傳播。而每個(gè)子層后都引入了殘差連接與歸一化算法來解決深層網(wǎng)絡(luò)中出現(xiàn)的梯度消散問題。decoder層由3個(gè)子層組成,同樣包含了encoder層中的二個(gè)子層,不同的是在二個(gè)子層之間引入了Attention層,來幫助節(jié)點(diǎn)獲取當(dāng)前需要關(guān)注的重點(diǎn)特征信息。文本的嵌入表示輸入到encoder層,多頭自注意力機(jī)制處理完數(shù)據(jù)后輸入前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)行并行計(jì)算,繼續(xù)輸入到下一個(gè)encoder層,再重復(fù)以上的計(jì)算。encoder層的內(nèi)部原理如圖4所示。

圖4 encoder層內(nèi)部原理

(1)多頭自注意力機(jī)制

多頭自注意力機(jī)制其結(jié)構(gòu)由多個(gè)自注意力機(jī)制連接而成,其中每一個(gè)自注意力機(jī)制內(nèi)部結(jié)構(gòu)均相同。其內(nèi)部原理結(jié)構(gòu)如圖5所示。

圖5 自注意力機(jī)制原理

圖5中,該機(jī)制通過輸入表示初始化3個(gè)向量,即Query(q)、Key(k)和Value(v),其中q表示對(duì)字嵌入乘以一個(gè)權(quán)重矩陣、k用以表示周圍各個(gè)字的向量特征信息、v表示目標(biāo)字的上下文關(guān)系信息,再通過學(xué)習(xí)獲得最適合的向量。記自注意力機(jī)制的輸入為 {I1,I2,…,IN}, 首先對(duì)其初始化3個(gè)向量矩陣,q與k計(jì)算單詞之間的相似性,然后再與v進(jìn)行點(diǎn)乘運(yùn)算后得出注意力分?jǐn)?shù),記該機(jī)制的最終輸出結(jié)果為Zi,計(jì)算公式如下所示

qi=linear(Ii)=IiWiq

(2)

ki=linear(Ii)=IiWik

(3)

vi=linear(Ii)=IiWiv

(4)

(5)

其中,Ii為輸入的向量,Wiq,Wik,Wiv為可訓(xùn)練的參數(shù)。

BERT語(yǔ)言模型由于引入了多頭自注意力機(jī)制結(jié)構(gòu),使其無(wú)法對(duì)向量進(jìn)行后續(xù)的處理。這是因?yàn)榍梆伾窠?jīng)網(wǎng)絡(luò)每次只能處理一個(gè)輸入向量,無(wú)法處理由多個(gè)自注意力機(jī)制產(chǎn)生的多個(gè)輸出,因此需要將多個(gè)輸出轉(zhuǎn)換成一個(gè)輸出,即將多個(gè)矩陣乘以一個(gè)權(quán)重矩陣從而轉(zhuǎn)換成一個(gè)輸出。記該輸出為M,計(jì)算如式(6)所示

M=Concat(Z1,Z2…,ZN)WP

(6)

式中:WP為可訓(xùn)練的權(quán)重矩陣,Concat表示對(duì)內(nèi)部向量進(jìn)行拼接。

(2)前饋神經(jīng)網(wǎng)絡(luò)

多頭自注意力機(jī)制處理后的向量矩陣需要再執(zhí)行前向傳播,即需要輸入前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)行處理,但是需要先進(jìn)行殘差連接與歸一化操作,以解決神經(jīng)網(wǎng)絡(luò)的退化等問題,如式(7)所示

L=LayerNorm(I⊕M)

(7)

式中:⊕為殘差連接,I,M分別為經(jīng)過轉(zhuǎn)換后的輸入與輸出,LayerNorm表示正則化操作。

最后使用前饋神經(jīng)網(wǎng)絡(luò)對(duì)該向量矩陣進(jìn)行處理,前饋神經(jīng)網(wǎng)絡(luò)包含了線性映射與激活函數(shù)兩部分,如式(8)所示

Q=linear(ReLU(linear(L)))

(8)

式中:ReLU為激活函數(shù),linear為線性映射。

2.3 基于BiLSTM-CNN-Attention編碼

為了進(jìn)一步挖掘詞向量更深層次的含義以及提取專業(yè)術(shù)語(yǔ)特征信息,將經(jīng)由BERT模型后得到的詞向量表示Q輸入BiLSTM-CNN-Attention模型中。首先通過BiLSTM模型來對(duì)BERT詞向量雙向編碼,再通過設(shè)置CNN不同卷積核尺寸獲取法律案件的專業(yè)術(shù)語(yǔ)特征信息,最后引入Attention對(duì)不同專業(yè)術(shù)語(yǔ)特征信息賦予不同的權(quán)重,如圖6所示。

圖6 BiLSTM-CNN-Attention

從目前的情況來看,行政事業(yè)單位越來越重視財(cái)務(wù)內(nèi)部監(jiān)督,專職會(huì)計(jì)職能逐漸向管理會(huì)計(jì)職能轉(zhuǎn)變,內(nèi)部控制各項(xiàng)制度逐漸規(guī)范。而財(cái)務(wù)體制的改革涉及財(cái)政、人事、職能、內(nèi)部機(jī)構(gòu)運(yùn)行等方面,實(shí)際情況中,行政事業(yè)單位內(nèi)部控制仍然缺乏健全的相互監(jiān)督機(jī)制。因此,行政事業(yè)單位要根據(jù)實(shí)際的運(yùn)營(yíng)情況,對(duì)財(cái)務(wù)監(jiān)督的相關(guān)機(jī)制進(jìn)行完善。在完善的過程中,要對(duì)具體的監(jiān)督職責(zé)進(jìn)行劃分,確保具體的職責(zé)落實(shí)到各個(gè)崗位以及工作人員,并在劃分過程中分離不相容的崗位以及人員,避免出現(xiàn)一人多崗的現(xiàn)象,進(jìn)而使財(cái)務(wù)監(jiān)督的相關(guān)部門形成相互影響、相互制約的關(guān)系[2]。

(9)

經(jīng)由BiLSTM模型提取了詞向量更深層次的含義,但是卻忽略了法律案件的專業(yè)術(shù)語(yǔ)特征信息,因此引入CNN模型,設(shè)置不同的卷積核提取法律案件專業(yè)術(shù)語(yǔ)特征信息。將BiLSTM的輸出輸入CNN模型當(dāng)中,設(shè)置不同的卷積核,提取專業(yè)術(shù)語(yǔ)特征信息C, 最后采用Attention對(duì)提取的不同特征信息賦予不同的權(quán)重,得到最終的文本表示向量CAttention, 如以下公式所示

C=f(W·H+b)

(10)

CAttention=Attention(C)

(11)

其中,b為偏置項(xiàng),f為非線性函數(shù)。

2.4 輸 出

最終的輸出為多分類任務(wù),采用softmax函數(shù)來計(jì)算文本所屬每一個(gè)類別的概率,最大的概率為預(yù)測(cè)法條的類別。計(jì)算如式(12)所示

(12)

式中:Zn為第n個(gè)值,j為預(yù)測(cè)法條數(shù)量。

這里選擇交叉熵做為損失函數(shù),如式(13)所示

(13)

式中:yc為樣本值,P(Zn) 為softmax輸出概率。

3 實(shí)驗(yàn)結(jié)果和分析

3.1 數(shù)據(jù)集

3.2 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

本文實(shí)驗(yàn)的環(huán)境配置見表2。

表2 實(shí)驗(yàn)環(huán)境配置

BERT-BiLSTM-CNN的參數(shù)設(shè)置見表3。

3.3 評(píng)價(jià)指標(biāo)

本實(shí)驗(yàn)采用精確率precision、召回率recall和F1_score作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)。公式如下所示

(14)

(15)

(16)

其中,c表示被預(yù)測(cè)為正類的測(cè)試樣本中真正為正類的測(cè)試樣本;m表示所有被預(yù)測(cè)為正類的測(cè)試樣本(包括正確類和錯(cuò)誤類);n表示為所有真正的正類測(cè)試樣本(包括預(yù)測(cè)正確的和預(yù)測(cè)成負(fù)類)。

表3 BERT-BiLSTM-CNN參數(shù)設(shè)置

3.4 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文方法的有效性,在公益訴訟案件數(shù)據(jù)集上分別對(duì)7種神經(jīng)網(wǎng)絡(luò)模型在法條自動(dòng)推送的任務(wù)上進(jìn)行了實(shí)驗(yàn)對(duì)比,具體實(shí)驗(yàn)結(jié)果見表4。

表4 各模型法條自動(dòng)推送結(jié)果

3.4.1 各模型結(jié)果對(duì)比

比較表4中既未經(jīng)過BERT預(yù)訓(xùn)練也未添加Attention的CNN、BiLSTM、BiLSTM-CNN這3種模型,可以發(fā)現(xiàn),CNN模型法條自動(dòng)推送的結(jié)果要優(yōu)于BiLSTM模型,在各個(gè)指標(biāo)上均有提高,在F1_score上提高1.32%,說明了法條自動(dòng)推送任務(wù)中更加依賴于法律案件中專業(yè)術(shù)語(yǔ)的特征信息。BiLSTM-CNN模型的分類結(jié)果在F1_score上分別比CNN與BiLSTM提高了2.07%與3.39%,表明了結(jié)合法律案件上下文聯(lián)系與專業(yè)術(shù)語(yǔ)特征信息的分類效果更優(yōu)。

比較表4中有無(wú)經(jīng)過BERT預(yù)訓(xùn)練與Attention機(jī)制的兩組模型,即CNN與BERT-CNN模型、BiLSTM與BERT-BiLSTM模型、BiLSTM-CNN與BERT-BiLSTM-CNN模型。通過比較發(fā)現(xiàn),無(wú)論是哪一種模型,對(duì)文本進(jìn)行BERT預(yù)訓(xùn)練后的分類效果都有很大程度的提升,添加了BERT預(yù)訓(xùn)練模型相比于未添加的模型在F1_score上分別提升了7.72%、8.18%以及7.06%,由此可以看出,經(jīng)過BERT預(yù)訓(xùn)練后的模型能夠有效獲取法率案件語(yǔ)義信息,再經(jīng)由特征提取能夠很好標(biāo)識(shí)法律文本,從而使得法條自動(dòng)推送效果更為準(zhǔn)確。

比較表4中有無(wú)添加Attention機(jī)制的兩組模型,可以看出BiLSTM-CNN-Attention相比于BiLSTM-CNN在F1_score指標(biāo)上提高了0.69%,BBCAL在F1_score上相比于BERT-BiLSTM-CNN提高了3.40%,說明了加入Attention 機(jī)制能使模型忽略句子中無(wú)關(guān)特征,去除噪聲的干擾,且能夠更加高效合理地注重于關(guān)鍵專業(yè)術(shù)語(yǔ)特征信息,并賦予這些關(guān)鍵專業(yè)術(shù)語(yǔ)特征信息更高的權(quán)值。

3.4.2 卷積核尺寸與數(shù)量對(duì)模型的影響

由表5可以看出,卷積核尺寸的大小會(huì)影響著提取專業(yè)術(shù)語(yǔ)特征信息的能力。在卷積核尺寸為[2,3,4]時(shí),模型效果達(dá)到最優(yōu),這是因?yàn)樵诜砂讣?dāng)中,粒度為2和4的專業(yè)術(shù)語(yǔ)分布最多,通過融合可以準(zhǔn)確提取其特征信息。隨著卷積核尺寸的不斷增大,模型的效果不斷降低,這是因?yàn)樵谔崛√卣餍畔r(shí),過多的無(wú)用信息會(huì)造成干擾,無(wú)法準(zhǔn)確有效提取專業(yè)術(shù)語(yǔ)特征信息,通過分析最終確定卷積核尺寸為[2,3,4]。

表5 卷積核尺寸的影響

從表6中可以看出,選取不同數(shù)量的卷積核也會(huì)影響著法條的自動(dòng)推送效果。當(dāng)卷積核數(shù)量為64時(shí),模型的分類效果較低,這是因?yàn)榫矸e核數(shù)量較少時(shí)特征圖的數(shù)量也就較少,CNN模型擬合能力不夠容易欠擬合,造成分類效果下降。而卷積核數(shù)量選取過多時(shí),不僅會(huì)增加模型訓(xùn)練的時(shí)間,還會(huì)造成果過擬合的問題,導(dǎo)致出現(xiàn)差異性較大的案例時(shí)法條自動(dòng)推送效果不理想。當(dāng)卷積核數(shù)量為128與256時(shí),法條自動(dòng)推送的效果較好,后者的卷積核數(shù)量是前者的一倍,但是F1_score只提高了0.32%,結(jié)合卷積核越多訓(xùn)練時(shí)間越長(zhǎng)且容易造成過擬合,最終確定CNN模型的卷積核數(shù)量為128。

3.4.3 丟失率對(duì)模型的影響

除此之外,還進(jìn)一步考慮了丟失率對(duì)法條自動(dòng)推送模型的影響,丟失率可以按照一定比例隨機(jī)讓一部分隱層節(jié)點(diǎn)失效,在訓(xùn)練樣本較少的情況之下,可以防止模型過擬合以影響文本分類效果。在BERT-CNN、BERT-BiLSTM-CNN、

表6 卷積核數(shù)量的影響

BBCAL這3種模型上進(jìn)行丟失率的比較。根據(jù)以往經(jīng)驗(yàn),分別選取了丟失率為0.4、0.5、0.6、0.7和0.8,來進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比。由圖7所示,在3種模型當(dāng)中,當(dāng)丟失率為0.5與0.6時(shí),模型能夠達(dá)到理想效果。在本文方法上,當(dāng)丟失率為0.5時(shí),法條自動(dòng)推送F1_score為87.53%,達(dá)到最優(yōu),說明了相比于丟失率為0.6時(shí),丟失率為0.5可以保留更多的特征信息,因此最終確定丟失率為0.5。

圖7 丟失率的影響

3.4.4 模型的收斂曲線與混淆矩陣

為了進(jìn)一步的提升該模型的有效性與穩(wěn)定性,分別研究了損失(loss)與精準(zhǔn)(accuracy)收斂曲線,如圖8、圖9所示,圖8為loss與epoch的變化曲線,圖9為accuracy與epoch的變化曲線。由圖8可以看出當(dāng)epoch達(dá)到18之后,loss趨于穩(wěn)定,模型達(dá)到收斂。而圖9當(dāng)中,當(dāng)epoch達(dá)到15之后accuracy就開始收斂,模型趨于穩(wěn)定。隨著epoch的增大,訓(xùn)練的次數(shù)就越多,需要花費(fèi)大量的時(shí)間去進(jìn)行訓(xùn)練,甚至?xí)鲞^擬合的現(xiàn)象,綜合以上因素,最終確定epoch為15。

使用文本的方法,得到混淆矩陣,見表7。

圖8 損失收斂曲線

圖9 精準(zhǔn)收斂曲線

4 結(jié)束語(yǔ)

本文面向公益訴訟法律案件,提出了一種融合案件語(yǔ)義信息與法律專業(yè)術(shù)語(yǔ)特征信息的法條自動(dòng)推送模型,通過BERT模型獲取法律案件的詞向量表示,解決了一詞多義的問題,引入BiLSTM模型來挖掘BERT模型詞向量更深層次的含義,解決長(zhǎng)期依賴問題,再輸入后續(xù)模型中提取專業(yè)術(shù)語(yǔ)的特征信息,最后進(jìn)行分類任務(wù)。研究表明,經(jīng)過BiLSTM模型挖掘后的向量以及提取法律專業(yè)術(shù)語(yǔ)特征信息的模型在法條自動(dòng)推送任務(wù)上效果更優(yōu),因?yàn)锽ERT將多個(gè)Transformer編碼器堆疊在一起進(jìn)行雙向?qū)W習(xí),再通過BiLSTM模型記憶的特點(diǎn),可以更好獲取復(fù)雜法律案件的上下文信息,理解復(fù)雜法律案件,而CNN模型可以有效提取不同粒度的專業(yè)術(shù)語(yǔ)特征信息,再通過Attention關(guān)注重要專業(yè)術(shù)語(yǔ)特征信息,最終提升了法條自動(dòng)推送效果。

表7 混淆矩陣

猜你喜歡
特征法律文本
法律解釋與自然法
法律方法(2021年3期)2021-03-16 05:57:02
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
讓人死亡的法律
山東青年(2016年1期)2016-02-28 14:25:30
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
“互助獻(xiàn)血”質(zhì)疑聲背后的法律困惑
讓法律做主
浙江人大(2014年5期)2014-03-20 16:20:27
主站蜘蛛池模板: 国产成人综合亚洲欧美在| AⅤ色综合久久天堂AV色综合 | 毛片国产精品完整版| 亚洲a免费| 五月婷婷激情四射| 国产极品美女在线播放| 国产成人高清精品免费5388| 国产精品嫩草影院av| 午夜性刺激在线观看免费| 手机在线国产精品| 91精品情国产情侣高潮对白蜜| 69精品在线观看| 日本不卡在线播放| 欧美色视频日本| 乱人伦中文视频在线观看免费| 久久久久中文字幕精品视频| 午夜天堂视频| 99热这里只有精品在线播放| 久草视频中文| 精品无码一区二区三区电影| 亚洲天堂2014| 五月婷婷精品| 欧美一区二区啪啪| 中文字幕日韩丝袜一区| 天天爽免费视频| 成人综合网址| 18禁高潮出水呻吟娇喘蜜芽| a色毛片免费视频| 天天爽免费视频| 扒开粉嫩的小缝隙喷白浆视频| 中文字幕亚洲无线码一区女同| 亚洲无线视频| 免费看a级毛片| 中文字幕亚洲精品2页| 国产精品无码AV片在线观看播放| 免费一级大毛片a一观看不卡| 国产自在线拍| 欧美成人精品在线| 黄色网址手机国内免费在线观看 | 丁香五月亚洲综合在线| 91精品国产自产在线观看| 999精品视频在线| 日本欧美精品| 精品无码一区二区三区电影| 亚洲欧美日韩中文字幕一区二区三区| 亚洲国产日韩在线成人蜜芽| 熟妇丰满人妻| 伊人无码视屏| 99尹人香蕉国产免费天天拍| 精品剧情v国产在线观看| 在线看国产精品| 曰韩免费无码AV一区二区| 亚洲综合在线网| 国产日韩欧美视频| 波多野结衣无码中文字幕在线观看一区二区 | 2021国产精品自产拍在线| 国产成人免费观看在线视频| 色偷偷一区| 亚洲中文字幕国产av| A级毛片无码久久精品免费| 亚洲一级毛片在线观| 欧美国产中文| 美女潮喷出白浆在线观看视频| 久久亚洲国产视频| jizz亚洲高清在线观看| 五月婷婷丁香综合| 亚洲色图欧美视频| 尤物国产在线| 国产久操视频| 成年人国产网站| 欧美特级AAAAAA视频免费观看| 久久99精品久久久久纯品| 少妇高潮惨叫久久久久久| 手机精品福利在线观看| 亚洲视频色图| 国产欧美日韩另类| 欧美亚洲一二三区| 97国产在线观看| 漂亮人妻被中出中文字幕久久| 亚洲有码在线播放| 国产成人AV大片大片在线播放 | 久久精品亚洲专区|