999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多任務學習的多罪名案件信息聯合抽取

2023-01-29 13:19:00王卓越陳彥光邢鐵軍孫媛媛林鴻飛
計算機工程與應用 2023年2期
關鍵詞:特征模型

王卓越,陳彥光,邢鐵軍,孫媛媛,楊 亮,林鴻飛

1.大連理工大學 計算機科學與技術學院,遼寧 大連116024

2.東軟集團股份有限公司,沈陽110179

隨著中國司法信息的透明化,大量裁判文書在中國裁判文書網[1]上公開,這些開源的刑事判決書中蘊含著大量的法律信息。從法律文書中自動抽取信息對于法律文書分析和相關業務處理至關重要。下游司法應用如識別案件事實、協助審查案件文件,以及輔助生成法律文件等,都依賴于信息抽取技術。實體關系抽取是信息抽取技術中至關重要的模塊,旨在捕獲案件事實描述中的實體對及其相互關系,將非結構化的法律文書轉換成結構化的三元組知識。實體關系抽取技術有效緩解了人工提取信息費力費時的問題,對于司法業務智能化有著十分重要的意義。

近些年來,隨著神經網絡的廣泛應用,實體關系聯合抽取技術迅速發展。Miwa等[2]提出了一種端到端的神經網絡模型,通過參數共享機制對實體識別和關系抽取兩個任務進行聯合學習。Zheng等[3]提出了一種新穎的標注方案,包含實體信息和實體間的關系,基于這種標注方案,將聯合抽取問題轉化為序列標注問題。此外,Zeng等[4]和Zeng等[5]使用基于編碼器-解碼器的聯合抽取模型,將三元組抽取任務看作序列生成任務。Nayak等[6]在編碼器-解碼器模型的基礎上,提出了一種新的三元組表示方法,通過指針網絡進行解碼生成三元組序列。Chen等[7]將司法領域詞典特征融入模型編碼器部分,進一步提高了聯合抽取模型在法律文本上的性能。

目前,面向法律文書的實體關系聯合抽取模型一般只針對某一特定罪名的情境進行設計,很少有工作研究面向多罪名案件情形下的實體關系抽取。而在實際的司法業務應用中,常常需要分析多類罪名的案件,單獨為各類罪名下的文本訓練獨立的模型既耗費時間,又要存儲不同罪名對應的模型參數,耗費存儲空間,因此,多罪名情境下的實體關系抽取是很值得研究的。由于不同罪名案件的法律文書中的案件事實的描述不同,不同罪名的案件所涉及的實體類型、實體長度等特點也不盡相同,所以模型所關注的文本特征也是不同的。在這種情況下,如果直接將不同罪名的案件數據整合到一個數據集中一起訓練,由于不同罪名的文本存在的內在的差異性,會導致一類罪名數據向另一類罪名數據引入噪聲,降低模型的性能。為了解決此問題,本文引入多任務學習進行多罪名情形下的實體關系聯合抽取的研究。

多任務學習的核心思想是通過共享跨任務的有用信息以提升多個模型的性能和泛化能力。目前,多任務學習已經被廣泛地應用到圖像領域[8-10]和自然語言處理領域[11-15]中。Hashimoto等[14]根據詞性分析、語塊分析、依存句法分析、文本語義相關和文本蘊涵等五個任務間的語言學層次關系,提出了一種層次增長的神經網絡模型聯合學習五個任務。Sun等[15]將實體識別和關系抽取作為多任務學習的兩個子任務,提出了一種漸進的多任務學習模型,利用早期預測的交互來改進特定于任務的表示。

多任務模型能夠在單一的模型中同時學習多個任務,并被證明通過任務之間的信息共享能夠提高學習效率[16]。模型學到的共享表示通常會有較好的抽象能力,使得單個模型能夠適應多個相關但不同的目標任務。多任務學習中的任務通常可以分為主任務與輔助任務,通常設置一個或幾個與主任務相關的任務作為輔助任務,輔助任務與主任務共同訓練以提升主任務性能和泛化能力。考慮到不同種類的罪名的案件數據之間存在的固有差異,在對犯罪事實文本進行實體關系抽取之前,知道文本屬于哪種罪名對聯合抽取是有所幫助的。由此,本文構建了一個罪名分類任務來預測文本所屬的罪名,把主任務設置成實體關系聯合抽取任務,把輔助任務設置成罪名分類任務,通過多任務模型同時對聯合抽取和罪名分類兩個任務進行學習,相比單任務聯合抽取模型,取得了性能的提升。

1 單任務模型

在本章中,將會依次介紹用于實體關系聯合抽取和罪名分類的兩個單任務模型。對于聯合抽取任務,借鑒Nayak等[6]的工作,使用基于編碼器-解碼器架構的實體關系聯合抽取模型,其中,編碼器和解碼器均采用雙向長短期記憶網絡(bi-directional long-short term memory,BiLSTM)。對于罪名分類任務,同樣采用BiLSTM進行編碼,然后通過分類器進行罪名分類。

1.1 實體關系聯合抽取模型

實體關系聯合抽取模型由編碼器和解碼器構成。編碼器用來把源句子表示為語義向量,解碼器用來解碼出三元組序列。具體地,給定輸入句子S,使用預訓練的詞向量和字符級向量拼接后的特征向量作為S中的每個詞的表示,向量化表示后的句子為{x1,x2,…,xN},xi∈?(dw+dc),其中,dw是詞向量的維度,dc是字符嵌入向量的維度。詞向量采用Word2vec[17]方法在30萬份法律文書上進行預訓練得到,每個單詞的字符級向量是通過最大池化的卷積神經網絡來提取的。特征向量xi被輸入到由BiLSTM構成的編碼器中獲得隱層表示hi,最終編碼器的輸出為HEncoder={h1,h2,…,hN}。給定編碼器的表示HEncoder,解碼器解碼出三元組序列T,T={t1,t2,…,tM},其中tk表示序列中的第k個三元組,M表示三元組序列T的長度。tk由第k個三元組的頭尾實體的起始索引和終止索引以及實體之間的關系類型構成。根據實體的起止索引即可從原始文本中提取出實體,通過關系分類器可以獲得實體對的關系種類。解碼器在每一個時間步解碼出一個三元組,當解碼出的三元組的關系類型變為“NA”或目標序列長度達到默認的最大值時,解碼器停止解碼。具體地,對于時間步k,將解碼器的隱藏狀態向量定義為將時間步k之前解碼器輸出的三元組序列表示為tpr,tpr由該時刻已經解碼出的三元組的向量求和得出,如公式(1)所示。為了計算,首先用Attention機制對編碼器和解碼器進行交互,得到特征向量ak,如公式(2)所示。

然后將ak和tpr拼接,作為當前時間步的輸入輸入到LSTM單元中,得到

最后,基于HEncoder和預測實體對的起止索引和關系類型。首先,將擴展到輸入序列長度N得到矩陣然后將來自編碼器和解碼器的這兩個表示進行拼接并通過一個BiLSTM層,計算輸入文本中各個單詞是實體開始的概率pb和是實體末尾的概率pe,由此,可以通過實體的起止索引確定實體。計算過程如式(3)~(5)所示。其中,[;]表示拼接操作,Wb和We為可訓練的參數矩陣。

為了預測實體間的關系,首先要得到實體的向量表示,如式(6)所示,其中,ek是k時刻解碼出的三元組中一個實體的向量化表示,hi是Hk中的一個隱層向量。按公式分別計算頭尾實體的向量化表示,然后通過softmax分類器得到關系的概率分布,如式(7)所示,再經過一個關系嵌入層得到關系的表示rk,將實體的向量表示和關系的向量表示進行拼接得到三元組表示再計算下一時刻的tpr。

1.2 罪名分類模型

罪名分類任務使用的文本數據和聯合抽取模型相同,文本數據的罪名標簽是通過數據的來源類型獲得的。

罪名分類模型的編碼層與聯合抽取模型相同,也采用BiLSTM編碼。給定編碼器的輸出為HClassifier,首先通過一個池化層,獲得輸入句子的向量表示vc,這里采用最大池化(Max Pooling)操作。然后將vc輸入到一個線性層中,最后通過softmax函數預測源句子S所屬的罪名類別標簽c,得到概率分布p,如式(8)、(9)所示,其中Wc為線性層中可訓練的參數。

2 多任務模型

在本章中,以司法領域涉毒類案件和盜竊類案件的案情文本作為實驗數據,將聯合抽取模型應用到多罪名案件中。給定一條來自判決文書的案件事實描述語句S={w1,w2,…,wN},其中,wi是語句S的第i個詞,N是語句S的長度。模型的目標是預測語句S所屬的罪名以及從案情描述中識別出文本中所包含的全部形如<e1,r,e2>的三元組,其中e1、e2分別是S中的頭尾實體,r是它們之間的關系。本章將介紹本文構建的三個多任務模型:硬共享多任務模型、共享-私有多任務模型以及基于特征篩選的動態加權多任務模型。

2.1 硬共享多任務模型

硬共享(hard shared model,HSM)多任務模型的結構如圖1所示。硬共享模型中,模型的編碼層的參數在兩個任務之間是全部共享的,此外,每個任務都有一個任務特定的上層網絡,對于聯合抽取任務,上層網絡是1.1節所述的解碼器,對于罪名分類任務,上層網絡是一個池化層和分類層。硬共享模型假設全部任務共享同樣的文本特征,但不同任務可能存在特定的任務相關的特征,因此硬共享模型無法很好地處理任務間的差異性。

圖1 硬共享多任務模型Fig.1 Hard shared multi-task model

2.2 共享-私有多任務模型

共享-私有模型(shared-private model,SPM)的模型如圖2所示。該模型和硬共享模型一樣,有一個共享的編碼層網絡,除此之外,兩個任務還各有一個任務特定的編碼層網絡。

圖2 共享-私有多任務模型Fig.2 Shared-private multi-task model

具體地,共享的編碼層網絡為兩個任務學習一個共享的編碼表示HShare,聯合抽取任務和罪名分類任務的私有編碼層網絡分別為兩個任務學習各自任務特定的編碼表示HEncoder和HClassifier。對于聯合抽取任務,將該任務的私有表示和共享表示拼接后的表示[HShare;HEncoder]作為聯合抽取任務最終的輸入特征表示,將其傳遞到聯合抽取任務的任務特定上層網絡中,進行解碼和三元組的生成。對于罪名分類任務,將該任務的私有表示和共享表示拼接后的表示[HShare;HClassifier]作為罪名分類任務最終的輸入特征表示,對其進行最大池化特征提取操作,然后傳遞到softmax分類器中,進行罪名分類。

與硬參數共享模型相比,共享-私有模型能夠通過共享的編碼層網絡和私有的編碼層網絡分別學習任務之間的共有的信息和每個任務特定的信息,從而在一定程度上減輕了某個任務特定的信息給另一個任務的學習引入噪聲的現象。同時共享-私有模型又能學習到任務之間共同的部分,有利于模型泛化性的提升。

2.3 基于特征篩選的動態加權多任務模型

在共享-私有模型的基礎上,本文提出了基于特征篩選的動態加權多任務模型(dynamic weight model with feature filtering,FF-DWM)。首先,模型在學習多個任務時,對于每個任務來說,共享特征起到的作用也有所不同,基于此,本文設計了一種新的特征融合方式,通過Attention機制分別為不同子任務篩選共享特征中對其有益的部分。首先,將兩個子任務的任務特定編碼表示HEncoder和HClassifier分別輸入到線性層,進行線性變換,得到矩陣公式如式(10)、(11)所示,其中,WE和WC是線性層中可訓練的參數。同理,將共享的編碼表示HShare通過線性層得到兩個不同的矩陣然后分別計算自注意力,計算公式如式(12)、(13)所示,其中,h表示多頭注意力中的第h個頭,dk表示多頭注意力中每個頭的維度,為聯合抽取任務特征與共享特征計算自注意力后的結果為罪名分類任務特征與共享特征計算自注意力后的結果。

在計算自注意力后,把每個注意力頭的結果進行拼接,并通過一個前饋神經網絡,獲得共享-私有特征融合后的表示HShare_E和HShare_C。

其次,在多任務訓練的不同階段,任務對共享特征和私有特征的依賴程度也是不同的。為了讓模型可以在多任務訓練的不同階段自動地學習共享特征與私有特征之間的比例,本文為各個子任務設置了一個加權權重值,并且在訓練過程中不斷更新該權重,以動態調節共享特征與私有特征之間的比例,計算過程如式(14)、(15)所示,其中,α1和α2是在訓練過程中習得的參數。

圖3 基于特征篩選的動態加權多任務模型Fig.3 Dynamic weight model with feature filtering model

3 實驗結果與分析

3.1 數據集及超參數設置

實驗所使用的數據集來自中國裁判文書網所公開的刑事判決書。本文針對涉毒類刑事案件和盜竊類刑事案件進行實驗,其中,涉毒類數據集涉及三類罪名,即販賣毒品罪、非法持有毒品罪和容留他人吸毒罪,包括了4種關系類型,分別為販賣(給人)(sell_drug_to)、販賣(毒品)(traffic_in)、持有(possess)、非法容留(provide_shelter_for),這4種關系涵蓋了3類涉毒類案件中的各犯罪行為。涉毒類刑事案件數據集共有1 750條案情描述文本,經過標注后以4∶1的比例切分成訓練集和測試集。相應的關系統計情況如表1所示。

表1 涉毒類案件數據集中關系類型的統計情況Table 1 Statistics of relation types in drug-related dataset

盜竊類案件的數據集定義了4種關系類型,為偷盜(steal)、(涉案物品)屬于(belong_to)、(涉案物品)價格(worth)、盜竊所得(earn_profits)。以750份盜竊類案件刑事判決書的案情描述文本為原始語料,以案件為單位對數據集進行隨機劃分,以比例4∶1切分訓練集和測試集。經過標注后的數據集中,訓練集共4 487條實例,包含600份案件的案情文本,測試集共1 084條實例,包含150份案件的案情文本。數據集的關系類型統計情況如表2所示。最后,根據每條數據樣本的來源案件類型確定其所屬罪名標簽,形成罪名分類任務所使用的數據集。

表2 盜竊類案件數據集中關系類型的統計情況Table 2 Statistics of relation types in drug-related dataset

在對模型性能進行評估方面,使用對完整三元組提取的精確率(P)、召回率(R)以及F1值(F1)作為評價指標,精確率評估模型預測為正例的樣本中預測正確的樣本占比,召回率評估模型預測正確的正例樣本在所有正例樣本中的占比,F1值為二者的調和平均值,評估模型的綜合能力。實驗采用的超參數設置如表3所示。

表3 超參數設置Table 3 Hyperparameter settings

3.2 多罪名實體關系聯合抽取實驗

為驗證本文提出的基于特征篩選的動態加權多任務模型在處理多罪名實體關系聯合抽取問題上的優越性,本文與單任務模型以及三個多任務模型進行了實驗對比,結果如表4所示。其中,Single是未使用任何多任務方法,直接將兩類罪名文本數據放到一起訓練得到的實體關系聯合抽取的結果,HSM、SPM分別為硬共享模型和共享私有模型的結果,此外,PLE為文獻[16]所提出的基于門控機制的多任務模型復現到多罪名實體關系聯合抽取任務上的結果,Our Method是本文提出FFDWM模型。Drug_和Larceny_表示分別在涉毒類案件測試集和盜竊類案件測試集上進行評價得到的結果,P、R、F是對兩類罪名數據測試集中的文本進行三元組抽取實驗得到的結果。

由表4結果可以看出,不使用多任務方法直接對兩類案件數據集進行實體關系聯合抽取,無論是在特定罪名的數據集上還是整體上的F1值都是最低的。幾種多任務方法都在單任務模型的基礎上取得了性能的提升,證明了將多任務方法應用到多罪名案件的實體關系聯合抽取任務中的有效性,同時也證明了本文所設計的輔助任務的合理性,在處理多罪名案件的任務時,罪名分類任務可以很好地輔助主任務學習,提升主任務性能。

表4 不同多任務學習模型下三元組抽取實驗結果Table 4 Performance of different multi-task learning models 單位:%

本文模型與單任務模型相比,整體F1值提升了2.4個百分點,與HSM、SPM、PLE相比,分別提升了1.5、1.8和1.7個百分點,且在單獨的數據集上也取得了最好的性能,證明了本文所提出的多任務模型的有效性。HSM在整體F1值上較SPM高0.3個百分點,但在涉毒類數據集上的F1值較SPM低0.5個百分點,本文分析是因為兩個數據集的規模不同,涉毒數據集數據量較小,其罪名標簽數量也相較盜竊類數據更少,致使模型更傾向對盜竊類樣本的學習,而HSM中完全共享兩個任務的編碼器參數,從而導致了涉毒類數據集實體關系抽取性能相比SPM下降。

3.3 消融實驗

為進一步證明共享特征篩選和動態加權策略的有效性,本文進一步進行了實驗,實驗結果如表5所示,其中w/o att為模型不使用Attention機制對共享特征進行篩選的結果,w/o weight為模型不對共享特征和私有特征進行動態加權的結果。在不使用Attention機制進行特征篩選時,模型的整體F1值下降了0.6個百分點,其中,在涉毒類數據集上F1值下降較為明顯,為1.9個百分點,說明是否對共享特征進行篩選對涉毒類數據集上的聯合抽取性能影響較大,進一步證明了在對規模不同的數據集進行聯合學習時,對共享特征篩選能夠保證規模較小的數據集不被規模較大的數據集所影響。在不使用動態加權方法時,模型整體F1值下降了1.3個百分點,說明在多任務訓練的不同階段給共享特征和私有特征設置動態權值對多任務訓練是有積極作用的。

表5 消融實驗結果Table 5 Ablation experiment results 單位:%

此外,本文對表4、表5中對比實驗的整體F1值進行了T檢驗,在顯著性水平0.05下,實驗結果差異顯著。對于表4,本文模型與基線模型中性能最好的HSM模型進行T檢驗的結果p值為0.031 9;對于表5,本文模型與w/o att、w/o weight進行T檢驗的結果p值分別為0.032 5和0.003 9。

3.4 錯誤分析

本文對四個基線方法中性能最好的HSM方法的典型錯誤案例進行了分析,并與本文提出的FF-DWM模型的識別結果進行了對比,出現較多的錯誤類型的實例如表6所示。對于實例1,HSM方法錯誤地識別出實體“八千元”,注意,貨幣這一實體類型是不會出現在預定義的涉毒類數據集的4種關系中的,但會出現在盜竊類案件中的worth和earn_profits這兩種關系所對應的實體中,說明兩類罪名的案件對彼此產生了干擾。相比之下,本文提出的FF-DWM模型能夠較好地減輕不同數據集給彼此帶來的噪聲,正確地識別出文本中所包含的三元組。對于實例2,HSM方法錯誤地識別出三元組“洪某某;王某甲;belong_to”,而在盜竊類案件數據集預定義的4種關系中不存在頭尾實體類型均是“人”的關系,這種實體對的類型存在于涉毒類案件的sell_drugs_to這一關系類型中,分析也是由于不同類罪名數據集的特點不同而模型沒有很好地區分兩類案件數據的關系的特點所造成的,同樣,對于該案例,FF-DWM模型也能夠識別出正確三元組,同時,錯誤案例對“**牌兩輪摩托車”這一實體的實體邊界識別不準確,而FF-DWM模型也能精確地識別出準確的實體邊界。可以看出FFDWM模型在能夠對兩類案件數據進行較充分地學習的基礎上,也能較好地區分兩類罪名數據的不同特征。

表6 錯誤案例Table 6 Error cases

4 結束語

針對處理多罪名案件文書的實際業務需求,本文研究了多任務學習在多罪名實體關系聯合抽取任務上的應用,通過引入對司法案情文本進行罪名分類的輔助任務,更好地促進了作為主任務的聯合抽取任務的性能提升。此外,本文研究了三種多任務學習框架的參數共享模式,提出了一種基于特征篩選的動態加權多任務模型,既能保留特定任務的特有特征表示,又能通過Attention機制自動為不同任務篩選對其有益的共享特征,同時,在多任務訓練的不同階段,允許模型動態地調整共享特征和私有特征在主輔任務中的比重。實驗結果顯示,本文構建的三個多任務模型在性能上均優于單任務模型,而且本文提出的基于特征篩選的動態加權多任務方法的性能取得了最優的結果。

在下一步工作中,將在更多類罪名數據集上進行司法實體關系聯合抽取實驗。此外,也將研究其他多任務學習框架和多任務優化方法,進一步提升任務性能。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 午夜精品福利影院| 亚洲日本韩在线观看| 国产精品一区二区在线播放| 亚洲人成人无码www| 久久无码高潮喷水| 99久久亚洲综合精品TS| 亚洲欧州色色免费AV| 免费又黄又爽又猛大片午夜| 亚洲男人在线天堂| 国产丝袜啪啪| 久久国产拍爱| 国产玖玖视频| 国产精品久久久久鬼色| 亚洲永久免费网站| 国产AV无码专区亚洲A∨毛片| 国产精品亚洲综合久久小说| 欧美国产日韩在线播放| 一区二区三区成人| 无码aⅴ精品一区二区三区| 国产极品美女在线观看| 久久99精品久久久久纯品| 欧美一区二区三区国产精品| 中美日韩在线网免费毛片视频| 五月天综合婷婷| 美美女高清毛片视频免费观看| 亚洲 日韩 激情 无码 中出| 青青青国产在线播放| 国产成人高清在线精品| 啊嗯不日本网站| 三上悠亚在线精品二区| 亚洲精品视频在线观看视频| 中国国产一级毛片| 国产呦精品一区二区三区下载| 国产微拍精品| 在线播放精品一区二区啪视频| 黄片在线永久| 一本久道久久综合多人| 天天色天天综合| 成人亚洲视频| 色有码无码视频| 波多野结衣中文字幕一区二区 | 美女毛片在线| 久久国产乱子| 美女一级免费毛片| 中文字幕波多野不卡一区| 永久毛片在线播| 一区二区三区四区日韩| 亚洲成肉网| 五月激激激综合网色播免费| 国产成人综合在线视频| 亚洲伊人天堂| 中文天堂在线视频| 伊人成色综合网| 久久国产黑丝袜视频| 久久久久国产一级毛片高清板| 色老二精品视频在线观看| 性视频久久| 亚洲 日韩 激情 无码 中出| 欧美国产日韩另类| 无码一区中文字幕| 性色生活片在线观看| 日本精品影院| 久久精品国产在热久久2019| 欧美成人综合在线| 亚洲综合天堂网| 久青草国产高清在线视频| 精品天海翼一区二区| 亚洲全网成人资源在线观看| 国产偷国产偷在线高清| 九九久久99精品| 久久这里只有精品8| 97精品伊人久久大香线蕉| 成人精品亚洲| 国产丝袜91| 伊人成人在线视频| 97精品国产高清久久久久蜜芽| 色婷婷狠狠干| 青草国产在线视频| 国产jizz| 国产精品99久久久久久董美香| 成人永久免费A∨一级在线播放| 国内精品小视频福利网址|