999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

距離感知和方向感知的Transformer Encoder用于司法領域實體識別

2021-08-19 08:21:52曹重陽楊品莉
現代計算機 2021年21期
關鍵詞:實驗模型

曹重陽,楊品莉

(四川大學計算機學院,成都610065)

0 引言

由于司法領域中各種司法文件種類繁多、數量巨大、案件復雜等特點,司法信息自動化已經迫在眉睫。司法信息自動化有助于實現司法信息共享[1],完善司法業務流程,優化司法系統,極大地提高相關從業人員工作效率。

近年來,深度學習加持下的自然語言處理技術得到了迅猛發展,其中越來越多的相關技術,例如實體識別[2]、知識圖譜[3]等被運用到司法領域,這極大促進了司法信息自動化,提高了司法領域的發展。法律案例文本中存在大量司法領域實體,例如“張三”、“安徽省人民法院”、案卷編號、犯罪類型等,這些司法領域實體的準確識別是后續實現司法事件抽取,構建司法領域知識圖譜等技術的前提。

命名實體識別(NER)的任務是在句子中找到一個實體的開始和結束,并為這個實體指定一個類。由于命名實體識別在問題生成[4]、關系提取[5]和參考文獻分辨率[6]方面的潛在幫助,命名實體識別在自然語言處理領域得到了廣泛研究。命名實體識別通常被看作是一個序列標注任務,神經模型通常包含三個部分:詞嵌入層、上下文編碼器層和解碼器層[10-12],不同命名實體識別模型之間的差異主要體現在這三層。命名實體識別的方法大致可以分為有監督、半監督、無監督和混合方法幾種。有監督的實體識別方法:數量巨大的已標注語料庫作為模型的輸入,比較流行的方法有隱馬爾可夫模型、最大熵模型、支持向量機、決策樹和條件隨機場(Conditional Random Field,CRF)等,其中,基于CRFs的模型在實體識別任務上獲得了比較好了效果。半監督的實體識別方法:數據規模小的已標注的小數據集(種子數據)作為模型的輸入,讓模型自舉學習數據的內在結構,大體思路是使用大量的無標注語料庫訓練了一個雙向神經網絡語言模型,然后使用這個訓練好的語言模型來獲取當前要標注詞的語言模型向量,然后將該向量作為特征加入到原始的雙向循環神經網絡(Recurrent Neural Network,RNN)模型中。無監督的實體識別方法:利用詞匯資源(如WordNet)等進行上下文聚類。近年來,算力得到不斷提升,各種神經模型被引入命名實體識別以避免手工制作的特征[7-9],基于深度學習的命名實體識別方法也展現出很高的識別準確率,此類方法無需大量人工特征,只需詞向量和字符向量便可以產生很不錯的識別性能,若再加入高質量的詞典特征可以是性能更強。此類方法主要思路是把實體識別等價為一個序列標注任務,比較經典的是GRUCRF(Gated Recurrent Unit,GRU)和BiLSTM-CRF[13]等RNN模型。

最近,Transformer[14]開始在各種NLP任務中盛行,如機器翻譯[14]、語言建模[15]和預訓練模型[16]。Transform?er Encoder采用全連接的自我注意結構對遠程上下文進行建模,這是RNNs的缺點。此外,Transformer比RNNs具有更充分利用GPUs并行計算的能力。然而,在命名實體識別任務中,Transformer Encoder已經被報告表現不佳[17],因為它既不感知距離,又不感知方向。這個問題在司法裁定書的實體識別任務中更為嚴重。如圖1所示,觀察裁定書發現:“審判長、審判員”的后面一般是姓名,“罪犯”的后面一般是姓名,“犯”的后面一般是犯罪類型等;此外詞與詞之間的距離也很重要,因為只有連續的文字才能形成一個實體,每個實體之間是有間隔的。總之,實體方向和實體距離對司法實體識別任務十分重要。

圖1 裁定書標記文本

基于此,本文提出一種距離感知和方向感知的Transformer Encoder模型(DDATE)用于司法領域實體識別系統,實驗表明這種距離感知和方向感知是十分有效的。此外本文不僅使用DDATE建模詞級上下文,還使用它建模字符級特征。字符編碼器不但能夠有效捕獲字符級特征,而且減緩了OOV問題[8-9,18]。在命名實體識別中,卷積神經網絡(CNN)被廣泛作為字符編碼器[11,19],其有限的感受野限制了字符編碼能力[17],而DDATE作為字符編碼器能夠感知長程上下文且更高效的利用GPUs的并行計算。本文的總體流程圖如圖2所示,首先對司法案例文本進行規范格式和去除空格等操作,把已標記文本作為實驗數據集并輸入模型,不同的模型在合理的實驗配置下分別進行訓練后,對比各個模型的實體識別效果。綜上所述,本文利用DDATE對字符級特征和字級特征進行建模,在合理的實驗配置下,與基于BiLSTM-CRF模型和普通Transformer模型相比,DDATE大大提升了司法實體識別的性能。

圖2 司法領域實體識別流程

1 方法

本文利用DDATE進行裁定書的實體識別,整個網絡結構如圖3所示。

圖3 DDAFE模型

1.1 Embedding Layer

為了緩解數據稀疏性和OOV的問題,大多數NER模型采用了CNN字符編碼器。由于Transformer能充分利用GPU的并行性,且具有不同感受野和提取不連續字符的特征的能力,因此將Transformer作為字符編碼器是一項很有意義的工作。最終的詞嵌入是前訓練的詞嵌入和字符編碼器提取的特征的合并。

1.2 Encoding Layer with DDATE

Transformer在2017年被Vaswani提出[14],它在各種NLP任務中取得了巨大的成功。Transformer Encoder首先接受一個矩陣H∈Rl×d,其中l是序列長度,d是輸入維度。然后三個大小為Rl×dk的可學習矩陣Wq,Wk,Wv與H相乘分別得到Q,K,V,其中dk是超參數,公式如下:

其中Qt是第t個token的query向量,j是上下文token的下標。Kj是第j個token的key向量,當使用多組Wq,Wk,Wv時,稱為多頭自注意力,其計算公式為:

其中n是head個數,h是head索引,通常dk×n=d,所以的大小為WO的大小為Rd×d。多頭注意力的輸出被前饋網絡進一步處理,可以表示為:

其中W1∈Rd×dff,W2∈Rdff×d,b1∈Rdff,b2∈Rd是可學習參數,dff是超參數。Transformer Encoder的其他組件還有層歸一化和殘差連接。

由于Transformer中使用的自注意力機制不感知距離,為了避免這一不足,文獻[14]使用了正弦位置嵌入,第t個token的位置嵌入可以用如下公式表示:

因此,為了使Transformer具有距離感知和方向感知的屬性,提升司法實體識別的準確率,本文基于文獻[17,20-21],改進的注意力的公式如下:

其中t是目標token的索引,j是上下文token的索引。為了得到Hdk∈Rl×dk,首先在第二維分割H為d/dk個部分,然后每個head使用一部分。u∈Rdk,v∈Rdk是可學習參數。Rt-j∈Rdk是相關位置編碼,是兩個token的注意力分數,是第t個token在某一相對位置上的偏置,是第j個token的偏置是某一距離和方向上的偏置。

本文為了減少參數量,沒有使用Wk,避免了兩個可學習參數的直接相乘,因為它們可以用一個可學習參數表示。多頭注意力仍然利用公式(6)。如圖3所示,上述改進的能夠感知距離和方向的Transformer En?coder既被作為字符編碼器,又被作為詞編碼器。

1.3 CRF Layer

為了利用不同標簽之間的依賴關系,所提出的模型和所有對比實驗的模型均使用了條件隨機場。給定序列,金標準標簽,所有的有效標簽序列的可能性計算公式如下:

2 實驗

2.1 數據集準備

把裁判文書網下載的1000份裁定書作為本文的數據集,主要包括減刑案件、假釋案件以及暫予監外案件三種案件的裁判文書,隨機將其分為6:2:2,分別作為訓練集、驗證集和測試集。首先進行文本處理,將1000份裁判文書規范格式,去掉空格;然后標記標簽,利用語料標注工具YDEEA將裁定書標記為BIO字標簽形式,標記好文本后讓法學專家進行修改和完善。如表1所示,本實驗定義了5類實體類別:姓名、地點、司法單位、案卷編號、犯罪類型,即11類字標簽。

表1 BIO字標簽類別

2.2 評價指標

在實體識別任務上,最常用的指標為F1值(F-measure),為了和對比實驗進行充分評估,本文還采用準確率(precision)、召回率(recall)作為評價指標。三個評價指標的計算公式如下所示:

2.3 實驗設置

所有實驗環境由存儲空間為8GB的NVIDIA RTX 2070 GPU和PyTorch 1.3框架實現。實驗中使用的超參數的設置如表2所示。

表2 訓練BiLSTM-CRF模型參數設置

2.4 對比實驗及分析

2.4.1 BiLSTM-CRF

長短期記憶模型(LSTM)改進了RNN的長度依賴問題,能夠獲取任意長度的上下文特征信息。BiLSTM[18]模型由前向LSTM模型和后向LSTM模型組成,可以得到雙向的語義信息。本文實現了BiLSTM-CRF模型,其實驗結果如圖4和表3所示。

表3 不同模型的評價指標比較

圖4 不同模型的評價指標比較

2.4.2 GRU-CRF

門控循環單元(GRU)是LSTM的變體,它較LSTM網絡的結構更加簡單,只留下能夠分別獲取序列中長距離依賴關系和斷距離依賴關系的更新門和重置門,文也實現了GRU-CRF模型。如表3和圖4所示,在三個評價指標上,所提出的模型DDATE與BiLSTMCRF和GRU-CRF模型相比,實體識別性能提升明顯。在F1值、召回率和準確率上,DDATE比BiLSTMCRF模型大約分別提升0.6、0.5、0.6。

2.4.3 Transformer-CRF

所提出的模型DDATE是在Transformer Encoder的基礎上進行改進的,本文在合理的實驗配置下,讓普通的Transformer也用于字符編碼器和詞編碼器。如表3和圖4所示,在F1值和召回率評價指標上,Trans?former-CRF模型高于基于RNNs的模型。但卻與所提出的模型DDATE有較大差距。

根據表3,DDATE模型的F1值為0.928,召回率為0.914,準確率為0.941,表明本文所提出的方法具有很好的司法實體識別性能。

圖5 是減刑、假釋以及暫予監外的裁判文書中的姓名、地點、司法單位、案卷編號、犯罪類型等5類實體進行識別的F1值。可見在裁判文書中不同實體類型的識別中,DDATE模型的實體識別性能均優于Trans?former-CRF模型。此外發現司法單位這類實體的評價指標比較低,這可能是由于司法單位實體在裁判文書的位置比較復雜,其前后文字變化較大,這影響了基于Transformers模型的實體識別性能。

圖5 所提出的模型對不同實體識別的性能比較

3 結語

本文所提出的DDATE模型用于司法領域實體識別系統,使該系統能在法學專家的容忍下,準確的識別出減刑案件,假釋案件及暫予監外案件的裁判文書中的姓名、司法單位、地點、案卷編號、犯罪類型等實體,優化司法業務系統,極大地提高相關從業人員的工作效率,為實現司法信息自動化,研究司法事件抽取,構建司法領域知識圖譜打下了基礎。

該實體識別系統也存在一些待改進的地方,例如可以通過增加語料,實現更多司法實體類別如法條的識別;還可以通過細分實體類別,如姓名類進一步分出被告人,來獲得更準確的實體識別結果。接下來將融合公共數據集與司法領域的數據集來訓練模型,這在一定程度上,能有助于模型識別更多的重要實體和提升司法領域實體識別的性能。此外,可以發現圖5中的司法單位這類實體識別指標低于其他實體,這是由于如果某類實體在裁判文書中的前后文字的改變幅度大,基于Transformers的模型受長程上下文的影響,使該類實體識別性能下降,這是基于Transformers的模型與生俱來的瓶頸。DDATE雖然能夠感知到裁判文書中文字的距離和方向,大大提高了司法實體識別的性能,卻逃脫不了這種瓶頸屬性。因此,下一步將繼續改進Transformers結構,使其能對實體周圍的文字進行權重優化,進一步提升司法領域實體識別系統的性能。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 无码日韩人妻精品久久蜜桃| 成年人福利视频| 国产尤物在线播放| 国产杨幂丝袜av在线播放| 成人中文字幕在线| 欧美福利在线| 伊人天堂网| 免费国产不卡午夜福在线观看| 亚洲无码不卡网| 国产精品99在线观看| 亚洲欧美一区二区三区图片| 免费无码AV片在线观看国产| 亚洲成A人V欧美综合天堂| 免费大黄网站在线观看| 搞黄网站免费观看| 午夜精品影院| 高清免费毛片| 国产18页| 高清免费毛片| 欧美yw精品日本国产精品| 18禁黄无遮挡网站| 免费欧美一级| 91精品国产综合久久不国产大片| 日韩视频精品在线| 久久综合AV免费观看| 国产青榴视频| 波多野一区| 激情亚洲天堂| 国产精品浪潮Av| 亚洲 欧美 日韩综合一区| 国产区在线观看视频| 欧美高清日韩| 91九色国产在线| 久久婷婷人人澡人人爱91| 毛片网站在线播放| 欧美自慰一级看片免费| 国产精品午夜福利麻豆| 亚洲综合国产一区二区三区| 伊人无码视屏| 福利国产在线| 亚洲国产欧美目韩成人综合| 97亚洲色综久久精品| 免费观看男人免费桶女人视频| 国产99在线| 国产精品久久久免费视频| 直接黄91麻豆网站| 日韩av电影一区二区三区四区 | 国产91麻豆视频| 欧美中文字幕在线视频| 五月丁香伊人啪啪手机免费观看| 久久精品国产精品青草app| 日本午夜三级| 欧美三級片黃色三級片黃色1| 亚洲欧美综合另类图片小说区| 国产尤物在线播放| 国产丰满成熟女性性满足视频| 成人av专区精品无码国产| 91久久国产热精品免费| 国内精品一区二区在线观看 | 久久先锋资源| 国产性精品| 99ri精品视频在线观看播放| 精品一区二区三区自慰喷水| 成人欧美在线观看| 无码内射在线| 亚洲高清资源| 日本一区二区三区精品视频| 欧美h在线观看| 日韩天堂网| 亚洲欧洲国产成人综合不卡| 国产成人AV综合久久| 4虎影视国产在线观看精品| 六月婷婷激情综合| 深夜福利视频一区二区| 国产在线91在线电影| 精品无码专区亚洲| 亚洲精品国产首次亮相| 538国产视频| 成人福利在线视频免费观看| 思思99热精品在线| 免费AV在线播放观看18禁强制| 久草视频精品|