999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖神經網絡的法律文本共指消解模型

2024-09-06 00:00:00劉冬張曉
無線電通信技術 2024年3期

摘 要:共指消解是確定上下文中的代詞或名詞短語所指的具體對象或實體,是自然語言處理(Natural LanguageProcessing,NLP)的基本任務之一,對理解文本語義具有重要意義。現有的方法主要集中在一般領域的代詞、所有格和名詞短語的解析上,針對法律領域的研究較少。為了更好地學習法律文本中的知識,并消除共同指代現象,提出一種基于圖神經網絡的法律文本共指消解模型(Graph Neural Network for Coreference Resolution,CRGNN)。所提CRGNN 可以促進法律文本挖掘中的一系列后續任務。利用預訓練語言模型和雙向門控循環單元(Bidirectional Gate RecurrentUnit,BiGRU)對法律文本進行編碼;使用基于元任務的動態圖卷積網絡(Meta Dynamic Graph Convolutional Network,MDGCN)整合實體之間的引用關系;使用前饋神經網絡(FeedForward Neural Network,FFNN)和Biaffine 模型為候選對進行加權評估。CRGNN 可以有效識別實體之間的引用關系,并對實體依賴關系進行建模。在法庭記錄文件數據集上進行大量實驗,結果表明所提CRGNN 模型達到89. 76% 的F1 分數,均高于現有基準模型。

關鍵詞:自然語言處理;共指消解;法律文本;預訓練語言模型;圖神經網絡

中圖分類號:TP311 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):

文章編號:1003-3114(2024)03-0587-10

0 引言

共指消解是自然語言處理(Natural LanguageProcessing,NLP)的一項基本任務[1-4],對于許多NLP 下游任務至關重要,例如信息提取[5]、問答[6]和機器翻譯[7]等。共指消解的目的是將文檔中的實體聚類到不同的簇中。Choubey 等[8]提出一種事件共指解析的迭代方法,該方法通過訓練兩個不同的分類器來逐步構建事件的聚類過程,以識別文檔內和跨文檔的事件提及。

近年來,隨著開源的高質量法律文本數量增多,NLP 被廣泛應用于法律文本挖掘的各種任務中,例如法律判決預測、法律文本分類、法人實體識別和案例事實分析。然而,基于法律文本的共指消解研究仍有待發展。Gupta 等[9]使用條件隨機場來檢測數據集中的提及,首先使用二元分類器來生成候選提及對,并使用規則模板進一步創建參考組。然而,該方法嚴重依賴手工提取的特征,無法捕獲連續的上下文信息。

NLP 已廣泛應用于法律領域的文本挖掘任務。例如,Chalkidis 等[10]使用邏輯回歸和支持向量機,以解決合同成分提取問題。實驗表明,將機器學習與手動編寫的后處理規則相結合,通過混合方法可以獲得最佳結果。Merchant 等[11]提出一種基于潛在語義分析的自動文本摘要系統,可從冗長的文本中提取要點,并減少編輯的工作量。最近,Yang 等[12]提出一種多視角雙反饋網絡,該網絡由法律判決預測任務的前向預測和后向驗證組成,并利用多個子任務之間的拓撲依賴關系來提高預測性能。Ji 等[13]提出一種端到端模型來學習庭審記錄中不同句子中的證據鏈,采用共享編碼器和獨立解碼器進行多任務學習。

共指消解在許多領域得到了廣泛的研究。Clark 等[14]提出一種整合實體級信息的方法,構建集群排名模型,對由集群層編碼的分布式表示進行評分。文獻[15]使用生物醫學文本的端到端模型,并結合特定領域的特征來提高模型性能。Luan 等[16]通過利用不同句子的關系執行多任務學習,共同識別科學文章中的實體、關系和共指簇。Chen 等[17]在英語數據集上為共指消解任務提供了幾個基準模型,該數據集基于中國初高中學生的英語閱讀理解測試構建。Cardellino 等[18]提出一種將特定領域實體與通用領域本體對齊的方法,以增強法律領域本體表示。然而,在法律領域,針對發言人的共指消解研究較少[19]。

本文利用提及排序模型探討了法庭筆錄文件中說話者的共指消解問題。不同于起訴狀、傳票、公證文書等法律文書,訴訟文書是當事人在司法活動中所作的事實陳述和辯論的記錄。

現有模型無法直接用于法律文本的共指消解,原理如下:① 與普通文本不同,法律文本嚴謹,專業性強,知識豐富。② 數據集內的文件來自不同省份的真實法律案件,雖然格式類似,但記錄方式不同(比如縮略語)。換句話說,法庭筆錄文件涉及多個發言人,每個發言人都可以用多種方式提及。③ 法庭筆錄文件描述了解決民事糾紛的司法程序。該文件以雙方對話的形式記錄,沒有標準化的書面格式。

由于涉及事實陳述和反對意見的段落相對較長,并且冗長的文本增加了模型的計算復雜度,導致實體分散在文本中。如何充分利用上下文信息并對實體依賴關系進行建模,是亟需解決的關鍵問題。為此,提出一種基于圖神經網絡的法律文本共指消解模型(Graph Neural Network for Coreference Resolu-tion,CRGNN),該模型包含四個步驟:① 由于冗長文本帶有稀疏實體,選擇包含預定義實體的句子作為模型的輸入;② 采用預訓練的語言模型ELMo(Embeddings from Language Models)[20]和BERT(Bidirectional Encoder Representation from Transformers)[21]作為詞向量的來源,雙向門控循環單元(BidirectionalGate Recurrent Unit,BiGRU)[22]和注意力機制[23]用于生成實體表示;③ 為了有效地利用上下文信息,構建包含實體及其提及關系、映射關系的文檔級別圖譜;④ 采用多重評分機制,對先行詞之間的依賴關系進行建模,生成候選分數。

1 相關定義

針對發言人的共指消解任務是共指消解任務的一個重要子任務,目的是在法庭筆錄文件中與發言人相關的三種實體(縮略語實體、姓名實體和身份實體)之間建立共指鏈接。

定義1 映射方案。提出兩種解決方案來形式化發言人的共指消解問題:① 縮略語實體與姓名實體的映射記為A-N,即在縮略語實體和姓名實體之間建立共指鏈接;② 縮略語實體與身份實體的映射記為A-S,即在縮略語實體和身份實體之間建立共指鏈接。其中,姓名實體和身份實體之間的映射關系可以通過自定義規則從句子中提取出來。上述兩種映射方案按不同順序解決實體共指問題,將實體之間的關系提取轉化為基于文檔的共指消解問題。

主站蜘蛛池模板: 久久精品无码一区二区日韩免费| 欧美伦理一区| 免费国产高清精品一区在线| 日韩欧美中文在线| 国产日韩欧美中文| 青青草久久伊人| 国产午夜福利亚洲第一| 免费xxxxx在线观看网站| 久久99国产综合精品女同| 亚洲中字无码AV电影在线观看| 国产在线精品香蕉麻豆| 国产亚洲成AⅤ人片在线观看| 日韩av电影一区二区三区四区 | 国产日产欧美精品| 欧美第二区| 亚洲毛片一级带毛片基地| 亚洲精品无码在线播放网站| 国产凹凸一区在线观看视频| 看看一级毛片| 国产呦视频免费视频在线观看| 女人18毛片水真多国产| 黄色网站在线观看无码| 黄色污网站在线观看| 2018日日摸夜夜添狠狠躁| 成人一区在线| 日本一本正道综合久久dvd| 九九热免费在线视频| 99久久精品久久久久久婷婷| 美女啪啪无遮挡| 亚洲中文在线看视频一区| 99伊人精品| 国产成人喷潮在线观看| 91精品情国产情侣高潮对白蜜| 热久久国产| 99国产精品国产| 又粗又硬又大又爽免费视频播放| 原味小视频在线www国产| 国产精品久久久久鬼色| 日韩欧美国产精品| 亚洲天堂网在线视频| 亚洲人成影院在线观看| 999精品色在线观看| 亚洲手机在线| a级毛片免费看| 国产精品视频导航| 色欲不卡无码一区二区| 妇女自拍偷自拍亚洲精品| 精品一区二区三区无码视频无码| 欧美A级V片在线观看| 熟妇无码人妻| 99热国产在线精品99| 国产精品.com| 亚洲视频四区| 亚洲国产一区在线观看| 精品国产一区91在线| 国产亚洲现在一区二区中文| 婷婷亚洲最大| 久久中文字幕av不卡一区二区| 91福利在线看| 伊人久久福利中文字幕| 亚洲国产综合精品中文第一| 91精品国产综合久久香蕉922| 国产精品久久久久久久久kt| 亚洲精品成人片在线播放| 大学生久久香蕉国产线观看| 国产91蝌蚪窝| 欧美一级在线播放| 青青草a国产免费观看| 一区二区在线视频免费观看| 欧美色视频日本| 欧美一区二区三区香蕉视| 亚洲香蕉伊综合在人在线| 久久国产黑丝袜视频| 国产美女自慰在线观看| 浮力影院国产第一页| 日韩av无码精品专区| 亚洲高清在线天堂精品| 制服丝袜一区二区三区在线| 欧洲av毛片| 成人福利在线免费观看| 成人在线观看一区| 欧美成人A视频|