999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關系過濾和實體對標注的中文關系抽取方法

2023-09-27 01:38:02張嘯成張永剛
吉林大學學報(理學版) 2023年5期
關鍵詞:文本實驗模型

劉 旭, 楊 航, 張嘯成, 張永剛

(吉林大學 計算機科學與技術學院, 符號計算與知識工程教育部重點實驗室, 長春 130012)

0 引 言

關系三元組抽取是自然語言處理中的一項重要工作, 它的目標是從無結構的文本中聯合提取出實體和關系, 為下游知識圖譜的自動構建奠定基礎. 以往的研究[1]通常將關系三元組抽取任務視為兩個子任務: 實體識別[2-3]和關系分類[4-6], 并且兩個子任務獨立完成. 盡管這種三元組的抽取方法很靈活, 但忽略了實體與關系之間的交互性和關聯性, 且無法避免錯誤傳播問題. 近期提出的一系列實體和關系聯合抽取方法[7-12], 能利用實體與關系之間的交互性和關聯性, 有效緩解錯誤傳播問題產生的影響. 這類方法是通過序列標注實現的, 目前已取得了許多成果. 但這類方法也存在一定的問題, 它們通常對關系集合中每種關系都進行實體標注[7-8,11], 從而產生冗余關系問題, 而冗余關系會對最終的三元組抽取結果產生不利影響. 此外, 序列標注的方法也不能有效解決各種實體重疊情況, 例如文獻[7]并未考慮任何實體重疊的情況, 文獻[8]雖然能解決單實體重疊和實體對重疊的情況, 但不能解決實體嵌套的情況. 表1列出了不同的實體重疊情形.

表1 不同的實體重疊情形Table 1 Different entity overlapping scenarios

為有效解決上述兩個問題, 本文提出基于關系過濾器的二維實體對標注方案(RF2DTagging). 該方案由兩部分組成: 1) 關系過濾器, 解決冗余關系問題; 2) 二維實體對標注器, 解決實體重疊問題. 在3個公開的中文數據集上進行驗證實驗, 實驗結果表明, 本文模型比對比模型性能更好.

1 任務定義

對于一個句子S={w1,w2,…,wN}和一個預定義的關系集合R={r1,r2,…,rK}, 本文目的是識別出其中蘊含的所有關系三元組.關系三元組可形式化為(s,r,o), 其中s表示主實體,o表示客實體,r表示關系集合中的某個關系.需要注意的是主實體和客實體都是給定句子中的連續子序列.關系三元組提取任務可定義為根據預定義的關系集合R從給定句子S中識別出所有關系三元組的集合TS={(s,r,o)i|r∈R, 1≤i≤M}, 其中M表示從S中提取出的關系三元組總數.

2 方法設計

RF2DTagging模型的整體結構如圖1所示. 由圖1可見, RF2DTagging模型宏觀上由三部分組成: 文本編碼器、 關系過濾器和二維實體對標注器.

圖1 RF2DTagging模型的整體結構Fig.1 Overall framework of RF2DTagging model

2.1 文本編碼器

近年來, 深度學習模型在圖像處理領域取得突破性進展, 因此, 相關研究者開始嘗試將深度學習模型用于自然語言處理, 首先用于自然語言的編碼. 在預訓練語言模型提出前, 文本編碼最常用的深度學習模型是長短期記憶網絡(LSTM), 它是循環神經網絡(RNN)的一種變形, 通過引入門控機制解決了RNN的長期依賴問題. 由于BERT模型[13]的提出, 使得先預訓練再微調的兩階段訓練方式成為自然語言處理的通用范式. 為捕獲句子中每個字的上下文特征, 本文使用BERT作為編碼器. BERT是一個基于多層雙向Transformer的語言表示模型, 它能學習句子中每個字的特征信息:

H=BERT(x1,x2,…,xN)=(h1,h2,…,hN),

(1)

其中:N表示句子長度, 即該句子中的字數;xi表示第i個字的輸入向量, 是第i個字wi的詞嵌入與位置嵌入的拼接;hi∈dh表示第i個字的隱藏態向量.

2.2 關系過濾器

對于關系三元組抽取任務, 常存在冗余關系問題.即每個句子中所包含的關系數遠小于預定義的關系總數, 如果根據關系集中的所有關系進行三元組抽取, 則會產生與輸入句子不適應的關系, 即冗余關系, 這不但對計算機資源是一種浪費, 而且也會對最終的抽取結果產生消極影響.因此本文提出用關系過濾器過濾冗余關系.運算過程如下.

1) 通過線性層獲得文本關于關系的向量表示:

(2)

2) 通過池化操作獲得文本關于關系的全局向量表示:

(3)

其中:hglobal∈drel是文本關于關系的全局向量表示;N表示句子長度; Pooling(·)表示池化操作, 本文使用的具體池化操作是平均池化.

3) 通過線性層和非線性激活函數獲得關系的概率分布:

Prel=Sigmoid(WPhglobal+bP),

(4)

其中:Prel∈K是關系對輸入文本的概率分布,K表示關系總數; Sigmoid(·)是非線性激活函數, 可將任意一個實數映射為0~1的值, 即其值域為(0, 1);WP∈K×drel表示可訓練的權重;brel∈K表示偏置項.

4) 設定關系過濾閾值, 過濾冗余關系. 本文設關系過濾閾值為μ, 如果某一關系的概率小于μ, 則認為該關系為冗余關系, 并將其舍棄; 如果某一個關系的概率大于等于μ, 則認為該關系為輸入文本的置信關系, 將根據置信關系進行實體對標注. 例如通過設置閾值μ, 圖1中的句子“大興區位于中國的首都——北京?!笨色@得置信關系“位于”和“首都”, 本文將根據這兩個置信關系進行實體對標注.

2.3 二維實體對標注器

對于實體識別, 最經典的方法是seq2seq的標注方案. 該方案或者在一個序列中同時標注出主實體和客實體[7], 或者在兩個序列中分別標注出主實體和客實體[8]. 無論是前者還是后者都需要主實體和客實體的匹配, 這通常會導致錯誤傳播問題, 且這種方案也不能有效解決實體重疊問題. 本文的二維實體對標注方案是一個seq2table的標注方法, 該方法可以直接提取出實體對, 而不用主客實體的匹配, 且這種二維標注方法可有效解決各種實體重疊問題. 二維實體對標注方案示例如圖2所示.

2.3.1 二維實體對標注方案

對于一個長度為N的句子, 為其每個置信關系維護一個表TN×N.為便于描述, 本文用T(i,j)表示某一置信關系下字對(i,j)的標簽, 這里的(i,j)是由句子中的第i個字和第j個字組成的字對.

本文的二維實體對標注方案為每個字對預定義3個標簽: B,I,O.如果句子中第i個字和第j個字分別是主實體和客實體的第一個字, 則將字對(i,j)標注為B, 即T(i,j)=B, 如圖2(A)中的字對(“第”,“北”)和(“第”,“中”), 它們分別是相應主實體和客實體的第一個字, 本文的二維標注方案將其標注為B; 如果句子中的第i個字是主實體的第一個字, 第j個字是客實體中除第一個字外的其他字, 或者第j個字是客實體的第一個字, 第i個字是主實體中除第一個字外的其他字, 則將字對(i,j)標注為I, 即T(i,j)=I, 如圖2(A)中的字對(“第”,“京”)和(“奧”,“北”), 其標簽為I; 如果字對(i,j)不屬于上述兩種情況, 則將其標注為O.

本文的二維實體對標注方案可解決各種實體重疊的情況.對于單實體重疊(SEO)的情形, 如圖2(A)所示, 本文二維標注方案可在同一個表中標注出兩個實體對; 對于實體對重疊(EPO)的情形, 如圖2(B)和(D)所示, 可分別在兩個表中標注出這兩個實體對; 對于實體嵌套(SOO)的情形, 如圖2(C)所示, 二維標注方案也可以在一個表中明確標注出該實體對.

2.3.2 標注器的實現

本文認為文本對于主實體和客實體的特征信息會對實體對的提取有積極作用, 即對于一個置信關系, 字對的標注結果與主實體和客實體的特征信息有關. 基于此, 本文使用兩個線性層分別獲得每個字關于主實體和客實體的向量表示:

Dozat等[14]提出了Biaffine-attention機制, 其核心計算公式為

Biaffine(x,y)=xTU1y+U2(x⊕y)+b,

(7)

(8)

因為在標注過程中使用了3個標簽, 所以s(i,j)∈3.通過Softmax函數預測字對(i,j)標簽的概率分布為

(9)

2.3.3 二維實體對標注器解碼算法

本文將一個批次的二維實體對標注矩陣按下列算法進行解碼, 最后獲得該批次中每個樣本所提取的三元組集合組成的列表.

算法1二維實體對標注器解碼算法.

輸入: 文本長度seq_len; 一個批次的置信關系列表rel_list∈batch_size_expand; 置信關系對應的樣本序號列表sample_idxs∈batch_size_expand; 置信關系和樣本對應的二維實體對標注矩陣M∈batch_size_expand×seq_len×seq_len;

輸出: 該批次中每個樣本所提取三元組集合的列表triple_set_list;

//初始化三元組集合列表, 用于存放一個批次中每個樣本對應的三元組集合

triple_set_list←[ ];

pre_sample_idx←0;

triple_set←{ };

if sample_idx>pre_sample_idx:

//開始提取下一個樣本中的關系三元組, 重新初始化其對應的triple_set

triple_set_list.append(triple_set);

triple_set←{ };

end if;

//根據關系索引獲得關系名

rel_name←id2rel_name(rel);

從式(2)-式(4)、式(6)、式(7)、式(9)、式(10)知ψ、ψ9、ψ、ψ、ψ、μ、μ9由常數mb、ma、mc和變量φ決定,都無量綱。

//獲取矩陣中被標注為“B”的索引

sub_heads,obj_heads←where(one_M=“B”);

//獲得主實體和客實體首位置

for sub_head,obj_head in zip(sub_heads,obj_heads):

sub_index←sub_head+1;

//獲得主實體尾位置

while sub_index

sub_index←sub_index+1;

end while;

//根據主實體的首尾位置獲得實體名

sub←pos2entity(sub_head,sub_index);

obj_index←obj_head+1;

//獲得客實體尾位置

while obj_index

obj_index←obj_index+1;

end while;

//根據客實體的首尾位置獲得實體名

obj←pos2entity(obj_head,obj_index);

//主實體、 關系和客實體組成三元組

triple←(sub,rel_name,obj);

//將獲得的三元組添加至當前樣本對應的三元組集合

triple_set.add(triple);

end for;

end for;

return triple_set_list.

2.4 目標函數

為聯合訓練RF2DTagging模型, 本文構建聯合目標函數, 其由兩部分組成:

1) 關于關系的目標函數為

(10)

2) 關于實體對的目標函數為

(11)

其中N表示輸入文本的長度.

本文的聯合目標函數是上述兩部分的加權和:

Ljoint=αLrel+βLEP,

(12)

其中α和β是超參數.

3 實 驗

3.1 數據集和評估標準

為測試RF2DTagging模型的性能, 本文在如下3個開放的中文關系提取數據集上進行實驗: CCKS2019-Task3,CMeIE,DuIE2.0. 數據集CCKS2019-Task3是2019年全國知識圖譜與語義計算大會(CCKS)發布的任務三數據集, CCKS2019的任務三旨在從中文文本中提取出人物關系, 在本文中將其數據集記為CCKS2019-Task3; CMeIE是CHIP2020會議發布的開源數據集, 其所對應的任務是中文醫學文本實體關系提取; DuIE2.0是2020語言與智能技術競賽的數據集, 該數據集專門用于關系抽取任務. 最初的3個數據集都只含有訓練集和驗證集而不包含測試集, 本文按照8∶2從訓練集中隨機選擇樣本組成測試集, 3個數據集的統計信息列于表2.

表2 各數據集的統計信息Table 2 Statistical information of each dataset

實驗使用準確率(P)、 召回率(R)和F1值作為模型的評估標準, 三者有如下關系:

F1=(2×P×R)/(P+R).

對于模型預測出的關系三元組, 當且僅當主實體、 客實體以及關系全都正確時, 才認為該關系三元組是正確的; 對于實體, 當且僅當其與測試樣例的標簽完全匹配時才認為是正確的.

3.2 實驗設置

本文在驗證集上調節超參數, 訓練出的最優模型所對應的重要超參數列于表3. 主要包括優化器相關、 模型相關以及訓練相關. 對于模型中的可訓練參數, 根據標準正態分布對其進行初始化. 本文使用AdamW算法作為優化算法訓練模型, 因為它的warmup機制可加速收斂. 對于每個數據集都在其上運行5次, 并且取5次結果的平均值作為最終結果, 每次運行都會從訓練集中隨機生成測試集.

表3 模型超參數Table 3 Hyperparameters of model

3.3 對比模型

為驗證RF2DTagging模型的性能, 本文選擇3個模型作為對比模型: NovelTagging[7],CasRel[8],TPlinker[11]. 其中NovelTagging模型使用BiLSTM作為文本編碼器, 而CasRel和TPLinker模型使用預訓練模型BERT作為文本編碼器, 為公平比較, 將NovelTagging模型的文本編碼器替換為BERT. 在運行對比模型時, 超參數和官方源碼保持一致, 而數據的預處理參照本文模型的預處理, 即按8∶2劃分訓練集和測試集, 并且每次運行都從訓練集中隨機生成測試集.

3.4 總體實驗結果

實驗的總體結果列于表4. 由表4可見, RF2DTagging模型除在數據集DuIE2.0的P評估標準上取得了次優結果外, 其余結果全部最優. 對于F1, RF2DTagging模型在數據集CCKS2019-Task3,CMeIE和DuIE2.0上比TPlinker模型分別提升了0.6,2.2,0.4, 證明了本文模型對中文關系三元組抽取任務的有效性. 相比數據集CCKS2019-Task3和DuIE2.0, 數據集CMeIE上的實驗結果性能較差, 其可能原因有兩個: 1) 相比數據集CCKS2019-Task3和DuIE2.0, 數據集CMeIE的訓練集較小, 數據集CCKS2019-Task3和DuIE2.0的訓練集分別是CMeIE的11.9倍和12.1倍; 2) 相比數據集CCKS2019-Task3和DuIE2.0, 數據集CMeIE的專業性較強, 其中包含很多專業術語和特殊符號, 在這些特殊符號中, 有些是醫學專用符號, 有些是創建數據時由于格式處理產生的符號, 這給模型對文本的語義理解帶來了困難.

表4 總體實驗結果Table 4 Overall experimental results

3.5 不同實體重疊情形的實驗結果

為驗證RF2DTagging模型在解決實體重疊問題時的效果, 本文在數據集CCKS2019-Task3和DuIE2.0上進行了進一步實驗, 即根據不同重疊情形將兩個數據集的測試集劃分為不同的子集: Normal,EPO,SEO和SOO, 在這4個子數據集上分別進行實驗, 實驗結果列于表5.

由表5可見, RF2DTagging模型在EPO,SEO和SOO三種情況下都獲得了最優結果, 證明了該模型能有效解決實體重疊問題. RF2DTagging模型在Normal情況下的性能有所下降, 這可能是由于錯誤傳播導致的, 即一旦關系過濾器提取的置信關系是錯誤的, 則相對應的實體對標注也是錯誤的.

綜上所述, 針對冗余關系和各種實體重疊的問題, 本文提出了一個基于關系過濾器的二維標注方案, 并將其命名為RF2DTagging. 分別設計了一個關系過濾器和一個二維實體對標注器, 二者共同構成了RF2DTagging模型. 在3個開放的中文關系抽取數據集上進行實驗, 總體的實驗結果證明本文模型在中文關系三元組抽取任務上比對比模型性能更好, 不同重疊模式上的實驗結果也證明了本文模型確實能有效解決冗余關系問題和實體重疊問題.

猜你喜歡
文本實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 免费一级成人毛片| 国产成人精品一区二区不卡| 中国一级毛片免费观看| 91麻豆国产视频| 青青草原国产| 一本大道东京热无码av| 亚洲欧美不卡中文字幕| 99青青青精品视频在线| 国产精品美人久久久久久AV| 香蕉视频国产精品人| 成人在线天堂| h网址在线观看| 亚洲中文字幕久久无码精品A| 精品91在线| 久久这里只有精品66| 黄片一区二区三区| 亚洲天堂久久| 色婷婷在线播放| 秘书高跟黑色丝袜国产91在线 | 国产剧情一区二区| 18禁影院亚洲专区| 动漫精品中文字幕无码| 最近最新中文字幕在线第一页| 国产小视频在线高清播放| 在线播放91| 国产久草视频| 99re热精品视频中文字幕不卡| 熟女成人国产精品视频| 亚洲无码高清视频在线观看 | 国产99视频免费精品是看6| 国产在线视频导航| 国产麻豆精品手机在线观看| 国产成人亚洲综合a∨婷婷| 精品伊人久久久久7777人| 中文字幕在线视频免费| 区国产精品搜索视频| 国产自在线拍| 九九九精品成人免费视频7| 精品人妻无码中字系列| 国产成人久久777777| 69av在线| 久久这里只精品国产99热8| 国产福利在线观看精品| 毛片在线播放网址| 亚洲第一中文字幕| 国产真实二区一区在线亚洲| 91系列在线观看| 无遮挡国产高潮视频免费观看| 欧美色视频日本| 91福利免费视频| 色妞www精品视频一级下载| 亚洲三级色| 日本黄色a视频| 亚洲欧洲天堂色AV| 久久精品无码专区免费| 欧美午夜在线播放| 欧美啪啪一区| a毛片免费观看| 精品国产中文一级毛片在线看 | 亚洲无码精品在线播放| 无码专区在线观看| 国产亚洲视频免费播放| 精品国产成人三级在线观看| 国产成人精品综合| 欧美日韩专区| 97无码免费人妻超级碰碰碰| 亚洲高清中文字幕在线看不卡| 亚洲三级视频在线观看| 国产一级无码不卡视频| 亚洲av片在线免费观看| 日本午夜精品一本在线观看| 亚洲天堂网在线播放| 六月婷婷精品视频在线观看| 67194在线午夜亚洲| 国产精品所毛片视频| 一级毛片免费播放视频| 美女一级免费毛片| 国产欧美综合在线观看第七页| 国产福利微拍精品一区二区| 又黄又湿又爽的视频| 99久久精品国产自免费| 野花国产精品入口|