面向遠程監(jiān)督命名實體識別的噪聲檢測

2024-04-29 05:35:38王嘉誠王昊奮何之棟劉井平

計算機研究與發(fā)展 2024年4期

關鍵詞：單詞監(jiān)督文本

王嘉誠王凱王昊奮杜渂何之棟阮彤劉井平

1（華東理工大學信息科學與工程學院上海 200237）

2（同濟大學設計與創(chuàng)意學院上海 200092）

3（迪愛斯信息技術股份有限公司上海 200032）

（y80220109@mail.ecust.edu.cn）

命名實體識別（named entity recognition,NER）旨在從文本中定位命名實體，并將其分類到預定義的實體類型，如人、組織和位置.NER 是自然語言處理（natural language processing,NLP）的基本任務，有助于各種下游應用，如關系抽取[1]、問答系統(tǒng)[2]、知識庫的構建[3-6].

傳統(tǒng)的NER 監(jiān)督方法如BERT-CRF[7]和指針網(wǎng)絡[8]嚴重依賴于大量的標注數(shù)據(jù)，而數(shù)據(jù)的標注過程往往既費時又費力.因此，遠程監(jiān)督技術被提出用于自動生成NER 的標注數(shù)據(jù)，其核心思想是識別文本中存在于知識庫，如維基數(shù)據(jù)開放知識庫的實體提及，并將相應類型分配給它們.然而，使用遠程監(jiān)督技術會產(chǎn)生2 類噪聲：假陰性（false negatives,FNs）和假陽性（false positives,FPs）[9].首先，由于知識庫覆蓋的范圍有限，文本中并非所有正確實體都會被標注，因此會產(chǎn)生FNs.其次，由于使用簡單的字符串匹配來識別實體提及，知識庫中實體的模糊性可能會導致FPs.圖1 展示了一個遠程監(jiān)督標注示例，其中“PRO”指產(chǎn)品名稱類型，“PER”指人名.第1 行是初始文本，第2 行是遠程監(jiān)督標注，第3 行是正確標注.示例中，由于知識庫的規(guī)模有限，產(chǎn)品實體“拖把”沒有被正確匹配，這屬于FNs.此外，示例中的“包”表示一個量詞，而不是一個產(chǎn)品，但因為知識庫的模糊性被錯誤匹配，這屬于FPs.

Fig.1 An example of distantly supervised annotation圖1 遠程監(jiān)督標注示例

為了解決上述遠程監(jiān)督NER 的噪聲問題，研究者提出了一系列噪聲檢測的方法.這些方法主要可以被分為2 類：一類是在訓練過程中設計樣本降噪策略來減小噪聲對模型的負面影響.常見的降噪策略有數(shù)據(jù)聚類[10]、負采樣[11-12]等.然而，這類方法僅能處理FNs 噪聲，仍無法解決遠程監(jiān)督過程中的FPs噪聲.另一類是是在訓練之前設計噪聲過濾手段來刪除訓練集中的噪聲樣本，該方法可以同時處理FNs 與FPs 這2 類噪聲，但是對噪聲過濾的準確性有較高要求.此外，由于噪聲過濾過程的試錯搜索與延遲反饋兩大特征，許多研究者將其視為一個決策問題，并使用強化學習的強大決策能力來解決.典型的方法是制定不同的獎勵和策略，并使用強化學習框架訓練一個噪聲識別器模型[13-14].然而，這類方法都以句子為單位進行噪聲檢測，可能會丟棄其中正確的實體標注信息，進而無法為模型提供充足的訓練語料.比如，在圖1 中，模型可能會因為“包”和“拖把”這2 個噪聲實體把整個語句刪除，導致正確的實體標注信息“小明”和“釘子”也會被刪除.

為此，本文提出了一種新穎的基于強化學習的遠程監(jiān)督NER 方法，稱為RLTL-DSNER（reinforcement learning and token level based distantly supervised named entity recognition）.該方法可以從遠程監(jiān)督產(chǎn)生的噪聲文本中準確識別正確實例，減少噪聲實例對遠程監(jiān)督NER 的負面影響.具體而言，本文把強化學習框架中的策略網(wǎng)絡中引入了標簽置信度函數(shù)，為文本語句中的每個單詞提供了標簽置信分數(shù).此外，本文提出了一種NER 模型預訓練策略，即預訓練階段的F1 分數(shù)達到85%～ 95%時即停止訓練.該策略可以為強化學習的初始訓練提供精準的狀態(tài)表示和有效獎勵值，幫助策略網(wǎng)絡在訓練初期以正確的方向更新其參數(shù).

總的來說，本文的主要貢獻有3 點：

1）提出了一種新的基于強化學習的方法，用于解決遠程監(jiān)督NER 任務，稱為RLTL-DSNER.該方法利用策略網(wǎng)絡與一個標簽置信函數(shù)，從有噪聲的遠程監(jiān)督數(shù)據(jù)中，以單詞為單位識別正確實例，最大限度保留樣本中的正確信息.

2）提出了一種NER 模型預訓練策略，以幫助RLTL-DSNER 在訓練初期就能以正確的方向更新其可學習參數(shù)，使訓練過程穩(wěn)定.

3）實驗結果表明，RLTL-DSNER 在3 個中文數(shù)據(jù)集和1 個英文醫(yī)學數(shù)據(jù)集上都顯著優(yōu)于最先進的遠程監(jiān)督NER 模型.在NEWS 數(shù)據(jù)集上，相較于現(xiàn)有最先進的方法，獲得了4.28%的F1 值提升.

1 相關工作

傳統(tǒng)的NER 方法是基于人工標注的特征，常用的方法有最大熵[15]、隱馬爾可夫模型[16]、支持向量機[17]和條件隨機場[18].近年來，深度神經(jīng)網(wǎng)絡的發(fā)展使其成為研究的主流.深度神經(jīng)網(wǎng)絡自動提取隱藏的特征，從而使研究人員不用再把重心放在特征工程中.

預訓練語言模型BERT[19]被提出后，以其動態(tài)詞向量獲取能力強、通用性強兩大優(yōu)點備受研究者關注，許多方法都以其作為編碼器.Souza 等人[7]構建了BERT-CRF 模型，在BERT 的基礎上，使用CRF 層學習句子的約束條件，提升句子的整體標注效果.Hao等人[8]使用了基于指針網(wǎng)絡的模型結構，提升了模型對實體邊界的敏感性，并解決了現(xiàn)實中普遍存在的重疊實體問題.除了對模型架構的設計，許多研究將重點放在了額外特征的探索和挖掘中.羅凌等人[20]在模型中引入了包含漢字內(nèi)部結構的筆畫信息，Xu等人[21]融合了中文文本中的詞根、字符以及單詞信息，這些額外特征的引入進一步提高了模型的表現(xiàn).

雖然文獻[7-8,20-21]方法都在NER 任務上取得了不錯的效果，然而它們都依賴于大量的人工標注數(shù)據(jù).在缺乏人工標注數(shù)據(jù)的情況下，為了緩解數(shù)據(jù)不足帶來的負面影響，許多研究者提出了遠程監(jiān)督標注方法.Shang 等人[22]提出了AutoNER 模型，采用“Tie or Break”標注方案代替?zhèn)鹘y(tǒng)的B?O 方案或B?OES 方案.同時，他們引入字典裁剪方法和高質(zhì)量的短語來實現(xiàn)遠程監(jiān)督NER，并在3 個基準數(shù)據(jù)集上取得了最先進的F1 值.繼Shang 等人[22]之后，Wang 等人[23]在不完全字典的幫助下實現(xiàn)字符串匹配，以檢測可能的實體.此外，他們利用匹配實體和不匹配候選實體的上下文相似性來檢測更多的實體.相比常規(guī)僅使用精準字符串匹配生成自動標注的遠程監(jiān)督方法，通過詞典拓展、匹配策略修改等方法，提高了數(shù)據(jù)質(zhì)量.然而，這些方法的效果好壞與他們使用的詞典質(zhì)量有密切關系.在詞典質(zhì)量較差的情況下，依然無法避免自動標注產(chǎn)生的FNs 與FPs 這2類噪聲標注.

針對噪聲標注問題，主要有2 類方法：

1）在訓練過程中設計樣本降噪策略來減小噪聲對模型的負面影響.高建偉等人[24]利用外部知識圖譜當中的結構化知識和文本語料中的語義知識，設計了一種實體知識感知的詞嵌入表示方法，豐富句子級別的特征表達能力.Lange 等人[10]建議利用數(shù)據(jù)特征對輸入實例進行聚類，然后為聚類計算不同的混淆矩陣.Peng 等人[25]將遠程監(jiān)督NER 任務定義為正樣本無標簽學習問題，其中正樣本由匹配的實體組成，非實體單詞構成無標簽數(shù)據(jù).為了擴展字典，他們使用修改的AdaSampling 算法來迭代地檢測可能的實體.Liang 等人[26]提出了一個2 階段框架，利用預訓練模型的優(yōu)勢解決遠程監(jiān)督NER 任務.他們引入了一種自訓練策略，將微調(diào)的BERT 作為教師和學生模型，并使用教師模型生成的偽標簽對學生模型進行訓練.Li 等人[11]引入負采樣以緩解噪聲未標注實體的影響.然而，這類方法僅能處理FNs 噪聲，仍無法解決FPs 噪聲.

2）在訓練之前設計噪聲過濾手段來刪除訓練集中的噪聲樣本.由于噪聲過濾過程的試錯搜索與延遲反饋兩大特征，許多研究者使用強化學習技術實現(xiàn)此類方法.此類方法發(fā)揮了強化學習的強大決策能力，識別遠程監(jiān)督產(chǎn)生的噪聲樣本，一齊解決假陰性與假陽性實體問題.Qin 等人[27]使用關系抽取器的F1 值作為策略網(wǎng)絡的獎勵.Feng 等人[28]使用關系提取器的預測概率計算獎勵.受其啟發(fā)，一些研究人員[13-14]將強化學習和CRF 層的拓展Partial CRF 結合起來完成遠程監(jiān)督NER 的任務.然而，他們的方法中，策略網(wǎng)絡模型架構都較簡單，僅使用MLP 建模，識別能力較弱.此外，都以完整的句子樣本為單位進行識別，導致句子中的部分正確信息被丟棄.

2 方法概述

本節(jié)首先給出問題的形式化定義，然后概述本文提出的基于強化學習的遠程監(jiān)督方法NER.

2.1 問題定義

NER 通常被建模為序列標注任務，并使用B?O模式對樣本進行標注.給定文本S=[s1,s2,…,sn]，其中n表示S中單詞的數(shù)量，NER 的目的是將標簽序列T=[t1,t2,…,tn] 分配給S，其中ti∈{BX,IX,O}.B 和? 分別表示實體的首部和后續(xù)部分；X表示對應實體提及的類型；O 表示該單詞不屬于任何類型的實體.需要注意的是，類型往往是預先定義的.與許多研究[13-14,29-30]類似，本文NER 任務的數(shù)據(jù)集包括少量人工標注的數(shù)據(jù)集合H和大量通過遠程監(jiān)督獲取的數(shù)據(jù)集合D.具體數(shù)據(jù)量見表1.

2.2 算法框架

如圖2 所示，本文提出的RLTL-DSNER 模型主要包括2 階段：模型預訓練階段和迭代訓練階段.

Fig.2 The main framework of RLTL-DSNER圖2 RLTL-DSNER 的主要框架

1）在模型預訓練階段，擬通過少量人工標注的數(shù)據(jù)來預訓練NER 模型，使得NER 模型在訓練集上的F1 值達到某一閾值 α（α一般取值為85%～ 95%）.這一做法的目的是幫助NER 模型在迭代訓練階段的初期為策略網(wǎng)絡生成高質(zhì)量的狀態(tài)和獎勵.

2）在迭代訓練階段，以深度強化學習作為框架，提出了單詞級別的噪聲檢測模型.具體而言，首先通過預訓練的NER 模型為文本數(shù)據(jù)生成向量表示和標簽概率分布，并將兩者作為狀態(tài)輸入到策略網(wǎng)絡.策略網(wǎng)絡利用卷積神經(jīng)網(wǎng)絡（convolutional neural network,CNN）、標簽置信函數(shù)以及多層感知器（multilayer perceptron,MLP）進行單詞級別的噪聲檢測，判斷文本數(shù)據(jù)中的各個單詞是否被保留，如圖2 中刪除了噪聲實體“鴿子蛋”與“機械”，因為“鴿子蛋”算作一個產(chǎn)品而不是“鴿子”，“機械”算作描述產(chǎn)品“鍵盤”的規(guī)格，保留了正確實體“陳明亮”“鍵盤”“北京”.隨后，將保留的數(shù)據(jù)與人工標注的數(shù)據(jù)進行合并，聯(lián)合訓練NER 模型.同時，NER 模型為保留的數(shù)據(jù)進行打分，并將其作為獎勵來更新策略網(wǎng)絡參數(shù).上述流程不斷循環(huán)迭代，直到達到預定義的輪次.

3 NER 模型預訓練

在RLTL-DSNER 中，NER 模型主要用于狀態(tài)與獎勵的生成，其性能將會直接影響噪聲檢測結果.NER 模型若不進行預訓練，在迭代訓練的初期往往無法為遠程監(jiān)督文本語句生成高質(zhì)量的狀態(tài)和獎勵，可能導致策略網(wǎng)絡被誤導到錯誤的更新方向.

本文向EC 數(shù)據(jù)集人工標注集合中手動添加噪聲數(shù)據(jù)來研究深度神經(jīng)網(wǎng)絡的學習特性.具體來說，本文將數(shù)據(jù)集合中一定比例數(shù)據(jù)的標注實體隨機替換為其他實體，并將其視為噪聲數(shù)據(jù)，其余數(shù)據(jù)視為干凈數(shù)據(jù).圖3 展示了添加不同比例噪聲情況下模型的訓練情況.

Fig.3 The training situation after artificially adding different proportions of noise to the dataset圖3 人工往數(shù)據(jù)集中添加不同比例噪聲后的訓練情況

由圖3 可以看出，在訓練過程中，模型在干凈數(shù)據(jù)上的F1 值會先得到大幅度提升，當干凈數(shù)據(jù)上的F1 值較大時，模型才會漸漸提升其在噪聲數(shù)據(jù)上的F1 值.這個現(xiàn)象表明了深度神經(jīng)網(wǎng)絡在訓練過程中通常先學習簡單且通用的數(shù)據(jù)模式，然后逐漸強制擬合噪聲數(shù)據(jù).換言之，模型的訓練F1 值達到某一閾值時，其在干凈數(shù)據(jù)上的F1 值較高，而在噪聲數(shù)據(jù)上的F1 值較低，此時模型將獲得最佳性能.因此，本文擬采用上述方法對NER 模型進行預訓練.由于此階段采用的數(shù)據(jù)集由人工標注，噪聲較少，閾值α一般取值為85%～95%.

給定人工標注數(shù)據(jù)集合H，本文定義作為H中的實例，其中MH表示集合大小，即包含的樣本個數(shù)，分別表示集合H中第m個樣本的文本和標簽序列.此外，假定NER 模型用f(θ)表示，其中 θ表示模型的參數(shù)，當f(θ)擬合H中的實例的F1值達到閾值時，NER 模型停止預訓練.

上述預訓練方式與早期停止（early stop）策略相似.但兩者不同之處在于早期停止是指當驗證集上的損失值增加或訓練集的F1 值達到99.9%時，模型停止訓練.本文采用的預訓練方法更像是“非常早期停止”.相對于早期停止策略，本文的預訓練方式有2 點優(yōu)勢：

1）即使是人工標注的數(shù)據(jù)集，也難免存在噪聲數(shù)據(jù).因此當訓練F1 值達到85%～ 95%時，模型已經(jīng)學到大部分的數(shù)據(jù)模式；而繼續(xù)學習，只會強制記憶噪聲數(shù)據(jù)，損害模型性能.

2）預訓練過程僅有少量的數(shù)據(jù)樣本，當模型訓練到F1 值達到99%時，很容易導致過擬合，降低了模型的泛化能力和噪聲檢測能力.

5.3 節(jié)的實驗表明，通過上述預訓練方式的NER模型具有將正確樣本和噪聲樣本分離的能力，有助于策略網(wǎng)絡在迭代訓練初期正確更新.

4 RLTL-DSNER 中的強化學習方法

本節(jié)主要介紹RLTL-DSNER 中的3 個組件，即狀態(tài)、動作和獎勵.與常規(guī)的基于強化學習的噪聲過濾方法不同的是，RLTL-DSNER 在策略網(wǎng)絡中引入了一個標簽置信函數(shù)，其結合噪聲判定模型識別正確實例.需要注意的是，實例的識別是單詞級別的，而不是傳統(tǒng)樣本級別的.

4.1 狀態(tài)

由于訓練數(shù)據(jù)中的輸入句子是相互獨立的，僅將句子的信息作為當前狀態(tài)很難滿足馬爾可夫決策過程（Markov decision process,MDP）.RLTL-DSNER 將通過NER 模型獲得的當前句子表示與標簽概率進行拼接，以此作為強化學習智能體的狀態(tài).需要注意的是NER 模型是通過歷史所選擇的句子進行參數(shù)更新的.換言之，第i步的狀態(tài)融入了前i-1步的狀態(tài)與動作信息.因此，RLTL-DSNER 建模方式滿足馬爾可夫決策過程，即未來狀態(tài)的條件概率分布僅依賴于當前狀態(tài)，而與過去狀態(tài)無關，因為過去狀態(tài)的信息都已經(jīng)隱式融入到當前狀態(tài)了.

在RLTL-DSNER 中，狀態(tài)由2 部分組成：當前文本的表示和其各個單詞用遠程監(jiān)督標注標簽的概率.具體而言，給定文本S=[s1,s2,…,sn]，本文首先將S與特殊字符 [cls] 和 [sep] 進行拼接，即 [cls];S;[sep]，并輸入到大規(guī)模預訓練語言模型中（如BERT）.其次，取語言模型中最后一層隱藏狀態(tài)即S=(s1,s2,…,sn)作為文本S的語義表示，其中si(i=1,2,...,n) 是單詞si的隱藏狀態(tài).針對各單詞si的標簽概率，本文首先將上述的文本表示輸入到全連接層中，為每個單詞獲取所有標簽的概率即其中L表示標簽類型的數(shù)量，表示tj是單詞sj的標簽的概率.其次，根據(jù)上述的標簽概率分布，為每個單詞取出遠程監(jiān)督自動標注標簽的概率.因此，可得到文本中所有單詞的標簽概率，定義為其中是單詞si的標簽概率.

4.2 動作

以往基于強化學習的噪聲檢測往往定義樣本的取舍作為動作[8,10,27-28]，但這會丟棄大量正確的實體信息.因此，在RLTL-DSNER 中，本文為文本中的每個單詞定義一個動作ai∈{0,1},(i=1,2,…,n)，其中ai=0 表示丟棄當前單詞，ai=1表示保留當前單詞.為了這一目標，本文設計了由2 個組件組成的策略網(wǎng)絡：噪聲實體判別器和標簽置信度（tag confidence,TC）函數(shù).

噪聲實體判別器是由CNN 和MLP 所構成，其輸入是文本語句表示 S和其所有單詞的標簽概率P，輸出是每個單詞保留的概率.這一過程形式化定義為

其中Wc是卷積核的可學習參數(shù)，c表示CNN 網(wǎng)絡，Wm和b是線性層的參數(shù)，m 表示MLP 網(wǎng)絡，σ(·)是具有參數(shù)θ={Wc,Wm,b}的sigmoid函數(shù)，a∈{0,1}表示動作，?表示卷積運算，⊕表示矩陣拼接運算.整體運算流程為：文本語句表示 S和其所有單詞的標簽概率P作為噪聲實體判別器的輸入，先通過CNN 對文本語句表示 S作卷積運算 ?，得到文本語句的整體表示；隨后，將結果 (Wc?S) 與所有單詞的標簽概率P進行矩陣拼接，并通過線性層得到 ((Wc?S)⊕P)Wm+b；最終將結果輸入sigmoid函數(shù)，得到每個單詞的保留概率，即動作分別為0 和1 的概率.

通常情況下，僅使用噪聲實體判別器是不充分的，原因有：在訓練樣本量少和數(shù)據(jù)不平衡的情況下，NER 模型會傾向分配較高的概率給樣本中出現(xiàn)次數(shù)較多的標簽，分配較低的概率給出現(xiàn)次數(shù)較少的標簽.換言之，當數(shù)量較少的標簽的預測概率有較大提升時，噪聲實體判別器可能會選取另一頻繁出現(xiàn)的標簽（預測概率較高），而忽略標簽概率的相對提升.

一種直接的做法是根據(jù)文本的長度進行歸一化，凸顯標簽概率的相對提升.然而，不同文本的長度是不一致的，導致無法定義統(tǒng)一的閾值進行單詞的篩選.因此，本文采用TC 函數(shù)對單詞標簽歸一化.具體而言，給定一個批次的語句 {S1,S2,…,Sm}，其中第i條文本Si=[s1,s2,…,sn]，本文首先定義單詞sj(j=1,2,…,n) 的標簽預測為l的概率為pi,j,l，并定義ql為所有文本中各個單詞標簽預測為l的概率的平方和，即

其中L表示標簽類型的數(shù)量.

然后，對同一批次中每個單詞的標簽預測概率，通過ql歸一化，并取出所有標簽中的最大值作為文本Si中第j個單詞sj的標簽置信分數(shù)，定義為

從本質(zhì)上來說，該標簽置信分數(shù)可看作歸一化后的標簽最大預測概率，本文通過上述手段進行歸一化，為了削弱僅使用噪聲實體判別器的不充分性，凸顯標簽概率的相對提升.

值得注意的是，本文在ql的定義以及歸一化的過程中都對單詞sj的標簽預測概率pi,j,l取平方處理，由于概率的取值范圍為 [0,1]，且平方函數(shù)在該范圍內(nèi)的導數(shù)單調(diào)遞增，有助于篩選高置信度單詞，提高篩選質(zhì)量.

對于每條文本，本文使用噪聲實體判別器與TC函數(shù)確定是否保留文本中的每個單詞：

其中 φ是預先設定的TC 閾值.

圖4 展示了針對給定文本的動作選擇，其中最終動作“0”表示丟棄該單詞，“1”表示保留該單詞.通過遠程監(jiān)督對初始文本自動標注，生成人物實體“小明”與產(chǎn)品實體“包”“釘子”，在得到文本的句子表示和標簽概率后，通過策略網(wǎng)絡分別得到噪聲實體判別器與TC 函數(shù)的輸出，并根據(jù)閾值篩選得到相應結果.噪聲實體判別器輸出閾值為 ?=0.5 進行篩選，TC 函數(shù)輸出閾值自定義（圖4 中閾值 φ=0.9）.根據(jù)噪聲實體判別器輸出 π，將丟棄單詞“包”，根據(jù)TC 函數(shù)輸出conf，將丟棄單詞“拖”“把”.最終結合2 個輸出，得到最終動作為丟棄單詞“包”“拖”“把”.圖4 中可以看出，TC 函數(shù)幫助識別出了噪聲實體判別器無法篩選出的噪聲實體，相比通常情況下僅使用噪聲實體判別器進行篩選，增強了策略網(wǎng)絡的噪聲識別性能.

Fig.4 An example of action selection圖4 動作選擇示例

4.3 獎勵

在策略網(wǎng)絡的每次迭代中，當某一批次文本語句的所有動作執(zhí)行完后，策略網(wǎng)絡會接受以批次為單位的獎勵.該獎勵r與NER 模型的性能有關.

其中 B表示一個批次的文本，即一次選取的所有文本，S表示批次中的任意文本，文本長度為N，i表示文本中的單詞下標，T表示標注序列，首先得到文本S輸入NER 模型后，預測標簽序列為標注序列T的概率，并通過對該單詞執(zhí)行的動作ai∈{0,1}來判斷是否要將第i個單詞對應的值pi(T|S)加入計算，表示在句子層面，根據(jù)所選擇單詞的數(shù)量進行平均.最終，根據(jù)批次大小 |B|平均所有文本的反饋來獲得最終獎勵.在式（5）定義下，模型保留單詞的標注標簽，預測概率越高，獎勵越大，以此來衡量動作選擇的正確程度.策略網(wǎng)絡由RE?NFORCE 算法[31]更新為：

其中 θ表示策略網(wǎng)絡的可學習參數(shù)，η表示學習率，是一個超參數(shù)，表示可學習參數(shù) θ 的梯度，π(a|S;P;θ)表示策略網(wǎng)絡對文本語句表示 S和句中所有單詞的標簽概率P的輸出結果.

5 實驗

本節(jié)首先介紹了數(shù)據(jù)集、基線模型、評估指標以及參數(shù)設置；隨后，詳細對比了不同模型在中英文數(shù)據(jù)集上的結果；最后，對模型進行詳細分析，如進行消融實驗和NER 模型預訓練，并給出案例分析.

5.1 實驗設置

1）數(shù)據(jù)集.本文擬采用3 個中文數(shù)據(jù)集EC[13]，NEWS[13]，CCKS-DS 和1 個英文NER 數(shù)據(jù)集BC5CDR[32].下面詳細介紹這4 個數(shù)據(jù)集.

①EC 是一個中文基準數(shù)據(jù)集，共有5 種標簽類型：品牌（pp）、產(chǎn)品（cp）、型號（xh）、原料（yl）和規(guī)格（gg）.

②NEWS 是一個中文基準數(shù)據(jù)集.該數(shù)據(jù)集由MSRA[33]生成，只有一種實體類型：人名（PER）.

③CCKS-DS 由一個名為CCKS2017 的開源中文臨床數(shù)據(jù)集構建，它包含5 種類型的醫(yī)療實體：檢查和檢驗、疾病和診斷、癥狀和體征、治療、身體部位.

本文從CCKS2017 的數(shù)據(jù)集中提取了約1 700 個實例作為人工標注的訓練集.其余的大約5 800 個原始句子被收集為遠程監(jiān)督集，并通過遠程監(jiān)督方法進行標注.遠程監(jiān)督使用的知識庫為人工標注訓練集中的所有特殊實體.

④BC5CDR 是一個英文生物醫(yī)學領域基準數(shù)據(jù)集，它包含2 種類型的實體：疾病（disease）和化學品（chemical）.本文從Shang 等人[22]提供的原始文本庫中選取了15 000 條文本，并使用其提供的詞典對這些語料庫進行遠程監(jiān)督自動標注.

這4 個數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)如表1 所示，每個數(shù)據(jù)集都包含人工標注的小樣本數(shù)據(jù)和遠程監(jiān)督生成數(shù)據(jù).

2）基線模型.本文共對比了DSNER[13]，NER+PA+RL[14]，LexiconNER[25]，Span-based+SL[34]，NegSampling-NER[11]，NegSampling-variant[12]，MTM-CW[35]，BioFLA?R[36]，Spark-Biomedical[37]等方法.

①DSNER 與NER+PA+RL 都利用部分標注學習的方法來解決標簽標注不完整的問題，并設計基于強化學習的實例選擇器，以句子級別篩選噪聲.

②LexiconNER 將遠程監(jiān)督NER 任務定義為正樣本無標簽學習問題，并使用自采樣算法迭代地檢測可能的實體，降低了對詞典質(zhì)量的要求.

③NegSampling-NER 在訓練過程中采用負采樣策略，以減少訓練過程中未標記實體的影響.

④NegSampling-variant 在負采樣的基礎上，通過自適應加權抽樣分布，處理錯抽樣和不確定性問題.

⑤Span-based+SL 采用跨度級特征來更新遠程監(jiān)督的字典.

⑥MTM-CW 通過一個可重用的BiLSTM 層對字符級特征進行建模，并利用多任務模型的優(yōu)勢解決缺乏監(jiān)督數(shù)據(jù)的問題.

⑦BioFLA?R 是一個使用額外的生物醫(yī)學文本預訓練而成的池化上下文嵌入模型.

⑧Spark-Biomedical 使用混合雙向LSTM 和CNN的模型架構，自動檢測單詞和字符級別的特征.

⑨RLTL-DSNER（句子級別）是本文方法RLTLDSNER 的一個變體.其基于本文提出的模型架構，以句子級別識別正確實例，TC 函數(shù)修改為式（7），采用句子中各單詞標簽置信分數(shù)的最小值作為該句子的整體標簽預測分數(shù).

3）評估指標.本文報告了3 個評估指標：準確率（P）、召回率（R）和F1 值（F1）.需要注意的是僅當預測實體與標注實體完全匹配時，才將其視為正確實體.在訓練過程中，本文保存模型在驗證集上F1 最高的參數(shù)，并報告其在測試集上的各個指標.

4）參數(shù)設置.對于每個數(shù)據(jù)集，本文采用相同的參數(shù)設置.在第1 階段，訓練的F1 值限制為90%.在第2 階段，優(yōu)化器采用隨機梯度下降；策略網(wǎng)絡和NER 模型的學習率均為 1×10-5；每一網(wǎng)絡層的Dropout 設置為0.3，迭代次數(shù)設為80；式（4）中的置信度閾值 φ設置為0.9.本文使用的標注方法為B?O標注.

對于BC5CDR 數(shù)據(jù)集，本文使用“allenai/sciBERTscivocab-uncased[38]”作為預訓練模型（PLM）.對于其他數(shù)據(jù)集，PLM 使用“BERT-base-chinese”.報告的結果采用5 次結果的平均值，以減少隨機性.

5.2 模型對比

為了驗證模型的有效性，本文擬在2 個通用領域數(shù)據(jù)集EC 和NEWS 上進行實驗.實驗結果如表2 和表3 所示.從表2～3 中可以得出3 點結論：

Table 2 Main Results on EC Dataset表2 EC 數(shù)據(jù)集的主要結果 %

Table 3 Main Results on NEWS Dataset表3 NEWS 數(shù)據(jù)集的主要結果 %

1）本文提出的RLTL-DSNER 獲得了最好的性能.特別地，RLTL-DSNER 在EC 數(shù)據(jù)集上獲得了2.31 個百分比的性能提升，并在NEWS 數(shù)據(jù)集上獲得了4.28 個百分比的性能提升.

2）與句子級別的噪聲過濾方法相比（如DSNER，NER+PA+RL），即使在句子級別的選擇策略下，本文提出的噪聲過濾方法都獲得了更好的效果，說明策略網(wǎng)絡中引入的TC 函數(shù)的有效性.

3）RLTL-DSNER 相較于RLTL-DSNER（句子級別）效果更好，說明以單詞為單位識別正確實例可以最大限度保留樣本4～5 中的正確信息，提升模型性能.

此外，為了進一步驗證模型的通用性，本文擬在CCKS-DS（中文）和BC5CDR（英文）2 個醫(yī)療領域數(shù)據(jù)集中進行實驗.實驗結果如表4 和表5 所示，從表4～5 中可以得出2 點結論：

Table 4 Main Results on CCKS-DS Dataset表4 CCKS-DS 數(shù)據(jù)集的主要結果 %

Table 5 Main Results on BC5CDR Dataset表5 BC5CDR 數(shù)據(jù)集的主要結果 %

1）無論是在中文數(shù)據(jù)集還是英文數(shù)據(jù)集，RLTLDSNER 在F1 值上達到了新的SOTA，說明了該模型具有良好的語言適配性.

2）本文的RLTL-DSNER 相較于醫(yī)學領域的模型，如BioFLA?R，Spark-Biomedical 依然獲得了小幅度的F1 值提升，說明該模型具有較好的領域適配性.

5.3 數(shù)據(jù)分析

本節(jié)擬通過消融實驗來驗證模型每一模塊的有效性，并進一步驗證預訓練方式的有效性.

1）消融實驗.本節(jié)將在4 個數(shù)據(jù)集上進行消融實驗.實驗條件設置為：

①不使用RL 框架，只利用人工標注的數(shù)據(jù)集作為訓練集來訓練NER 模型，記為“baseline: H”；

②使用人工標注和遠程監(jiān)督的數(shù)據(jù)集作為訓練集，而不利用RL 框架，記為“baseline: H+D”；

③不采用預訓練策略，即訓練階段在人工數(shù)據(jù)集上的F1 值達到近100%才進入第2 階段的迭代訓練，記為“w/o HT”.

實驗結果如表6 所示，從表6 中得出2 點結論：

Table 6 Ablation Study表6 消融實驗 %

①在4 個數(shù)據(jù)集上，RLTL-DSNER 模型在所有指標上都取得了最佳的效果，說明模型中的每一模塊（包括NER 模型預訓練、遠程監(jiān)督數(shù)據(jù)和單詞級別的噪聲檢測）都是十分重要的.

②在3 種基線中，baseline:H+D 模型的效果是最差的，說明遠程監(jiān)督自動生成數(shù)據(jù)中存在大量的噪聲實例.特別地，在CCKS-DS 數(shù)據(jù)集中F1 值下降了9.40 個百分比.而在BC5CDR 數(shù)據(jù)集上，F(xiàn)1 值獲得了1.32 個百分比的提升，這是由于本文使用了Shang等人[22]提供的詞典進行自動標注，詞典質(zhì)量較高，噪聲較少，因此并沒有很大程度影響模型的性能.

2）預訓練NER 模型的有效性.為了說明本文采用預訓練方式的有效性，將NER 模型的F1 值訓練到90%的方式，擬與將模型的F1 值訓練到近100%的方式進行對比.這2 種方式的F1 值是迭代訓練過程中的前20 個迭代次數(shù)在測試集上進行測試得到的.實驗結果如圖5 所示，從圖5 中可以得出2 點結論：

Fig.5 ?nitial training performance of the same model under different strategies圖5 不同策略下相同模型的初期訓練表現(xiàn)

①使用本文的預訓練方式，RL 模型的訓練較為穩(wěn)定，僅在NEWS 數(shù)據(jù)集上出現(xiàn)小幅度的性能下降.這說明了該預訓練方式避免了模型的過擬合現(xiàn)象，可以為RL 模型在訓練初期提供高質(zhì)量的文本表示和反饋獎勵.

②將NER 模型訓練到近100%的情況下，RL 的訓練過程十分不穩(wěn)定.在4 個數(shù)據(jù)集上都出現(xiàn)了十分嚴重的性能下降，在EC，NEWS，BC5CDR 數(shù)據(jù)集上，經(jīng)過5 個迭代次數(shù)后訓練趨于穩(wěn)定，而在CCKS-DS數(shù)據(jù)集上，模型直至10 個迭代次數(shù)后訓練才逐漸穩(wěn)定.這是由于NER 模型對小樣本的人工標注數(shù)據(jù)集過擬合，記住了許多訓練樣本.此外，模型也學習到了人工標注數(shù)據(jù)集中難免存在的部分標注噪聲.因此導致其生成的句子表示和獎勵質(zhì)量不高.

5.4 案例分析

本節(jié)擬通過具體的數(shù)據(jù)實例與模型預測結果，進一步說明本文提出的RLTL-DSNER 的有效性.

圖6 顯示了遠程監(jiān)督數(shù)據(jù)中噪聲檢測的7 個示例，動作一欄表示在句子級別的動作選擇策略下模型的輸出結果，動作“0”表示丟棄該句子，動作“1”表示保留該句子.

Fig.6 ?nstances selection examples for the distantly supervised data圖6 遠程監(jiān)督數(shù)據(jù)的實例選擇示例

從圖6 可以看出，本文提出的模型準確識別出了FNs 如“梁連起（人名）”“等大等圓（癥狀和體征）”“全脂（產(chǎn)品）”“農(nóng)夫山泉（品牌）”“天然（產(chǎn)品）”，F(xiàn)Ps 如“金燦燦（無類型）”“面色（無類型）”.這些示例表明，本文的方法能夠精準地在單詞級別進行噪聲檢測，選擇正確的實體，并丟棄有噪聲的實體，最大限度保留樣本中的正確信息.

此外，根據(jù)相同示例下句子級別選擇策略的預測結果，可以看出在此策略下會丟棄許多正確信息，如第5 個句子中的“純牛奶（產(chǎn)品）”、第7 個句子中的“礦泉水（產(chǎn)品）”，同時會使模型學習到許多噪聲信息，如第1 個句子中的“梁連起”、第4 個句子中的“面色（身體部位）”等，降低了模型性能.

圖7 展示了3 個中文數(shù)據(jù)集中部分人工標注實例，可以看到“廚房紙（產(chǎn)品）”“王太守則（人名）”“腸管（身體部位）”“干濕性啰音（檢查和檢驗）”這些實體并沒有被標注出.此現(xiàn)象說明了人工標注數(shù)據(jù)集耗時耗力，工作量龐大，但是依然無法避免小部分由于人為疏漏或標注人員間判斷標準的差異引入的噪聲實體，再次證明了我們提出的NER 模型預訓練策略的有效性.

Fig.7 ?nstances of manual annotation data圖7 人工標注數(shù)據(jù)示例

6 結論

本文提出了一種解決遠程監(jiān)督NER 任務中噪聲標注問題的新方法RLTL-DSNER.其在強化學習框架中的策略網(wǎng)絡引入了TC 函數(shù)，為文本語句中的每個單詞提供了標簽置信分數(shù)，并使用單詞級別的實例選擇策略以最大限度保留樣本中的正確信息，減少噪聲實例對遠程監(jiān)督NER 的負面影響.此外，本文提出了一種NER 模型預訓練策略，該策略可以為強化學習的初始訓練提供精準的狀態(tài)表示和有效獎勵值，幫助策略網(wǎng)絡在訓練初期以正確的方向更新其參數(shù).在3 個中文數(shù)據(jù)集和1 個英文醫(yī)學數(shù)據(jù)集上的大量實驗結果驗證了RLTL-DSNER 的優(yōu)越性，在NEWS數(shù)據(jù)集上，相較于現(xiàn)有最先進的方法，獲得了4.28%的F1 值提升.

作者貢獻聲明：王嘉誠和王凱完成了算法思路設計、實驗方案制定，并完成實驗和論文撰寫工作；王昊奮提供論文撰寫指導、技術支持；杜渂和何之棟完成了相關文獻梳理、實驗數(shù)據(jù)整理，并討論方案；阮彤完成了論文框架設計、整體內(nèi)容規(guī)劃；劉井平提供論文撰寫指導和完善實驗方案.