葉 靜 鄒博偉 洪宇 沈龍?bào)J 朱巧明 周國棟
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇蘇州 215006)
自然語言文本存在大量否定與不確定語義表述,將其與事實(shí)性信息分離處理,能夠?yàn)樽匀徽Z言處理的下游應(yīng)用(如知識庫構(gòu)建、信息抽取、情感分析等)提供準(zhǔn)確性保證.本文旨在研究識別出句子中包含否定或不確定語義的文本片段.其中,否定語義指對某一命題或斷言的存在或發(fā)生進(jìn)行反轉(zhuǎn)[1];不確定語義指事物的類屬邊界或性質(zhì)狀態(tài)不明確,人們對事物屬性處于一種模糊認(rèn)識狀態(tài)[2].
通常地,否定與不確定表述由一個(gè)關(guān)鍵詞或短語及其在句子中支配的語義作用范圍(覆蓋域)組成.例句[注]以加粗字體表示關(guān)鍵詞,以方括號表示關(guān)鍵詞對應(yīng)的覆蓋域.:
例1.我建議大家和提醒其他人[不要到這家酒店]!
例2.[唯一覺得還可以的是中餐廳],用餐也不貴.
其中,例1中否定關(guān)鍵詞“不要”的語義作用范圍是“不要到這家酒店”,而前半句內(nèi)容并未受否定關(guān)鍵詞的影響;同樣,例2中表示不確定語義的關(guān)鍵詞為“覺得”,其對應(yīng)的語義作用范圍是“唯一覺得還可以的是中餐廳的菜”,句子中其余部分未包含不確定語義.
覆蓋域檢測(scope detection)是否定與不確定性信息抽取研究中的核心任務(wù),對給定的否定或不確定關(guān)鍵詞,識別其在句子中管轄的文本片段.覆蓋域檢測研究最早集中于生物信息抽取領(lǐng)域,自動抽取科技文獻(xiàn)或病程記錄中被否定或推測的實(shí)體或文本[3-5].近年來,該任務(wù)逐漸開始作為基礎(chǔ)的自然語言理解任務(wù),受到廣泛關(guān)注[3-5].
由于語料資源相對缺乏,面向漢語的否定與不確定檢測研究仍處于探索階段,現(xiàn)有方法大都基于規(guī)則或傳統(tǒng)的特征工程方法[1-2,4,6-9].例如Zou等人[4]提出了一種基于樹核的否定與不確定覆蓋域檢測方法,其中抽取了包括詞性、成分句法與依存句法等21種特征模板.這些方法需要領(lǐng)域?qū)<疫M(jìn)行特征模板的設(shè)計(jì),費(fèi)時(shí)費(fèi)力,且可擴(kuò)展性較差.相比傳統(tǒng)方法,神經(jīng)網(wǎng)絡(luò)模型能夠從原始數(shù)據(jù)中自主學(xué)習(xí),獲取更深層次、更抽象的潛在特征,其優(yōu)勢已在自然語言處理領(lǐng)域的其他任務(wù),如機(jī)器翻譯[10-11]、情感分析[12-13]、信息抽取[14-15]等中,得到了驗(yàn)證.
本文首次采用神經(jīng)網(wǎng)絡(luò)模型解決面向漢語的否定與不確定覆蓋域檢測問題,將其作為序列標(biāo)注任務(wù),采用雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory, BiLSTM)[16-17]和條件隨機(jī)場(conditional random fields, CRF)[18]進(jìn)行建模.首先,將句子中每個(gè)詞通過預(yù)訓(xùn)練的詞向量進(jìn)行向量化,并將每個(gè)詞的相關(guān)特征(位置、詞性、句法特征、依存特征)進(jìn)行向量化,然后進(jìn)行組合作為BiLSTM網(wǎng)絡(luò)的輸入,通過BiLSTM學(xué)習(xí)上下文信息,并通過CRF層學(xué)習(xí)相鄰標(biāo)簽之間的依賴關(guān)系,最終解碼出最優(yōu)的標(biāo)簽序列.
在CNeSp語料庫[8]上的實(shí)驗(yàn)結(jié)果表明:本文基于BiLSTM-CRF模型的覆蓋域檢測方法性能分別達(dá)到79.16%(否定)和76.79%(不確定),比目前基于傳統(tǒng)機(jī)器學(xué)習(xí)的系統(tǒng)分別提升了25.06%和34.46%.
本文的主要貢獻(xiàn)可歸納為3個(gè)方面:
1) 將覆蓋域識別任務(wù)作為序列標(biāo)注問題,提出了一種面向漢語覆蓋域檢測任務(wù)的基于雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)與條件隨機(jī)場(CRF)融合模型,該模型能夠有效地學(xué)習(xí)和優(yōu)化上遠(yuǎn)距離下文中的依賴關(guān)系;
2) 探索了詞性、相對位置、成分句法標(biāo)記、依存句法路徑等特征在基于神經(jīng)網(wǎng)絡(luò)模型中,對覆蓋域檢測任務(wù)的影響;
3) 較大程度地提升了漢語覆蓋域檢測系統(tǒng)性能,為相關(guān)研究提供了基準(zhǔn)系統(tǒng).
本節(jié)主要介紹否定與不確定覆蓋域檢測任務(wù)的研究進(jìn)展,以及BiLSTM-CRF模型在自然語言處理領(lǐng)域中的相關(guān)應(yīng)用.
覆蓋域檢測研究最早出現(xiàn)于面向生物信息文本的自然語言處理領(lǐng)域.早期的覆蓋域檢測方法通常基于啟發(fā)式規(guī)則.例如Chapman等人[19]發(fā)布了基于正則表達(dá)式算法的NegEx系統(tǒng);Huang等人[20]在句法樹結(jié)構(gòu)上,利用啟發(fā)式規(guī)則判定句法樹結(jié)構(gòu)是否處于某個(gè)否定關(guān)鍵詞的作用范圍之內(nèi).基于規(guī)則的方法實(shí)現(xiàn)簡單且準(zhǔn)確率較高,但其可擴(kuò)展性較差;隨著BioScope語料庫的發(fā)布[6],基于特征工程的方法逐漸成為主流,例如Morante等人[21]首次采用機(jī)器學(xué)習(xí)方法對否定關(guān)鍵詞的覆蓋域進(jìn)行檢測,此后,其又融合淺層句法特征與依存句法特征,獲得了CoNLL’2010-Task2 評測的最優(yōu)性能.
由于缺少語料資源,面向漢語的否定與不確定覆蓋域檢測研究起步較晚.Zou等人[8]標(biāo)注了漢語否定與不確定語料庫(CNeSp),該語料庫共16 841句,其中包含科技文獻(xiàn)、金融新聞、酒店評論3種不同領(lǐng)域的數(shù)據(jù)集.同時(shí)提出了一個(gè)基于特征工程的基準(zhǔn)系統(tǒng),該系統(tǒng)的性能達(dá)到54.10%(否定)和42.33%(不確定).本文提出的模型在該語料庫上進(jìn)行驗(yàn)證與比較.
以上基于特征工程的方法不僅依賴大量的領(lǐng)域知識和經(jīng)驗(yàn),模型的泛化能力也較差.而本文提出基于雙向長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場的覆蓋域檢測模型能夠有效利用上下文信息,并考慮相鄰標(biāo)記的依賴關(guān)系,自動學(xué)習(xí)潛在特征.
1.2 BiLSTM-CRF模型
近年來,神經(jīng)網(wǎng)絡(luò)模型在自然語言處理的各個(gè)任務(wù)中均取得了突破性進(jìn)展.其中,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[13]能夠很好地處理序列信息并從中學(xué)習(xí)有效特征,其最初由Goller等人[22]提出;但由于RNN在深度學(xué)習(xí)中存在梯度消失和梯度爆炸問題,Hochreiter等人[23]繼而提出了RNN的變體長短期記憶網(wǎng)絡(luò)(LSTM);之后,在單向LSTM 學(xué)習(xí)序列特征時(shí),其僅考慮該序列的上文信息,而忽略了下文信息.為克服這個(gè)問題,Graves等人[24-25]提出雙向LSTM(BiLSTM)模型,并將其應(yīng)用于語音識別任務(wù),該模型能夠在一定時(shí)間內(nèi)充分利用上下文信息;此外,條件隨機(jī)場(CRF)由Lafferty等人于2001年[18]提出,在序列標(biāo)注任務(wù)中,CRF能夠?qū)W習(xí)相鄰標(biāo)記之間的依賴關(guān)系.
基于BiLSTM和CRF模型在序列標(biāo)注任務(wù)中的各自優(yōu)勢,相關(guān)研究嘗試將其進(jìn)行融合.例如Huang等人[20]首次將BiLSTM與CRF的融合模型用于詞性標(biāo)注、語塊分析、命名實(shí)體識別3類序列標(biāo)注任務(wù);Ma等人[16]將BiLSTM,CRF,CNN這3種模型進(jìn)行融合并應(yīng)用于端到端的序列標(biāo)注任務(wù)中;Lample等人[17]將BiLSTM-CRF模型用于命名實(shí)體識別任務(wù)中.BiLSTM-CRF模型在以上序列標(biāo)注任務(wù)中均取得了較高性能,基于此,本文嘗試將該模型應(yīng)用于面向漢語的否定與不確定覆蓋域檢測任務(wù)中.
本節(jié)首先介紹BiLSTM-CRF模型,其次我們將覆蓋域檢測作為序列標(biāo)注任務(wù),給出序列標(biāo)記方案及特征集合.
LSTM單元能夠有效消除冗余的上下文信息,并學(xué)習(xí)長距離依賴特征,因而被廣泛應(yīng)用于解決序列標(biāo)注任務(wù)上.LSTM單元通常包含4個(gè)部分:輸入門(input gate)、遺忘門(forget gate)、輸出門(output gate)和細(xì)胞狀態(tài)(cell).形式地,設(shè)x為輸入,h為隱藏狀態(tài)的輸出.LSTM單元的狀態(tài)不僅取決于當(dāng)前輸入xt,還受到上一時(shí)刻的輸出值ht-1的影響.單個(gè)LSTM單元更新步驟為
it=σ(Wixt+Uiht-1+bi),ft=σ(Wfxt+Ufht-1+bf),ot=σ(Woxt+Uoht-1+bo),ct=ft?ct-1+it?tanh(Wcxt+Ucht-1+bc),ht=ot?tanh(ct),
(1)
其中,it,ft,ot,ct,分別表示時(shí)刻t輸入門、遺忘門、輸出門和細(xì)胞狀態(tài)的輸出,xt和ht表示時(shí)刻t的輸入向量和隱藏層向量,σ(·)表示sigmoid激活函數(shù),W和b分別表示權(quán)重矩陣和偏置向量,下標(biāo)表示其所屬歸類,例如Wi和bi分別表示屬于輸入門結(jié)構(gòu)中的權(quán)重矩陣和偏置向量.
由于LSTM結(jié)構(gòu)無法同時(shí)學(xué)習(xí)2個(gè)方向的上下文特征,本文采用雙向LSTM(BiLSTM)模型.如圖1所示,該模型包含2個(gè)不同方向的并行層、前向?qū)雍秃笙驅(qū)樱謩e從句子的前端和末端開始運(yùn)行,存儲2個(gè)方向的上下文信息.
在覆蓋域檢測中,當(dāng)前詞的標(biāo)簽通常與其周圍的詞存在關(guān)聯(lián),例如表示出現(xiàn)于關(guān)鍵詞之前的標(biāo)簽B必須位于表示出現(xiàn)于關(guān)鍵詞后的標(biāo)簽A(具體標(biāo)記方案參見2.2節(jié)).CRF模型能夠通過相鄰詞之間的條件概率,學(xué)習(xí)標(biāo)簽之間的依賴關(guān)系,本文在BiLSTM結(jié)構(gòu)上層增加CRF結(jié)構(gòu),以獲得全局最優(yōu)的標(biāo)簽序列.給定句子:
x=(x1,x2,…,xn),
其預(yù)測標(biāo)簽序列為
y=(y1,y2,…,yn),
得分為
(2)
其中,C為BiLSTM網(wǎng)絡(luò)的輸出,大小為n×k,k表示不同標(biāo)簽個(gè)數(shù),Ci,j表示句子中第i個(gè)詞的第j個(gè)標(biāo)簽的得分;Ai,j表示第i個(gè)標(biāo)簽到第j個(gè)標(biāo)簽的轉(zhuǎn)移概率,矩陣A大小為(k+2)×(k+2),由于在一個(gè)句子首尾添加了START和END標(biāo)簽,即y0和yn+1.對句子所有可能的標(biāo)簽序列采用柔性最大值(softmax)進(jìn)行歸一化:

(3)
其中,Y表示所有可能的標(biāo)簽序列集合.訓(xùn)練過程中,對正確標(biāo)簽序列進(jìn)行最大化似然概率的計(jì)算:
L=max ln(p(y|x)).
(4)
最后,在解碼端將最高得分的標(biāo)簽序列作為最終的標(biāo)簽序列輸出:

(5)

Fig. 1 Framework of the BiLSTM-CRF model圖1 BiLSTM-CRF模型框架
本文提出的基于BiLSTM-CRF的覆蓋域檢測模型框架如圖1所示.首先,將句子中的單詞進(jìn)行向量化表示,除了詞向量(WE),本文還探索了其他特征,如位置特征(PE)、句法結(jié)構(gòu)特征(CE)、詞性特征(NE)、依存特征(DE).然后,將嵌入層向量送入前向LSTM和后向LSTM,學(xué)習(xí)相關(guān)的上下文特征,再將輸出進(jìn)行拼接,作為CRF層的輸入,學(xué)習(xí)標(biāo)簽依賴關(guān)系,最終解碼出全局最優(yōu)的標(biāo)簽序列.此外,本模型為了減少過擬合,在BiLSTM網(wǎng)絡(luò)兩端各添加了dropout層.
1) 標(biāo)記方案
本文采用BAO標(biāo)記方案,含義如下.
標(biāo)記B(before):位于覆蓋域內(nèi),關(guān)鍵詞之前;
標(biāo)記A(after):位于覆蓋域內(nèi),關(guān)鍵詞之后,包含關(guān)鍵詞;
標(biāo)記O(outside):位于覆蓋域之外.
對分詞后的句子進(jìn)行標(biāo)記舉例:
例3.唯一B 覺得A 還A 可以A 的A 是A 中餐廳A 的A 菜A ,O 用餐O 也O 不貴O .O
2) Embedding層
該層作為模型的輸入,本文將詞及其對應(yīng)的特征進(jìn)行編碼.給定句子S=(w1,w2,…,wn),首先用向量矩陣WE將每個(gè)詞轉(zhuǎn)化成維度大小為dw的向量,其中,WE∈Rdw×|V|,V表示詞表.
在自然語言處理領(lǐng)域,相關(guān)研究已經(jīng)驗(yàn)證了詞性、相對位置、成分句法、依存句法等特征的重要性[4,8-9,26].本文同時(shí)探索了這些特征對覆蓋域檢測任務(wù) 的有效性,其向量化表示如下.
詞性.向量矩陣NE將每個(gè)詞的詞性映射為一個(gè)維度為dnat的實(shí)值向量,其中,NE∈Rdnat×|Vnat|,Vnat表示詞性集合,采用隨機(jī)初始化;
相對位置.向量矩陣PE將每個(gè)詞與關(guān)鍵詞之間的相對距離映射為一個(gè)維度為dpos的實(shí)值向量,其中,PE∈Rdpos×|Vpos|,Vpos表示相對距離的集合,采用隨機(jī)初始化;
短語句法節(jié)點(diǎn).向量矩陣CE將每個(gè)詞在句法樹中的父親節(jié)點(diǎn)映射為一個(gè)維度為dcon的實(shí)值向量,其中,CE∈Rdcon×|Vcon|,Vcon表示成分句法節(jié)點(diǎn)的集合,采用隨機(jī)初始化;
依存句法節(jié)點(diǎn).向量矩陣DE將每個(gè)詞在依存句法樹中的父節(jié)點(diǎn)映射為一個(gè)維度為ddep的實(shí)值向量,其中,DE∈Rddep×|Vdep|,Vdep表示依存句法節(jié)點(diǎn)的集合,采用隨機(jī)初始化.
本節(jié)首先介紹實(shí)驗(yàn)數(shù)據(jù)集、參數(shù)設(shè)置以及實(shí)驗(yàn)所采用評價(jià)指標(biāo)、基準(zhǔn)系統(tǒng);然后給出實(shí)驗(yàn)結(jié)果,對參數(shù)的選擇進(jìn)行比較,并對錯(cuò)誤結(jié)果進(jìn)行分析;最后,與現(xiàn)有的覆蓋域檢測系統(tǒng)進(jìn)行比較,驗(yàn)證本文方法的有效性.
本文實(shí)驗(yàn)數(shù)據(jù)采用CNeSp語料庫.該語料庫包含科技文獻(xiàn)、金融新聞、酒店評論3種類型的數(shù)據(jù)集,共16 841句,其中覆蓋域?qū)嵗龜?shù)據(jù)為6 429個(gè)[8].每個(gè)實(shí)例均標(biāo)注了否定或不確定關(guān)鍵詞及對應(yīng)的覆蓋域.表1對CNeSp語料庫進(jìn)行了統(tǒng)計(jì).可以看出,酒店評論數(shù)據(jù)的句子平均長度最短,其覆蓋域平均長度也最短;總體來說,不確定覆蓋域長度大于否定覆蓋域.此外,值得注意的是,在酒店評論數(shù)據(jù)集中,否定實(shí)例的比例為52.9%,遠(yuǎn)高于其他2種類型的數(shù)據(jù)集,其原因是在酒店評論數(shù)據(jù)中負(fù)面評論較為常見,而在表述負(fù)面觀點(diǎn)時(shí),通常包含否定語義.

Table 1 Statistics of the CNeSp Corpus表1 漢語否定與不確定語料庫(CNeSp)數(shù)據(jù)統(tǒng)計(jì)
實(shí)驗(yàn)分別將3個(gè)數(shù)據(jù)集按照70%,15%,15%的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集[27].本文采用準(zhǔn)確率(precision)、召回率(recall)和F1值評價(jià)模型在標(biāo)簽標(biāo)記時(shí)的性能.而在評價(jià)覆蓋域檢測的準(zhǔn)確性時(shí),本文采用該任務(wù)的標(biāo)準(zhǔn)評價(jià)指標(biāo)[3-4,8-9],正確覆蓋域的百分比(percentage of correct scopes,PCS),其計(jì)算方式為覆蓋域標(biāo)記正確句子數(shù)目與句子總數(shù)目的比值.兩類評價(jià)指標(biāo)各有側(cè)重,F(xiàn)1值以詞為單位,主要評價(jià)模型在標(biāo)注序列中對每個(gè)單元的識別性能;而PCS指標(biāo)以句子為單位,直接衡量模型在覆蓋域檢測任務(wù)上的性能.總體而言,后者作為主要性能指標(biāo),比前者更嚴(yán)格.
本文采用斯坦福句法分析工具(CoreNLP)獲得句法特征[注]http://nlp.stanford.edu/software/lex-parser.shtml;中文分詞工具采用結(jié)巴軟件[注]https://pypi.org/project/jieba/;通過CLSim[注]http://nlp.csai.tsinghua.edu.cn/~lzy/src/acl2015 bilingual.html預(yù)訓(xùn)練出50維的詞向量進(jìn)行向量化[28].超參數(shù)設(shè)置方面,詞性特征、位置特征、短語句法特征和依存句法特征維度均為20,dropout=0.4,LSTM隱藏層維度為150,學(xué)習(xí)率為0.015.本文選擇帶沖量(momentum)的隨機(jī)梯度下降(stochastic gradient descent, SGD)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,其中momentum=0.9.
為比較不同模型及不同特征的性能,本文采用3個(gè)模型作為基準(zhǔn)系統(tǒng).
1) LSTM_P.采用單向長短期記憶網(wǎng)絡(luò),輸入為詞向量和位置特征.
2) BiLSTM_P.采用雙向長短期記憶網(wǎng)絡(luò),輸入為詞向量和位置特征.
3) BiLSTM-CRF_P.該系統(tǒng)為本文提出的方法,在BiLSTM網(wǎng)絡(luò)上添加了CRF層,輸入為詞向量和位置特征.
此外,為驗(yàn)證不同特征對覆蓋域檢測任務(wù)的有效性,文本在BiLSTM-CRF_P模型上分別添加不同類型的特征.注意,由于位置特征在該任務(wù)上最為重要,因此在對比不同特征影響時(shí),系統(tǒng)中始終保留此特征.對比系統(tǒng)有5個(gè):
1) BiLSTM-CRF.輸入僅包含詞向量.
2) BiLSTM-CRF_P_POS.輸入包含詞向量、位置特征、詞性特征.
3) BiLSTM-CRF_P_C.輸入包含詞向量、位置特征、短語句法特征.
4) BiLSTM-CRF_P_D.輸入包含詞向量、位置特征、依存句法特征.
5) BiLSTM-CRF_P_C_ POS.輸入包含詞向量、位置特征、詞性特征、短語句法特征.
3.2.1 不同模型對系統(tǒng)性能的影響
表2和表3中行1~3對比了采用不同的序列標(biāo)注模型的性能.可以看出,本文系統(tǒng)(BiLSTM-CRF_P)獲得了最好性能,否定和不確定覆蓋域檢測的正確率(PCS)分別達(dá)到77.17%和76.43%.此外,對比實(shí)驗(yàn)結(jié)果可以看出:1)BiLSTM模型的性能在不同類型的數(shù)據(jù)集上均比LSTM模型高出15%左右,其原因主要是BiLSTM能夠從前向和后向2個(gè)方向上學(xué)習(xí),比后者能夠更加充分地利用上下文信息;2)與BiLSTM相比,本文提出的基于BiLSTM-CRF覆蓋域檢測系統(tǒng)在否定和不確定性能上均有較大幅度的提升(PCS性能提升在10%左右),其原因主要是覆蓋域通常為連續(xù)的文本片段,相鄰詞之間具有較強(qiáng)的依賴關(guān)系,CRF模型能夠通過對轉(zhuǎn)移概率的學(xué)習(xí)更好地捕捉相鄰標(biāo)簽之間的依賴關(guān)系,彌補(bǔ)了BiLSTM的不足,使得系統(tǒng)性能獲得較大提升.

Table 2 Influence of Different Models and Fearures on Performance of Systems onThree Different Datasets for Scope Detection in Negation表2 不同模型和不同特征對否定覆蓋域檢測系統(tǒng)性能影響 %
Note: The best result is bold.

Table 3 Influence of Different Models and Fearures on Performance of Systems on Three Different Datasets for Scope Detection in Speculation表3 不同模型和不同特征對不確定覆蓋域檢測系統(tǒng)性能影響 %
Note: The best result is bold.
表2和表3中行3~8對比了采用不同特征時(shí)BiLSTM-CRF系統(tǒng)的性能.可以看出:
1) 僅采用詞向量作為輸入的BiLSTM-CRF模型時(shí),由于缺乏足夠的特征,其性能相比其他系統(tǒng)差距較大.
2) 加入位置特征后(BiLSTM-CRF_P),其性能獲得明顯提升,接近最好的系統(tǒng)性能.說明位置特征對覆蓋域檢測任務(wù)最為重要.注意,在實(shí)驗(yàn)中本文同時(shí)也嘗試了在BiLSTM-CRF模型中單獨(dú)加入其他特征,其性能雖有提升,但均與位置特征有較大差距.
3) 在BiLSTM-CRF_P模型中分別加入詞性特征(BiLSTM-CRF_P_POS)和短語句法特征(BiLSTM-CRF_P_C)時(shí)性能均有小幅度提升,在不同語料集上都達(dá)到各自最好性能.然而,當(dāng)同時(shí)添加以上2個(gè)特征(BiLSTM-CRF_P_C_POS)時(shí)性能反而有所下降,其原因可能在于這2個(gè)特征包含的語法信息較為相似,同時(shí)添加時(shí)存在較大冗余,反而降低了系統(tǒng)的泛化性能.
4) 加入依存特征(BiLSTM-CRF_P_D)后,系統(tǒng)性能幾乎未獲得提升,其原因可能是由于依存句法表示詞之間的依賴關(guān)系,而BiLSTM-CRF模型本身善于學(xué)習(xí)這種關(guān)系.
3.2.2 標(biāo)記方案對系統(tǒng)性能的影響
除了2.2節(jié)中介紹的BAO標(biāo)記方案,本文還嘗試2種標(biāo)記方案.
1) BIO標(biāo)記方案
B:覆蓋域內(nèi)的第1個(gè)詞;
I:覆蓋域中除第1個(gè)詞之外的其他詞;
O:不在覆蓋域中的.
2) IO標(biāo)記方案
I:覆蓋域中的詞;
O:不在覆蓋域中的詞.
表4以BiLSTM-CRF_P_POS系統(tǒng)為例,給出了采用不同標(biāo)記方案時(shí)覆蓋域檢測系統(tǒng)的性能比較.可以看出,BAO標(biāo)記方案獲得了最好的性能.此外,除科技文獻(xiàn)數(shù)據(jù)集外,其他數(shù)據(jù)集上的性能差別不大,其原因可能是該數(shù)據(jù)集上的否定覆蓋域?qū)嵗齼H有161個(gè),遠(yuǎn)小于其他數(shù)據(jù)集,導(dǎo)致模型訓(xùn)練不穩(wěn)定,測試集上的泛化性能較差.
3.2.3 訓(xùn)練數(shù)據(jù)集大小對系統(tǒng)性能的影響
圖2驗(yàn)證了訓(xùn)練集大小對本文模型性能的影響.可以看出:訓(xùn)練集由60%逐漸增加至100%,系統(tǒng)性能提升較為緩慢(僅提升了6.7%);而訓(xùn)練集由10%提升至60%過程中,系統(tǒng)性能上升幅度較大.該結(jié)論說明訓(xùn)練本文提出的模型所需的數(shù)據(jù)量占CNeSp語料訓(xùn)練集的60%左右.
3.2.4 超參數(shù)對系統(tǒng)性能的影響
本節(jié)驗(yàn)證了超參數(shù)設(shè)置對模型的影響,旨在為相關(guān)研究提供參考.實(shí)驗(yàn)采用BiLSTM-CRF_P_POS模型,數(shù)據(jù)采用金融新聞否定覆蓋域數(shù)據(jù)集.由

Table 4 Comparison of the Systems with Different Label Schemes in PCS表4 不同標(biāo)記方案系統(tǒng)PCS性能比較 %
Note: The best result is bold.

Fig. 2 Comparison of the performance when utilizing different sizes of training set圖2 訓(xùn)練數(shù)據(jù)集大小對系統(tǒng)性能的影響
表2和表3的實(shí)驗(yàn)結(jié)果可以看出位置特征在本文模型中的有效性,本文嘗試采用不同維度對位置特征進(jìn)行向量化表示.圖3(a)給出了位置特征維度對系統(tǒng)性能的影響.可以看出,在維度為20時(shí),系統(tǒng)性能最好;特征維度繼續(xù)增大時(shí),其表示信息的能力開始變?nèi)酰瑢?dǎo)致系統(tǒng)性能逐漸降低.
LSTM單元的隱藏層維度對神經(jīng)網(wǎng)絡(luò)模型的性能具有一定的影響,其在訓(xùn)練階段容易出現(xiàn)過擬合:隱藏層維度偏大使得模型更復(fù)雜,泛化能力下降;隱藏層維度偏小則可能導(dǎo)致學(xué)習(xí)能力下降.因此,本文嘗試用了不同維度的LSTM隱藏層,實(shí)驗(yàn)結(jié)果如圖3(b)所示.可以看出:適當(dāng)提升隱藏層的維度能夠使系統(tǒng)性能獲得提升,當(dāng)隱藏層維度達(dá)到150時(shí),系統(tǒng)性能達(dá)到最高值;而繼續(xù)增大隱藏層維度時(shí),系統(tǒng)性能開始降低,說明其泛化性能下降,出現(xiàn)過擬合.

Fig. 3 Effect of performance with different feature dimensions and different hidden layer dimensions of LSTM圖3 位置特征維度和LSTM隱藏層維度對系統(tǒng)性能的影響
3.2.5 錯(cuò)誤分析
本節(jié)對實(shí)驗(yàn)結(jié)果進(jìn)行了定性分析,在金融新聞測試集上,分別選取了BiLSTM-CRF_P_POS系統(tǒng)的否定與不確定覆蓋域各50個(gè)錯(cuò)誤實(shí)例進(jìn)行分析.主要集中在2類錯(cuò)誤[注]加粗字體表示當(dāng)前關(guān)鍵詞,下劃線表示無關(guān)關(guān)鍵詞,方括號表示覆蓋域正確答案,小括號表示系統(tǒng)識別的覆蓋域.:
1)當(dāng)句子中存在多個(gè)關(guān)鍵詞時(shí),在識別當(dāng)前關(guān)鍵詞對應(yīng)的覆蓋域時(shí),會受到其他關(guān)鍵詞的影響(否定,2350;不確定,2650).
例3.([雖然股市不再繼續(xù)下跌],但是也沒有上升趨勢)…
例4.([這意味著變盤走好],近期可能不會再跌至這個(gè)點(diǎn)位之下).
例3中當(dāng)前關(guān)鍵詞為“不再”,其對應(yīng)覆蓋域?yàn)榉嚼ㄌ査荆捎谑艿疥P(guān)鍵詞“沒有”的影響,系統(tǒng)最終識別為圓括號所示;同樣,例4中,當(dāng)前關(guān)鍵詞為“意味著”,但受到關(guān)鍵詞“可能”的影響,覆蓋域也被識別錯(cuò)誤.該類型錯(cuò)誤占所有錯(cuò)誤的50%左右.未來研究中,可以嘗試采用隨機(jī)初始化非當(dāng)前關(guān)鍵詞向量,以減弱其他關(guān)鍵詞的影響.
例5.…[國內(nèi)公布的相關(guān)數(shù)據(jù)(不太令人意)]…
例6.…[他也(建議如果基本面預(yù)期不是太差)]…
在例5和例6 中,位于關(guān)鍵詞之前的覆蓋域片段均未被正確識別.本文對金融新聞數(shù)據(jù)集的3 978 個(gè)否定與不確定覆蓋域?qū)嵗M(jìn)行了統(tǒng)計(jì),其中77%以關(guān)鍵詞為開始,換言之,這些句子中沒有標(biāo)簽為B的實(shí)例,此類錯(cuò)誤可能由于訓(xùn)練不足導(dǎo)致.在未來工作中,可以嘗試調(diào)整訓(xùn)練集中包含標(biāo)簽B的實(shí)例分布,使模型能夠有效地學(xué)習(xí).
目前,面向漢語的否定與不確定覆蓋域檢測處于探索階段,相關(guān)研究較為匱乏.因此,本文采用2個(gè)英文中最好的系統(tǒng),以及1個(gè)漢語上最好的系統(tǒng)進(jìn)行比較.
1) CNN_C和CNN_D.Qian等人[3]將覆蓋域檢測作為分類任務(wù),分別采用短語句法路徑與依存句法路徑作為特征,該方法獲得了目前英文BioScope語料上的最好性能.
2) BiLSTM.Fancellu等人[5]將覆蓋域檢測作為序列標(biāo)注任務(wù),與本文不同的是缺少CRF層,同時(shí)添加了詞性特征.
3) MetaTree.文獻(xiàn)[8]在發(fā)布漢語覆蓋域檢測語料的同時(shí),提出了一個(gè)基于元決策樹的基準(zhǔn)系統(tǒng),該系統(tǒng)融合了CRF模型與卷積樹核模型.
表5比較了本文模型與以上4個(gè)模型在CNeSp語料庫上的性能.

Table 5 Comparison with the States-of-the-art System in PCS表5 不同系統(tǒng)PCS性能比較 %
Note: The best result is bold.
可以看出,除了在科技文獻(xiàn)數(shù)據(jù)集上的否定覆蓋域檢測之外,本文基于BiLSTM-CRF模型的覆蓋域檢測系統(tǒng)性能較最好系統(tǒng)均有大幅度提升.其中,本文方法與基于CNN模型的2種方法相比,具有顯著提升.其原因是CNN方法將該任務(wù)作為分類任務(wù),對每一個(gè)詞獨(dú)立地進(jìn)行標(biāo)簽分類,而本文將其作為序列標(biāo)注任務(wù),通過BiLSTM學(xué)習(xí)上下文信息,能夠有效學(xué)習(xí)到覆蓋域的連續(xù)特征.此外,通過添加CRF層與BiLSTM方法相比有了進(jìn)一步改善,說明CRF學(xué)習(xí)標(biāo)簽之間依賴關(guān)系對本任務(wù)更為有效.而在科技文獻(xiàn)數(shù)據(jù)集上,否定覆蓋域檢測性能比MetaTree低6.74%.其原因可能是該數(shù)據(jù)訓(xùn)練集的實(shí)例過少,僅有121個(gè)實(shí)例,從而導(dǎo)致神經(jīng)網(wǎng)絡(luò)很難學(xué)到有效特征.
本文提出了一種基于雙向LSTM網(wǎng)絡(luò)與CRF融合模型的否定與不確定覆蓋域檢測方法,該模型借助BiLSTM網(wǎng)絡(luò)學(xué)習(xí)上下文特征和長距離特征,并通過CRF層學(xué)習(xí)相鄰標(biāo)簽之間的依賴關(guān)系,在CNeSp語料庫上取得了目前的最好性能.此外,本文驗(yàn)證了位置特征、詞性特征和短語句法特征在覆蓋域檢測任務(wù)中的有效性.
未來工作除了嘗試進(jìn)一步優(yōu)化模型以解決3.2.5節(jié)中提到的主要錯(cuò)誤之外,還需要研究跨領(lǐng)域的覆蓋域檢測任務(wù).此外,由于面向英語的覆蓋域檢測模型相對成熟,如何將這些方法遷移到面向漢語的覆蓋域檢測任務(wù)中也是未來工作需要探索的方向.