陳 千,韓 林,王素格,郭 鑫
1.山西大學 計算機與信息技術學院,太原 030006
2.山西大學 計算智能與中文信息處理教育部重點實驗室,太原 030006
高考文學類閱讀理解的研究多是針對簡單事實類問題,本文聚焦高考語文中的文學類閱讀理解選擇題,其題干絕大多數(shù)為“根據(jù)文章內(nèi)容,下列選項正確(或錯誤)的是:”,題干只能得到正誤判定。選擇題的選項不是簡單事實性表述,更多的是從文章的組織結構、全文主旨等不同角度進行的語義方面的理解和概括。同時,不同類別的選項,其特征與潛在錯誤也不同,需要對選項采用不同的策略進行分析。每個選項不只屬于一個類型,從而將其視作多標簽分類而非多分類。因此,選項多標簽分類是高考文學類閱讀理解選擇題解答任務中的重要一環(huán),其類型決定了后續(xù)解題策略的不同。針對不同類型的選項,使用相應的答案生成方法。
文本多標簽學習[1-2]是自然語言處理領域一項十分重要且具有挑戰(zhàn)的任務,旨在為數(shù)據(jù)集中每一樣本分配相應的多個標簽,廣泛應用于文本分類[3]、信息檢索[4]等多個研究領域。選項的標簽有助于提高高考文學類閱讀理解選擇題的答題準確率,如對詞句理解類選項,思路是根據(jù)選項出現(xiàn)的原文表述,回到文章進行定位,將定位處語義與選項匹配,判斷正誤;分析綜合類選項無法在文章中準確定位,因而須調(diào)用全局分析模塊進行解答。
通過對大量文本數(shù)據(jù)和現(xiàn)有方法的觀察與研究發(fā)現(xiàn),在多標簽文本分類中,有三種相關性對分類結果具有重要影響,分別是標簽內(nèi)部相關性、文本與標簽間相關性及文本內(nèi)部相關性?,F(xiàn)有方法并未全面考慮上述三種相關性。BR(binary relevance)[5]是最早提出的方法之一,該方法將多標簽分類任務建模為多個單標簽問題的組合,通過忽略標簽內(nèi)部相關性來達到理想的性能。為了獲得標簽內(nèi)部相關性,CC(classifier chain)[6]將任務轉(zhuǎn)換為一系列的二分類問題并對標簽內(nèi)部相關性建模。對標簽內(nèi)部相關性進行建模的方法還有CRF(conditional random fields)和CBM(conditional Bernoulli mixtures)。然而上述方法僅適用于中小型數(shù)據(jù)集,在大型數(shù)據(jù)集上的表現(xiàn)欠佳。隨著深度學習技術的發(fā)展,神經(jīng)網(wǎng)絡模型也被應用于多標簽文本分類任務。文獻[7]提出的模型利用詞嵌入和卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)來捕捉標簽內(nèi)部相關性。文獻[8]提出一種基于深度神經(jīng)網(wǎng)絡的模型CCAE(canonical correlated autoencoder)。然而這些方法并沒有從文本中提取有效信息。
文獻[9]使用序列到序列(Seq2seq)模型,將標簽預測視為序列生成任務。Seq2seq模型可以對給定的源文本進行編碼,并將編碼生成的對應表示進行解碼,形成近似標簽序列的新序列。隨著長短期記憶模型(long short-term memory,LSTM)被廣泛應用,文獻[10]提出了一種帶有注意力機制LSTM的Seq2seq模型。利用注意力機制,解碼器能夠有效地從文本中提取對標簽預測有重要作用的信息,利用文本與標簽間相關性,從而提高標簽預測的精確度。文獻[11]提出一種處理多標簽文本分類的模型。然而這些方法與模型都忽略了文本內(nèi)部相關性。
對于高考文學類閱讀理解選擇題選項的多標簽分類任務,文本內(nèi)部相關性即選項內(nèi)部相關性。例如,歷年高考文學類閱讀理解選擇題的選項可劃分為五類,分別為寫作技巧類、思想情感類、詞句理解類、分析綜合類和因果推理類。具體樣例見表1,如2015-北京-20-D 即2015年北京高考真題20題D選項,該選項中,“滲入”和“生活”以及“象征”和“民族精神”這兩組詞內(nèi)部存在明顯的語義關聯(lián),而這兩組詞可對應于標簽“思想情感類”;2014-北京-18-C選項中,“往往”和“從而”兩個詞間存在的語義關聯(lián)對應標簽“因果推理類”,“心靈”“震撼”和“共鳴”三者存在的相關性對應標簽“思想情感類”,因此該選項同時屬于“因果推理類”及“思想情感類”;2017-河北省唐山市模擬題-1-B 選項,“形成”和“對比”兩詞間相關性對應“寫作技巧類”,“表達”和“思考”對應標簽“思想情感類”。據(jù)此,可以根據(jù)選項所屬類別調(diào)用不同的答題引擎,從而提高答題準確率。

表1 高考文學類閱讀理解選擇題選項樣例Table 1 Examples of multiple-choice questions for RCL-CEE
根據(jù)以上分析可知,選項內(nèi)部相關性是對選項文本進行分類和分配合適標簽的關鍵。本文提出了基于混合注意力的Seq2seq 模型(hybrid attention of Seq2seq model,HASM),該模型利用雙向長短時記憶(bi-directional long short-term memory,Bi-LSTM),獲得選項與標簽間相關性作為全局信息,通過多頭自注意力(multi-head self-attention,MHA),獲得選項內(nèi)部相關性作為局部信息。使用標簽嵌入隱式融合標簽內(nèi)部相關性。
本文的主要貢獻如下:
(1)提出了混合注意力機制,利用多頭自注意力獲得選項內(nèi)部關聯(lián)語義;通過Bi-LSTM 獲得選項與標簽間相關性;使用標簽嵌入方法,隱式融合標簽內(nèi)部相關性。充分對分類過程中的標簽內(nèi)部相關性、文本與標簽間相關性及文本內(nèi)部相關性建模,大大提升了模型的預測效果。
(2)提出的HASM模型在高考文學類閱讀理解選擇題數(shù)據(jù)集上的實驗結果表明,算法性能優(yōu)于前沿多標簽文本分類方法。
目前,多標簽文本分類模型主要分為三類:問題轉(zhuǎn)換法、算法適應法和神經(jīng)網(wǎng)絡模型。
問題轉(zhuǎn)換法的主要思想是將多標簽文本分類任務轉(zhuǎn)換為多個單標簽學習任務來處理。BR[5]是一個典型的問題轉(zhuǎn)換方法,它直接忽略標簽內(nèi)部相關性,并為每個標簽構建一個單獨的分類器。但實驗表明,忽略標簽之間的相關性會導致預測性能的降低。為了獲得標簽內(nèi)部相關性,LP[2]通過對每個標簽組合使用唯一的二元分類器,將該任務轉(zhuǎn)化為標簽組合的多分類問題。CC[6]主要是針對BR方法中未考慮標簽內(nèi)部相關性而導致信息損失的缺點的一種改進方法,該算法的基本思想是將任務轉(zhuǎn)化為一系列二元分類問題即二元分類問題鏈,鏈中后續(xù)分類器的建立基于先前的標簽預測。上述方法的計算效率和性能都面臨著標簽空間和樣本空間過大的挑戰(zhàn)。
算法適應法通過修改和擴展傳統(tǒng)的單標簽算法,或?qū)螛撕炈惴ㄟM行相應的改進來處理多標簽數(shù)據(jù)。ML-DT(multi-label decision tree)[12]通過構建基于熵的信息增益的決策樹進行多標簽分類;文獻[13]提出的ML-KNN(multi-labelk-nearest neighbor)方法使用k近鄰算法和最大后驗概率來確定每個樣本的標簽集;文獻[14]使用CBM 簡化任務,將其轉(zhuǎn)換為多個標準的二元多類問題,用于分類預測。
近年來,隨著神經(jīng)網(wǎng)絡的廣泛應用與深入研究,其在許多重要的自然語言處理任務上都表現(xiàn)出了優(yōu)越的性能,研究者也提出了各種基于神經(jīng)網(wǎng)絡的多標簽文本分類模型。文獻[15]提出了一種基于標簽的預訓練方法來獲得具有標簽感知信息的文檔表示。文獻[16]研究了不同信息來源的有效性,例如標記的訓練數(shù)據(jù)、類的文本標記和類的分類關系。更具體地說,首先,對于每個文檔-類對,使用不同的信息源提取不同的特征,然后,將多標簽文本分類看作一個排序問題,采用學習排序(learning to rank,LTR)方法對文檔類進行排序,并選擇文檔標簽。文獻[17]提出了一種結合動態(tài)語義表示模型和深度神經(jīng)網(wǎng)絡的多標簽文本分類方法。然而,先前的模型都存在兩個問題:第一,由于窗口大小的限制,模型無法獲得文本間長距離的依賴關系;第二,當模型預測時,文章文本中不同的詞對標簽預測的貢獻程度不同,但模型并沒有重點關注那些對標簽預測貢獻大的詞語?;谏鲜龅南敕ǎ墨I[11]提出將Seq2seq模型應用于多標簽分類任務中,利用注意力機制得到每個詞語的重要性權重用于標簽的預測。MDC(multi-level dilated convolution)[18]以Seq2seq 模型為基礎,使用具有混合注意力的附加語義單元,用于創(chuàng)建信息增強的表示。在現(xiàn)實應用中,多標簽文本分類任務的標簽具有語義信息,但在部分方法中將標簽僅看成是原子符號,忽略了標簽文本內(nèi)容的潛在知識。在多標簽文本分類中,標簽是文本形式,由詞語組成,詞嵌入作為自然語言處理的基礎模塊,能夠獲得詞語之間的相似性和規(guī)律性,因此可以用詞嵌入來隱式地融合標簽信息。
為了進一步提升多標簽文本分類的性能,本文提出混合注意力機制,同時建模三種相關性,從而得到更全面的全局和局部信息。
模型的任務是將一組標簽Y分配給選項文本序列Wi,標簽序列生成任務可以專門建模,以找到最大化條件概率p(Y|X)的最優(yōu)標簽序列,計算見式(1)、(2)。
模型總體架構如圖1所示。受自注意力機制啟發(fā),同時考慮選項內(nèi)部相關性對于標簽預測的影響,提出了混合注意力機制,通過Bi-LSTM 獲得選項與標簽間相互信息hG,利用MHA獲得選項內(nèi)部關聯(lián)語義信息hL,同時標簽嵌入層模塊(label-embedding,L-E)對標簽進行隱式融合,作為解碼器的輸入。解碼器由LSTM單元組成,最終得到預測標簽。掩碼模塊(masked softmax,MS)使用掩碼向量避免預測重復標簽。

圖1 模型框架Fig.1 Framework of model
2.3.1 Bi-LSTM層
LSTM在序列建模問題上具有長時記憶優(yōu)勢,實現(xiàn)簡單,同時解決了長序列訓練過程中存在的梯度消失和梯度爆炸問題。而單向LSTM 只關注前向信息是不夠的,因此應用Bi-LSTM 獲得選項到標簽的相關性作為全局信息。給定輸入X={X1,X2,…,Xi,…,XL},每個單詞的隱層狀態(tài)由式(3)、(4)得到:
第i個詞的上下文嵌入表示為,式(5)hG表示選項和標簽之間的互注意力信息,即全局信息。
2.3.2 多頭自注意力層
注意力機制可以宏觀上理解為一個查詢(Query)到一系列鍵-值(Key-Value)對的映射。將源(Source)中的構成元素想象成是由一系列的
文中dv、dk、dq分別對應于values、keys和queries的深度。進一步,以表示第m個head上的values、keys和queries的深度。對于給定的輸入序列X∈RL×d,MHA輸出計算如式(6)、(7)、(8)所示。hL代表從選項內(nèi)部得到的自注意力信息,即局部信息。
2.3.3 混合注意力
對局部信息hL分配權重參數(shù)。第i個單詞在t時刻的權重αti由式(9)、(10)計算。
其中,VT、W、Z、U均為權重參數(shù)。St-1表示上一時刻的隱狀態(tài),是第i個單詞的自注意力信息,g(yt-1)是經(jīng)過L-E層的上一時刻的預測標簽。
最終在t時刻的局部自注意力信息ct由式(11)計算。
對于標簽集Y,任一標簽的文本內(nèi)容表示為y={N1,N2,…,Np},即每個標簽由p個詞組成。為了得到每一標簽的隱表示e,將標簽文本作為輸入,使用詞向量平均函數(shù)進行計算,如式(12):
其中,e∈Rk,k為文檔中單詞的嵌入維度。
解碼器在t時刻的隱狀態(tài)St由式(13)計算得到:
其中,[g(yt-1);hG;ct]由向量g(yt-1)、hG和ct拼接得到。hG是全局的互注意力信息,ct為局部的自注意力。g(yt-1) 是在分布下具有最高概率的標簽的嵌入,而yt-1是在t-1 時刻標簽空間Y的概率分布,其計算如式(14)、(15)。
其中Wo、Vo和Zo是權重參數(shù)。f是非線性激活函數(shù)。
模型的MS 模塊即掩碼模塊,其中It∈R5,是防止解碼器預測重復標簽的掩碼向量,如式(16):
針對標簽序列,在序列的頭部和尾部添加bos和eos符號。利用束搜索算法[20]找到最優(yōu)預測序列。在訓練過程中,使用二元交叉熵損失(binary cross entropy loss)[21]作為損失函數(shù),其計算如式(17):
其中,T為選項樣本的數(shù)量,,分別為第i個實例的第j個標簽的真實標簽和預測標簽。
本文在高考文學類閱讀理解選擇題數(shù)據(jù)集上進行測試。該數(shù)據(jù)集包含各省和全國的高考文學類閱讀理解真題與模擬題共計3 209 篇文章,13 827 條選項。訓練集共計10 056條選項數(shù)據(jù),驗證集和測試集分別包括1 850 條數(shù)據(jù)和1 921 條數(shù)據(jù)。對每條選項數(shù)據(jù)進行人工標注,由于每個人對選項類別的判斷標準不一致,很容易出現(xiàn)不同的標注結果。因此,在標注數(shù)據(jù)過程中,采用多人獨立標注、協(xié)同交叉驗證的方式,即每個人先獨立標注一部分語料,之后隨機從標注人員的標注語料中抽取相同數(shù)目的選項文本,交叉進行評估。若準確率在80%以上,則此次抽取的選項標注結果有效。將選項分為5類標簽,分別為寫作技巧類、思想情感類、詞句理解類、分析綜合類和因果推理類,分別用0,1,2,3,4 數(shù)字表示。
為了評估模型的標簽預測性能,采用漢明損失(Hamming loss,HL)、Micro-F1作為性能比較的主要評價指標,同時結合Micro-Precision 和Micro-Recall 指標進行評測。
HL[22]衡量標簽被錯分的次數(shù),即屬于某個樣本的標簽沒有被預測,不屬于該樣本的標簽被預測屬于該樣本,如式(18)。
其中,N為樣本數(shù),L為標簽數(shù)。Yij是第i個預測中第j個分量的真實值,Pij是第i個預測中第j個分量的預測值。XOR()表示異或關系。
Micro-F1[23]可解釋為精確度和召回率的加權平均值,不需區(qū)分類別,直接使用總體樣本的精確度和召回率計算,如式(19)。
其中,Precisionmicro和Recallmicro表示所有類別的平均精確度和召回率。
文本預處理主要包括文本標準化和分詞。標準化包括通過正則去噪,將繁體轉(zhuǎn)化成簡體等操作。分詞則通過結巴分詞包對標注后的高考文學類閱讀理解選擇題數(shù)據(jù)集進行分詞處理。
對于數(shù)據(jù)集,本文設置嵌入維度d和隱層大小h均為512,epoch 為30,batch-size 為128,使用Adam 優(yōu)化算法[24],初始學習率是0.000 3,編碼器和解碼器的神經(jīng)網(wǎng)絡層數(shù)均為3,且編碼器使用Bi-LSTM。束搜索大小設置為9。多頭自注意力中M=3。另外,使用dropout正則化來避免過度擬合。對比算法中的參數(shù)按照對應的原始論文[11,25-28]進行設置。
本文使用以下基線模型來比較在高考文學類閱讀理解選擇題數(shù)據(jù)集上的性能表現(xiàn)。
CNN[25]使用深度卷積網(wǎng)絡提取文本特征,然后將它們輸入到線性變換層,然后使用sigmoid 函數(shù)輸出標簽空間上的概率分布。
CNN-RNN[26]利用CNN 和RNN 捕捉全局和局部的文本語義信息,并對標簽之間的依賴關系進行建模。
SGM(sequence generation model)[11]將多標簽分類任務看作一個序列生成問題,輸入文檔內(nèi)容,生成預測的標簽序列。
LSAN(label-specific attention network)[27]利用標簽和文檔間的語義聯(lián)系,以及文檔中特定的表示,設計了一種自適應融合策略,可以有效地輸出綜合文檔表示來構建多標簽文本分類器。
Seq2set[28]為了減少模型對標簽順序的依賴,以及捕捉標簽之間的相關性,提出通過強化學習進行訓練,其中獎勵反饋設計為獨立于標簽順序的模式。
FSL-MLC(few-shot learning for multi-label classification)[29]提出了帶有核回歸和Logits Adapting的元刻度閾值(meta calibrated threshold,MCT)機制,利用先驗的領域經(jīng)驗和新的領域知識以估計閾值。同時引入了錨標簽表示以得到分離得比較好的標簽表示,以實現(xiàn)更好的label-instance相關性分值計算。
HASM 模型同以上對比模型在高考文學類閱讀理解選擇題數(shù)據(jù)集上的評價指標對比得分情況見表2,最佳結果用粗體表示。

表2 不同模型實驗結果Table 2 Experimental results of different models
表2中,HL代表漢明損失,F(xiàn)1代表Micro-F1,(-)代表值越小分類效果越好,(+)代表值越大分類效果越好??梢钥闯?,在測試集上,使用Seq2seq架構并結合注意力機制進行多標簽分類的方法效果總體要優(yōu)于CNN,HL 提高了近1 個百分點。但基于深度學習的經(jīng)典模型CNN,即使不使用Seq2seq 結構,在精確度上仍具有一定的優(yōu)勢。LSAN的準確率要低于SGM和Seq2set,達到約67%。而本文方法HASM 充分利用了標簽內(nèi)部相關性、文本與標簽間相關性以及文本內(nèi)部相關性,能夠略微提升Micro-F1 指標,最終F1 指標達到近70%。SGM和經(jīng)典模型Seq2set相比實現(xiàn)了一些改進,SGM和Seq2set 模型的F1 值相對于CNN 和CNN-RNN 的F1 值更高,說明序列到序列模型對于多標簽分類任務是有效的。傳統(tǒng)的CNN 在Micro-Precision 上的值領先于所有基線模型(包括HASM)。同時,可以看到SGM的F1值比Seq2set的F1值略高,因數(shù)據(jù)集中標簽空間并不是很大,標簽順序的影響較小。FSL-MLC 在各指標上的成績都與SGM相接近,但略遜一籌,總體表現(xiàn)不如SGM,可見Seq2seq架構更適用于高考文學類閱讀理解選擇題數(shù)據(jù)集。與六種基線模型相比,HASM在總體指標上明顯優(yōu)于前六種模型,處于領先地位,說明HASM 模型對三種相關性的建模是有效的。與基線模型中表現(xiàn)最好的SGM 相比,HASM 將漢明損失在數(shù)值上降低了0.002 2,并將F1值提高了5.5個百分點。
為了更全面地分析HASM 模型的性能,計算得到HASM模型在每個選項類別上的指標,結果如表3所示。

表3 HASM模型在不同選項類別上的指標Table 3 Indicators of HASM model in different option categories
根據(jù)表3,HASM 模型對詞句理解類選項的分類效果最佳,該類選項對文章有著明顯的引用,HASM 模型更易識別該類選項。相較于詞句理解類,模型對因果推理類、寫作技巧類的識別則更為模糊,在指標上有所欠缺,但通過對這兩類選項的分析,發(fā)現(xiàn)這兩類選項都有明顯的關鍵詞可對其進行區(qū)分,如選項包含“記敘”“比喻”“擬人”“寫作手法”等詞語時,明顯可劃分為寫作技巧類,據(jù)此分別構建了兩類選項的關鍵詞詞典,下一步擬將關鍵詞詞典作為模型先驗知識,以進一步提高模型性能。同時,通過對這兩類選項指標的分析,發(fā)現(xiàn)精確率和召回率間存在較大差異,原因可能是這兩類選項數(shù)據(jù)的label數(shù)量不均衡,需要對數(shù)據(jù)進一步處理。
為了進一步證明HASM 模型中MHA 模塊和標簽嵌入(L-E)模塊對提升模型性能的作用,也為了更充分評估HASM模型的效果,進行了一系列消融實驗。通過從HASM模型中移除一些模塊來控制變量,以便能夠比較它們的效果。實驗結果如表4所示。

表4 消融實驗結果Table 4 Results of ablation experiment
表4 展示了MHA 模塊和L-E 層對模型的貢獻。對比表2、表4發(fā)現(xiàn),不包含MHA模塊的模型在HL指標和F1 指標上分別下降了0.003 1 和3.51 個百分點,不包含L-E 模塊的模型在HL 指標和F1 指標上分別下降了0.002 6 和3.07 個百分點。模型通過MHA 模塊獲得選項內(nèi)部相關性,利用L-E 層得到標簽內(nèi)部相關性,對上述相關性的建模大大提升了HASM 模型的性能。從表4可以看出,選項內(nèi)部相關性和標簽內(nèi)部相關性對于選項多標簽分類任務準確度的提升有著重要作用。HASM 模型能夠利用多頭自注意力獲取局部選項內(nèi)關聯(lián)信息,標簽嵌入能夠建模標簽內(nèi)部語義關聯(lián)。同時已有模型均沒有考慮到文本內(nèi)部相關性,而HASM模型能夠?qū)⑷N相關性的充分結合,具有較好的多標簽分類效果,實驗結果也進一步證明HASM模型從選項中提取有關標簽分類信息的能力。
在對同一選項預測不同的標簽時,選項中每個單詞的重要性權重是不同的,為了證明HASM模型在預測不同標簽時能夠捕獲不同單詞的權重,本文從高考文學類閱讀理解選擇題數(shù)據(jù)集中取出幾個例子,對同一選項中不同標簽對應的單詞權重進行展現(xiàn)。如圖2、圖3所示,模型在預測兩個不同的標簽時,對選項中單詞的關注度是不一樣的,單詞顏色越深,對當前詞匯關注越大??梢钥闯?,標簽“寫作技巧類”更關注選項中如“描寫”“寫作風格”“修辭手法”等關鍵詞,而標簽“思想情感類”則更關注“表現(xiàn)”“追懷”等關鍵詞,從而證明不同標簽關注選項的不同部分。

圖2 “寫作技巧類”捕捉的重要詞匯Fig.2 Important words captured by“writing skills”

圖3 “思想情感類”捕捉的重要詞匯Fig.3 Important words captured by“thoughts and emotions”
圖4 展現(xiàn)了選項內(nèi)部存在的語義相關性。如圖所示,兩個詞之間的語義相關性越強則表格中所示顏色越深,表格中的顏色深淺代表兩個詞之間的語義關聯(lián)程度。如“類似”和“于”,“本文”和“的”,這兩組詞內(nèi)部即存在語義關聯(lián),在表格中表示為較深的灰色。而“行文”“呈現(xiàn)”和“寫作風格”三者之間存在的語義關聯(lián),對選項標簽“寫作技巧類”的預測起著重要作用。

圖4 選項內(nèi)部相關性Fig.4 Option internal correlation
不同標簽關注選項的不同部分,同時選項內(nèi)部不同的語義關聯(lián)對不同標簽的預測有著影響,這些都證明了本文提出的模型的亮點,將選項內(nèi)部相關性(自注意力信息)、選項與標簽間相關性(互注意力信息)及標簽間相關性三者相結合是符合實際問題的。
本文主要針對選項內(nèi)部相關性提出混合注意力機制,并基于該機制設計一種序列到序列模型HASM。該模型提取選項內(nèi)部相關性和選項到標簽間相關性,并對其分配參數(shù)進行使用,同時模型利用標簽間相關性,對三種相關性進行建模。實驗結果表明,提出的HASM模型能夠有效地捕捉三種相關性。進一步的分析表明,HASM 模型在高考文學類閱讀理解選擇題數(shù)據(jù)集上更具優(yōu)勢。雖然HASM模型有著最好的表現(xiàn),但所有模型在高考文學類閱讀理解選擇題數(shù)據(jù)集上的F1數(shù)值都不夠高。下一步,將加入先驗知識,考慮更多粒度的信息,期望通過不同粒度的信息學習更豐富的文本語義內(nèi)容,從而更高效、更準確地預測標簽。