王騰科,朱廣麗+,李瀚臣,劉云朵,張順香
(1.安徽理工大學 計算機科學與工程學院,安徽 淮南 232001; 2.合肥綜合性國家科學中心 人工智能研究院,安徽 合肥 230088)
中文專利主要由非結構化的文本數據組成,對中文專利文本進行命名實體識別(named entity recognition,NER)研究可以促進專利行業中專利審查[1]、專利檢索[2]和專利主題挖掘[3]等相關技術發展,為行業加快信息化和智能化奠定基礎[4]。中文專利文本包含大量專業詞匯,這些專業詞匯語義豐富,信息量大。為了豐富文本特征表示,大多數模型通過修改模型結構來融合詞信息,但在融合過程中詞內字符和邊界字符的位置信息未得到充分利用,難以區分相同字符在詞首和詞尾的特征差異。
為了利用詞信息提高中文專利命名實體識別的準確率,需要考慮以下幾點:①如何利用字詞位置關系信息優化字詞融合,從而豐富文本特征表示;②如何利用字詞融合后的文本特征表示來提高專利實體識別準確率。
基于上述考慮,提出一種基于字詞融合和多頭注意力的專利實體識別模型(CWMA),用于提高中文專利實體識別的準確率。該模型主要通過構建詞集來區分詞首、詞內和詞尾3種位置關系,再以拼接的方式融合字詞語義,從而豐富文本特征表示;并且借助多頭注意力調整權重來捕獲上下文的重要信息,增強模型的特征提取能力。
專利實體識別是指從專利文獻中識別反映技術特點的命名實體。目前的研究方法可分為基于機器學習的方法和基于深度學習的方法。
基于機器學習的方法將NER轉化為序列標注任務。陳偉等[5]利用維特比算法識別專利實體,但是隨著文本長度的增加,算法復雜度會隨之增加。Arora等[6]使用支持向量機(support vector machine,SVM)對不同類型的損失分配權重來提高性能,但是SVM面對大規模數據的處理能力不佳。Xu等[7]結合多特征和CRF對產品評論文本進行半監督學習,CRF[8]不僅能較好地捕獲全局上下文信息,而且對大規模數據的處理能力較強。Jang等[9]通過句法結構分析處理專利數據,從名詞短語和SAO(subject action object)結構中獲得候選實體,并通過中心性指標來評判候選實體的重要性,進而識別專利實體。基于機器學習的方法因依賴特征工程建設而需要消耗大量人力成本。
隨著神經網絡的火熱,基于深度學習的方法在NER中廣受歡迎。雙向門控循環單元BiGRU[10]在NER中常用于處理長距離的上下文信息。An等[11]引入多頭注意力來學習文本的全局信息和多層次語義特征,用于增強特征表示的多樣性。近年來,在中文命名實體識別(Chinese named entity recognition,CNER)中引入詞信息被驗證是有效的。面向中文生物專利文本,Saad等[12]發現使用字和詞的聯合嵌入方法要優于僅使用詞嵌入的方法。Zhang等[13]利用Lattice結構將詞信息嵌入到字符嵌入向量中,但將模型輸入從鏈式序列轉化為圖結構的方法,會增加模型的計算成本。Liu等[14]在Latticce基礎上,將詞信息編碼成一個固定大小的向量,優化模型的計算復雜度,在Resume數據集上的準確率達到了95.27%。羅藝雄等[15]融合字符、拼音、五筆等特征,在自建新能源領域專利數據集上的準確率達到了90.58%。
從上述研究中發現,字詞融合在CNER中能取得較好的成果,但是在面向專利文本時,準確率顯著下降。本文通過依據字詞之間的位置關系來優化字詞融合過程,用于豐富文本特征表示,并利用多頭注意力增強字符之間的依賴關系,從而提高專利實體識別的準確率。

(1)
基于字符在詞中位置,為字符構造詞首、詞內、詞尾3種詞集,將包含該字符的潛在詞劃分到不同詞集,用于表示同一個字符在不同位置所表達的語義信息。詞集的構建如圖1所示。

圖1 詞集構建方法
定義1 詞首、詞內和詞尾3種詞集。設P(ci) 表示以字符ci為開頭的詞wi,j集合,即詞首詞集;M(ck) 表示字符ck在其內部的詞wi,j集合(其中i P(ci)={wi,k,?wi,k∈L,i (2) M(ci)={wi,k,?wi,k∈L,1≤j (3) S(ci)={wj,i,?wj,i∈L,1≤j (4) 其中,L表示詞典,該詞典是在CTB(Chinese Treebank 6.0)語料庫上訓練得到的。如果詞集為空,即無匹配詞,則會在詞集中添加特殊詞“None”。 定義2 加權求和方法。加權求和法依據詞的頻率來調整權重,對詞集內的詞進行加權求和。設z(w) 表示詞w在數據樣本中的頻率。其中Z表示字符的3種詞集中所有詞頻的總和,如式(5)所示,其中P、M和S是與字符ci相關的3種詞集的簡寫 (5) 設v(S) 表示詞集S的詞向量,詞集S的加權求和過程如式(6)所示,其中ew(w) 表示由Word2Vec訓練得到的詞向量 (6) 基于位置關系的字詞融合方法先構建詞集,隨后將詞集編碼成固定大小的詞向量,再與字向量進行拼接融合得到嵌入向量,其過程如圖2所示。 圖2 基于位置關系的字詞融合方法 首先,構造當前字符ci的詞集P(ci)、M(ci) 和S(ci), 依據字符在詞中位置,將詞分配到對應詞集。基于Word2Vec技術得到詞向量,依據詞頻對詞集內所有詞向量進行加權求和,將詞集的詞信息壓縮到一個固定維度的詞向量內,獲得v(P)、v(M) 和v(S)。 最終將3種詞向量拼接后得到與當前字符相關的詞向量v(ci), 如式(7)所示 v(ci)=[v(P);v(M);v(S)] (7) 最后,把字符的詞向量拼接在字符的字向量之后得到嵌入向量xi,如式(8)所示 (8) 算法1:融合字詞信息的文本特征表示算法。 輸入:輸入的文本字符序列C={c1,c2,…,cn}, 數據集dataset; 輸出:嵌入向量序列X={x1,x2,…,xn}; (2)forcinC (3) build word sets (P(c),M(c),S(c)) (4)end for (5)forcinC (6)xc=BERT(c) (7)v(P),v(M),v(S) = WeightedSum(P(c),M(c),S(c),Dict) (8)x=concatenate(v(P);v(M);v(S);v(c)) (9)end for (10)returnX={x1,x2,…,xn} 算法說明:算法1依據字詞位置關系,融合字詞獲得嵌入向量,作為文本特征表示。首先,步驟(1)是基于數據集文本統計詞頻;步驟(2)~步驟(4)是為每一個字符c構建3種詞集P(c),M(c),S(c); 步驟(5)~步驟(9)是由預訓練模型獲取每一個字符的字向量xc和詞集向量v(c), 具體方法如式(1)和式(6)所示,步驟(8)是通過拼接融合字詞語義信息,最后步驟(10)返回嵌入向量序列作為文本特征表示X。 假設輸入序列的長度為n,構建詞集的過程需要遍歷輸入序列,時間復雜度為O(n);獲取字向量和詞向量時間復雜度都為O(n)。綜上所述,算法總體復雜度為O(n)。 CWMA模型的如圖3所示,整體結構自下而上分為4部分:①文本特征表示,通過基于位置關系的字詞融合方法得到文本特征向量;②上下文信息提取,利用BiGRU編碼器從文本特征向量中獲取上下文信息;③多頭注意力,利用多頭注意力調整上下文信息的權重來增強字符之間的依賴關系;④標簽解碼,依據相鄰標簽之間的制約關系對輸出進行解碼并生成實體標簽。 專利文本的語句長度較長,使用傳統循環神經網絡RNN會出現梯度爆炸和梯度消失的問題。GRU憑借門控結構可以過濾傳輸信息,極大緩解這類問題。對于給定輸入嵌入向量X={x1,x2,…,xn}, 每個時刻t中各單元的隱藏狀態ht計算如式(9)~式(12)所示 zt=σ(Wz[ht-1,xt]) (9) rt=σ(Wr[ht-1,xt]) (10) hct=tanh(Wh[rtht-1,xt]) (11) (12) 其中,zt和rt分別是t時刻更新門和重置門的狀態;hct為t時刻候選隱藏層的狀態;ht為t時刻隱藏層的狀態;Wz、Wr、Wh為狀態更新時的權重矩陣。 面向專利文本時,采用BiGRU實現前后文的交互,使模型能捕獲序列中每個字符對于當前字符的關聯語義。BiGRU通過構造正反兩個方向的GRU隱藏層,得到隱藏信息輸出ht如式(13)~式(15)所示 (13) (14) (15) 雖然通過BiGRU編碼器可以獲取語句中上下文信息,但是無法突出上下文的關鍵信息。上下文中不同的字符對當前字符的關聯依賴程度是不同的,而BiGRU編碼器只能對信息進行保留和刪除。本文引入多頭注意力來克服BiGRU對上下文信息權重分配單一的問題。注意力機制先通過目標向量Q和上下文信息向量K進行相似度計算得到注意力權重,依據權重來重構原始向量V,得到新向量。計算如式(16)所示,其中Attention(Q,K,V) 是重構后的V向量 (16) 式中:dk是目標向量Q和上下文信息向量K的維度。多頭注意力多用于獲取文本的多重特征,表示多個字符之間的依賴關系。利用訓練后的權重矩陣對Q、K、V進行k次映射,將表示不同特征的結果拼接得到字符的最終特征表示向量b,多頭注意力的計算公式如式(17)、式(18)所示 (17) b=Concat(head1,head2,…,headk)WO (18) BiGRU編碼器的輸出序列H={h1,h2,…,hn}, 經過多頭注意力調整權重來增強字符之間的緊密關系后生成序列B={b1,b2,…,bn}。 使用CRF對經BiGRU和多頭注意力處理后的編碼序列B={b1,b2,…,bn} 進行解碼,生成標簽序列Y={y1,y2,…,yn} 的概率計算過程如式(19)所示 (19) loss=-log(P(Y|S)) (20) 表1 CCP數據集中各類實體數量 采取準確率P、召回率R和綜合評估指標F1作為實驗評估標準,如式(21)~式(23)所示 (21) (22) (23) 其中,TP是邊界和類別都被預測準確的實體數量;FP是邊界或類別被識別錯誤的實體數量;FN是沒有被識別的實體數量。 為了驗證模型CWMA的有效性,對以下6種模型在兩個數據集上進行對比實驗。 ①BiLSTM-CRF:結合BiLSTM和CRF的經典神經網絡模型。②BiGRU-CRF:在①的基礎上使用BiGRU替換BiLSTM。③BiGRU-MA-CRF:在②中,引入多頭注意力在BiGRU和CRF之間,在獲得上下文信息后,利用多頭注意力用于捕獲字符間依賴關系。④Lattice-LSTM[13]:構建Lattice-LSTM神經網絡將詞信息嵌入到詞尾字符中用于豐富文本表示。⑤CAN-NER[16]:使用基于字符的卷積神經網絡來捕獲語句中潛在詞信息,再利用GRU和全局注意力獲取全局上下文信息。⑥CWMA:本文提出的模型。 模型的訓練環境主要由處理器i5-12400F和顯卡NVIDIA GeForce RTX 3060構成,使用的PyTorch版本為1.11.0。在訓練過程中,使用bert-base-chinese(https://huggingface.co/bert-base-chinese)生成維度為768的字向量,使用Word2Vec生成維度為40的詞集向量。訓練的初始學習率設置為0.0015,模型優化采用Adam。 在專利文本的實驗中,考慮到摘要文本長度普遍在300字左右的特點,相較于面向Resume數據集的模型輸入的最大序列長度250,在面向CCP數據集的實驗中設置最大序列長度為350。 實驗一:CWMA模型在公共數據集上的有效性驗證。6種模型在Resume數據集上的結果見表2。 表2 各模型在Resume數據集上的結果對比 從表2中可以看出,本文提出的CWMA模型表現的性能最優,在準確率、召回率和F1值3個指標上都達到了最優,分別是95.82%、95.35%和95.59%。對比前3個模型的實驗結果發現,BiGRU的性能優于BiLSTM,并且引入多頭注意力機制能提高模型的性能。其中,后3個模型代表字詞融合方法,其模型性能要優于前3個代表字粒度的模型,對于中文命名實體識別,字詞融合方法可以為字粒度模型提供更豐富的語義信息,獲得更優的性能。同時,在3個字詞融合模型中CWMA的實驗結果是最優的,在字詞融合過程中考慮字與詞的位置關系,并依據位置關系訓練詞集向量,能夠更好地表示文本語義。 實驗二:CWMA模型在專利數據集上的有效性驗證。6種模型在CCP數據集上的結果見表3。 比較表2和表3的實驗結果可以發現:面向專利文本的命名實體識別更具有挑戰性,相同模型在專利數據集上的3個指標都低于Resume數據集。但是相較于BiGRU-CRF,在專利數據上的CWMA模型準確率提高了11.36%,大于在Resume數據上所提升的2.08%。驗證了字詞融合方法在專利實體識別的性能提升更顯著。這是因為專利中存在大量由多個詞組成的復雜實體,例如:“三維圖像框架數據庫”等,依據位置信息構建詞集可以有效地區分不同詞對當前字符的影響,從而提高模型的準確率。而相比CAN-NER,CWMA在專利數據上在3個指標上分別提高了3.96%、3.68%和3.83%。總體而言,提出的CWMA模型在實驗中表現最好,對專利實體識別提升幅度大。 表3 各模型在CCP數據集上的結果對比 為了研究模型各組成部分的貢獻,在CCP數據集上進行消融實驗,實驗結果如表4和圖4所示。 表4 在CCP數據集上的消融實驗結果 圖4 消融實驗結果 本文對字詞融合方法的3個步驟以及模型中的多頭注意力機制進行消融實驗。其中,Exper0表示本文提出的CWMA模型;Exper1的“-PMS”表示在CWMA模型上去除構建詞集的步驟,只對詞進行加權求和;Exper2的“-M”表示在CWMA模型的嵌入向量中不引入M詞集,只融合B和E詞集;Exper3的“均值法”表示不引入詞頻信息,使用均值法取代CWMA模型的加權求和法;Exper4表示在CWMA模型中去除多頭注意力模塊。 Exper1、Exper2、Exper3分別驗證了字詞融合方法中的3個步驟都能豐富文本特征表示。其中構建詞集的步驟對于模型影響最大,分別下降了5.77%、8.03%和6.86%,在字詞融合中考慮字與詞之間的位置信息能有效提高模型性能。在對比實驗中LatticeLSTM未給詞內字符融合相關詞信息,而本文引入M詞集能夠緩解詞內字符丟失詞信息的問題。同時,加權求和法優于均值法的結果證明依據統計數據中的詞頻是有效的。 Exper4驗證了多頭注意力對CWMA模型有著明顯的提升。去除多頭注意力后,3種指標分別下降了3.72%、5.22%和4.44%,表明使用多頭注意力能有效地關注到語句中字符之間的依賴關系。 本文提出的基于字詞融合和多頭注意力的專利實體識別模型CWMA,依據字符在詞中位置信息進行拼接融合字詞語義信息,獲取了更完整的文本表示特征,并結合BiGRU和多頭注意力共同對文本特征進行提取,提高了專利實體識別準確率。實驗結果表明,利用字符在詞中位置來豐富文本表示和增強字符之間依賴關系對于中文命名實體識別是有必要的。未來工作將考慮在模型中引入自動識別技術詞的機制來緩解詞典的滯后性問題。2.3 基于位置關系的字詞融合


3 基于字詞融合和多頭注意力的專利實體識別模型
3.1 文本特征表示

3.2 上下文信息提取

3.3 多頭注意力
3.4 標簽解碼
4 實驗與結果分析
4.1 數據集和評估標準


4.2 實驗方法和模型參數
4.3 對比實驗


4.4 消融實驗


5 結束語