李緒夫



摘? 要: 在大數據時代,醫藥專利數據的有效收集、整理和挖掘分析對醫藥行業發展愈發重要。當前文本分類神經網絡對醫藥專利標簽的分類準確率不夠高,為了有效提升專利標簽的分類效果,設計了一種基于注意力機制的雙向長短時記憶神經網絡分類模型。該模型避免了傳統循環神經網絡的長期依賴問題,并充分利用全局信息,以實現文本信息的權重分布。
關鍵詞: 深度學習; 專利分類; 長短期記憶網絡; 注意力機制
Abstract: In the era of big data, the effective collecting, collating, mining and analysis of medical patent data is becoming more and more important for the development of pharmaceutical industry. The current text classification neural network is not accurate enough for the classification of medical patent labels. In order to improve the effect of patent label classification, a bidirectional long short-time memory neural network classification model based on attention mechanism is designed. The model avoids the long-term dependence of traditional cyclic neural network and makes full use of global information to realize the weight distribution of text information.
Key words: depth learning; patent classification; long short-term memory; attention mechanism
0 引言
人們已經認識到大數據中蘊含著極為豐富的知識和潛在價值,通過對大數據進行深層次的分析和挖掘,可以為各行業和領域提供有效的精準化科學分析和決策支持。在知識產權中,專利作為重要的載體,儼然是一種寶貴的戰略資源。因此開展醫藥專利標簽分類方法的研究,對實現大數據在醫藥方面的實際應用,具有重要的社會效益和經濟價值。
多年來,眾多學者對此進行了深入的研究。Guibin Chen等人[1]采用卷積神經網絡(CNN)和遞歸神經網絡( RNN)的結合模型,以實現對全局和局部文本語義的捕獲,在可接受的計算復雜性前提下,對高階標簽相關性進行建模處理。所提模型充分結合了CNN與RNN各自的優勢,前者主要用于提取輸入文本,并把其映射為全局固定長度的特征向量,后者基于此確定其“初始狀態”或先驗知識,以實現標簽序列的精準預測。諸多學者采用CNN應用于自然語言處理與文本信息的處理已做了大量的研究[2-3]。并且有學者在比較了CNN和RNN在自然語言處理的基礎之上,總結出了影響模型性能的一些關鍵參數,如隱層尺寸、批尺寸[4]。Siwei等人[5]在所設計的模型中引入遞歸神經網絡以實現對文本信息的精準分類,并且不需要人為設計特征。在詞表征學習時,應用遞歸結構來盡可能地捕獲上下文信息,與傳統的基于窗口的神經網絡相比,引入的噪聲更小,實驗結果顯示性能更優。但該模型不能充分提取上下文之間的語義結構信息,存在長期依賴的問題,趙勤魯等人的文獻[6]為解決這個問題,使用長短期記憶網絡(LSTM)對文本的詞語與詞語和句子、句子的特征信息進行提取,提高了分類準確率。為了抓取文本的關鍵信息,朱星嘉、潘曉英等人的文獻[7-8]引用了注意力機制,有效學習了文本特征。為了解決上述文獻中存在的問題,本文設計了一種基于注意力機制的雙向長短時記憶網絡模型。
1 相關研究
1.1 LSTM
RNN是一系列處理序列數據的神經網絡的總稱。其缺點主要是只能傳遞短期記憶,在輸入長序列數據時,梯度向量的分量會呈指數增長或衰減,即所謂的梯度爆炸或消失問題。
長短期記憶網絡是由Hochreiter等[9]提出的一種RNN變體,是為解決梯度爆炸和消失,避免長期依賴問題而設計的。LSTM的特點就在于通過增加各種門控來控制上一單元信息的通過量,并判斷當前哪些信息可以傳遞給下一細胞狀態(cell state)。圖1所示為LSTM結構。
在RNN的基礎上,LSTM引入了“門”結構和記憶細胞?!伴T”結構包含三個門遺忘門ft、輸入門it、輸出門ot,cell state則在序列處理過程中長時間攜帶相關信息,通過控制門實現信息的更新和保留。因此,相比于RNN,LSTM循環結構之間保持一個具有持續性的單元狀態。LSTM的公式為:
其中,ht-1表示上一單元的輸出結果,xt表示當前時刻的輸入,為sigmoid激活函數,?表示點乘操作。式⑸記錄了當前時刻記憶單元值,式⑹則表示了隱藏單元輸出值。直觀地說,遺忘門決定上一步需要丟棄哪部分信息,輸入門決定需要更新的信息,輸出門則決定下一個隱藏狀態輸出什么。
1.2 Glove基礎
Glove的全稱為Global Vectors for Word Representation,由Jeffrey Pennington等[10]提出,它是一個基于全局詞頻統計的詞表征工具,實現詞的向量化表示,使得向量之間盡可能多地蘊含語義和語法的信息。 定義:用X表示統計共現矩陣,用Xij表示單詞j在單詞i的上下文語境中出現的次數。,表示任意單詞出現在詞i上下文中的次數。最后設為詞j出現在詞i上下文中的條件概率。
假如詞i,j都和詞k相關或不相關,則的值接近1。若k和i相關,k與j不相關,則的值大于1,反之的值接近0。該論點揭示了詞向量學習的適當起點應該是共現概率的比值,而不是概率本身。用詞向量wi、wj、wk通過F(wi,wj,wk)函數計算ratio,也應滿足上述規律,才能說明詞向量與共現矩陣具有一致性,因而構建函數F(wi,wj,wk)=。
經過一系列的轉化得到代價函數進行求解,而在原模式中對所有的共現事件進行了同等的權衡,因此出現了共現關系不平衡問題。所以引入了一種加權函數f(x)來解決問題。公式如下:
模型性能很小程度上取決于截止點,設xmax=100時加權函數圖為:
f(x)設計成這種分段函數的含義:共現次數Xij在0~100時,對損失函數的貢獻呈現出增長趨勢,即呈單調遞增;當共現次數Xij達到100時,抵達上界,保持不變。
1.3 注意力機制
注意力機制模擬的就是人腦的注意力模型,例如在觀察事物時,視力會聚焦在某些特定部分,而忽略其他不重要的因素。也就是對整體的關注不是均衡的,有一定的權重區分,有利于模型發現重要特征,從而提高分類的精準度??梢詫⑵淇闯墒且粋€組合函數,通過計算注意力的概率分布,突出某個關鍵輸入對輸出的影響。計算公式如下:
hit表示當前時刻的隱層狀態,通過一個全連接層經過非線性轉換為uit,然后計算uit與上下文向量uw的相似度并通過softmax轉換為概率分布,得到隱層輸出的權重系數αit,接著通過加權求和得到文本的向量表示C。
2 基于注意力機制的雙向長短時記憶網絡專利分類模型
基于注意力機制的Bi-LSTM模型結構如圖3所示。該模型主要包括預訓練詞向量、文本特征提取、分類器。關于預訓練部分,利用glove方法來訓練醫藥專利的詞庫,得到其向量表示;模型特征提取部分,采用Bi-LSTM處理文本的整體上下文信息,在此基礎上加入Attention機制,使模型對具有不同標簽語義貢獻度的詞匯進行權值分配;關于分類器部分,則選擇softmax函數連接在模型的輸出端。
2.1 數據預處理
由于項目所提供數據存在各類標簽,且由于存在缺省值,導致難以判斷數據是否完整。故把專利數據的標簽、摘要、權利要求鏈接后成為一篇專利的數據,在經過去停用詞、去特殊字符、詞干化之后形成標準化的文本數據。要使得文本信息能作為深度學習等方法的輸入數據,需要將其進行詞向量化處理。進行基準實驗,使用word2vec和glove模型訓練醫藥專利詞庫,并比較不同詞頻的分類效果。在對比實驗結果中,詞頻為10的glove模型效果達到了最優,選取該模型訓練詞向量。
2.2 專利分類模型
傳統的LSTM在進行文本分類時,只考慮以前的語義信息,使得文本的部分語義信息丟失,沒有充分運用到文本資源。故采取雙向LSTM結構,通過前向傳遞層獲取文本上文信息,后向傳遞層獲取文本下文信息,從而在輸入層中的每個節點提供輸入序列的完整上下文語義信息,進一步優化模型。
計算在t時刻的隱藏狀態Ht的公式如下所示。
其中,xit表示在t時刻的輸入節點。
引入注意力機制,計算概率權重,即得到文本向量表示時對專利數據中不同詞賦予不同的權值,然后與當前時刻的隱藏狀態進行乘積運算得到語義編碼,計算出文本的特征向量。最后將特征向量輸入到softmax分類器中處理分類問題。
2.3 評價指標
本文采用性能評測中經常使用的評價指標即:查準率(Precision)、召回率(Recall)、F1值(F_score)。計算公式如下:
3 實驗分析與結論
選取數據源自于歐洲專利局(EPO),EPO擁有世界上最完整的專利文獻資源,通過Espacenet,Global patent index,DOCDB三個系統,提供專利文獻信息服務。針對人工標引數據量小的問題,本文使用湯森路透的技術標引數據來訓練模型,按照8:2的比例對數據進行訓練和測試。其中,140581條樣本數據作為訓練集,35145條樣本數據作為驗證集。
代碼編寫使用的是深度學習框架keras,后端是TensorFlow,編程語言是Python。所設計的模型中,Embedding層是詞向量層,字典長度為MAX_NB_WORDS+1(MAX_NB_WORDS=100000),全連接嵌入的維度為300,輸入序列的長度為2000。模型中加入Dropout以防止過擬合,參數設置丟碼率(dropout rate)為0.2;雙向LSTM的輸出維度設置為128,批處理參數(batch_size)設置為256,訓練輪次(epochs)設置為10;優化算法采用Adam算法,損失函數為binary_crossentropy,激活函數選用sigmoid函數。
本文將分類按藥品專利類型分為12種,包含新分子實體(NME)、給藥裝置(DDD)、醫藥中間體專利(MIP)、衍生物專利(NDT)、晶型專利(NCF)、制劑專利(NFP)、藥物組合物(NCP)、用途專利(NUS)、制備方法專利(NSP)、分析方法(NAM)、生物技術(BTN)、生物藥(BLA)。
在驗證模型的實驗中,將F1值為76.94%的三層CNN+noIPC(不考慮IPC屬性)模型作為基準實驗。本文提出的雙向LSTM+attention模型的F1值為79.1%,分別對比其P(查準率)和R(召回率),實驗結果如圖4所示。
實驗將本文模型與CNN算法進行了對比,由此看出Bi-LSTM+Attention模型有效提升了分類效果。Bi-LSTM+Attention模型獲取了更全的上下文信息,且強化了關鍵信息的影響力,對比基準實驗,在查準率、召回率、F1值上均有提升。
參考文獻(References):
[1] Chen G,Ye D,Xing Z,et al.Ensemble Application ofConvolutional and Recurrent Neural Networks for Multi-label Text Categorization[C]// 2017 International Joint Conference on Neural Networks (IJCNN). IEEE,2017:2377-2383
[2] Kim Y. Convolutional Neural Networks for SentenceClassification[J]. arXiv preprintarXiv:1408.5882,2014.
[3] Hu B,Lu Z,Li H, et al. Convolutional Neural NetworkArchitectures for Matching Natural Language Sentences[J].arXiv:Computation and Language,2015.3:2042-2050
[4] Yin W, Kann K, Mo Y, et al. Comparative Study of CNNand RNN for Natural Language Processing[J]. arXiv preprintarXiv:1702.01923,2017.
[5] Lai S, Xu L, Liu K, et al. Recurrent convolutional neuralnetworks for text classification[C]. national conference on artificial intelligence,2015:2267-2273
[6] 趙勤魯,蔡曉東,李波,呂璐.基于LSTM-Attention神經網絡的文本特征提取方法[J]. 現代電子技術,2018.41(8):167-170
[7] 朱星嘉,李紅蓮,呂學強,周建設,夏紅科.一種改進的Attention-Based LSTM特征選擇模型[J].北京信息科技大學學報(自然科學版),2018.33(2):54-59
[8] 潘曉英,趙普,趙倩.基于BLSTM和注意力機制的電商評論情感分類模型[J].計算機與數字工程,2019.47(9):2227-2232
[9] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation,1997.9(8):1735-1780
[10] Pennington J, Socher R, Manning C D, et al. Glove: Global Vectors for Word Representation[C]. empirical methods in natural language processing, 2014:1532-1543