於張閑 胡孔法



摘 ?要: 目前,對互聯網上虛假健康信息的研究多集中于謠言識別,而對醫學信息自動分類的研究較少。采用基于雙向編碼的語言表征模型和注意力增強的雙向長短時記憶模型(BERT-Att-BiLSTM模型),對健康信息文本進行分類,實現自動識別虛假健康信息。實驗結果表明,BERT-Att-BiLSTM模型可以高效地對醫學信息進行分類,其中BERT模型相較于BiLSTM模型,性能提升明顯;與融合Word2Vec的BiLSTM模型相比,BERT-Att-BiLSTM模型效果更佳。
關鍵詞: 健康信息; 語言表征模型; 雙向長短時記憶模型; BERT-Att-BiLSTM模型
中圖分類號:TP389.1 ? ? ? ? ?文獻標識碼:A ? ? 文章編號:1006-8228(2020)03-01-04
Medical information classification based on BERT-Att-biLSTM model
Yu Zhangxian, Hu Kongfa
(School of Artificial Intelligence and Information Technology, Nanjing University of Chinese Medicine, Nanjing, Jiangsu 210023, China)
Abstract: At present, the research on false health information on the Internet focuses on rumor recognition, while the research on automatic classification of medical information is less. In this paper, a language presentation model based on BERT (Bidirectional Encoder Representations from Transformers) model and Att-BiLSTM (Attention-based Bidirectional Long Short-Term Memory) model is used to classify the health information texts and realize the automatic identification of false health information. The experimental results show that the BERT-Att-BiLSTM model can classify medical information efficiently. The performance of the BERT model is significantly improved compared with the BiLSTM model. Compared with the BiLSTM model with Word2Vec, the BERT-Att-BiLSTM model is better.
Key words: health information; language representation model; bidirectional long short-term memory model; BERT-Att-BiLSTM model
0 引言
近年隨著互聯網的快速發展和人類經濟與科學的進步,人們對自身健康越來越重視,促使互聯網上健康相關信息呈現豐富、多樣的特點。目前,有不少研究表明,網絡上的一般謠言基本可以自動識別。但是,若要自動識別虛假健康信息卻難以達到理想的效果。因為虛假健康信息往往似是而非,與真實信息相似度較高,需要具有一定的專業醫學知識才能識別,這樣的信息只有靠人工才能夠識別。因此,自動高效地識別虛假健康信息的意義重大。
文本分類是自然語言處理(NaturalLanguage Processing,NLP)的研究熱點之一。近年來,隨著計算機硬件性能的提高、云計算、大數據等技術的成熟,深度神經網絡取得了巨大的突破,在很多應用領域取得了顛覆性的成果[1]。目前,網上信息以短文本為主,由于短文本具有長度短、特征稀疏及上下文依賴性等特點,采用例如樸素貝葉斯(Na?ve Bayes,NB)和支持向量機(Support Vector Machines,SVM)等傳統的文本分類方法,直接進行分類,分類效果不佳[2]。
深度學習方法將人工選取特征的過程,轉化為通過數據自動學習特征的通用的學習過程,同時通過優化訓練模型的參數,提高效率和精度,避免了人工選取特征的主觀性和偶然性。2014年,Kim[3]將簡單卷積神經網絡(Convolutional Neural Networks,CNN)用于文本分類,提高了文本分類的準精確度,使得CNN成為NLP中最具代表性的模型之一,但CNN擅長學習文本的局部特征,忽略了詞的上下文含義。循環神經網絡(Recurrent Neural Network,RNN)能學習任意時長序列的輸入,為了學習序列的上下語義關系,主要采用雙向循環神經網絡(Bidirectional RNN,BiRNN)[4]。但隨著輸入的增多,RNN對很久以前信息的感知能力下降,產生長期依賴和梯度消失問題[5]。從RNN 改進而來的長短時記憶模型(Long Short-Term Memory,LSTM)[6]利用門機制可以克服RNN的缺點。
近幾年,注意力(Attention)機制在文本分類領域受到關注,且該機制在文本處理領域被驗證為一種有效的機制,它的主要原理是通過動態學習不同特征對不同任務的貢獻程度,將注意力集中在重點詞上;就像人類視覺產生的注意力能夠以“高分辨率”聚焦在圖像的特定區域,同時以“低分辨率”感知周圍圖像,然后隨時間調整焦點[7]。2018年,可以稱之為NLP的一個重要的分水嶺——ELMo[8]、OpenAI-GPT以及BERT[9]模型的出現,尤其是BERT模型,其刷新了11項NLP任務的之前最優性能記錄。
本文以果殼網“流言百科”上的健康相關信息為研究對象,采用基于雙向編碼的語言表征模型(Bidirectional Encoder Representations from Transformers,BERT)和注意力增強的雙向長短時記憶模型(Attention-Based Bidirectional LSTM,Att-BiLSTM),對健康信息文本進行分類,實現對虛假健康信息的自動識別。
1 相關研究
文本分類包含廣泛的引用場景:垃圾郵件篩查、主題分類和情感分析等。近年來,深度學習在計算機視覺、圖像、語音等領域取得了重大進展,但在NLP領域,深度學習的潛力并沒有被挖掘,因此學者們開啟了將深度學習應用于NLP領域的研究[10],從CNN,RNN到RNN的變型結構——LSTM和GRU等。同時,基于注意力機制的深度學習模型也得到了廣泛的應用。潘曉英[11]等提出一種基于雙向長短時記憶網絡(BLSTM)和注意力機制的電商評論情感分類模型,實驗表明,相較于傳統的機器學習方法和普通的深度學習方法,論模型在準確率、召回率和F1值指標上均有明顯提高,而且BLSTM模型的實驗結果也明顯優于LSTM模型。
2018年,ELMo、OpenAI GPT及BERT模型的出現,尤其是BERT模型一度被稱為“NLP史上最強模型”。BERT模型是基于Transformer模型,它摒棄了常用的CNN 或者RNN模型,采用Encoder-Decoder架構。其本質就是一個預訓練結構,先通過利用大量原始的語料庫訓練,得到一個泛化能力很強的模型,再進行微調參數訓練,將模型應用到任意的特定任務中[9,12]。目前,NLP領域有些研究的核心都是基于BERT預訓練模型。張培祥[12]結合BERT預訓練模型和MMR模型,進行抽取式自動摘要實驗,發現能提取出更符合人們語言邏輯的摘要句。楊飄提出BERT-BiGRU-CRF網絡結構,在MSRA語料上進行訓練,實驗表明,該模型效果優于目前最優的 Lattice-LSTM 模型。
2 BERT-Att-BiLSTM模型
BERT-Att-BiLSTM模型如圖1所示,主要分為三部分:先通過BERT模型訓練獲取每則文本的語義表示;再將文本中每個字的向量表示輸入到Att-iLSTM模型中,進行進一步語義分析;最后將softmax層輸出文本標簽0(假)/1(真)。
2.1 BERT模型
對于文本分類任務,首先要將文本用向量表示,這一過程稱為詞嵌入(Word Embedding)。Mikolov等[13]于2013年提出了Word2Vec模型進行詞向量訓練,再應用于文本分類。盡管Word2Vec在不少領域都取得了不錯的效果,但其使用惟一的詞向量來表征一個詞的多個語義[14]。與Word2Vec模型相比,BERT模型(如圖2所示)采用的是雙向的Transformer結構進行編碼,其中“雙向”意味著模型在處理一個詞時,其可以根據上下文的語義關系,表征字在上下文中的具體語義。
預訓練,是BERT模型的一個重要階段,通過對海量語料的訓練,使得單詞學習到很好的特征表示。通過BERT模型訓練得到文本的向量表示W:
其中W(i)表示第i則文本的向量矩陣,w(i)表示單個字的表征向量,n表示最大句子長度(max_seq_length)。
2.2 Att-BiLSTM模型
本文采用Att-BiLSTM模型進一步學習句中的語義關系,在正常的BiLSTM模型的輸出層之前增加Attention層,采用Attention機制,核心在于生成注意力向量,通過與輸入向量進行相似性計算,更新各個維度的權重值,提升重點詞語在句子中的價值,使模型將注意力集中在重點詞上,降低其他無關詞的作用,進一步提高文本分類的精度[7]。
Att-BiLSTM由詞嵌入層、雙向LSTM層、Attention層及輸出層組成,結構如圖1所示:BERT模型作為Att-BiLSTM的詞嵌入層,雙向LSTM層為隱含層,將輸入序列分別從兩個方向輸入模型,保存兩個方向的信息,最后拼接兩個隱層的信息,得到輸出信息:
其中表示第i則文本的BiLSTM信息,表示第i則文本的前向LSTM信息,表示第i則文本的反向LSTM信息。
為BiLSTM的每個輸出值分配不同的權重ω和偏置項b,計算出第i則文本中每個單詞的權重:
通過softmax歸一化,計算出各時刻一個權值:
其中uω表示隨機初始化的注意力矩陣。
對每個時刻的與進行加權求和,得到Attention層的輸出s(i):
將Attention層的輸出s(i)作為輸出層的輸入,通過softmax對分類情況進行歸一化處理,輸出一個信息真假標簽:0(假)/1(真)。
3 實驗與分析
3.1 數據收集及預處理
“流言百科”是果殼網站開發的最新辟謠平臺,該平臺上包括食品安全、醫療健康等方面的健康信息。本次實驗的數據集是通過ScraPy和BeautifulSoup等工具,爬取“流言百科”上發布的健康相關信息文本(截至2018年10月23日),最終數據集大小如表1所示。
3.2 模型參數設置
本文中的模型都通過TensorFlow實現,將Att-BiLSTM、Word2Vec+Att-BiLSTM和BERT模型作為對照,Word2Vec模型參數如表2所示。
BERT模型對硬件要求較高,條件限制較大,但此次實驗的數據集較小,所以在進行BERT-Att-BiLSTM模型訓練時,采用的是同時進行BERT和 Att-BiLSTM模型的參數優化,參數設置如表3所示。
3.3 結果分析
為了檢驗本文提出的基于深度學習的健康信息分類方法的有效性,將Att-BiLSTM、Word2Vec+Att-BiLSTM和BERT模型作為對照,與BERT-Att-
BiLSTM模型進行對比,實驗結果如表4所示,融合Word2vec的Att-BiLSTM模型比簡單的Att-BiLSTM模型在分類性能上表現更好。BERT模型相較于神經網絡模型,性能提升非常明顯;與BERT-Att-BiLSTM模型相比,BERT模型的性能略差一些,但是差距較小,可能是由于數據集較小導致提升效果不顯著。
4 結束語
網絡上的健康信息中含有大量的專業術語,虛虛實實,傳統的文本分類方法并不適用。本文采用基于雙向編碼的語言表征模型和注意力增強的雙向長短時記憶模型,對健康相關的信息文本進行自動分類,實驗結果表明,與直接采用神經網絡算法和簡單利用BERT模型相比,該模型表現更加良好,在測試集的準確率最高可達到89.7%,比常用的神經網絡模型準確率更高,也優于直接使用BERT模型進行分類。由于目前數據集還比較小,這也可能導致常用的深度神經網絡模型的效果不甚理想,所以需要進一步擴大數據集,并嘗試其他方法來進一步改進模型的性能。
參考文獻(References):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning [J].Nature,2015.521(7553):436-444
[2] 劉敬學,孟凡榮,周勇,劉兵.字符級卷積神經網絡短文本分類算法[J].計算機工程與應用,2018.9:1-11
[3] Kim Y. Convolutional neural networks for sentenceclassification[C].in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, (EMNLP14), Doha, State of Qatar,2014:1746-1751
[4] 李洋,董紅斌.基于CNN和BiLSTM網絡特征融合的文本情感分析[J].計算機應用,2018.38(11):3075-3080
[5] Bengio Y. Learning long-term dependencies with gradientdescent is difficult[J]. IEEE Transactions on Neural Networks,1994.5(2):157-166
[6] Hochreiter S, Bengio Y, Frasconi P, et al. Gradient flow inrecurrent nets: The difficulty of learning long-term dependencies. Kolen JF, Kremer SC. A Field Guide to Dynamical Recurrent Networks. Los Alamitos: IEEE Press,2001.
[7] 朱茂然,王奕磊,高松,王洪偉,鄭麗娟.中文比較關系的識別:基于注意力機制的深度學習模型[J].情報學報,2019.38(6):612-621
[8] Peters M, Neumann M, Iyyer M, et al. Deep contextualized?word representations. In Proceedings of NAACL,2018:2227-2237
[9] Jacob D, Ming-Wei C, Kenton L, Kristina T. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[EB/OL],arXiv,2018-10-11, https://arxiv.org/pdf/1810.04805.pdf
[10] 王瑩.基于深度學習的文本分類研究[D].沈陽工業大學,2019.
[11] 潘曉英,趙普,趙倩.基于BLSTM和注意力機制的電商評論情感分類模型[J].計算機與數字工程,2019.47(9):2227-2232
[12] 張培祥.中文自動摘要模型及其應用[D].天津商業大學,2019.
[13] Mikolov T,Chen K,Corrado G, et al. Efficient estimation?of word representations in vector space[J]. Computer Science,2013:1301,3781
[14] 龔麗娟,王昊,張紫玄,朱立平.Word2vec對海關報關商品文本特征降維效果分析[J].數據分析與知識發現,2019:1-19