



摘要:互聯網的快速發展,使得輿情信息會在短時間內大范圍傳播。通過構建化妝品相關的知識圖譜能夠快速有效地發現輿情的焦點內容,有助于相關部門更好地掌握輿情導向,并且很好地支持后期的輿情分析。關系抽取和命名實體識別是構建知識圖譜的關鍵技術。針對化妝品輿情存在的多實體關系問題,文章在BERT預訓練模型的基礎上構建了BERT-BiLSTM-CRF化妝品輿情實體關系抽取模型。在化妝品輿情數據集上進行了對比實驗,實驗結果表明:基于BERT-BiLSTM-CRF的化妝品輿情實體關系抽取模型比常用的幾種神經網絡模型高出2.68%~4.83%,驗證了模型的合理性和有效性。
關鍵詞:化妝品輿情;BERT;關系抽取
中圖分類號:TP391" " " " 文獻標識碼:A
文章編號:1009-3044(2022)33-0025-03
1 概述
隨著社交平臺的快速發展,網民可以隨時隨地通過自己的社交軟件參與輿情事件的討論、發表觀點、表達態度[1]。近年來,化妝品輿情的體量不斷增加,在最近的統計信息中,化妝品負面輿情整體占比呈上升趨勢??焖侔盐蛰浨樾畔⒌慕裹c內容有助于對輿情事件做出及時處理,正確引導公眾的情緒,從而避免造成更嚴重的后果。然而在互聯網平臺存在大量的非結構化、具有歧義的文本數據。因此如何快速、精準且有效地對海量數據進行分析處理并將其轉換為可以直接查詢的結構化信息是至關重要的。
化妝品輿情知識圖譜是以化妝品行業為基礎,挖掘化妝品輿情事件之間的內在聯系,在化妝品安全、化妝品輿情分析等方面都發揮著重要的作用。實體關系抽取是構建化妝品輿情知識圖譜的重要基礎工作之一,實體識別是指從文本中提取已命名的實體,并將其劃分為指定的類別。關系提取是為了識別實體之間的一些語義關系。
在之前的研究中大多采用神經網絡模型來抽取實體和關系,Li[1]提出了一個增量聯合框架,使用結構化感知器提取實體和關系。Bai等人[2]提出了通過詞嵌入的方式提取局部語義特征,設計了一種基于卷積神經網絡(Convolutional Neural Network,CNN)的片段注意機制來提取實體關系。與CNN模型相比,RNN能更好地學習語句中上下文的語義信息。Socher等人[3]首次將矩陣-遞歸神經網絡模型(MV-RNN)應用于自然語言處理,有效地解決了單詞向量模型無法捕捉長短語或句子的組成意義的問題。長短期記憶(LSTM)網絡模型[4]與RNN模型具有相同的總體框架。但是LSTM允許每個神經單元忘記或保留信息,在一定程度上解決了RNN存在的爆炸梯度問題。Zhang等[5]提出了一種基于LSTM序列的位置感知注意機制,該機制與一種實體位置感知注意相結合,以實現更好的關系提取性能。隨著預訓練模型的不斷發展,BERT預訓練語言模型在各種自然語言處理任務上都取得了表較好的效果。Gao等[6]提出了一種基于BERT的醫學關系提取模型,該模型將從預先訓練的語言模型中獲得的整個句子信息與兩個醫療實體的對應信息相結合,完成關系提取任務。
本文在分析現有實體關系抽取方法的優劣的基礎上,針對化妝品輿情方面的語料,構建了基于BERT-BiLSTM_CRF的實體關系抽取模型,能夠很好地抽取實體和關系信息。
2 基于BERT-BiLSTM-CRF的化妝品輿情實體關系抽取模型
本文構建的是實體關系抽取模型包括是BERT層、BiLSTM層和CRF層三部分,模型結構如圖1所示。
2.1 BERT層
基于已有的Word2Vec、GPT等語言模型,2018年Google團隊提出BERT[7]預訓練語言模型,該模型可以學習輸入序列的特征表示,然后再把學習的特征表示應用到不同的下游任務中任務。BERT可以通過無監督的方式使用大量未標記的文本進行訓練。通過構建標記語言模型,BERT可以隨機覆蓋或替換句子中的任何單詞,使模型能夠預測被上下文隨機覆蓋的部分,得到該單詞的分布式上下文表示。BERT模型中Transformer采用自注意力機制和全連接層處理輸入的文本。Transformer采用的多頭注意力機制,可以獲得多個維度的信息。本文模型將BERT的輸出結果輸入BiLSTM[8]層中。
2.2 BiLSTM層
BiLSTM接收BERT輸出的向量作為輸入,從而獲得更加全面的語義信息。BiLSTM對每個訓練序列應用一個前向和后向LSTM網絡,兩個LSTM網絡連接到同一個輸出層。LSTM計算主要是三個門結構:輸入門、遺忘門和輸出門。具體計算公式如下所示:
[it=σ(Wi?[ht-1,Xt]+bi)] (1)
[ft=σ(Wf?[ht-1,Xt]+bf)] (2)
[Ct=tanh(WC?[ht-1,Xt]+bC)] (3)
[ot=σ(Wo?[ht-1,Xt]+bo)] (4)
[Ct=ft*Ct-1+it*Ct)] (5)
[ht=ot*tanh(Ct)] (6)
其中,[Wi]、[Wf]、[Wo]是加權矩陣,[bi]、[bf]、[bo]是LSTM的偏差。[it]、[ft]、[ot]分別代表t時刻的輸入門、遺忘門和輸出門,[Xt]表示在t時刻的輸入,[ht]表示在t時刻的輸出。
2.3 CRF層
條件隨機場(CRF)[9]是一種以指定的隨機變量為輸入,解決隨機輸出變量的條件概率分布的算法。近年來,它被廣泛應用于詞性標記、句法分析和命名實體識別等領域。CRF可以考慮相鄰標記結果之間的關系,并在全文中得到最優的標記序列結果。CRF的基本算法定義如下:
[S(x,y)=i=1nAyi-1yi+i=0npi].[yi] " " " "(7)
[P(y|x)=eS(x,y)~y∈YxeS(x, ~y)]" " " " " " " " " " " " " " (8)
其中BiLSTM層的輸出結果定義為[Pmn],其中n表示單詞數,m表示標簽類別。其中,[Pij]表示第i個標簽與第j個標簽匹配的概率。對于輸入的句子序列x={x1,x2,...,xn}及其預測的序列y={y1,y2,...,yn}。
3 實驗
3.1 數據集與數據預處理
本文將在化妝品輿情領域單獨構建的輿情數據作為實驗數據集。自建語料庫從專業和權威網站通過爬蟲獲取有關化妝品輿情(如百度、微博)的數據。對需要處理的數據采用BIO標注方式,其中,B表示實體的第一個字,I表示第二個單詞以及后面的字和O表示不屬于特定實體的詞。
3.2 實驗參數設置
3.3評價指標
本文采用三個常見的指標,即精度(P)、召回率(R)和F1來評估模型。計算公式如下:
[Pi=TPiTPi+FPi]" " " " " " " " " " " " " " " "(9)
其中P代表精確度,TP表示實際正類,預測也為正類的數量,FP表示實際負類,預測為正類的數量。
[R=TPiTPi+FNi]" " " nbsp; " " " " " " " " " " " "(10)
其中R代表召回率,TP表示實際正類,預測也為正類的數量,FN表示實際正類,預測為負類的數量。
[F1=P*R*2P+R ]" " " " " " " " " " " " " " " " " (11)
其中P為精確度,R為召回率。
3.4結果分析
實驗結果如表2所示,筆者的模型在P、R、F1三個指標上均取得了更好的效果。此外,通過對比不同模型之間的實驗結果,可以發現,BERT+CRF模型的性能高于BERT+Softmax模型,證明了CRF模型可以有效解決標簽之間的依賴關系,避免生成錯誤的標簽序列。BERT+Bi-LSTM模型的性能高于BERT+CRF模型與BERT+Softmax模型,證明了雙向長短時記憶網絡可以有效利用上下文信息,并可以有效建模序列特征之間的依賴。
4 結束語
本文提出了一種基于Bert-BiLSTM-CRF的化妝品輿情實體關系提取模型,該模型通過Bert對文本進行向量化,隨后利用BiLSTM模型學習上下文信息,更好地進行特征提取,進而完成實體關系的提取。實驗結果表明,本文提出的模型相較于其他深度學習模型在性能上更優。
參考文獻:
[1] Li Q,Ji H.Incremental joint extraction of entity mentions and relations[J].52nd Annual Meeting of the Association for Computational Linguistics,ACL 2014 - Proceedings of the Conference,2014,1:402-412.
[2] Bai T,Guan H T,Wang S,et al.Traditional Chinese medicine entity relation extraction based on CNN with segment attention[J].Neural Computing and Applications,2022,34(4):2739-2748.
[3] Socher, Richard" Semantic Compositionality through Recursive Matrix-Vector Spaces.EMNLP ,2012.
[4] Miwa M,Bansal M.End-to-end relation extraction using LSTMs on sequences and tree structures[J].54th Annual Meeting of the Association for Computational Linguistics,ACL 2016 - Long Papers,2016,2:1105-1116.
[5] Zhang Y H,Zhong V,Chen D Q,et al.Position-aware attention and supervised data improve slot filling[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural\n Language Processing.Copenhagen,Denmark.Stroudsburg,PA,USA:Association for Computational Linguistics,2017s.
[6] Gao S X,Du J L,Zhang X.Research on relation extraction method of Chinese electronic medical records based on BERT[C]//Proceedings of the 2020 6th International Conference on Computing and Artificial Intelligence.Tianjin,China.New York:ACM,2020:487-490.
[7] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].2018:arXiv:1810.04805.https://arxiv.org/abs/1810.04805
[8] Chen C M.Feature set identification for detecting suspicious URLs using Bayesian classification in social networks[J].Information Sciences,2014,289:133-147.
[9] Lafferty J D,McCallum A,Pereira F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning.New York:ACM,2001:282-289.
【通聯編輯:唐一東】