999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的化妝品輿情事件實體關系抽取技術研究

2023-12-29 00:00:00吳迪,劉月恒,孟宏,邱顯榮,張青川
電腦知識與技術 2023年33期

摘要:互聯網的快速發展,使得輿情信息會在短時間內大范圍傳播。通過構建化妝品相關的知識圖譜能夠快速有效地發現輿情的焦點內容,有助于相關部門更好地掌握輿情導向,并且很好地支持后期的輿情分析。關系抽取和命名實體識別是構建知識圖譜的關鍵技術。針對化妝品輿情存在的多實體關系問題,文章在BERT預訓練模型的基礎上構建了BERT-BiLSTM-CRF化妝品輿情實體關系抽取模型。在化妝品輿情數據集上進行了對比實驗,實驗結果表明:基于BERT-BiLSTM-CRF的化妝品輿情實體關系抽取模型比常用的幾種神經網絡模型高出2.68%~4.83%,驗證了模型的合理性和有效性。

關鍵詞:化妝品輿情;BERT;關系抽取

中圖分類號:TP391" " " " 文獻標識碼:A

文章編號:1009-3044(2022)33-0025-03

1 概述

隨著社交平臺的快速發展,網民可以隨時隨地通過自己的社交軟件參與輿情事件的討論、發表觀點、表達態度[1]。近年來,化妝品輿情的體量不斷增加,在最近的統計信息中,化妝品負面輿情整體占比呈上升趨勢??焖侔盐蛰浨樾畔⒌慕裹c內容有助于對輿情事件做出及時處理,正確引導公眾的情緒,從而避免造成更嚴重的后果。然而在互聯網平臺存在大量的非結構化、具有歧義的文本數據。因此如何快速、精準且有效地對海量數據進行分析處理并將其轉換為可以直接查詢的結構化信息是至關重要的。

化妝品輿情知識圖譜是以化妝品行業為基礎,挖掘化妝品輿情事件之間的內在聯系,在化妝品安全、化妝品輿情分析等方面都發揮著重要的作用。實體關系抽取是構建化妝品輿情知識圖譜的重要基礎工作之一,實體識別是指從文本中提取已命名的實體,并將其劃分為指定的類別。關系提取是為了識別實體之間的一些語義關系。

在之前的研究中大多采用神經網絡模型來抽取實體和關系,Li[1]提出了一個增量聯合框架,使用結構化感知器提取實體和關系。Bai等人[2]提出了通過詞嵌入的方式提取局部語義特征,設計了一種基于卷積神經網絡(Convolutional Neural Network,CNN)的片段注意機制來提取實體關系。與CNN模型相比,RNN能更好地學習語句中上下文的語義信息。Socher等人[3]首次將矩陣-遞歸神經網絡模型(MV-RNN)應用于自然語言處理,有效地解決了單詞向量模型無法捕捉長短語或句子的組成意義的問題。長短期記憶(LSTM)網絡模型[4]與RNN模型具有相同的總體框架。但是LSTM允許每個神經單元忘記或保留信息,在一定程度上解決了RNN存在的爆炸梯度問題。Zhang等[5]提出了一種基于LSTM序列的位置感知注意機制,該機制與一種實體位置感知注意相結合,以實現更好的關系提取性能。隨著預訓練模型的不斷發展,BERT預訓練語言模型在各種自然語言處理任務上都取得了表較好的效果。Gao等[6]提出了一種基于BERT的醫學關系提取模型,該模型將從預先訓練的語言模型中獲得的整個句子信息與兩個醫療實體的對應信息相結合,完成關系提取任務。

本文在分析現有實體關系抽取方法的優劣的基礎上,針對化妝品輿情方面的語料,構建了基于BERT-BiLSTM_CRF的實體關系抽取模型,能夠很好地抽取實體和關系信息。

2 基于BERT-BiLSTM-CRF的化妝品輿情實體關系抽取模型

本文構建的是實體關系抽取模型包括是BERT層、BiLSTM層和CRF層三部分,模型結構如圖1所示。

2.1 BERT層

基于已有的Word2Vec、GPT等語言模型,2018年Google團隊提出BERT[7]預訓練語言模型,該模型可以學習輸入序列的特征表示,然后再把學習的特征表示應用到不同的下游任務中任務。BERT可以通過無監督的方式使用大量未標記的文本進行訓練。通過構建標記語言模型,BERT可以隨機覆蓋或替換句子中的任何單詞,使模型能夠預測被上下文隨機覆蓋的部分,得到該單詞的分布式上下文表示。BERT模型中Transformer采用自注意力機制和全連接層處理輸入的文本。Transformer采用的多頭注意力機制,可以獲得多個維度的信息。本文模型將BERT的輸出結果輸入BiLSTM[8]層中。

2.2 BiLSTM層

BiLSTM接收BERT輸出的向量作為輸入,從而獲得更加全面的語義信息。BiLSTM對每個訓練序列應用一個前向和后向LSTM網絡,兩個LSTM網絡連接到同一個輸出層。LSTM計算主要是三個門結構:輸入門、遺忘門和輸出門。具體計算公式如下所示:

[it=σ(Wi?[ht-1,Xt]+bi)] (1)

[ft=σ(Wf?[ht-1,Xt]+bf)] (2)

[Ct=tanh(WC?[ht-1,Xt]+bC)] (3)

[ot=σ(Wo?[ht-1,Xt]+bo)] (4)

[Ct=ft*Ct-1+it*Ct)] (5)

[ht=ot*tanh(Ct)] (6)

其中,[Wi]、[Wf]、[Wo]是加權矩陣,[bi]、[bf]、[bo]是LSTM的偏差。[it]、[ft]、[ot]分別代表t時刻的輸入門、遺忘門和輸出門,[Xt]表示在t時刻的輸入,[ht]表示在t時刻的輸出。

2.3 CRF層

條件隨機場(CRF)[9]是一種以指定的隨機變量為輸入,解決隨機輸出變量的條件概率分布的算法。近年來,它被廣泛應用于詞性標記、句法分析和命名實體識別等領域。CRF可以考慮相鄰標記結果之間的關系,并在全文中得到最優的標記序列結果。CRF的基本算法定義如下:

[S(x,y)=i=1nAyi-1yi+i=0npi].[yi] " " " "(7)

[P(y|x)=eS(x,y)~y∈YxeS(x, ~y)]" " " " " " " " " " " " " " (8)

其中BiLSTM層的輸出結果定義為[Pmn],其中n表示單詞數,m表示標簽類別。其中,[Pij]表示第i個標簽與第j個標簽匹配的概率。對于輸入的句子序列x={x1,x2,...,xn}及其預測的序列y={y1,y2,...,yn}。

3 實驗

3.1 數據集與數據預處理

本文將在化妝品輿情領域單獨構建的輿情數據作為實驗數據集。自建語料庫從專業和權威網站通過爬蟲獲取有關化妝品輿情(如百度、微博)的數據。對需要處理的數據采用BIO標注方式,其中,B表示實體的第一個字,I表示第二個單詞以及后面的字和O表示不屬于特定實體的詞。

3.2 實驗參數設置

3.3評價指標

本文采用三個常見的指標,即精度(P)、召回率(R)和F1來評估模型。計算公式如下:

[Pi=TPiTPi+FPi]" " " " " " " " " " " " " " " "(9)

其中P代表精確度,TP表示實際正類,預測也為正類的數量,FP表示實際負類,預測為正類的數量。

[R=TPiTPi+FNi]" " " nbsp; " " " " " " " " " " " "(10)

其中R代表召回率,TP表示實際正類,預測也為正類的數量,FN表示實際正類,預測為負類的數量。

[F1=P*R*2P+R ]" " " " " " " " " " " " " " " " " (11)

其中P為精確度,R為召回率。

3.4結果分析

實驗結果如表2所示,筆者的模型在P、R、F1三個指標上均取得了更好的效果。此外,通過對比不同模型之間的實驗結果,可以發現,BERT+CRF模型的性能高于BERT+Softmax模型,證明了CRF模型可以有效解決標簽之間的依賴關系,避免生成錯誤的標簽序列。BERT+Bi-LSTM模型的性能高于BERT+CRF模型與BERT+Softmax模型,證明了雙向長短時記憶網絡可以有效利用上下文信息,并可以有效建模序列特征之間的依賴。

4 結束語

本文提出了一種基于Bert-BiLSTM-CRF的化妝品輿情實體關系提取模型,該模型通過Bert對文本進行向量化,隨后利用BiLSTM模型學習上下文信息,更好地進行特征提取,進而完成實體關系的提取。實驗結果表明,本文提出的模型相較于其他深度學習模型在性能上更優。

參考文獻:

[1] Li Q,Ji H.Incremental joint extraction of entity mentions and relations[J].52nd Annual Meeting of the Association for Computational Linguistics,ACL 2014 - Proceedings of the Conference,2014,1:402-412.

[2] Bai T,Guan H T,Wang S,et al.Traditional Chinese medicine entity relation extraction based on CNN with segment attention[J].Neural Computing and Applications,2022,34(4):2739-2748.

[3] Socher, Richard" Semantic Compositionality through Recursive Matrix-Vector Spaces.EMNLP ,2012.

[4] Miwa M,Bansal M.End-to-end relation extraction using LSTMs on sequences and tree structures[J].54th Annual Meeting of the Association for Computational Linguistics,ACL 2016 - Long Papers,2016,2:1105-1116.

[5] Zhang Y H,Zhong V,Chen D Q,et al.Position-aware attention and supervised data improve slot filling[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural\n Language Processing.Copenhagen,Denmark.Stroudsburg,PA,USA:Association for Computational Linguistics,2017s.

[6] Gao S X,Du J L,Zhang X.Research on relation extraction method of Chinese electronic medical records based on BERT[C]//Proceedings of the 2020 6th International Conference on Computing and Artificial Intelligence.Tianjin,China.New York:ACM,2020:487-490.

[7] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].2018:arXiv:1810.04805.https://arxiv.org/abs/1810.04805

[8] Chen C M.Feature set identification for detecting suspicious URLs using Bayesian classification in social networks[J].Information Sciences,2014,289:133-147.

[9] Lafferty J D,McCallum A,Pereira F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning.New York:ACM,2001:282-289.

【通聯編輯:唐一東】

主站蜘蛛池模板: 1769国产精品视频免费观看| 成人中文字幕在线| 秘书高跟黑色丝袜国产91在线| 五月婷婷亚洲综合| 青青草原国产免费av观看| 日本欧美精品| 国产99欧美精品久久精品久久| 人妻21p大胆| 亚洲a级在线观看| 美女视频黄频a免费高清不卡| av大片在线无码免费| 久久96热在精品国产高清| 欧美啪啪一区| 在线国产91| 伊人久久精品无码麻豆精品| 欧美性猛交一区二区三区| 欧美性色综合网| 国产视频你懂得| 色男人的天堂久久综合| 国产区成人精品视频| 国产色网站| 日韩欧美在线观看| 欧美亚洲另类在线观看| 亚洲人精品亚洲人成在线| 玩两个丰满老熟女久久网| 小说 亚洲 无码 精品| 久久亚洲国产视频| 国精品91人妻无码一区二区三区| 波多野结衣国产精品| 国产精品白浆无码流出在线看| 亚洲精品第一页不卡| 国产成人高清精品免费5388| 香蕉eeww99国产在线观看| 国产精品极品美女自在线看免费一区二区| 国产亚洲高清视频| 亚洲电影天堂在线国语对白| 亚洲熟女中文字幕男人总站| 97视频在线精品国自产拍| 婷婷六月在线| 久久久久国产精品免费免费不卡| 精品自拍视频在线观看| 曰韩人妻一区二区三区| 国产欧美日韩在线一区| 日韩免费毛片视频| 幺女国产一级毛片| 亚洲中文字幕在线一区播放| 亚洲视频无码| 美女国内精品自产拍在线播放| 日本成人福利视频| 国产女人在线视频| 亚洲黄色视频在线观看一区| 亚洲国产精品日韩专区AV| 97av视频在线观看| 国产第三区| 国产精品熟女亚洲AV麻豆| 国产精品精品视频| 亚洲午夜天堂| 9久久伊人精品综合| 午夜一级做a爰片久久毛片| 久久99久久无码毛片一区二区| 伊人国产无码高清视频| 中文字幕亚洲另类天堂| 久久五月天综合| 国产男女免费完整版视频| 欧美三級片黃色三級片黃色1| 免费无码又爽又黄又刺激网站 | 国产va免费精品观看| 99精品这里只有精品高清视频| 国产本道久久一区二区三区| 免费人成黄页在线观看国产| 国产va在线观看免费| 午夜欧美理论2019理论| 91欧美亚洲国产五月天| 国产真实二区一区在线亚洲| 日本一区二区不卡视频| 日韩精品一区二区深田咏美| 亚洲精品手机在线| 亚洲天堂视频在线免费观看| 久久精品国产亚洲麻豆| 中文字幕资源站| 秋霞国产在线| 久草视频中文|