999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的化妝品標準實體關系抽取技術研究

2023-03-22 15:06:06劉月恒黃惠吳迪邱顯榮張青川
科技風 2023年7期
關鍵詞:機制文本標準

劉月恒 黃惠 吳迪* 邱顯榮 張青川

1.太和康美(北京)中醫研究院有限公司 北京 102445;2.北京工商大學電商與物流學院 北京 100048

1 概述

隨著人們生活水平不斷提高,化妝品行業也得到越來越多人的關注。當前化妝品標準中的文本以及關鍵信息分布較為分散,這些信息多是獨立存在的,通過構建化妝品標準知識圖譜可以有效地將這些信息關聯起來,能夠為國家監管部門提供輔助決策支撐。

實體關系抽取是構建知識圖譜的關鍵技術,早期關系抽取任務主要有兩種,一種是基于規則[1-3]的方法,通過人工設計的一些規則來抽取實體關系三元組,主要包括基于觸發詞和基于依存關系的兩種方式;另一種是利用機器學習[4-5]來抽取實體和關系,主要依賴一些工具來提取文本的特征。基于機器學習的方法以數據集標注量又可以劃分為有監督、半監督和無監督的方法。基于規則的方法由于需要進行規則制定,這就導致需要花費大量的人力,并且對于信息量大以及文本結構復雜的信息很難進行有效處理。利用機器學習的方法可以有效解決基于規則的方法存在的不足,并且其應用也更加廣泛,但是該方法需要通過人工來進行特征提取,仍然存在泛化能力不足的缺點。

隨著深度學習的不斷發展,越來越多的學者開始采用深度學習的技術來提取文本中的實體和關系,這有效克服了機器學習的方法需要進行人工特征提取的不足,同時準確率也獲得了進一步的提升。參考文獻[6]中的學者提出一種基于SDP-LSTM的關系抽取模型,該模型可以利用最短的依賴路徑迭代地學習關系分類的特征。同時,利用LSTM單元進行遠程信息傳播和集成。參考文獻[7]中的學者提出了一種基于BERT的醫學關系提取模型,該模型將從預先訓練的語言模型中獲得的整個句子信息與兩個醫療實體的對應信息相結合,完成關系提取任務。丁澤源等[8]提出了一種pipeline的中文生物醫學實體關系抽取系統,并且取得了較好的實驗結果。但是相比于公共的一些數據集,化妝品行業數據就有其獨特性,語料中存在大量的行業術語和專業名詞,這也是進行實體關系抽取的一大難點,基于此本文提出了一種融合注意力機制的BERT-BiLSTM-Attention-CRF的實體關系抽取模型,能夠有效地提取化妝品文本中的實體和關系信息。

2 模型

針對化妝品標準存在大量專有名詞以及語義稀釋等問題,我們提出了融合注意力機制的BERT-BiLSTM-Attention-CRF化妝品標準實體關系提取模型,模型的整體結構如圖1所示。包含BERT、BiLSTM網絡層、Attention注意力機制和CRF層四部分。

圖1 BERT-BiLSTM-Attention-CRF

2.1 BERT

BERT[9]預訓練語言模型采用12層Transformer編碼器進行編碼,該模型可以學習到輸入序列的特征表示,然后再把學習到的特征表示應用到不同的下游任務中。BERT的預訓練模型包括兩個訓練任務,Masked LM任務用來捕捉單詞級的特征,Next Sentence Prediction任務用來捕捉句子級的特征。在化妝品標準的實體關系抽取任務中,化妝品標準文本結構更加復雜,語義也較為稀疏,相較于RNN,BERT能夠更好的捕捉上下文的文本特征,所以可以進一步提升實體識別的效果。

2.2 BiLSTM層

LSTM是一種特殊的循環神經網絡模型,允許每個神經單元忘記或保留信息,克服了RNN在自然語言處理任務中容易出現梯度消失和梯度爆炸問題,具有長時記憶功能。但在化妝品標準文本中,一些專有名詞通常包含較多的字符,并且前后文之間有較強的依賴關系,所以本文采用了BiLSTM模型,BiLSTM接收BERT輸出的向量作為輸入,從而獲得更加全面的語義信息。BiLSTM對每個訓練序列應用一個前向和后向LSTM網絡,兩個LSTM網絡連接到同一個輸出層。

LSTM網絡結構包含輸入門、遺忘門和輸出門。模型的計算公式如下所示:

it=σ(Wi·[ht-1,Xt]+bi)

(1)

ft=σ(Wf·[ht-1,Xt]+bf)

(2)

(3)

ot=σ(Wo·[ht-1,Xt]+bo)

(4)

(5)

ht=ot*tanh(Ct)

(6)

其中,Wi、Wf、Wo是加權矩陣,bi、bf、bo是LSTM的偏差。it表示t時刻的輸入門,ft代表t時刻的遺忘門,ot分別代表t時刻的輸出門,Xt表示t時刻的輸入,ht和表示t時刻的輸入向量輸出。

2.3 Attention注意力機制

注意力機制就是對輸入的不同元素考慮不同的權重參數,從而更加關注與輸入元素相似的部分,而抑制其他無用的信息。注意力機制可以在資源有限的情況下快速、準確地處理信息。由于在化妝品標準文本中存在語義稀疏的問題,通過引入注意力機制對提取的特征進行分配不同的權重,得到單詞重要性的文本特征表示,可以進一步提升模型的性能,并且能有效解決BiLSTM存在的不足。

2.4 CRF編碼器

條件隨機場(CRF)[10]是一種以指定的隨機變量為輸入,解決隨機輸出變量的條件概率分布的算法。CRF接收BiLSTM和Attention輸出的特征向量作為輸入,進行序列標注。CRF通過學習標簽之間的依賴關系,保證了標簽的有效性,從而得到最優的標簽序列。CRF的基本算法定義如下:

(7)

(8)

其中BiLSTM層的輸出結果定義為Pmn,其中n表示單詞數,m表示標簽類別。其中,Pij表示第i標簽與第j個標簽匹配的概率。對于輸入的句子序列X={x1,x2,…,xn}及其預測的序列Y={y1,y2,…,yn}。

3 實驗

3.1 數據集與數據預處理

實驗所用的數據集來源于化妝品標準,由于缺少相應的公開數據,本實驗采用爬蟲技術從食品伙伴網以及國家藥品監督管理局等網站采集并通過人工校對,構建了化妝品標準數據集(CSD)。并將該數據集分為訓練集、測試集和驗證集,各子集的數據量見表1。

表1 實驗數據集

表2 實驗參數設置

3.2 實驗參數設置

3.3 評價指標

本文采用三個常見的指標,即精度(P)、召回率(R)和F1來評估我們的模型。計算公式如下:

(9)

其中P代表精確度,TPi表示實際正類,預測也為正類的數量,FPi表示實際負類,預測為正類的數量。

(10)

其中R代表召回率,TPi表示實際正類,預測也為正類的數量,FNi表示實際正類,預測為負類的數量。

(11)

其中P為精確度,R為召回率。

3.4 結果分析

結果表明,在未引入自注意力機制情況下,BERT-BiLSTM-Attention-CRF模型的準確率、召回率、F1值分別為88.94%、90.63%、89.78%。在BiLSTM后面引入注意力機制以后,可以看到實體關系抽取結果有了進一步的提高,準確率、召回率和F1值分別提升了2.67%、2.72%和2.96%,說明我們模型有效提升了實體關系抽取整體效果。相比于BERT模型,BERT-BiLSTM模型在F1值上提升了3.99%,這說明BiLSTM在實體關系抽取中發揮了積極作用。BiLSTM可以將輸入序列的信息向后組合,有助于提高實體識別效率。BERT-BiLSTM-CRF模型的性能高于BERT-BiLSTM模型,證明了CRF模型可以有效解決標簽之間的依賴關系。

結語

本文提出的融合了注意力機制的BERT-BiLSTM-Attention-CRF模型在引入注意力機制以后,可以有效的分配特征權重,排除噪音,提高模型在實體關系抽取中的性能,為構建化妝品標準知識圖譜提供參考。同時在BiLSTM后面融合注意力機制可以有效解決在長文本中存在的語義稀疏的問題,但是本文未考慮到文本中存在的實體重疊的情況,這是我們接下來工作的一個方向。

猜你喜歡
機制文本標準
2022 年3 月實施的工程建設標準
在808DA上文本顯示的改善
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 人人妻人人澡人人爽欧美一区| 欧美伦理一区| 最新日本中文字幕| 日本不卡免费高清视频| 欧美无遮挡国产欧美另类| 在线精品视频成人网| 亚洲最大看欧美片网站地址| 国产精品真实对白精彩久久| 国产真实自在自线免费精品| 国产1区2区在线观看| 青青操国产视频| 亚洲 欧美 中文 AⅤ在线视频| 激情综合网激情综合| 夜夜拍夜夜爽| 国产日产欧美精品| 亚洲 欧美 偷自乱 图片| 三级欧美在线| 亚洲福利一区二区三区| 久热精品免费| 极品av一区二区| 国产人人射| 九九九精品成人免费视频7| 国产av色站网站| 亚洲第一页在线观看| 波多野结衣第一页| 亚洲制服丝袜第一页| 欧美精品成人一区二区视频一| 国产一区二区三区精品久久呦| 美女内射视频WWW网站午夜 | 亚洲人成日本在线观看| 91成人免费观看| AV在线麻免费观看网站 | 国内视频精品| 伊人久久精品无码麻豆精品| 久青草网站| 精品国产www| lhav亚洲精品| 亚洲男人的天堂在线| 欧美区一区二区三| 一区二区三区国产| 四虎亚洲精品| 欧美一区二区人人喊爽| 亚洲视频免费在线看| 亚洲va视频| 国产素人在线| 欧美精品亚洲精品日韩专区| 久草性视频| 亚洲va欧美ⅴa国产va影院| 在线观看的黄网| 国产另类乱子伦精品免费女| 伊人久久久久久久久久| 亚洲一区毛片| 亚洲成人播放| 999精品视频在线| 日本www色视频| 亚洲国产成人超福利久久精品| 久久久久免费看成人影片| 欧美激情第一欧美在线| 国产精品福利尤物youwu| 久久96热在精品国产高清| 国产成人精品高清不卡在线| 99激情网| 亚洲一区第一页| 亚洲国产午夜精华无码福利| 亚洲AV人人澡人人双人| 欧美色99| 精品视频第一页| 亚洲 日韩 激情 无码 中出| 亚洲第一在线播放| 国产精品无码一二三视频| 好吊色国产欧美日韩免费观看| 国产日产欧美精品| 蜜桃视频一区| 91极品美女高潮叫床在线观看| aaa国产一级毛片| 内射人妻无码色AV天堂| 日韩精品毛片人妻AV不卡| 视频二区中文无码| 看国产一级毛片| 国产第四页| 国产91在线免费视频| 亚洲AV无码乱码在线观看代蜜桃 |