999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CNN-BLSTM 的化妝品違法違規行為分類模型

2021-11-27 00:48:54胡康何思宇左敏葛偉
智能系統學報 2021年6期
關鍵詞:語義分類特征

胡康,何思宇,左敏,葛偉

(1.中國食品藥品檢定研究院 信息中心,北京 102629;2.北京工商大學 農產品質量安全追溯技術及應用國家工程實驗室,北京 100048)

為了規范化妝品生產經營活動,加強對化妝品市場的監督管理工作,使得化妝品質量和消費者健康都能得到有效保障,促進化妝品產業的健康蓬勃發展,化妝品安全監管部門在日常工作中會采取預防、保護、監管等一系列保障措施,防止化妝品相關安全事故發生,保障人民群眾的安全與權益。根據近幾年國家化妝品監督抽檢結果發現,染發類化妝品不合格率偏高,這為化妝品安全監管帶來了新的難題和挑戰。為進一步保障公眾用妝安全,加強化妝品安全風險評估,化妝品安全監管亟需對違法違規行為進行自動識別及分類。因此,研究利用智能化手段輔助相關監管部門監督管理化妝品市場,以確?;瘖y品安全得到有效監管具有重大意義。本研究建立了針對化妝品安全領域的文本語義分類模型,能夠有效提高監管部門監管效率及質量。

文本分類是自然語言處理(natural language processing,NLP)的一個重要且實用的研究方向。在深度學習興起之前,傳統機器學習方法被應用在文本分類領域,如樸素貝葉斯模型[1]與SVM(support vector machines) 模型[2]。然而傳統機器學習模型依賴人工語料標注,不僅耗費大量人力物力,而且文本特征提取結果也不盡如人意。

近年來隨著深度學習、云計算、人工智能等技術的發展,深度神經網絡在各個領域實現應用并取得了較好的成果[3-5]。在NLP 領域,基于大規模語料的情況下,多層次的網絡模型實現了自動挖掘文本特征信息,深度神經網絡成為了NLP 領域的關鍵技術之一,其在文本語義分類任務中也取得了良好的效果。

針對文本語義分類問題,目前深度神經網絡表現出更好的分類性能[6],因此本文采用基于深度神經網絡的方法構建分類模型。

1 相關工作

深度學習方法通過數據來自動學習文本特征,替代了傳統人工選取特征的過程,將特征選取轉化為通用的學習過程,避免了傳統人工選取特征存在的主觀性和偶然性。Kim[7]提出將卷積神經網絡應用于文本分類任務,降低了文本特征提取的難度,提升了分類精度,但 CNN 僅能學習文本的局部特征,無法考慮詞的上下文含義。Mikolov 等[8]將文本分類應用于循環神經網絡(recurrent neural network,RNN),其實驗證明了RNN 網絡能夠在文本分類中取得良好的分類效果,并且表現出充分學習文本上下文信息的能力;Socher等[9-10]分別在2012 年和2013 年發表了他們在RNN 方面開展的相關工作,從詞開始通過樹形結構逐步合成各短語,乃至整句語義,該方法被證實在構建句子級語義時較為有效。但隨著輸入的增多,RNN 存在梯度消失和梯度爆炸問題。Hochreiter 等[11]利用門機制克服傳統RNN 模型缺點,建立長短時記憶網絡(long short-term memory,LSTM)模型;Liu 等[12]將LSTM 應用到文本分類中;Alkhodair 等[13]訓練了一個LSTM 模型,對謠言文本進行分類。

值得注意的是,近年來注意力機制在NLP 領域取得了廣泛的應用。Bahdanau 等[14]做出了最早的嘗試,將attention 機制與RNN 結合應用于機器翻譯任務;Yin 等[15]介紹了CNN 和attention 的3 種結合方式;Zhou 等[16]將attention 機制與雙向長短時記憶網絡(bidirectional long short-term memory,BLSTM)結合應用在文本分類中,以獲取句子中最重要的語義信息,然而對于內部位置語義等重要信息仍然沒有進行很好的學習和處理。

此外,在文本語義分類中,關于字符級和詞語級兩種嵌入粒度是否對分類效果有影響,不少研究者對此進行了研究。目前,常見的詞語級別文本表示方法有布爾模型(Boolean model)、向量空間模型(vector space model,VSM)[17]、嵌入向量模型。嵌入向量模型的目的是將高維詞向量嵌入到低維空間,降低文本特征的稀疏性,減少訓練資源浪費,并且能夠考慮詞的上下文信息來進行計算。常用的嵌入向量模型主要有Word2vec 模型[18]和Glove 模型[19]。Kim 等[20]提出了一種通過字符級CNN 提取文本語義信息的模型,劉龍飛等[21]證明了字符級特征表示在中文文本處理中的優越性。

本文針對化妝品安全監管領域,建立了一種基于融合位置感知注意力機制的BLSTM 網絡與CNN 網絡的字詞雙維度語義分類模型,使用中文字向量和詞向量分別作為雙路模型的輸入,采用CNN 模型訓練字向量,在引入位置注意力機制的BLSTM 網絡模型中訓練詞向量,最后結合雙路網絡的特征提取結果對文本進行分類。該模型充分利用BLSTM 的特性,從詞向量級別挖掘化妝品抽樣檢查建議(下文稱檢查建議)文本的語義特征,并結合使用位置注意力機制進行Attention Value的計算,使化妝品安全領域的領域詞匯在整個檢查建議的語義表達中能夠起到決定性作用。同時,CNN 網絡能夠從字向量級別對文本語義進行進一步挖掘,避免了由于文本語義特征提取不全面而損失文本分類精度的情況發生,有效提高了文本語義分類效果。

2 字詞雙維度識別模型

為進一步提高文本語義分類準確性,本文提出一種字詞雙維度模型,能夠從字、詞級別提取檢查建議中提到的違法違規行為語義特征,進一步豐富文本重要語義特征輸入,結合兩種級別的特征向量,得到最終的分類結果。CNN-BLSTM模型結構如圖1 所示。

圖1 CNN-BLSTM 模型結構Fig.1 CNN-BLSTM model structure

模型在化妝品安全檢查建議語料的字和詞維度上使用字嵌入和詞嵌入,分別生成字向量和詞向量,其中字向量作為CNN 網絡輸入,詞向量作為BLSTM 網絡輸入。

在圖1 中,其左半部分為CNN 網絡模型。字向量通過輸入層輸入,經由CNN 網絡的卷積層、池化層和全連接層計算,最后得到字符級別文本特征表示。在圖1 的右半部分網絡模型中,首先模型通過結合領域詞庫判斷領域關鍵詞語義角色和位置,生成基于位置感知的注意力。經過詞嵌入生成詞向量輸入BLSTM 模型,將詞向量參與中間隱藏層的計算,之后模型輸出隱藏層向量并在注意力機制的影響下得到文本語義特征。在得到字詞雙維度文本特征輸出后,將兩路輸出通過連接層進行連接,最后通過SoftMax 層進行分類,得到最終分類結果。

2.1 文本向量化

1)語料存在問題

化妝品違法違規行為檢查建議語料存在因人為填寫而不可避免地產生口語化及表達差異化問題,屬于非結構化、非標準化語料。且檢查建議中包括化妝品安全領域專業詞匯、化妝品安全相關法律法規名稱等,具有較強的領域性。語料結構性弱、領域性強,因此向量化難度較大。

2)語料處理思路

針對語料結構性弱問題,本文采用兩種不同的向量作為輸入,其中一個輸入通過獲取文本字符級別向量,能夠有效避免因為非結構化、非標準化帶來的文本語料特征提取困難。再結合詞向量級別特征提取,避免重要文本語義特征丟失,豐富文本語義特征表示。在生成字向量前,需要將數據集中所有字符進行提取,構成字符庫,并按照字符出現頻率進行排序,以便下一步字向量的生成。

針對語料領域性強問題,本文首先進了語料擴充,即在一個公共語料庫的基礎上,增加化妝品領域相關的百度百科語料,并網絡爬蟲得到領域詞匯、新聞等語料,訓練詞向量模型。在每隔一段時間積累了一定的檢察建議語料時,利用增量訓練的方式更新詞向量模型,使其能適應最新語料的語義關系,及時更新詞匯的向量表示,得到更好的文本向量,提高文本向量化水平,為算法的性能提升打下基礎。

3)語料向量化

將檢查建議文本分別按詞語級別和字符級別進行分詞處理后,需要進一步將其向量化表示以作為神經網絡輸入,用于后續訓練分類模型。本研究使用word2vec 進行文本向量化,提取文本語義特征。

2.2 CNN-PA-BLSTM 模型闡述

2.2.1 CNN 網絡

卷積神經網絡作為一個多層前饋神經網絡,通常在全連接層前面包含卷積層和池化層,卷積層和池化層的個數可能是一個或多個。每個卷積層由一組神經元組成,每個神經元都可學習權重和偏差,卷積運算旨在提取輸入的不同特征,多層的網絡能夠從大量樣本中通過提取、迭代特征,自動學習獲得復雜、高維、非線性映射的文本特征。

1)輸入層

在文本分類任務中,將文本進行向量化,作為CNN 模型的輸入。

2)卷積層

卷積層是由一系列卷積單元(也稱卷積核,filter)組成,通過反向傳播算法訓練得到每個卷積單元的參數。卷積層能夠提取輸入的不同局部特征,原因是每個神經元的輸入并非與前一層全連接,而是與其局部接收域相連,因此提取到的是該局部的特征。針對化妝品檢查建議數據集特點,本文共設置了幾種不同尺寸的卷積核,并且確定了適合的滑動步長(stride),以保證提取出的語義特征更全面。另外,為避免特征矩陣中間區域與邊緣區域提取次數不同的問題,本研究采取在邊緣區域填充空值的操作來避免邊緣區域特征提取少,還能夠使得卷積輸出與輸入維度一致,提高程序可維護性和泛化性。

假設卷積層輸入維度Win=lin×din,其中lin為輸入的長度,din為輸入的寬度。那么,輸出維度的計算如下:

由式(1)~(3)可知,Wout=Win。

3)池化層

卷積層輸出的特征維度通常較高,會造成較大運算壓力,解決這一問題的方法是通過池化層對卷積層輸出進行特征壓縮。本文選擇使用最大池化作為池化方式,最大池化即在過濾器滑動到一個區域時,選擇使用區域內最大值作為該區域表示。過濾器大小為2×2,滑動步長設置為2。原特征矩陣經過最大池化處理后被壓縮為原來大小的四分之一,因此池化操作能夠在盡可能保持最顯著特征的前提下有效提高計算效率。

4)全連接層

全連接層接收經過卷積和池化操作后得到的一系列局部特征,將其通過權值矩陣重新整合成為完整的特征信息。

2.2.2 BLSTM 網絡

LSTM 使用輸入門、遺忘門和輸出門機制,解決了傳統RNN 模型在輸入序列信息過長時產生的梯度消失和梯度爆炸問題,圖2 給出了LSTM的一個神經元結構。

圖2 LSTM 神經單元結構Fig.2 LSTM neural unit structure

忽略其內部細節,每個神經元都有3 個輸入與3 個輸出,Xt是該時刻新加入的信息,at?1與Ct?1是上文信息的表示。對于經過一個LSTM 神經單元處理后,Ct攜帶的信息經過輸出門限會含有更多當前時刻的信息,因此得到的at相對于Ct可以說是具有短期記憶的,而相對來說Ct則是具有長期記憶的,將它們統稱為長短時記憶網絡。式(4)~(9)為LSTM 的計算過程:

式中:i表示輸入門;f表示遺忘門;o表示輸出門;

前向傳播隱藏層計算公式為

后向傳播隱藏層計算公式為

兩層輸出合并得到輸出,可表示為

式中:W1、W2、W3分別表示輸入層到隱藏層、隱藏層神經元間和隱藏層到輸出層的權重矩陣;bf、bb、by分別表示各層計算時的偏差向量。

為了突出領域關鍵詞在句中的作用,本文將位置注意力機制引入BLSTM 網絡中,對其輸出進行微調。

2.2.3 attention 機制

注意力機制最早應用在視覺圖像領域,用來模擬人類視覺聚焦,在重要信息點加注更多注意力,而相對忽略不重要信息的機制。隨著深度學習的發展,自然語言處理領域也越來越多地進行W表示對應權重;b表示相應偏置。

BLSTM 本質上是由前向LSTM 與后向LSTM組合而成,通過兩層相反方向的數據流對數據進行處理,從而對文本歷史信息和未來信息進行兼顧。BLSTM 結構如圖3 所示。它的兩個并行神經元分別從前向和后向兩個方向處理輸入序列信息,最終將兩層輸出進行拼接,作為BLSTM 隱藏層的輸出。了基于注意力機制的網絡模型應用實現。

圖3 BLSTM 結構Fig.3 BLSTM structure

在文本分類任務中,最終分類結果會受到文本中的每個詞所帶來的不同影響,而對關鍵詞加大關注力度能夠在文本語義表示上更充分發揮關鍵詞作用。同時,上下文信息能夠在一定程度上增強字詞的語義表示。因此,針對本文中化妝品抽樣檢查建議的語義分類問題,應考慮到化妝品安全領域關鍵詞及其臨近詞對于文本語義表示有著不可忽視的作用。因此本文根據領域詞庫定位關鍵詞位置,讓模型學習到更多的位置信息,在模型中引入基于位置的注意力機制,具體結構圖4。

圖4 位置注意力機制Fig.4 Positional attention mechanism

本文假設領域關鍵詞的影響力在隱層維度特定距離上是遵循高斯分布的。首先,定義影響的基礎矩陣為K,其每一列表示與特定距離對應的影響基礎矢量。K的定義為

式中:K(i,u)代表第i維中關鍵詞距離為u的相應影響;N代表符合G(u)值的期望和標準差 σ的正態分布。G(u)是高斯核函數,用來模擬基于位置感知的影響傳播,其定義為

當u=0時,即表示當前詞是一個化妝品領域關鍵詞,此時其得到的傳播影響力為最大,并且隨著距離的增加,傳播影響力會逐漸減小。

計算某位置上的詞語的位置感知影響力向量,需要結合所有關鍵詞的累積影響,并利用影響力基礎矩陣K,得到特定位置下關鍵詞的影響力向量:

式中:pj代表了詞語在j位置上的累積影響力向量;cj代表一個距離計數向量,具體可表述為對于在j位置詞語,距離為u的所有關鍵詞計數。cj(u)的計算公式為

式中:Q為一條化妝品抽樣檢測文本中所包含的全部關鍵詞集合,q∈Q;pos(w)為關鍵詞w在句中位置的集合;[·]是指標功能,當滿足條件時取值為1,不滿足時則取值為0。

對于化妝品在檢查建議中詞語處于j位置時的注意力計算方法為

式中:hj是j位置詞語的隱層向量;pj是累積的位置感知影響力向量;a(·)用于在基于隱層向量和位置感知影響力向量的影響下測量詞的重要性。a(·)的具體形式為

式中:m為一句化妝品檢查建議中詞向量個數;WH、Wp代表hj、pj的權重矩陣;b1代表第一層參數的偏置向量;?(·)=max(0,x)為ReLU 函數;v是全局向量;b2代表第二層參數的偏置向量。最終的Attention Value 根據各位置詞語的權重,加權計算句中所有隱層向量所得,其中len為句子長度:

2.2.4 連接輸出層

語料經CNN 與BLSTM 雙路神經網絡處理輸出后,在連接層合并文本特征信息,然后輸入分類器進行分類。本文選擇使用SoftMax 作為損失函數,輸出分類結果。此外,本文設置一定概率的Dropout 來避免過擬合問題的發生,即在模型訓練過程中對隱含層的部分權重或輸出進行隨機歸零操作,從而使得各節點間的相互依賴程度降低,提高模型泛化性。

3 實驗結果及分析

3.1 實驗準備

本文數據集來自化妝品監管部門針對化妝品安全相關違法違規行為的抽樣數據集,為監管部門每次對化妝品售賣商家實行監管檢查后,根據檢查結果所填寫的違法違規行為及改正建議。抽樣檢測數據集共包含10 000 條數據,主要分為無問題、功效問題、與產品描述不一致、不良反應、味道不好、不是正品、包裝問題、物流問題、價格問題、容量不合理十大類檢查建議,結果由5 折交叉驗證得到。

將數據集按照8∶2 的比例劃分為訓練集和測試集用于模型的訓練及驗證。對于實驗使用的相關指標部分,本文采用了準確率、召回率和F1值作為實驗結果的評判標準。

準確率計算公式為

召回率的計算公式為

式中:TP代表一個模型在實際預測中將正類預測為正類的數量;FP代表其在實際預測中將正類預測為負類的數量。

因為準確率和召回率往往在其中一個取得較高值時,另一個就會相對較低,即當P高時R往往相對較低,當R高時P往往相對較低。所以為了更均衡地對模型的綜合性能進行評價,一般使用F1-Score(F1分數)作為評價標準:

在實驗的參數設置方面,CNN 使用的是12 層768 維的隱藏層,BLSTM 模型使用128 維的隱層維度。

3.2 實驗結果分析

表1 的實驗結果顯示,在化妝品安全抽樣檢測語料中,常規的CNN 網絡模型的精確度表現良好,但是在召回率上表現稍次,因此本文在CNN的基礎上,對CNN 模型引入了注意力機制,其精確度、召回率和F1都得到了一定的提升。由第3 個模型和第1 個模型實驗結果對比可以看出,對于句子整體的語義而言,CNN 模型對比BLSTM模型來說學習機制依然有所欠缺。并且在BLSTM中加入注意力機制后,其精確度、召回率和F1值都得到了較大程度的提升。在一系列的實驗中,本文提出的CNN-BLSTM 模型在精確度、召回率和F1值都取得了最優表現,且與前幾種常用模型相比,實驗結果提升非常明顯。

表1 實驗結果對比Table 1 Comparison of the experimental results

4 結束語

本文根據化妝品安全監管部門的現實需要,提出了面向化妝品安全的字詞雙維度違法違規行為語義分類模型。模型使用字、詞兩個嵌入級別的特征表示,并結合位置感知注意力機制,以實現自動判別抽樣檢測數據中的違法違規行為。實驗表明,本文模型表現出了良好的特征提取和分類性能,相較于實驗中幾種常用的神經網絡模型取得了更好的結果。

未來的工作將繼續優化網絡結構、尋找更優的參數設置和提升模型訓練效率,以期實現對現有模型的進一步優化與改進。

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲精品国偷自产在线91正片| 色婷婷亚洲综合五月| 国产午夜精品一区二区三区软件| 三级毛片在线播放| 国产哺乳奶水91在线播放| 亚洲天堂.com| 国产微拍精品| 蜜臀AV在线播放| 成·人免费午夜无码视频在线观看| 色综合天天娱乐综合网| 欧美区一区二区三| 精品久久国产综合精麻豆| 亚洲香蕉久久| 最新国产麻豆aⅴ精品无| 亚洲精选无码久久久| 亚洲无码视频喷水| 久久激情影院| 最新国产精品鲁鲁免费视频| 国产成人福利在线视老湿机| 久久久久久久久18禁秘| 亚洲日本中文字幕乱码中文| 午夜日b视频| 性欧美在线| 欧洲成人在线观看| 国产精品白浆在线播放| 亚洲色图欧美激情| 亚洲色无码专线精品观看| 国产成人高清精品免费软件| 欧美性久久久久| 国产h视频免费观看| 亚洲精品视频免费| 亚洲天堂视频在线观看免费| 青青草原国产精品啪啪视频| 国产成人精品2021欧美日韩| 在线观看国产精品日本不卡网| 国产一级视频在线观看网站| 亚洲中文无码av永久伊人| 国产自无码视频在线观看| 国产理论精品| 国产成人精品亚洲77美色| 国产喷水视频| 国产打屁股免费区网站| 国产极品粉嫩小泬免费看| 高清不卡毛片| 亚洲成aⅴ人在线观看| 国产精品福利一区二区久久| 中文字幕无线码一区| 亚洲婷婷在线视频| 精品丝袜美腿国产一区| 四虎亚洲国产成人久久精品| 日韩资源站| 国产精品成人一区二区| 四虎在线高清无码| 黄色免费在线网址| 毛片免费在线| 欧美亚洲另类在线观看| 26uuu国产精品视频| 亚洲日本一本dvd高清| 国产视频久久久久| 日韩黄色大片免费看| …亚洲 欧洲 另类 春色| 亚洲国产高清精品线久久| 伊人欧美在线| 久久综合国产乱子免费| 国产新AV天堂| 国产精品久久久久鬼色| 欧美国产综合色视频| 亚洲天堂久久久| 久久国产精品电影| 亚洲二三区| 久久人妻xunleige无码| 一本大道香蕉中文日本不卡高清二区| 欧美无遮挡国产欧美另类| 国产精品深爱在线| 日韩国产 在线| 日韩av在线直播| 国产成+人+综合+亚洲欧美| 国产欧美日韩在线一区| 久久久久久尹人网香蕉| 99一级毛片| 国产1区2区在线观看| 国产成本人片免费a∨短片|