999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合BiLSTM 和注意力機制的卷煙消費者評價情感分類方法

2022-12-20 05:58:42鄭新章宗國浩王永勝馮偉華
煙草科技 2022年11期
關鍵詞:分類消費者文本

王 銳,鄭新章,宗國浩,王 迪,王永勝,賈 楠,胡 斌,馮偉華

中國煙草總公司鄭州煙草研究院,鄭州高新技術產業開發區楓楊街2 號 450001

情感分類是對帶有感情色彩的文本進行分析、推理的過程,通過分析人的情感傾向可幫助用戶準確定位所需信息。隨著互聯網和移動通信技術的快速發展,通過獲取用戶評論數據并對其情感傾向進行挖掘和分析,對于開展經濟活動預測、輿情監控等研究具有重要意義。何炎祥等[1]利用深度學習模型研究了中文微博的情感分類。林明明等[2]結合HowNet 方法和Google 相似距離方法對消費數據情感分類進行了分析。劉一伊等[3]提出了基于詞嵌入與記憶網絡的情感分類算法。劉定一等[4]建立了融合微博熱點分析和長短期記憶神經網絡的輿情預測方法。近年來煙草行業也開展了較多卷煙消費者評價的情感分類研究,幫助煙草工商企業精準感知消費者的需求,對產品規格進行有效整合。蔡波等[5]將消費者評價中的感官描述詞與中式卷煙消費體驗感官評價指標詞相匹配,驗證了中式卷煙消費體驗感官評價指標的實用性和適用性,并得到消費者較為關注的感官評價指標;楊春曉等[6]通過人工篩選出卷煙在線評論中的常用情感詞匯,構建了卷煙在線評論情感詞典,并建立了卷煙評價文本情感分析模型,以考察卷煙在線評論中的情感表達;蘇凱等[7]利用統計學方法和關聯規則挖掘算法,分析了消費者對斗煙的產品品牌、香味類型、配方類型及配方組成的偏好性。由于缺少帶標注的消費者評價數據集,上述研究普遍采用基于詞典和規則的無監督學習方法構建模型,難以量化評價情感分析結果的準確性。此外,由于中文語法復雜且表達方法的多樣性,依靠人工構建的情感詞典進行情感詞匹配,存在無法識別領域新詞、難以顧及上下文語義關系等問題,特別是在句子結構復雜、無情感詞出現等情況下,無法有效識別情感傾向。而采用復雜機器學習或深度學習方法,通過深層次的特征學習可以提高情感分析的準確性。雙向長短期記憶神經網絡(Bi-directional Long Short-Term Memory,BiLSTM)采用雙向門函數解決長距離依賴問題,適用于對包含時序信息的數據建模,在圖像識別[8]、新詞發現[9]、文本分類[10]等方面應用效果良好。而注意力機制[11]可以使模型更加關注關鍵特征,已廣泛應用于圖像分類[11]、機器翻譯[12]等領域。為此,通過構建有標注的消費者評價數據集,基于BiLSTM和注意力機制建立卷煙消費者評價情感分類模型,旨在準確分析消費者對卷煙產品的情感傾向,為卷煙產品研發和精準營銷提供支持。

1 數據與方法

1.1 數據集構建

使用Python的BeautifulSoup庫采集并解析了煙悅網、中國香煙網等平臺上2 066 個國內卷煙品牌規格2006—2021 年的消費者評價數據,共114 214條。運用正則表達式匹配、字符串匹配等方法去除廣告、重復評論、網頁標簽以及只包含數字或特殊字符等無效數據,通過大小寫轉換、簡繁體轉換、數字歸一化等方法完成數據清洗,并按正向、中性、負向3 種情感傾向對評價數據進行人工標注,構建了包含78 226 條數據的卷煙消費者評價數據集,將數據集按4∶1 的比例隨機劃分為訓練集和測試集。各情感類別的樣本數量分布見表1。

表1 各情感類別的樣本數量分布Tab.1 Sample quantity distribution of each emotion category

1.2 煙草領域專有詞匯提取

由于中文語境下詞與詞之間無明顯邊界,因此如何分詞對文本分析的準確性影響較大,通用分詞工具應用于特定領域往往因缺少領域未登錄詞而難以取得理想效果[13-15]。因不同地區、不同消費者群體對同一種卷煙產品有不同的稱呼,卷煙消費者評價中存在大量煙草領域約定俗成的短語,如產品名、產品別名、抽吸感受等。本研究中綜合考慮了詞的內部聚合程度以及所處語境的豐富程度,利用詞頻、點間互信息(Pointwise Mutual Information,PMI)[16]和左右信息熵提取煙草領域的專有詞匯,建立分詞補充詞典,以提高文本分詞的準確性。點間互信息體現了詞與詞之間的相互依賴程度,PMI值越高,詞與詞之間的相關性越高,共同組成短語的可能性越大。PMI計算公式為:

式中:P(X)和P(Y)分別代表詞X和詞Y出現的概率;P(X,Y)代表詞X與詞Y共同出現的概率。

信息熵是衡量信息不確定程度的指標,左右信息熵代表了一個詞左右可搭配詞的多樣性,計算公式為:

式中:A為詞X的左鄰字集合;B為詞X的右鄰字集合。取左右信息熵中的較小值min(EL(X),ER(X))代表詞X的自由程度,該值越大,說明該詞周圍可搭配的詞越豐富,獨立成詞的可能性也越大。

提取語料庫中所有長度為7 位及以下的字符串作為候選詞,計算各候選詞的詞頻、點間互信息和自由程度,綜合考慮提取的時間復雜度和準確性,最終將詞頻的閾值設為4,點間互信息的閾值設為10,自由程度的閾值設為4。提取能夠同時滿足各閾值要求的候選詞作為領域專有詞匯,人工篩選出軟云、軟玉、黃芙、軟藍樓等詞語構建卷煙產品別名表,見表2。將提取出的領域專有詞匯作為分詞補充詞典,采用jieba分詞工具對消費者評價數據進行分詞。基于構建的卷煙產品別名表,統一評價數據中產品名稱的不同表述方式。

表2 部分卷煙產品別名表Tab.2 Aliases of some cigarette products

1.3 模型構建

基于雙向長短時記憶神經網絡和注意力機制構建BiLSTM-Att情感分類模型。模型由輸入層、詞嵌入層、BiLSTM 層、注意力層以及輸出層構成,架構見圖1。

圖1 情感分類模型架構圖Fig.1 Architecture diagram of emotion classification model

1.3.1 輸入層和詞嵌入層

因分詞后的文本序列長度不一致,需要對序列長度進行統一。假設文本序列最大長度為L,對低于最大長度的序列在其前方用0 補齊,以此統一輸入序列長度。根據數據集特征,將L設置為200。對于預處理后的文本序列,采用word2vec[17]的CBOW算法進行詞嵌入,將詞匯轉換成向量形式。

1.3.2 BiLSTM層

長短期記憶神經網絡(Long Short-Term Memory,LSTM)[18]是在循環神經網絡的基礎上,通過設置遺忘門、輸入門和輸出門,選擇性地遺忘過去無意義的信息,保留新的有用信息。相較于循環神經網絡,LSTM 可以更好地捕捉較長距離的依賴關系。LSTM的網絡更新規則[18]見公式(4)~(9),根據輸入數據xt和t-1 時刻記憶單元的輸出ht-1,遺忘門ft控制要丟棄的狀態信息,輸入門it控制要保留的輸入信息,通過tanh層得到候選記憶單元t;在遺忘門、輸入門的共同作用下,得到當前單元的狀態Ct;最后由輸出門ot和單元狀態Ct得到當前記憶單元的輸出ht。

式中:Wf、Wi、WC、Wo分別為遺忘門、輸入門、控制門和輸出門的權重矩陣;bf、bi、bC、bo分別為對應的偏置矩陣;σ(·)為sigmoid 激活函數;tanh 為雙曲正切函數;*為哈達瑪乘積。

LSTM可以根據之前時刻的信息預測下一時刻的輸出,但在文本數據中一個詞通常由上下文環境共同決定,特別是卷煙評價數據中存在情感詞、程度副詞、否定詞之間的交互。例如,“有蘇煙的味道。香得很!!”中“很”用于修飾情感詞“香”的程度;“之前的口糧,勁道還是可以的,現在感覺抽完嘴干得不行”中“不行”用于表達情感詞“干”的程度。BiLSTM 由正向LSTM 與反向LSTM 組合而成,可以較好地捕捉這種雙向語義。BiLSTM 的網絡結構如圖2 所示,將詞嵌入向量分別傳入正向LSTM和反向LSTM,通過拼接正向LSTM產生的隱向量與反向LSTM 產生的隱向量htR,得到句子的編碼向量ht=]。

圖2 BiLSTM網絡結構圖Fig.2 Structure of BiLSTM network

1.3.3 注意力層和輸出層

由于句子中的每個詞對評論情感的判斷貢獻不同,在BiLSTM模塊中引入注意力機制,以減少或忽略無關信息,突出評論中與情緒相關的特征,進一步提升情感分類的準確性。將BiLSTM的編碼結果h=(h1,h2,……,hn)作為注意力層的輸入,根據公式(10)和(11)計算不同特征的權重系數和注意力值[11],對輸入信息加權求和,得到目標詞的上下文特征。輸出層的激活函數采用softmax,針對三分類問題,輸出層設置3個神經元。

1.4 模型訓練

采用Python 語言編程,使用Tensorflow GPU

2.5.0 和keras 2.5.0 構建神經網絡模型,顯卡采用NVIDIA GeForce RTX 3090。使 用Gensim 中 的word2vec 訓練詞向量,訓練窗口大小為5,詞向量維度為300。通過網格搜索確定優化器Adam 的學習率為0.000 2。批樣本大小為64,采用Dropout在訓練過程中隨機忽略20%的特征檢測器,提高模型泛化性能,防止模型過擬合,損失函數為交叉熵損失函數。

1.5 模型評估

將BiLSTM-Att模型與基于情感詞典方法[19]、傳統機器學習方法(使用tfidf 構造特征的SVM[20]和使用詞向量構造特征的SVM[21])、通用文本情感分析工具(調用百度AI 開放平臺中的情感傾向分析接口)、LSTM[18]、BiLSTM 進行對比,通過優化參數使各方法達到最佳效果,并采用精確率(Precision)、召回率(Recall)和F1值評價分類結果的準確性。

2 結果與分析

2.1 統一產品名稱表述對模型的影響

統一產品名稱和未統一產品名稱的情感傾向三分類結果見表3。可見,統一產品名稱后模型的精確率、召回率和F1 值分別提高1.88、1.70、1.78 百分點,分類準確性顯著提升。

表3 統一產品名稱對模型的影響Tab.3 Influence of product alias unifying (%)

2.2 情感分類結果對比

情感傾向二分類(正向、負向)和三分類(正向、中性、負向)結果見表4。可見,與其他方法相比,BiLSTM-Att 的分類準確性均有一定提升。在二分類中,BiLSTM-Att的F1值比LSTM和BiLSTM分別提高3.20 和1.51 百分點;在三分類中,BiLSTM-Att的F1 值比LSTM 和BiLSTM 分別提高2.22 和0.71百分點,表明本研究中建立的方法具有有效性。對于較易區分的二分類問題,基于詞典方法的F1值為89.08%,優于傳統機器學習方法,接近百度AI 和LSTM,說明在有明顯區別特征情況下,通過足夠多的規則匹配可以取得較好分類效果。由于中性情感的文本處于兩極分類的邊緣地帶,區分難度大,因此在三分類問題中各方法的準確性均有下降。基于詞典方法和百度AI 的準確性下降明顯,F1 值分別為72.46%和64.08%,說明這兩種方法無法有效識別煙草領域評論的復雜情感。兩種SVM 方法中,使用tfidf提取文本特征的SVM分類準確性較高。

表4 情感傾向二分類和三分類結果對比Tab.4 Comparison of results of binary and ternary emotion classification (%)

根據情感分類結果分別繪制正向、中性、負向評價的詞云圖,見圖3。可見,卷煙消費者的關注重點是產品的口味、價格和包裝。正向評價中“喜歡”“口糧”“適合”“值得”“好看”“飽滿”等關鍵詞的出現頻率較高,負向評價中“不值”“假煙”“惡心”“不行”“垃圾”“炒作”等關鍵詞的出現頻率較高,中性評價中的情感詞相對較少。不同類別評價的關鍵詞與所表達的情感一致,再次驗證了本研究方法的有效性。

圖3 不同情感類別評價詞云圖Fig.3 Word cloud map of comments in different emotion categories

3 結論

基于2006—2021 年2 066 個卷煙品牌規格消費者評價數據,建立了融合雙向長短時記憶網絡和注意力機制的BiLSTM-Att 情感分類模型,并與基于詞典方法、傳統機器學習方法、通用文本情感分析工具、LSTM、BiLSTM 進行分類效果對比,結果表明:①BiLSTM-Att在卷煙消費者評價情感分類中具有較高準確性。二分類中,F1 值達到92.89%,比BiLSTM、LSTM和基于詞典方法分別提高1.51、3.20和3.81 百分點;三分類中,F1 值達到80.12%,比BiLSTM、LSTM和基于詞典方法分別提高0.71、2.22和7.66百分點。②在三分類中統一產品名稱可使模型的F1 值提高1.78 百分點。未來將進一步開展細粒度的情感分析研究,以更好地掌握消費者對卷煙產品口味、價格、包裝等方面的需求。

猜你喜歡
分類消費者文本
分類算一算
消費者網上購物六注意
今日農業(2020年20期)2020-12-15 15:53:19
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
知識付費消費者
悄悄偷走消費者的創意
悄悄偷走消費者的創意
主站蜘蛛池模板: 欧美国产日韩一区二区三区精品影视| 欧美三级视频在线播放| 中文天堂在线视频| 欧美午夜在线播放| 亚洲性一区| 波多野结衣亚洲一区| 亚洲午夜福利精品无码| AⅤ色综合久久天堂AV色综合| 一级片一区| 亚洲精品免费网站| www.亚洲一区| 美臀人妻中出中文字幕在线| 免费a级毛片视频| 国产va免费精品| 亚洲黄网视频| 亚洲欧洲一区二区三区| 夜夜操天天摸| 国产区精品高清在线观看| 欧美在线网| 暴力调教一区二区三区| 久久久久久高潮白浆| 亚洲欧美一区二区三区蜜芽| 18禁色诱爆乳网站| 亚洲精品手机在线| 女人18一级毛片免费观看| 免费国产高清视频| 亚洲午夜综合网| 幺女国产一级毛片| 国产呦精品一区二区三区网站| 亚洲国产成人综合精品2020 | 91午夜福利在线观看| 日本国产在线| 国产黄色免费看| 亚洲综合在线最大成人| 亚洲AV无码久久精品色欲| 日本国产精品一区久久久| 欧美视频二区| 91午夜福利在线观看精品| 日韩不卡免费视频| 国产裸舞福利在线视频合集| 一级毛片免费播放视频| 国产精品视频观看裸模| 热re99久久精品国99热| 亚洲愉拍一区二区精品| 99热精品久久| 手机在线免费不卡一区二| 成年免费在线观看| 无码粉嫩虎白一线天在线观看| 亚洲成人播放| 亚洲精品第五页| 久久永久精品免费视频| 日韩欧美国产三级| 欧美午夜久久| 国产成人狂喷潮在线观看2345| 强奷白丝美女在线观看| 成人无码一区二区三区视频在线观看 | 免费一级毛片在线播放傲雪网| 午夜高清国产拍精品| 中国精品自拍| 中文字幕1区2区| 亚洲国产成人无码AV在线影院L| 国产黄色视频综合| 亚洲国产精品成人久久综合影院| 中文字幕66页| 国产高潮流白浆视频| 国产精品久久久久久久久kt| 午夜免费视频网站| 免费视频在线2021入口| 欧美在线黄| 亚洲大尺度在线| 在线观看免费黄色网址| 黄色不卡视频| 国产成人h在线观看网站站| 色窝窝免费一区二区三区| 久久综合丝袜日本网| 日本免费福利视频| 国产精品第三页在线看| 国产美女91呻吟求| 日本欧美一二三区色视频| 午夜啪啪福利| 人妻丝袜无码视频| 一区二区三区精品视频在线观看|