999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于在線評論文本挖掘技術的電子煙市場消費熱點分析

2019-12-28 03:30:44金吉瓊鄭賽晶
煙草科技 2019年12期
關鍵詞:消費者文本產品

金吉瓊,劉 鴻,鄭賽晶

1. 上海牡丹香精香料有限公司技術中心,上海市浦東新區孫橋路1067 號 201210

2. 上海煙草集團有限責任公司技術中心,上海市楊浦區長陽路717 號 200082

3. 上海新型煙草制品研究院,上海市虹口區大連路789 號 200082

隨著互聯網技術的蓬勃發展,人類社會已進入信息傳播率高速迭代的大數據時代[1],網絡購物已逐漸成為人們生活消費的主導方式之一[2-3]。消費者在網購商品時,往往通過在線評論功能發表產品使用體驗和產品價格等多維度產品感知類文本、圖片及視頻信息,累積的海量信息可為后續消費者購買決策提供有價值的參考意見。互聯網產生的90%信息由非結構化數據構成,其中文本數據是非結構化數據的主要來源。近年來,通過文本挖掘技術將難以量化的大規模文本數據整合轉換為結構化數據,并抽取有價值的情報信息已廣泛應用于商業、醫療和金融等領域[4-9]。Liang等[5]使用機器學習的自然語言處理和深度學習技術從大規模電子健康記錄(EHR)數據中提取臨床相關信息,并形成基于AI 的診斷評估系統以提供臨床決策支持。Preis 等[6]利用海量財經搜索文本內容和搜索頻率建立股票市場波動性預警信號的判別模式。Jun 等[7-9]根據Google Trends 中提供的海量搜索信息研究分析客戶對科技類產品的接受度和購買偏好,為企業推出迎合消費市場的新產品提供設計研發思路。但由于煙草行業經營模式和卷煙產品的特殊性,利用互聯網大數據洞察消費者對于卷煙產品的潛在需求,分析卷煙市場消費趨勢和消費行為的研究則鮮有報道。特別是電子煙制造企業大多以消費者調研或邀請行業內專家品鑒抽吸的方式,獲取電子煙新產品的感官體驗和消費需求信息,具有專業性強、信息反饋及時等特點,但也存在采集樣本數量小、成本高、調研結果代表性差和主觀性強等缺陷,而基于互聯網海量數據挖掘電子煙市場消費趨勢可有效彌補傳統方式的不足。

電子煙(Electronic cigarette,E-cig)作為一種新型煙草制品,因顯著降低有害物質釋放、產品設計時尚以及口味選擇多樣等特點,已快速成為全球卷煙市場中替代傳統卷煙的主流產品之一[10-12]。統計顯示,2018 年全球電子煙市場產值達160 億美元,相比2010 年增長近20 倍。近年來,天貓、京東等大型電商平臺上都累積了大量消費者對電子煙產品的使用評論,知乎、微博等社交網絡中也蘊含著大量消費群體抽吸體驗各類產品的話題內容。為此,通過爬蟲軟件采集京東電商平臺、新浪微博和知乎社交網絡中消費者對電子煙產品的評論文本數據,利用文本挖掘技術探索消費者對電子煙產品特性的關注熱度和評論熱點內容,并識別消費者評論中潛在的隱含主題,以期剖析國內電子煙產品市場熱點和消費者購買電子煙產品的消費行為,捕捉消費者對電子煙產品的潛在購買需求,為煙草企業研發設計和優化電子煙產品提供參考依據。

1 研究方法

1.1 數據樣本獲取

選取國內銷量較高、口碑較好的6 個電子煙品牌(A~F)共14 種電子煙產品為研究對象。根據電池功率、電池容量、氣溶膠霧化量和產品結構不同,電子煙產品可劃分為小煙和大煙兩種類型,煙液添加以更換預配煙彈和手動注液兩種方式為主。本研究中考察的14種電子煙的產品特性基本涵蓋了目前市售電子煙的主要產品類型和煙彈類型。

使用爬蟲軟件采集2018 年1 月至2019 年3 月期間,京東電商網站、新浪微博和知乎社交平臺中關于上述產品的在線評論和話題內容為文本數據樣本。表1 為爬取的各品牌電子煙產品信息和經去重處理后的各種產品有效評論數量,適用于后續文本挖掘的產品在線評論數量共13 981 條。

表1 新型煙草產品信息及網絡評論數量Tab.1 Information and online comment amount of new tobacco products

1.2 文本數據預處理

未經處理的文本中通常包含大量重復性評論、無語義評論,例如數字、字母和網絡語義的特殊字符,以及“該用戶未填寫評論”或“默認好評”等類似網站自動生成的評論文本以及字符長度小于2 的極短評論,這類評論內容傳遞的信息量少,且增加文本分析的復雜度,容易造成高稀疏性文本模型,在預處理過程中需將其清洗過濾去除。

初步預處理的評論文本根據《哈工大停用詞詞庫》和自建煙草類專有名詞詞典,使用jiebaR 分詞工具去除評論文本中停用詞、識別煙草類專有詞項,并逐條分詞解析評論文本,形成由多個詞項構成的字符串集合。分詞處理后的部分評論見表2。

表2 評論文本的分詞處理結果Tab.2 Results of comment texts segmented by words

1.3 文本數據特征抽取

在線評論是由自然語言構成的文檔數據集合,每個文檔由若干詞項以一定語義邏輯組合而成。根據詞項在文中出現的頻率及其表達的特定主題,采用向量空間模型(Vector Space Model,VSM)對海量文本建立文本特征模型,使文本轉化為可量化表征的結構化數據進行特征挖掘。

VSM 基本原理是評論文檔Di能夠表示為Di=D(t1,wi1;t2,wi2;...;tm,wim)的文檔集合,其中(t1,t2,...,tm)為一個m 維互異詞項集合,(wi1,wi2,...,wim)為對應m 維詞項在文檔中的權重,即在文檔Di中的重要程度,wij一般定義為在文檔Di(i=1,2,3,…,n)中詞項tj(j=1,2,3,…,m)出現頻率(Term Frequency, TF)的函數tf(dij),本文中構建的文本特征模型見表3。

表3 文本向量空間模型Tab.3 Text vector space model

VSM 以詞項在文檔中權重系數wij構建的m×n維文檔-詞項矩陣(Document Term Matrix,DTM)集合了評論文本中的所有詞項,導致DTM 通常具有高稀疏性和數據冗余性。因此,需采用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法對DTM 提取文本特征。

TF-IDF 是Salton 等[13]提出的單詞權重統計方法。其中,TF 為詞頻,指某一給定詞項在該文件中出現的次數;IDF 為逆文檔頻率,指含有該詞項的文檔數在總文檔中所占比例取逆后的對數值,表征該詞項區分文檔的能力。當詞項在一篇文檔中出現頻率越高,同時在其他文檔中出現次數越少,表明該詞項對該篇文檔的區分能力越強,其權重TF-IDF 值則越大。TF-IDF 計算公式為:

式中:tfi為詞項i 在文檔中出現頻率;dfi為出現詞項i 的文檔數;N 為總文檔數。

1.4 文檔主題模型

文檔主題模型(Topic Model)是挖掘大規模文檔集或語料庫中隱藏的潛在主題的一種無監督機器學習統計模型,在電商推薦系統、社交網絡話題識別和新聞信息主題聚類等自然語言處理領域中應用廣泛[14]。隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型是近年來主流的概率主題模型[15],其原理是基于詞袋模型,認為文檔d與文檔中詞語W 之間存在中間層主題Z,且文檔是主題的概率分布,主題又是詞的概率分布,由此可將高維度的文檔-詞項向量空間模型映射為低維度的文檔-主題和主題-詞項空間,進而挖掘文檔中潛在蘊含的若干主題。文檔的層級關系見圖1。

圖1 主題模型的文檔結構Fig.1 Document structure of topic model

文檔的矩陣轉換關系見圖2。其中,矩陣C 表示文檔中的詞語概率分布,矩陣Φ表示主題下的詞語概率分布,矩陣θ表示文檔下的主題概率分布,而分析主題模型的目的在于通過解析文檔C得到矩陣Φ和矩陣θ。

圖2 主題模型的矩陣轉換關系Fig.2 Matrix transformation of topic models

綜上所述,本文中基于電子煙在線評論對國內電子煙市場熱點的研究主要分為評論文本爬取、文本預處理、文本特征抽取和特征挖掘建模4個步驟,具體分析流程框架見圖3。所有文本處理和挖掘分析均以R 代碼實現。

圖3 消費者評論文本挖掘分析流程Fig.3 Flowchart of text mining and analysis of consumers’comments

2 結果與討論

2.1 電子煙產品特性熱度分析

電子煙主要由電池桿、霧化芯和煙彈3 個部件組成。電池桿中電池性能和功率大小決定了電子煙抽吸口數和氣溶膠霧化量水平,霧化芯對電子煙氣溶膠霧化效率具有重要影響,消費者通過抽吸電子煙煙彈中煙液獲得感官愉悅性。電子煙的3 個部件相互作用構成產品特性,直接或間接地影響著消費者的抽吸體驗。但消費者對不同產品特性的關注程度并非完全一致,即每類產品特性對消費者購買決策的貢獻度等級存在差異。因此,基于產品特性的熱度分析可有效挖掘消費者購買電子煙產品時的關注熱點,為產品設計和研發優化提供思路。

本研究文中對6 個品牌共14 種電子煙產品的所有評論文本進行分詞解析并標注詞性,提取出與電子煙產品特性相關的名詞詞項,結果見表4。可見,消費者評論文本中共涉及8 類產品特性相關詞項,分別為煙液、煙彈、霧化芯、電池、外觀設計、口感、價格和整體質量。

表4 電子煙產品特性相關詞項Tab.4 Features and related terms of e-cigs

產品特性在評論文本中的出現頻率能集中反映消費者對該類特性的關注程度,兩者間呈顯著正相關關系,即產品特性的相關詞項出現頻率越高,表明消費者在購買電子煙時越注重該類產品特性的性能表現,也是決定消費者是否購買產品的首要參考因素。基于6 個品牌電子煙產品評論數據繪制的產品特性熱力圖見圖4,圖中產品特性-品牌對應區塊顏色深淺用于表征產品特性在評論中出現的頻率百分比高低,當產品特性的關注度越高,則該特性熱度越高,顏色顯著加深。

圖4 各品牌產品特性關注度熱力圖Fig.4 Heatmap of concerned features for all brands

由圖4 可知,消費者對A~F 這6 個品牌電子煙產品特性的關注規律基本一致,8 個產品特性關注度由高至低依次為:抽吸口感>整體質量>煙液>外觀設計>煙彈>霧化芯>價格>電池性能。由此表明,電子煙抽吸口感、整體質量和煙液是消費者反饋熱度最高的3 類產品特性,是影響消費者購買決策的主要因素,而對于電子煙產品價格和電池性能,消費者的敏感度則相對較弱。

2.2 消費者評論關鍵詞分析

消費者評論關鍵詞導向與產品品牌和產品類型兩個維度密切相關。基于產品品牌的消費者評論關鍵詞分析,能夠清晰地了解消費者對不同品牌產品的關注點,有利于捕捉消費者對電子煙主要產品特性的共性需求;基于電子煙產品類型分析,例如以電池功率大小和煙液添加方式分類的消費者評論關鍵詞等,可以深入挖掘消費者對不同類型產品的差異性需求。

本文中基于產品品牌和產品類型兩個視角維度分析消費者評論的關鍵詞項。通過TF-IDF 算法提取出大規模評論文本中關鍵詞,并以詞云可視化方式展現評論中TF-IDF 值最高的前50 項特征關鍵詞,A~F 品牌電子煙產品的消費者評論文本詞云圖由R 語言wordcloud2 包繪制,見圖5。可見,消費者評論中“感覺”“口味”“口感”和“味道”等表示抽吸口感的關鍵詞詞項權重較高。其中,“舒服”“真煙”“薄荷”“綠豆”“水果”和“藍莓”等關鍵詞,表明電子煙抽吸口感的舒適性以及與傳統卷煙口味的相似程度是消費者對抽吸口感的主要評價內容。在眾多電子煙煙液選擇中,消費者對煙草本香、薄荷和水果香型的煙液具有明顯購買偏好。特征詞“質量”出現在6 個品牌電子煙詞云圖中,說明消費者對電子煙產品整體質量的關注度也較高,其主要基于電子煙在抽吸過程中各零部件運行的穩定性和安全性,以及產品外觀、包裝、設計和價格等方面的綜合評價。與產品特性熱度分析結果一致,“煙彈”和“煙液”是兩項較受關注的產品特性,與之相關的特征詞如“漏油”和“煙霧”表明煙彈抽吸時產生的煙霧量大小,以及電子煙是否存在煙液漏油和炸油等安全隱患是消費者的關注重點,可能對購買決策產生影響。此外,各品牌電子煙產品評論中,反映消費者情感傾向的特征詞也具有較高TF-IDF 值,例如“喜歡”“滿意”“好評”和“很好”等正面情感特征詞,其數量及權重顯著高于負面情感詞項,表明消費者對電子煙產品的接受度較高,體驗感受總體呈正面性。

圖5 不同電子煙品牌消費者評論詞云圖Fig.5 Wordcloud graphs of consumers’comments on e-cigs of different brands

市場中主流電子煙產品根據電池功率大小可分為小煙型和大煙型產品,小煙型產品電池功率一般低于30 W,多以更換預配煙彈方式添加煙液或為一次性煙支,而大煙型產品電池功率范圍為30~220 W,多以手動注油方式添加煙液。根據大小煙型將A~F 品牌電子煙產品分類,進一步挖掘消費者對不同類型電子煙產品的關注熱點,詞云圖見圖6。可見,兩類產品評論中TF-IDF 值較高的詞項基本一致,以產品口味、消費者情感傾向和產品質量詞項為主。但大煙型產品評論中表征電子煙霧化效果的詞項,例如“煙霧量”“煙霧大”“煙量”“功率”和“很大”等關鍵詞的出現頻率和詞項權重顯著高于小煙型產品,表明大煙型產品消費群體對產品儲油量、電池容量以及霧化芯功率等配件參數較為關注。而小煙型產品評論中,“口感”“口味”和“味道”等關鍵詞出現密度較高,表明小煙型產品消費者更強調抽吸口感的滿意度。此外,煙液“漏油”在兩類產品評論中均有提及,但基于評論內容的統計結果,大煙型產品出現漏油現象的概率高于小煙型產品,表明大煙型產品的安全性和體驗舒適性可能低于小煙型產品。

圖6 不同類型產品消費者評論詞云圖Fig.6 Wordcloud graphs of consumers’comments on e-cigs of different sizes

2.3 電子煙產品評論主題識別

基于信息論的觀點,消費者購買決策的形成是一個多層次的信息處理過程[16]。產品特征的關注熱點是基于產品層面的單一維度信息,而獲得消費者購買產品過程中與消費行為相關的多維度信息,例如潛在消費需求、消費心理、消費偏好以及影響產品滿意度因素等,對刻畫電子煙產品消費者用戶畫像具有實際意義。在海量評論文本中,消費者表達的語義內容通常復雜多樣,每條評論中呈現的主題內容也并非十分明確,通過人為瀏覽逐條評論難以實現大規模數據的集成處理。為此,通過文本挖掘技術采用LDA 主題建模提煉海量文本中潛在的主題內容,可有效剖析消費者購買電子煙產品的消費行為信息。基于14 種電子煙產品的評論文本數據建立LDA 主題模型,當最大似然系數值確定主題數k 為6 時,解析產生詞項-主題矩陣φ中前10 個詞項分布及對應概率,結果見圖7。

圖7 6 類主題中前10 個詞項及概率分布Fig.7 Probability distribution plot of top 10 terms in each topic

由圖7 可知,消費者評論文本的6 個分類主題中,主題1 中概率分布前3 的特征詞項為“物流”“京東”和“很快”,表明該主題以消費者對電商物流和服務評價為主;主題2 中出現“口味”“味道”和“感覺”等主題特征詞與電子煙煙彈口味相關,且“薄荷”“水果”和“煙草”3 種口味的概率分布顯著高于其他口味,說明消費者對這3 種口味煙液具有一定購買偏好;主題3 和主題4 均出現與消費者情緒相關的特征詞項,主題3 中“漏油”“充電”“客服”和“不好”等詞項與消費者負面情緒相關,說明電子煙煙液漏油、電池充電及耗電異常是電子煙生產中亟待解決的問題,直接影響消費者對產品滿意度評價;主題4 中“滿意”“不錯”和“精致”等詞項體現了消費者正面積極情緒,表明大部分消費者對電子煙的“口感”“包裝”“煙霧量”和“做工”等方面感到滿意;主題5 中“戒煙”“真煙”“抽煙”和“戒掉”等詞項概率分布較高,揭示了消費者購買電子煙更強調抽吸口感以及感官滿足度是否與傳統卷煙一致,且多以尋求替代傳統卷煙達到戒煙效果為目的的潛在消費需求;主題6 中獲取的特征詞體現了電子煙產品的主要消費人群,除傳統卷煙吸煙人群外,可能有部分女性或吸煙者家人基于戒煙或健康因素為家人購買電子煙,且多數消費者會以朋友或產品口碑推薦選擇購買電子煙產品。

LDA 主題模型中不同主題特征詞項與消費行為關聯網絡圖及各類主題在評論文本中所占比例,見圖8 和圖9。可見,LDA 主題建模分類識別的6 個主題分別涵蓋了消費者對電子煙產品的購買偏好(主題2)、消費者潛在消費需求(主題4)、電子煙產品主要消費群體(主題6)和影響電子煙產品滿意度主要因素(主題1、主題3 和主題5)的相關信息。在所有評論文本中,近50%的評論內容與產品滿意度有關,其他3 類消費行為相關評論數量比例基本一致,為15.15%~16.67%。

圖8 LDA 主題模型中消費行為剖析網絡圖Fig.8 Network graph of consumers’behaviors profiled from LDA topic models

圖9 各類主題在評論文本中的比例Fig.9 Proportion of each topic in comment texts

3 結論

基于電商平臺和社交網絡中采集的6 個品牌共14 種電子煙產品消費者在線評論文本數據,采用文本挖掘技術研究消費者對電子煙不同產品特性的關注熱度以及主要產品特性的重點關注內容,并使用LDA 主題模型挖掘潛在評論主題以剖析消費者的消費行為。結果表明:①消費者對8類產品特性的關注熱度依次為:抽吸口感>整體質量>煙液>外觀設計>煙彈>霧化芯>價格>電池性能,電子煙抽吸口感、整體質量和煙液是消費者反饋熱度最高的3 項產品特性。②消費者評論關鍵詞挖掘結果表明,以產品品牌維度分析,電子煙口感舒適性、與傳統卷煙口味相似性、產品使用穩定性和安全性、電子煙煙液漏油及霧化芯霧化量是消費者對關鍵產品特性的普遍評論內容;以產品類型維度分析,大煙型產品消費者的關注重點是產品霧化性能,例如儲油量、電池功率及電容量等參數,而小煙型產品消費者更強調電子煙抽吸口感的優劣,表明不同類型電子煙產品的消費群體關注點具有一定差異。③LDA 主題模型能夠有效識別消費者評論中6 類潛在主題,揭示了消費者對電子煙產品口味的購買偏好(煙草、薄荷和水果香型)、潛在購買需求(以戒煙為目的)、電子煙產品消費群體(部分女性消費者、傳統卷煙消費者及其家人)和影響產品滿意度因素(電商服務、煙液漏油、電池質量、外觀設計等)的多維度消費行為信息。

猜你喜歡
消費者文本產品
消費者網上購物六注意
今日農業(2020年20期)2020-12-15 15:53:19
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
知識付費消費者
悄悄偷走消費者的創意
悄悄偷走消費者的創意
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
2015產品LOOKBOOK直擊
Coco薇(2015年1期)2015-08-13 02:23:50
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
新產品
玩具(2009年10期)2009-11-04 02:33:14
主站蜘蛛池模板: 日韩欧美在线观看| 午夜欧美在线| 日本不卡在线视频| 国产激情无码一区二区三区免费| 欧美成人精品一级在线观看| 久草网视频在线| 毛片在线看网站| 91精品国产综合久久香蕉922| 国产精品hd在线播放| 国产精品久久久久鬼色| 国产精品xxx| 日本欧美精品| 亚洲自偷自拍另类小说| 大陆精大陆国产国语精品1024| 日本精品αv中文字幕| 日本不卡视频在线| 国产一二三区在线| 任我操在线视频| 欧美不卡视频一区发布| 国产一级片网址| 99视频在线看| 久久精品亚洲热综合一区二区| 亚洲成年人片| 青青青亚洲精品国产| 一本大道香蕉高清久久| 精品一区二区三区无码视频无码| 亚洲一区波多野结衣二区三区| 国产 在线视频无码| 波多野结衣第一页| 国产精品久久久久久影院| 亚洲国产高清精品线久久| 亚洲国产欧洲精品路线久久| 国产高颜值露脸在线观看| 亚洲精品无码高潮喷水A| 国产精品永久久久久| igao国产精品| 人妖无码第一页| 永久在线精品免费视频观看| 亚洲综合激情另类专区| 美女一区二区在线观看| 伊人久久婷婷| 国产亚洲欧美在线人成aaaa| 亚洲中文字幕精品| 亚洲精品国产乱码不卡| 一区二区午夜| 欧美日韩免费| 一区二区午夜| 香蕉久人久人青草青草| 国产主播在线一区| 成人亚洲视频| 久久亚洲中文字幕精品一区 | www.狠狠| 亚洲第一页在线观看| 欧美日本在线| 色精品视频| 国产在线一二三区| 欧美日韩国产精品va| 欧美亚洲一区二区三区导航| 日韩一级二级三级| 欧美爱爱网| 久久久久久午夜精品| 日本免费精品| 最新国产午夜精品视频成人| 国产9191精品免费观看| 免费日韩在线视频| 国外欧美一区另类中文字幕| 九色综合视频网| 欧美a级在线| 不卡网亚洲无码| 一级毛片基地| 色网在线视频| 国产理论精品| 亚洲无码高清一区二区| 亚洲综合天堂网| 国产成人精品一区二区不卡| 亚洲成人网在线观看| 四虎影视无码永久免费观看| 在线高清亚洲精品二区| 青青青亚洲精品国产| 亚洲av无码久久无遮挡| 国产美女免费| 国产在线视频欧美亚综合|