汪顯國 李思源 李思典 林鴻佳 楊晶津 劉丹 許磊



[摘 要]為了維護卷煙產品質量和把握消費者關注熱點,通過在線問卷調查獲取消費者抽吸感知評價數據,并從消費者滿意度、評論熱度和文本特征提取等方面開展競品對比分析,實現了新的競品篩選及其特征提取方式。研究表明:①通過客觀評分得出卷煙A在外觀整體、吸味整體和產品綜合上的滿意度遠高于其他競品;②文本挖掘得出消費者關注的競品與專家篩選的競品存在差異,且其產品優勢集中表現為“口感”“價格”“吸味”等。該分析方法可有效動態監測消費者偏好和市場消費趨勢,為卷煙工業企業改進產品質量提供支持。
[關鍵詞]在線問卷調查;競品評價;文本挖掘;TF-IDF算法;詞云圖
[DOI]10.13939/j.cnki.zgsc.2021.25.133
1 前言
卷煙產品質量與卷煙企業的信譽、消費者的體驗、企業的生存發展息息相關。當前,以市場為導向,在滿足不同消費者需求的前提下培育高質量的卷煙品牌已經成為行業企業發展的共識。因此,獲取消費者的消費評價和需求信息對卷煙工業企業維護產品質量而言顯得尤為重要。隨著互聯網的迅速發展,各種網絡平臺為企業提供與消費者溝通的便利渠道。利用網絡平臺形成的在線問卷調查成了獲取卷煙消費評價的有效途徑,同時彌補了由評吸員評價的傳統方式中存在的樣本少、成本高、主觀性不強等不足。在所收集的問卷數據中,通常會存在消費者對產品的主觀評價,以文本數據的形式呈現,反映了消費者的真實體驗和使用心得,蘊含了極其豐富的信息。采用文本分析方法挖掘文本數據的隱含信息,可以幫助企業了解消費者的真實需求,具有重要的現實意義[1]。
文本挖掘分析,又稱為意見挖掘,是利用自然語言處理技術、數據挖掘算法等對帶有情感色彩的主觀性文本進行預處理、歸納和推理的過程[2]。近些年來,運用文本挖掘技術將難以量化的文本數據進行清洗、整合、轉換為結構化數據,并提取有價值的信息已廣泛應用于商業[3]、旅游[4]和金融[5]等領域。然而,對于問卷調查中消費者主觀評價文本的研究卻鮮見報道。因此,文章基于在線問卷調查采集而來的競品評價文本,利用文本挖掘技術探索消費者對卷煙產品的關注熱點,剖析國內市場卷煙的熱銷品及其產品優勢,捕捉消費者對產品質量的需求,為卷煙工業企業改進卷煙產品質量提供參考。
2 研究方法
2.1 在線問卷調查
為了深入了解消費者評價卷煙抽吸感知的關鍵要素,通過營銷渠道邀請全國31個省市消費者參與卷煙A及競品的評吸、評價活動,并進行在線問卷調查。問卷由結構化客觀題和非結構化主觀題組成,分為人口學特征、抽吸評價和競品對比及質量改進三部分。人口學特征包括性別、年齡、煙齡、消費水平4個問題,抽吸評價包括香氣濃度、香氣類型、一致性、抽吸感受等8個問題,競品對比及質量改進的指標評價、主觀評價等3個問題。其中,第三部分除了客觀評分以外,還設置主觀評價的問題。例如“您認為在15~20元/包的常規支產品中,還有哪款產品抽吸體驗更好或在當地更暢銷,該產品主要好在哪些方面?”該部分構成了問卷調查中競品評價的文本數據。
2.2 文本挖掘方法
2.2.1 中文分詞
在進行文本數據分析前,需要對文本進行分詞處理。中文分詞就是將一段話切割成有字和詞或短語的小片段,是文本挖掘、特征提取的基礎[6]。在自然語言分類中,中文原本起步就比國外晚了很多年,在分詞的技術上更是借鑒國外的方法。目前,常用的中文分詞算法有:基于詞典的分詞方法、基于語義的分詞方法及基于統計的分詞方法等。其中,基于詞典的分詞方法是選定的字或詞構成字符串,與字典里的字符串進行匹配[6]。假設需識別文本中的字符串Z,若詞典中存在字符串Z,則可匹配成功。該方法效率高但是對新詞的識別能力不足,需經常更新詞典[7];基于語義的分詞方法是根據中文的句法以及語義來劃分句子,從而達到分詞的目的。這種方法需要前期做大量的準備工作,需要對幾乎所有的語料、語義、語法進行標注,甚至還需要考慮中文語義里的反諷、反語以及正詞反義等一系列的特殊語義;基于統計的分詞方法是根據同時出現的相鄰兩個字的頻率來進行分詞,可以不受待處理文本領域的限制自動排除歧義并識別相應的詞語[7]。
以上3種中文分詞方法各有優缺點,文章采用基于詞典的分詞方法對文本進行分詞,并調用R軟件的jiebaR安裝包來實現。jiebaR包擁有自己的系統詞典,且詞匯量相當豐富,結合自建的煙草專有名詞詞典,共同形成本文文本分析的分詞詞典。
2.2.2 文本數據清洗
首先,原始文本數據會包含大量重復性、無語義的評論,例如數字、字母以及特殊字符,或者包含例如“沒有”“好”字符很小的極短評論,此類評論內容蘊含的信息量很少,會增加文本分析的復雜度,需將其清除過濾。
其次,對文本分詞處理后會出大量的停用詞。停用詞是指在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop-Words。對于停用詞的去除,即可采用現有的停用詞詞典,也可以根據需要自建停用詞典。
最后,文本中使用頻率不高的非停用詞往往對文本特征的提取也沒有價值,故對這類詞也需要進行清除,即可根據詞語的長度或出現的頻數進行過濾處理。
2.2.3 文本特征提取
特征提取本質上是一種降維的技術,目的是從樣本所有的特征中篩選出具有區分性和代表性的特征,從而提高模型或方法的分類性能[8]。特征提取一般先構建特征選取函數,計算所有特征的權重,然后篩選出權重大的特征作為關鍵特征。文本特征提取時常用的方法有文檔頻數[9](Document Frequency,DF)、信息增益[10-11](Information Gain,IG)、互信息[10,12-13](Mutual Information,MI)、x2統計法[10,12](CHI)等。通過比較,文章采用的方法是TF-IDF算法[14],TF-IDF實際上是TF與IDF的乘積。TF代表詞頻(Term Frequency),指詞或短語在一篇文檔中出現的頻數;IDF代表逆向文件頻率(Inverse Document Frequency),指含有詞或短語的文檔數在總文檔中所占比例取逆后的對數值,表征該詞項區分文檔的能力。當某個詞或短語在一篇文檔中出現的頻率越高并且在其他文檔中出現的次數越少,說明該詞或短語的區分能力越強,其TF-IDF值越大。計算公式如下: