高學東, 王 艾
(北京科技大學 東凌經濟管理學院,北京100083)
網絡輿情作為新媒體環境下網絡用戶對于特定社會現象所持有的不同觀點、態度、情緒和行為傾向的總和,隨著社交網絡用戶數量的激增而呈現出內容自由度高、傳播速度快、覆蓋范圍廣等特征,并在我國經濟社會的生產、生活中扮演著日益重要的角色[1,2]。
網絡輿情監測問題一直是政府相關管理部門和企業相關組織機構的研究熱點之一[3]。政府監測網絡輿情的目的是對網絡輿情進行引導或干預,避免負面網絡輿情的病毒式傳播[4,5];而企業監測網絡輿情的目的是在激烈的市場競爭中快速獲取競爭情報、擴大企業優勢[6]。
現有企業網絡輿情的研究工作主要集中于輿情的預警機制設計、傳播過程識別、危機應對策略分析等問題[7~9],而關于企業如何利用網絡輿情來豐富原有客戶關系管理內涵、并從而提升企業競爭優勢的研究較少。
本研究針對網絡輿情環境下的企業客戶關系管理問題,利用文本挖掘技術和聚類方法,實現基于企業網絡輿情的客戶滿意度預測,并根據預測結果為企業銷售戰略的制定提供決策支持。
在網絡輿情環境中,存在三個關鍵實體,即企業客戶、網絡用戶和企業網絡輿情[10]。企業客戶是指在現實社會中,購買或體驗過企業提供的產品(或服務)的真實消費者。因而,企業與客戶確立了以產品為中心的銷售關系。
網絡輿情的熱點話題深入到經濟社會生產、生活的方方面面,例如國內外政治經濟局勢、社會突發事件、文化娛樂生活等[11]。企業網絡輿情特指以企業或企業所經營的具體業務為話題的網絡輿情,如產品網絡輿情等,它能夠直接影響企業的生產經營效益。所以,企業可以通過獲取與其主營業務相關的網絡輿情,來改善經營現狀,特別是拓展與客戶互動的渠道。
社交網絡平臺由于其自身使用便捷、信息傳播速度快等優勢,是企業網絡輿情傳播的重要渠道,如微博、微信朋友圈、QQ空間等[12]。網絡用戶作為社交網絡世界的締造者和參與者,其活躍度對企業網絡輿情的傳播產生重要影響。
(1)企業客戶與網絡用戶間的關系
DONG[13]在研究移動社交網絡用戶對聯系人產品推薦信息反應意象的影響因素中,明確了企業客戶與網絡用戶的關系。實證研究表明,網絡用戶一旦建立對企業產品或服務的購買意愿,就轉化為企業客戶,且聯系人產品推薦模式對網絡用戶轉化為企業客戶起到較大的促進作用。而企業客戶一旦在社交網絡平臺上發布或瀏覽信息,就直接成為網絡用戶。所以,社交網絡平臺的發展使得企業客戶向網絡用戶的轉化速率快速提升,甚至對于銷售手機等同類電子產品的企業,客戶就是網絡用戶。
因此,企業客戶與網絡用戶具有雙向可達聯系,并且隨著網絡基礎設施的普及、社交網絡平臺的完善,聯系將會向緊密化、穩固化發展。
(2)網絡用戶與企業網絡輿情的關系
LI et al.[14]研究了面向輿情主題的微博用戶行為,明確了網絡用戶與企業網絡輿情的關系。實驗結果表明,信息傳播中的網絡用戶存在三種類型,即一般關注型、主動參與型、以及信息傳播型用戶。其中,主動參與型用戶以自身為中心,向周圍聯系人主動散播輿情信息,且用戶行為特征對輿情主題敏感。而信息傳播型用戶在企業網絡輿情傳播過程中活躍度最高,是重要輿情信息轉發、創造者,甚至是輿情領袖。所以,主動參與型和信息傳播型網絡用戶均可以通過在社交網絡平臺上對企業產品進行評論、意見反饋來營造企業網絡輿情。同時,企業網絡輿情又可以通過社交網絡平臺傳播并影響所有類型用戶。
因此,主動參與型和信息傳播型用戶與企業網絡輿情具有雙向可達關系。
綜上,大量企業客戶已經將其對于企業產品的意見主動反饋到了社交網絡平臺上,甚至參與了該產品網絡輿情的構建及傳播。這無形中開發出一條由客戶推動的意見反饋渠道,為企業獲取產品情報、實踐客戶關系管理提供了新模式。
(3)網絡用戶-企業網絡輿情關系的穩定性
GAO[15]在研究網絡輿情形成機理及信息受眾觀點測度中,進一步明確了網絡用戶與企業網絡輿情的關系。依據網絡輿情場理論,將網絡輿情場內信息受眾觀點測度分解為三個維度,即個體維度、群體維度、以及整體維度。個體維度觀測范圍為場域內每一位網絡用戶,在實踐過程中面臨信息失真、個體行為滯后等問題。群體維度觀測范圍為具有信息交互的同質網絡用戶個體群落(類),網絡用戶類往往處于明晰場域中,并具有一定的魯棒性。整體維度觀測范圍為全部網絡用戶,測度的目的由網絡用戶本身轉向網絡輿情場的極性與強度。因此,由于網絡用戶群體行為具有魯棒性特征,只有主觀參與型和信息傳播型網絡用戶類到達企業網絡輿情的單向聯系具有穩定性。
所以,本研究僅考察主觀參與型和信息傳播型網絡用戶(簡稱網絡用戶)類至企業網絡輿情的單向聯系。并且針對具有清晰話題的企業網絡輿情,網絡用戶與企業客戶在群體行為上具有等效性。
客戶滿意度作為反映企業競爭力的重要因素,企業會根據自身所處行業、以及經營的產品或服務的特征,識別客戶滿意度的影響因素,從而構建符合企業實際的客戶滿意度評價指標體系[16]。進而,依據評價指標體系得到客戶滿意度的定量化結果后,通常采用主觀設定閾值的方式,將客戶滿意度劃分為3~7個不同的等級,例如不滿意、一般、滿意等[17]。
現有客戶滿意度指標體系數據來源往往還是依靠對企業客戶展開抽樣滿意度調查的方法,例如借助客戶投訴系統、客戶滿意度調查問卷等,在現實環境中人為設置數據采集點[18]。企業不僅需要承擔較高的調研和數據統計分析成本,也無法準確掌握開展客戶滿意度分析工作的時機。
然而,由于社交網絡平臺的出現,企業客戶已經將涵蓋滿意度信息的文本評論發布到了網絡環境中,即客戶推動式意見反饋渠道,企業可以直接獲取相關評論數據,并通過文本挖掘的方式得到最終的客戶滿意度。
不同于具有清晰空格分隔的英文句法結構,中文文本因其自身復雜性,往往需要參考中文情感詞典或中文情感預料庫來實現文本情感極性分類[19,22]。現有研究中,中文文本情感分析方法日趨成熟,除文本數據外,社交網絡評論中常見的表情符號也是研究熱點之一,已有大量研究探索利用表情符號提升情感分類效果[20,21]。
相較于現實環境,網絡環境具有更高的開放度、包容度,用戶可以更加自由地在網絡平臺上進行信息交流、意見表達。所以,網絡評論文本除了能夠反映用戶對某一具體產品、服務的意見、滿意程度之外,還會流露更多個性化信息,如近期關注熱點、興趣愛好等,可以為企業制定銷售戰略提供具有較高參考價值的有利信息。
針對網絡輿情環境下的企業客戶關系管理問題,現有研究的不足主要表現為沒有將企業產品(或服務)的真實消費者與社交網絡用戶之間建立關聯,忽略了企業客戶自發建立的意見反饋網絡渠道,因而無法真正發揮企業網絡輿情在客戶關系管理中的價值。
歷史研究成果對本研究的理論支撐主要體現在:①在具有清晰主題的企業網絡輿情約束下,企業客戶與網絡用戶在群體行為上等效;②對于與企業產品或服務相關的文本評論內容,情感分析結果能夠得到網絡用戶滿意度;③文本評論內容中蘊含大量企業銷售戰略制定過程中期望參考的個性化信息。
傳統企業運營過程中,企業通過生產經營產品并銷往客戶,形成了經典的“企業-客戶”產銷業務渠道。隨著社交網絡平臺的快速發展,網絡用戶在平臺上主動對企業提供的產品進行評論、意見反饋,進而產生以產品為話題的網絡輿情。多數企業已經意識到網絡輿情的價值,并設立輿情監測部門或崗位,通過監測、獲取企業網絡輿情,嘗試挖掘競爭情報、擴大企業優勢,這同時也建立了“網絡用戶-企業”信息傳播渠道。此時,產銷業務渠道與信息傳播渠道表現為以企業為核心的單向串行結構。
然而,本研究通過第1.1節分析結果,發現企業客戶與網絡用戶在企業網絡輿情和群體測度兩個約束條件下,能夠形成行為等價關系,由此提出企業客戶推動式信息反饋模型(圖1)。企業客戶與網絡用戶的等價關系一旦建立,網絡用戶關于企業產品的態度、情緒、意見就等效于客戶的態度、情緒、意見,只是通過文本評論的方式表達出來。可見,該模型呈現為一個具有穩定性的閉環結構。
依據企業客戶推動式信息反饋模型,企業若想獲取反映企業競爭力的客戶滿意度情報,除了傳統方式進行客戶滿意度實地調查外,又增添了新的渠道,即相關文本評論的情感分析。
所以,本研究的主要任務是建立企業網絡輿情約束和群體測度約束的求解方法,以利用網絡用戶與企業用戶的等價關系來實現客戶滿意度預測。

圖1 企業客戶推動式信息反饋模型
分析企業客戶推動式信息反饋模型發現,網絡用戶與企業和客戶均具有可達關系。
企業網絡輿情約束對網絡用戶的具體要求為:①網絡用戶必須真實參與了企業網絡輿情的傳播過程;②網絡用戶的觀點、態度具有準確性,即與輿情內容相符合。群體測度約束對網絡用戶的具體要求為:①以網絡用戶群體(類)為研究對象;②網絡用戶群體(類)應具有明顯特征,以便實現銷售決策支持。
根據上述要求,確立本研究的技術路線(圖2)。首先,構建網絡用戶輿情敏感性指數來實現輿情檢驗工作,從而得到初始網絡用戶。其次,提出變尺度聚類算法,通過廣度尺度變換,完成關鍵網絡用戶識別;通過深度尺度變換,完成用戶—客戶關系建立。最后,針對不同客戶群體(類)的客戶滿意度預測結果匹配最佳銷售戰略,并結合客戶群體的特征制定銷售戰術。(具體研究方法見第3節)

圖2 研究框架
“尺”是所有可能用于觀測對象的角度、“度”是對象在尺上的所有可能取值,“尺度”共同構成了丈量事物的客觀準則。尺度是人的一種先驗知識,與其被用于觀測的對象無關。只有當尺度被用于衡量具體對象后,才會形成包含對象、屬性的數據結構,并實現數據存儲。
“尺度變換”是為滿足某種對于特定對象的觀測需求,如獲取對象特征,通過調整、選取合適的尺度來得到期望數據的過程。這種觀測需求既可能是初始明確的,也可能是初始模糊而在尺度變換過程中逐漸清晰的。尺度變換則與被觀測對象有著緊密關聯,主觀人為尺度變換也正是人類智能的重要體現。
傳統聚類算法是在單一尺度上的挖掘過程,即在一次完整的聚類任務中,初始數據集不發生任何變化[24]。尺度本身就體現類結果的特征。由于初始數據的尺度并不一定是最佳觀測尺度,且同一組尺度應用于不同數據集的結果表現往往不同,所以傳統聚類算法在實踐應用中經常會出現只有少部分類的特征較為明顯的問題,并隨著數據量增大而問題加劇。
在問題求解理論中,尺度通常是以概念的形式存在于人的知識體系中[25]。由于概念間本身具有聯系,本研究將概念(尺度)間的擴展聯系引入聚類分析方法中,提出概念空間模型(圖3)。

圖3 概念空間
概念空間由概念鏈和值空間兩部分構成,概念空間的層次結構具有特征:①低層級概念偏序于高層級概念,即CHi?CH(i+1)(i∈N);②每一個概念都可決定同層級的值空間取值;即Vij∈CHi(j∈N+);③同層級的值空間取值遵循該概念鏈的偏序關系,即CHi?CHk→(j∈N+)。
依據概念空間模型,尺度變換分為兩個類型:①深度尺度變換,以概念鏈中的概念為觀測尺(屬性)、以此概念所對應的同層值空間取值為觀測度。深度尺度變換過程中,觀測度隨觀測尺的層級變化而變化,也被視為同步尺度變換模式;②廣度尺度變換,以值空間中的取值為觀測尺(屬性),以對象與觀測尺的范數關系為觀測度。廣度尺度變換過程中,不同觀測尺可以處于不同的層級,也被視為異步尺度變換模式。
依據粗糙集理論中的決策表結構[26],定義深度、廣度尺度變換的多尺度數據集。
定義1(多尺度數據集)對于任一數據集D=DO=(U,AO,VO,f O),多尺度數據集DS=(U,AT,VT,f T),其中,U是DO和DS的共同論域,AO是D的原始屬性(原始尺度),AT是D的目標尺度,且AO?AT,AT={t|(a∈A0)∧(t=CH(a))}。對于深度多尺度數據集,CH(a)是屬性a的概念鏈中任一概念;對于廣度多尺度數據集,CH(a)是屬性a的值空間中任一取值。
由于概念空間的離散特征,深度多尺度數據集較為常見且屬性均為分類屬性。而廣度尺度變換數據集較為特殊,文本挖掘中的詞袋模型就是一種廣度多尺度數據集,本研究中僅考慮所有的屬性均為二值屬性的廣度多尺度數據集。
定義1表明,尺度變換就是針對某一數據集D,依據概念空間中屬性的偏序關系,將原始尺度AO轉化為目標尺度AT的過程。
定義2(尺度變換率) 尺度變換率用于度量尺度變換所引起的數據分布變化:

其中,U/AO={,…,},U/AT={,…,}。
傳統聚類結果有效性評價指標[27]均是從聚類結果的整體出發,得到所有類表現的一個綜合評價值,并不適用于關注個體類表現的變尺度聚類算法。
定義3(粒度偏差)令CI代表一個含有n個對象、m個屬性的類(xij∈CI),a是CI中的一個屬性,粒度偏差為:

其中,對于由分類屬性構成的深度多尺度數據集,x Ij為類CI在每個屬性中的眾數;對于由二值屬性構成的廣度多尺度數據集,只有全0屬性時x Ij=0,其他情況x Ij=1。如果xij=x Ij,δ(xij,x Ij)=0,否則δ(xij,x Ij)=1。G(U/a)是商U/a的知識粒度。
粒度偏差GrD(CI)度量了類CI的離散程度,GrD(CI)取值的減小代表類內對象xij間相似度的提升。給定某一觀測尺度上的閾值R0,只有當GrD(CI)≤R0,表明類CI滿足質量要求、結果可接受。
本研究假設每一次變尺度聚類過程只實現單一屬性的尺度變換。
依據假設,深度尺度變換是將一個原始觀測尺轉化為一個目標觀測尺,而廣度尺度變換是將多個原始觀測尺轉化為一個目標觀測尺。
雖然深度與廣度尺度變換在多尺度數據集和粒度偏差評價度量上存在差異,但其尺度變換本質相同。由此,提出面向廣度和深度尺度變換的變尺度聚類算法:
輸入:多尺度數據集D,概念空間CS,尺度變換率閾值S0,初始聚類參數k;
輸出:滿意類Cj及其尺度Aj。
Step 1對于初始數據集D,應用聚類參數k進行初始聚類。
Step 2主觀判定出滿意類Ci,將Ci及其尺度Ai輸出,同時在數據集D中刪除Ci中包含的所有對象。
Step 3計算Step 2中所有滿意類的粒度偏差GrD(Ci),并將最大粒度偏差作為閾值R0。
Step 4選取屬性Aj進行尺度變換,若尺度轉化率STR(Aj,CH(Aj))<S0成立,則更新多尺度數據集D,用CH(Aj)替代Aj。
Step 5更新閾值R0,計算上一次聚類結果中最小未滿意類Cj在新尺度CH(Aj)的粒度偏差,取GrD(Cj)與R0的較大值。
Step 6對于當前數據集D,應用參數k與上一次輸出的滿意類個數的差值進行聚類。
Step 7計算所有類的粒度偏差,小于R0的類作為滿意類,連同當前尺度一起輸出,并在數據集D刪除輸出類的所有對象。
Step 8重復Step 4,直到數據集D為空。
變尺度聚類算法的時間復雜度為O(nmkt),其中n為對象個數,m為屬性個數,k是類個數,t是迭代次數。
本實驗目的在于完整展示企業利用網絡輿情來獲取客戶滿意度情報,從而提升客戶關系管理水平的全過程。同時,驗證變尺度聚類算法在處理高維度、稀疏、大量數據時的準確性和運算效率。實驗設計見圖4。
本實驗共包含5個實驗環節,即數據采集及預處理、網絡用戶群體識別、網絡用戶輿情敏感性評價、企業客戶滿意度預測、以及企業銷售戰略戰術制定;7種數據分析方法和技術,即網絡爬蟲、文本分詞、情感分析、輿情監測、廣度尺度變換聚類算法、輿情敏感性指數、深度尺度變換聚類算法;以及2個目標數據輸出結果,即企業客戶分類結果、以及銷售戰略和戰術。
由于數據采集及預處理并不是本研究的重點,所以直接采用成熟的方法和軟件實現(本文第4.2節詳述)。
網絡用戶群體識別和網絡用戶輿情敏感性評價,分別用戶實現企業客戶推動式信息反饋模型(圖1)中的群體測度約束、以及企業網絡輿情約束。
網絡用戶輿情敏感性評價的基本思想為將企業網絡輿情的關鍵詞熱度排序轉化為詞語權重,結合網絡用戶文本分詞結果中的詞頻數,計算每個用戶的輿情表現得分,從而判斷網絡用戶的輿情敏感度。由此,定義網絡用戶輿情敏感度指數:

其中,tfik為網絡用戶xi的文本內容中出現第k個詞語的頻數,Hk為第k個詞語在某特定網絡輿情環境的權重,可以通過熱度數值標準化來求得。

圖4 實驗設計
(1)數據采集
本實驗選取7天內新浪微博上所有個人認證用戶發布的關于“iPhone X”的原創微博作為數據源,利用Python中的網絡爬蟲框架Scrapy,總共采集到4350條符合表1中數據采集要求的文本數據。
企業客戶數據來源于一個電子產品銷售公司營業部(含手機),隨機抽取625條真實客戶數據作為分析樣本,其數據結構能夠匹配表1中企業客戶滿意度預測環節的網絡用戶數據結構。

圖5 輿情關鍵詞及熱度
此外,利用公開網絡輿情監測軟件,得到了“iPhone X”在表1研究時段的網絡輿情關鍵詞及熱度排序(圖5)。
(2)數據預處理
數據清洗是通過限定原創微博的最低點贊數、評論數、轉發數來去除掉信息價值較低微博,如手機營銷廣告、手機功能介紹等。本研究中,設定最低點贊數為12、評論數為8、轉發數為6(三者滿足其一即可),最終保留微博580條。
用戶過濾是通過微博影響力指數[28]來為研究時段內發布多條原創微博的用戶擇一代表。原創微博影響力指數為點贊數、評論數、轉發數、新鮮度(發布時長)的綜合表現。最終,得到了300條原創微博,分別對應了300個不同的網絡用戶。
情感分析是將每條微博(網絡用戶)的情感強度劃分為與目標客戶滿意度相一致的等級分布,如“滿意、一般、不滿意”。本情感分析工作得到積極情感類(滿意)網絡用戶160個、中立類(一般)網絡用戶69個、消極情感類網絡用戶(不滿意)71個。
文本分詞是將各類用戶的微博內容進行細粒度切分,并構建詞袋模型。最終,得到滿意類用戶研究時段內的熱點關注原始詞1404個、一般類用戶研究時段內的熱點關注原始詞719個、不滿意類用戶研究時段內的熱點關注原始詞515個。

表1 網絡用戶數據采集要求
至此,完成全部數據預處理工作,結果見表2。

表2 數據預處理結果
網絡用戶群體識別是利用廣度尺度變換聚類算法,對網絡用戶進行群體劃分,即得到具有明顯特征的網絡用戶類(圖6)。
圖6中,每一個矩形色塊代表一個用戶類,矩形在類坐標橫軸上的寬度代表該類中的用戶數量,矩形在尺度縱軸上的長度代表用于觀測該類的觀測尺個數。矩形對應粒度偏差橫軸上的數值代表該類在當前尺度下的粒度偏差。
可見,廣度尺度聚類變換是在保證結果有效性的前提下的一個觀測尺逐漸遞減的過程。網絡用戶群體識別環節一共得到了7個滿意用戶類、6個一般用戶類和2個不滿意用戶類。

圖6(a) 滿意類網絡用戶聚類結果
網絡用戶輿情敏感性評價是通過計算網絡用戶輿情敏感性指數,在每一個網絡用戶類中篩選出真正參與企業網絡輿情傳播過程的關鍵網絡用戶。
圖6中,具有加粗邊框的色塊代表該類中含有一個通過輿情檢驗的用戶。網絡用戶輿情敏感性評價最終得到6個關鍵滿意用戶、1個關鍵一般用戶和2個關鍵不滿意用戶。
企業客戶滿意度預測正式將這些關鍵網絡用戶與企業客戶進行深度尺度變換聚類,建立網絡用戶與企業客戶的相似關系,從而能夠將網絡用戶的情感分類及尺度特征賦值給屬于同一類的企業客戶,實現客戶滿意度預測。

圖6(b) 一般類網絡用戶聚類結果

圖6(c) 不滿意類網絡用戶聚類結果

表3 企業銷售決策支持
因此,企業可以根據表3中3種不同的企業客戶滿意度等級,匹配不同的銷售戰略。然后,在每一種銷售戰略下,結合每一個企業客戶類的具體特征,制定更具有針對性的銷售戰術,從而提升企業的客戶關系管理水平。
隨著社交網絡平臺的迅速發展,網絡輿情在我國經濟社會的生產、生活中扮演著日益重要的角色,企業更是期望通過挖掘網絡輿情來獲取有價值的信息情報,使其在激烈的市場競爭中擴大企業優勢。由此,本文針對網絡輿情環境下的企業客戶關系管理問題展開深入研究,通過識別企業客戶、網絡用戶、企業網絡輿情間的關系,梳理出一條廣泛存在與網絡社交平臺上的、由企業客戶推動的意見反饋渠道,為企業提供了一種成本更低、效率更高的獲取客戶滿意度的方法。
本研究最后通過數據實驗,從數據采集與預處理、網絡用戶群體識別、網絡用戶輿情敏感性評價、企業客戶滿意度預測、以及企業銷售戰略戰術制定這五個環節,完整展示了企業如何利用網絡輿情實現客戶滿意度等級分類,并依據變尺度聚類結果實現銷售決策支持。
本研究的理論價值主要體現在:
(1)構建企業客戶推動式信息反饋模型。該模型表明,在企業網絡輿情和群體測度的約束下,網絡用戶與企業客戶具有等價關系,為深入研究網絡輿情的運作機理提供理論基礎。
(2)提出變尺度聚類算法。該算法將尺度變換理論引入聚類研究中,將傳統聚類方法的求解過程由單一尺度分析擴展到多尺度分析,克服了實際數據聚類應用過程中的聚類結果特征不顯著問題,具有較高的實際應用價值。
(1)企業可以利用文本挖掘技術,通過獲取與其主營業務相關網絡輿情,預測當前客戶的滿意度,減少傳統求取客戶滿意度時的實地調研成本。
(2)企業可以通過檢測網絡輿情的變化情況,依據輿情本身的傳播學特征,確立開展客戶滿意度預測工作的最佳時點,并判斷現有客戶滿意度結果的有效性,而非完全依賴于領導的主觀經驗判斷。
(3)企業可以利用變尺度聚類技術,在客戶劃分的過程中,保證對聚類結果質量要求的同時,獲取到與當前類最匹配的尺度特征,利用尺度為銷售策略制定提供決策支持。