潘蕊 周靜 關蓉
內容提要:從社會網絡理論出發,通過對國內某移動通訊運營商提供的用戶之間通話和短信數據以及消費記錄的分析,提煉出用戶通話網絡與短信網絡的結構特征,對網絡結構變量進行主成分分析與聚類分析,并將現有客戶分為不活躍用戶、中等活躍用戶和意見領袖,將客戶的價值分為直接價值與間接價值,探究意見領袖對客戶間接價值的影響。回歸分析表明意見領袖的作用主要體現在提升客戶間接價值上,其個人消費金額(直接價值)與其他消費者并無顯著差異。但是,由于其在網絡中所處的地位和活躍程度,使得與意見領袖間接聯系的消費者的消費金額有了顯著提高。這一研究結論表明衡量客戶價值應以個人的消費額度為基礎,而且一個客戶的價值還應該包含他的社會關系價值;為了穩定廣大客戶長期在網,通信服務業要注重對意見領袖的識別和維護,他們具有加固網絡聯系的作用。
關鍵詞:社會網絡;客戶間接價值;意見領袖;主成分分析;聚類分析;回歸分析
中圖分類號:F272;C939 文獻標識碼:A 文章編號:1001-148X(2017)09-0028-05
收稿日期:2017-03-16
作者簡介:潘蕊(1985-),女,遼寧大連人,中央財經大學統計與數學學院副教授,經濟學博士,研究方向:高維數據分析、網絡結構數據統計建模;周靜(1989-),本文通訊作者,女,哈爾濱人,中國人民大學統計學院講師,管理學博士,研究方向:客戶關系管理、社會網絡分析;關蓉(1985-),女,南寧人,中央財經大學統計與數學學院講師,管理學博士,研究方向:復雜數據分析。
基金項目:國家自然科學基金青年項目,項目編號:11601539;國家自然科學基金重點項目,項目編號:11631003;中央高校基本科研業務費專項資金“中央財經大學科研創新團隊支持計劃”資助;中國人民大學新教師啟動基金項目,項目編號:17XNLF08。
隨著社交媒體(如Facebook,Twitter,WeChat等)的蓬勃發展,每個人都處于不同的社會網絡(social network),扮演著不同的社會角色,而且與網絡中的其他人有著各種各樣的聯系。由大大小小的網絡所構成的社會,不僅包括網絡中的個體(node),還有這些個體之間的相互關系(relationship),社會網絡中的個體通過某種關系相互聯系,個體間的關系是網絡中資源傳遞的樞紐[1]。對通信運營商來說,用戶無疑是最重要的資產。本文所要研究的問題是基于移動電話用戶的通信行為,主要是如何識別高價值用戶,并且保留住這部分用戶;如何通過分析用戶在網絡中的地位對其通信行為的影響而識別出具有價值的客戶,并最終在客戶管理層面給通信運營商提供一些建議。
一、研究數據的選取與網絡結構變量
消費者的偏好和決策不是獨立形成的,而是會受到其他消費者的影響,無論這種影響是正面的或是負面的,都會對消費者的決策以及后續的選擇起作用[2]。社會網絡分析方法中有很多刻畫網絡特征的指標,通過對這些指標的分析可以更好地理解網絡中個體之間的聯系。
(一)數據介紹
本文的數據由國內某移動通訊運營商提供,研究的個體全部來自該運營商的客戶,他們是來自國內某大學同一學院的學生,樣本量為n=104。數據當中記錄了這些個體在一個月的電信消費金額(單位:元),主要是由通話和短信所產生的費用構成,記為Yi,i=1,…,104。圖1是消費金額的直方圖,從中可以看到有兩個個體的消費金額超過了150元,大部分個體的消費金額集中在50元附近,我們將消費金額視為客戶的直接價值。
除了消費金額,還記錄了這些消費者在當月每天互相通電話和發短信的行為,這部分數據被用于構建本文研究的網絡結構。本文構造了兩個矩陣:X1和X2,它們都是104×104維的矩陣,分別代表通話和短信網絡。所有符號的上標都用來區分兩個網絡,1代表通話網絡,2代表短信網絡。如果在當月用戶i給用戶j打過電話,那么X1ij=1,否則X1ij=0。如果用戶i給用戶j發過短信,那么X2ij=1,否則X2ij=0。為了方便起見,讓X1和X2的對角元素都等于0,這樣的矩陣稱為鄰接矩陣或者關系矩陣(adjacency matrix)。注意到X1和X2可以是非對稱的矩陣,這意味著盡管用戶i給用戶j打過電話,但是用戶j并不一定給用戶i打過電話,兩個網絡的結構是存在一定差異的。
圖1 消費金額直方圖
(二)網絡結構變量
為了描述每個個體在兩個網絡中所起到的作用以及所處的地位,現在介紹各種網絡變量的基本概念和計算方法。
1.點(node,individual,actor):網絡中的每個個體被稱為一個點,數據中的每個消費者都是一個點。
2.邊(edge,relationship):當網絡中的某兩個個體產生了某種聯系之后就形成了一條邊,如果個體i給個體j打過電話,相應的X1ij=1,他們之間就存在一條邊,也就是說他們之間產生了“打電話”關系,值得注意的是邊是有方向的。
3.點的度數(degree):對于非對稱鄰接矩陣來說,點的度數分為輸出度數(out-degree)和輸入度數(in-degree)。簡單來說,個體i的輸出度數就是以i為起點的邊的數量,其輸入度數就是以i為終點的邊的數量。以通話網絡為例,個體i的輸出度數就是i給多少人打了電話(即呼出電話數),其輸入度數就是多少人給他打了電話(即呼入電話數),可以利用鄰接矩陣非常容易算出每個個體的輸出和輸入度數。以通話網絡為例,個體i的輸出和輸入度數分別為:
D1Oi=∑j≠iX1ij,D1Ii=∑j≠iX1ji。
如果某一個體的輸出和輸入度數都為0,可稱其為孤立點,因為他與網絡中的其他個體沒有任何聯系。輸出度數大的點被稱為信息的發送者,而輸入度數大的點被稱為信息接收者。度數越大的點在網絡中越活躍,因為他與網絡中的很多個體都會有直接的聯系,從而在網絡中可以起到非常重要的作用。類似的,也可以在短信網絡上定義輸出和輸入度數。endprint
4.網絡的密度(density):網絡密度就是這個網絡中所觀測到的邊的數量與這個網絡可能形成的所有的邊的數量的比值,這個數值介于0到1之間,密度越大說明網絡中個體的聯系越緊密,可以通過計算網絡的密度而對網絡中個體聯系的疏密程度有一個大概地了解。
5.點的接近中心度(closeness centrality):從一定程度上,點的度數反映了每個個體在網絡中的活躍程度,度數大的點更有可能處在網絡的中心位置,起到傳遞信息的重要作用。但是,在計算某個點的度數時只考慮與這個點有直接聯系的那些點屬于衡量點局部性質的統計量,而點的接近中心度考慮了每個點能夠到達的所有的點更接近全局的概念。
假設從個體i出發經過一些沒有重復的點還有邊,能夠到達個體j,他們之間便形成了一條路徑。值得注意的是從i到j可能存在不止一條路徑,每條路徑都可以計算其長度,也就是這條路徑包含的邊的數量。我們將最短路徑的長度定義為從i到j的距離,記為dij。對于個體i,將他能夠到達的點的數量記為Ii。點的輸出接近中心度(out-closeness centrality)的一種定義如下(以通話網絡為例):C1Oi=I1i/(n-1)∑j≠id1ij/I1i。
仔細觀察接近中心度的公式,發現分子是個體i能夠到達的人的數量占總人數的比,分母是個體i到能夠達到的人的平均距離。類似的,將能夠到達個體i的點的數量記為Ji,仍然以通話網絡為例可以得到輸入接近中心度的公式(in-closeness centrality):C1Ii=J1i/(n-1)∑j≠id1ji/J1i。
同理,每一個體在短信網絡中的輸出(輸入)中心度的公式分別為:
C2Oi=I2i/(n-1)∑j≠id2ij/I2i,C2Ii=J2i/(n-1)∑j≠id2ji/J2i。
如果Ii(或者Ji)取值為0,也就是個體i不能到達任何其他個體(或任何其他個體無法到達個體i),相應的輸出(輸入)接近中心度取值為0。注意到,輸出(輸入)接近中心度最小取值為0,最大取值為1。接近中心度越大的個體,到達其他點(或其他點到達他)的平均距離就越短,說明他與其他個體互相傳遞信息的效率越高。因此,點的接近中心度在一定程度上反映了個體在網絡中的中心地位。
6.中間中心度(betweenness centrality):網絡中有很多的點并不能直接相連,而是需要經過某些路徑到達彼此,處于路徑上的點在一定程度上起到了某種控制和傳遞作用。如果某個點處于很多路徑上,說明其他的點之間的聯系依賴這個點,那么其在網絡中有很大的影響力,處于非常重要的中心地位,我們視這種點為“中介”。點的中間中心度就能夠幫助我們很好地衡量這種影響力。這里采用最常用的Freeman(1979)[3]的定義,用j和k代表兩個不同的個體,gjk表示從j到k的最短路徑的條數。現在考慮另外一個個體i,如果i處于j到k的最短路徑中,我們說j到k的最短路徑經過i,用gjk(i)表示最短路徑中有多少條是經過i的,那么個體i的中間中心度定義如下(以通話網絡為例):
B1i=∑j≠kg1jk(i)/g1jk。
類似的,我們可以定義短信網絡中個體的中間中心度,B2i=∑j≠kg2jk(i)/g2jk。這樣定義的點的中間中心度取值在0和n-1(n-2)之間。如果取值為0,說明某個點沒有在任何最短路徑中出現。如果取到最大值,說明某個點出現在所有其他點的最短路徑中。在下文中所報告的都是標準化的中間中心度,中間中心度越大的點越有可能決定著網絡中信息的傳遞的方向和效率,它們在網絡中也就處于非常重要的地位。
在定義了以上變量之后,現將這10個變量的描述統計列在表1當中。從表1可以得到以下結論:第一,對于輸出和輸入度數來說,通話網絡較比短信網絡在5個度量上的取值都要偏小。例如通話網絡的輸出(輸入)度數的均值是455,而短信網絡的相應的取值是696,這說明個體在短信交流方面要比通話更為頻繁。第二,類似的,對于輸出(輸入)接近中心度來說,也能觀察到類似于輸出(輸入)度數的結論,這都說明該樣本的個體在短信網絡的表現更為活躍。第三,對于中間中心度來說,短信網絡的中間中心度的最大值要高于通話網絡,但均值和中位數相對較低。
二、數據的主成分分析
在進行主成分分析之前先將10個變量進行標準化,使得每個變量的均值為0,方差為1,這樣做相當于使用相關系數矩陣來進行主成分分析。在選取主成分個數的時候使用Kaiser準則,保留特征值大于1的主成分,得到兩個主成分,對應的特征值分別為704和112,這兩個主成分對應的系數見表2。從表2中不難看出所有變量在第一主成分上的系數相差不多,可以將第一個主成分看成是所有變量的平均水平,也可以理解為用戶在兩個網中的總體表現。在第二主成分上發現和通話網絡相關的變量的系數為正,而和短信網絡相關的變量的系數為負,這說明第二主成分刻畫了通話網絡和短信網絡的對比。
再進一步計算所有個體在兩個主成分上的主成分得分。由于第一主成分代表的是所有網絡變量的平均水平,也就是用戶在兩個網絡中的整體表現。在第一主成分上得分較高的個體,其在兩個網絡中總體表現活躍;第二主成分代表的是兩個網絡的對比,在第二主成分上得分絕對值較高的個體,他們在兩個網絡中表現差異很大。為了進一步對個體進行區分,我們利用所有個體的兩個主成分得分進行聚類分析,這里采用了k均值聚類的方法,通過偽F統計量的取值來決定類別的個數,最后將個體分為3類(類別為2到5時,偽F統計量的取值分別為:1256,1370,1291和1204,在類別為3時達到峰值)。我們將所有個體在兩個主成分上的得分以及類別描繪在圖2中,每個類別比較有代表性的個體編號也顯示在圖2當中。
圖2 根據主成分得分得到的類別
圖2實心點、空心方塊和空心倒三角分別代表3個不同類別,第一個類個體,在第一主成分上得分基本都小于0,說明他們在兩個網絡中的活躍程度很低;他們在第二主成分上得分絕對值也不算很高,說明其在兩個網絡中活躍程度都偏低。這類客戶以13、29、67號個體為代表,總共有39人。第二類個體在第一主成分上得分要高于第一類,說明其總體活躍程度較高,在第二主成分上得分與第一類相似。這類客戶以55、68號個體為代表,總共有50人。第三類個體非常值得關注,他們在第一主成分上得分非常高,說明其總體活躍程度很高;在第二主成分上的得分絕對值也很高,說明其在兩個網絡中表現差異很大。例如43號個體,在通話網絡中的活躍度要遠遠高于其在短信網絡中的,而2、9、11號個體在短信網絡中的表現要比通話網絡中的活躍很多,以他們為代表的第三類客戶總共有15人。endprint
由此,可通過網絡結構變量將消費者分成了三類,將第一類消費者視為“不活躍”群體,將第二類消費者視為“中等活躍”群體,將第三類消費者視為“極度活躍”群體。這里面最值得關注的是第三類消費者,他們在網絡中處于中心位置,屬于意見領袖。雖然這類消費者是極度活躍的群體,但是其在兩個網絡中的表現差異很大。
三、數據的回歸分析
現將消費金額的對數值作為因變量,根據消費者被分成三個不同的類別而構造兩個啞變量D1和D2。當消費者屬于第一類時,兩個啞變量同時取值為0;當消費者是第二類時D1取值為1,D2取值為0;當消費者是第三類時D1取值為0,D2取值為1。具體的回歸模型如下:
lnYi=β0+β1D1i+β2D2i+εi(1)
其中εi是誤差項。(1)式的回歸結果見表3。
從表3可以看到回歸模型的F沒有通過檢驗,也就表明模型(1)并不顯著。這說明在網絡中活躍程度不同的消費者的消費金額并沒有顯著差異,意見領袖的直接價值與其他消費者并沒有顯著差別。
現在定義一個新的變量Yi,對于每個消費者i來說,Yi就是他在當月有聯系的所有個體(包括通話和短信)的消費金額的總和。我們將Yi視作個體i的間接價值,其數值大小能反映了個體所聯系的所有人的消費情況,于是我們建立了模型(2):
lnYi=β0+β1D1i+β2D2i+εi(2)
更具體地說,如果某個個體在網絡中非常活躍,那么網絡中就會有很多個體與他產生聯系,他的間接價值就會很高,其回歸結果見表4。
從中可以看到回歸模型(2)的全模型F檢驗是顯著的,判決系數達到566%。另外,所有系數的估計都是顯著的。β1和β2的估計值的符號和大小說明意見領袖所帶來的間接價值最高,其次是第二類消費者,最低的是第一類消費者。所以,消費者的網絡地位會在一定程度上影響其消費行為。
具體來說,雖然意見領袖(第三類)的消費金額與其他兩類沒有顯著差異(見表3),但是他所帶來的間接價值要顯著高于其他兩類客戶。這也就說明,研究電信消費的時候不能只考察消費者的直接消費金額,更不能認為消費金額高的消費者價值就高,消費金額低的就沒有價值;相反,我們要關注消費者在網絡中所處的地位以及其活躍程度。因為網絡中的意見領袖,雖然消費金額不一定很高,但在網絡中起到非常關鍵的作用,有著很高的社會關系價值。所有的消費者會因為意見領袖而聯系得更加緊密,信息的傳遞也會更加有效率。因此,意見領袖會帶來很高的間接價值,在分析客戶價值的過程中不能忽略他們的作用。
四、研究結論
首先,研究數據刻畫了兩個不同的網絡,分別是通話和短信網絡。兩個網絡存在著顯著差異。從各種網絡變量的取值來看,個體在短信網絡中的活動更為頻繁,這符合當代人的行為習慣,尤其對于大學生來說,發短信更是普遍的行為,而非打電話。
其次,我們通過聚類分析而將網絡中的個體分成了三類,分別是“不活躍”、“中等活躍”以及“意見領袖”這三個群體,意見領袖在網絡中起到最重要的作用,他們使得網絡中個體之間的聯系更加緊密,信息的傳遞也更加有效,這類個體可以說是網絡中的“粘合劑”。但是,在第一部分的回歸當中我們發現這三類個體的消費金額沒有顯著差異,意見領袖的直接價值和其他消費者并沒有顯著差別。
最后,我們定義了用戶的間接價值,間接價值體現了用戶在網絡中的影響力。從第二部分的回歸結果中發現意見領袖的間接價值高于那些不活躍的個體,這就說明在衡量客戶價值的時候除了要考慮客戶自身帶來的直接價值外,還應該考慮由于社會網絡關系而帶來的間接價值。
五、管理啟示
對于通信運營商,基于上述結論給出了如下一些建議。
首先,把握大學生消費行為特點,重視集團短信營銷方案。對大學生群體而言,更偏好于使用短信交流,對短信溝通的需求更強。目前,通信運營商對語音業務的營銷考慮更多,對短信業務的營銷考慮較少,對學生的短信套餐都是兩部式定價,沒有考慮短信網絡的因素。因此,運營商還可以考慮如何在校園市場優化短信業務的營銷方案。
其次,關注社會關系網絡,正確衡量客戶價值。通信行業衡量客戶價值是以個人的消費額度為基礎的,并據此制定營銷方案。但是,一個客戶的價值還應該包含他的社會關系價值,特別是對于通信服務而言,正確衡量一個用戶價值既要計算他的直接價值,還要計算他的間接價值。
最后,為穩定廣大客戶常期在網,要注重意見領袖的識別和維護。一個客戶忠誠于某個運營商既可能因為自己的偏好,也可能是因為受周圍人群的影響,意見領袖有加固網絡聯系的作用,可以起到類似粘合劑的作用。因此,識別出意見領袖,穩定他們通信網絡中非常有利于維護整個通信網絡的穩定。
本文的研究也存在一定的局限性。首先從樣本上看只考慮了某高校某一學院的通信網絡,樣本量較小,但優點是可以最大程度的觀測到全網的結構。在未來的研究中希望可以擴大樣本量,研究更大規模的網絡中用戶的行為是如何受到社交網絡變量影響的。其次,隨著社交軟件的發展,短信已不再是唯一的即時通信工具,如現在有更多的年輕人使用微信作為日常主要的交流工具,遺憾的是運營商無法記錄到用戶使用社交軟件的行為,無法構建基于社交軟件的用戶網絡關系也就無法探討該網絡結構對人們的消費行為有何影響。所以,如果未來可以在這方面有所突破也將會是對現有研究的一個有力補充。最后,受數據收集的限制,本文考慮的變量也十分有限,未來的研究可以考慮增加更多的變量,來豐富研究結果。
參考文獻:
[1] Wellman, B. and Berkowitz, S.D. (eds). Social Structures[M].Cambridge: Cambridge University Press,1988.
[2] Duncan, J.W., and Dodds, P. S. Influentials, Networks, and Public Opinion Formation[J].Journal of Consumer Research,2007,34(4):441-458.
[3] Freeman, L.C. Centrality in Social Networks: I. Conceptual Clarification. Social Networks, 1979, 1.endprint