馮玥 蘇正洋
1.南京銀行博士后科研工作站,南京大學博士后流動站;2.中國電信股份有限公司江蘇分公司
行為特征識別形成的綜合指標定位客戶類型,有效地杜絕了客戶具體信息泄露的問題。
在大數據實踐中,企業挖掘客戶數據資源的目標是為了更好地了解客戶,將有限的營銷資源投放到目標客戶群,進而更好地服務客戶及拓展業務,開展精準營銷(precise marketing),而實現客戶特征識別和分類,準確地識別潛在客戶,是實現精準營銷在技術層面的關鍵環節。數據分析難度伴隨數據維度的增長而遞增,如何在高維稀疏的數據中找到規律和共性是數據挖掘的重點,而機器學習和人工智能算法為大數據分析提供了技術基礎。本文試圖在高維海量數據中構建統一的分析框架,結合最先進的機器學習算法,來分析客戶行為模式規律,進而實現以精準營銷為代表的一系列基于大數據的行業應用。從隱私保護角度來看,本文通過群體
企業所積累的客戶相關數據包括三大類:客戶基礎屬性數據、業務相關數據及行業衍生數據。客戶基礎屬性數據是最基本的客戶分類指標,如性別、年齡、地址、工作等。業務相關數據反映了客戶與企業現階段的直接業務關系,如電信運營商與個人客戶的移動套餐交易,商業銀行與個人客戶的金融產品交易等。行業衍生數據是企業所屬行業獨特的數據資產。例如,電信運營商所掌握的客戶活動軌跡數據,及商業銀行所擁有的客戶交易流水數據等。如表1所示。

表1 客戶數據分類
目前基于大數據的精準營銷領域研究多集中在對基礎屬性數據及業務數據的挖掘, 而這兩類數據提供的大數據分析維度有限,無法全面刻畫客戶特征。衍生數據涉及客戶的行為屬性,為客戶行為分析提供了全方位的視角。運營商所獨有的移動軌跡數據能夠反映個人的活動區域、工作區域、生活場所等。金融機構所獨有的客戶交易流水數據反映了客戶交易行為特征、消費能力、消費偏好等。生活工作區域類似的群體或消費對象類似的群體在行為特征上更容易存在趨同性。對這些衍生數據的分析,將有助企業全面深入地挖掘客戶行為模式和偏好,進而對其開展針對性營銷。所以,對衍生數據的挖掘是區分企業大數據應用能力的關鍵之一。
衍生數據的分析難度在于對象的復雜性以及數據的稀疏性,例如,通過銀行渠道的交易流水記錄,涉及交易對象、交易金額、交易時間、交易頻率等多維度信息;通過移動基站實時反饋記錄的個人行動軌跡存在隨機性,很難從實時更新的數據層面有效挖掘群體特性。如何設計研究框架,將一定時間內積累的大量復雜行為數據投射到低維空間,形成個人行為模式的表征,是本文試圖解決的技術難題。本文創新地從網絡視角重新構建數據,通過構建網絡的方式,將收集到的軌跡數據網絡化之后,通過最先進的網絡表示機器學習算法應用于客戶行為研究之中,全面刻畫客戶特征。
具有網絡結構的數據可以自然地表達微觀主體之間的關聯,在日常活動中無處不在,例如,移動定位數據反映個人與地點之間的位置關系,金融交易數據反映個人與交易對象之間的交易關系,個人屬性數據反映了個人與其標簽的從屬關系。基于關聯關系所搭建的網絡,不僅可以直觀地反映對象間的直接關聯關系,也具備進一步探索間接關聯關系及多重關聯關系的潛力,易于洞察節點間關聯關系的層次性。通過構建合適的網絡學習框架,我們能將復雜關系中的多重群體特征通過對微觀主體組成的網絡結構學習剝離出來,進而對微觀主體的特征進行分類,通過數據挖掘實現各種現實目標。
圖1簡單地描述了網絡學習的示意圖。首先,構造具備網絡結構的主體。第二步,按照固定規則提取軌跡樣本,進而通過網絡表示學習算法獲得每一個節點對應的嵌入向量,將結果帶入一系列學習任務中,完成應用目標。本文的內容包括三部分,首先討論了基于網絡視角的數據挖掘及機器學習理論方法和步驟,第二部分從移動運營商、金融機構及兩者結合的角度討論了應用方法,最后對金融行業進行了案例分析。

圖1 網絡學習流程示意圖
網絡是由各類別頂點及通過某些關系構成連接邊所組成的結構。原始網絡G:={,φ}是由頂點集合V,邊集合E,頂點類別A,邊類別R,頂點類別映射:V→A,以及邊類別映射φ:E→R組成的集合。其中,對任意的邊e∈E,存在頂點v1,v2∈V,滿足(v1,v2)=e,且(v1 ),(v2 )∈A,φ(e)∈R。
根據不同的目標設定,網絡可基于原始網絡或重構網絡。如果研究側重于網絡結構本身,則沿用原始網絡,例如社交網絡的結構識別和判定。若研究的目標是利用網絡結構的便利,去挖掘深層次的關聯關系,則需在原始數據基礎之上重新設計節點規則。本文需根據具體衍生數據某些統計指標的結果對頂點設置進行進一步細分。節點的設置也可通過經驗判斷。對于移動軌跡數據,在網絡構建的時候對基站節點的周平均時長進行統計,通過這個維度的統計指標聚類結果對節點進行細分。對于金融交易數據,從消費金額和頻率對交易對象節點進行統計,通過聚類結果對節點進行細分。
案例一:移動網絡構建
移動軌跡數據表示為手機用戶途徑基站的時間序列數據,以及每個基站的地理坐標信息。每條記錄的屬性包括手機用戶、基站編號、經過時間、所屬區域等維度。網絡構建基于移動軌跡樣本(手機用戶,基站編號,軌跡細節)。由手機用戶節點,接收基站節點及連接邊構成,具體構成規則如下:
首先,根據移動軌跡樣本數據確定手機用戶點集。手機用戶節點一一對應于數據集中所有手機用戶,通過手機號唯一識別。其次,根據軌跡中樣本的統計結果,構建接收基站點集。基于原始數據的重構移動網絡應能全面地反映用戶移動行為特征,因此網絡中節點的定義應包含一定移動信息。但網絡結構的設計不能過度稀疏或過度稠密。過于稀疏的網絡結構,意味著網絡結構中公共節點很少,無法很好地識別群體特征。過于稠密的網絡結構意味著大量節點擁有公共節點,無法很好地區別個體特征。因此,需對網絡結構中基站對象的細分程度進行取舍。接收基站對象節點的設置依照以下規則,首先依照基站對應的區域對接收基站節點進行初步分類。 其次,獲得所有與該基站有過定位記錄的手機用戶集。根據統計期內移動用戶集中所有客戶對于該對象的周平均時長屬性特征的密度分布,對該對象節點進一步細分。對于涉及工作日上班時間、晚間、及周末等與工作生活區域關系較大的基站節點進一步細分到對應基站標簽。因此,重構網絡交易對象節點是基于移動軌跡數據分布特征分布獲得的分類結果,并不是原始的交易對象的簡單復制。 最后,根據移動用戶對應的交易軌跡樣本,構成連接用戶節點和基站對象節點的公共邊。最終形成的重構交易網絡由用戶節點,基站節點,及兩點間的連接邊構成。
案例二:金融交易網絡
金融交易流水信息表示為卡號(card_no)、金額(tran_amt)、交易時間(tran_date)、行業分類(merch_type)、商戶名稱(merch_name)組成的五維坐標。網絡構建基于交易軌跡樣本(交易發起方,交易對象,交易細節),由交易發起節點,交易對象節點及連接邊構成,具體構成規則如下:
首先,根據交易軌跡樣本數據確定交易發起節點集。交易發起節點一一對應于數據集中所有客戶。其次,根據交易細節的統計結果,構建交易對象點集。交易對象節點的設置依照以下規則,首先依照交易對象對應的行業分類對交易對象節點進行初步分類。 其次,獲得所有與該行業分類有過交易歷史的客戶集。根據統計期內客戶集中所有客戶對于該對象的平均交易金額及交易頻率兩個維度屬性特征的密度分布,對該對象節點進一步細分。對于涉及商場、金融產品和服務、房地產、物業、保險、珠寶、信用卡還款等與消費能力關系較大的對象節點進一步細分到對應商戶名稱標簽。其中,金融產品和服務對應的細節標簽包括:理財、結構性存款、大額存單、定期存款、貴金屬、普通基金等。因此,重構網絡交易對象節點是基于交易數據分布特征獲得的分類結果,并不是原始的交易對象的簡單復制。 最后,根據交易發起點對應的交易軌跡樣本,構成連接交易發起節點和交易對象節點的公共邊。如圖2所示。

圖2 客戶交易網絡示意圖
圖中,粉色為客戶節點,藍色為交易對象節點,隨交易對象節點進一步細分,由左至右,重構網絡的稠密程度降低。
案例三:綜合異構網絡
將移動子網和金融交易子網通過客戶節點相連,構成具備兩種特質的重構網絡。在重構網絡的基礎上,在網絡中加入了客戶基本屬性分類節點。如圖3所示,節點類型a代表客戶屬性分類,c代表客戶節點,d代表交易對象節點,t代表接收基站節點分類。圖中黃色子網絡為金融重構網絡,紅色子網絡為客戶屬性子網,藍色子網絡為移動子網。本質上,異構網絡將更多的外界屬性分類指標加入到原始網絡結構中,形成綜合網絡結構框架。將客戶節點對應的客戶基礎屬性節點(按年齡、性別兩個維度進行分類)加入網絡結構中,構成客戶屬性分類子網。

圖3 異構綜合網絡
基于同構交易網絡的研究框架屬于網絡表示學習范疇。本文為網絡表示學習中的節點表示學習算法在客戶信息網絡中的應用。這個領域在近幾年得到了深度學習和數據挖掘領域學者的廣泛關注。目前該領域技術主要包括三大類:基于矩陣分解、基于生成模型和基于深度學習算法。對10種最通用的網絡表示算法在8個網絡上進行的多標簽分類實驗結果表明,Deepwalk及Node2vec這兩種深度學習算法在各種類型的同構網絡中均具有較為突出且穩定的效果。Bryan Perozzi(2014)從自然語言處理領域的深度學習算法技術word2vec受到啟發,將簡單隨機游走生成的網絡路徑類比于文本語料,得到每個節點的向量表示算法Deepwalk,獲得了很好的結果。Node2vec算法(2016)則在Deepwalk基礎之上,改進了其隨機游走策略,提高了隨機游走路徑的質量,并利用負采樣技術獲得節點表示。Deepwalk和Node2vec等常見網絡學習算法是針對同構網絡結構設計的網絡表示學習算法,并不適用于具有更多節點類別和邊類別的異構網絡。本文采用metapath2vec算法(Yu Xiaodong,2017)對異構網絡進行節點表示學習。該算法基于元路徑構建采樣機制,在挖掘不同類型節點的關聯關系方面在多類公開數據集上的表現優于Deepwalk及Node2vec等同構網絡表示算法。
對于本研究而言,重構交易網絡具備基本的網絡結構。交易發起節點及交易接收節點組成了網絡中的頂點集合。邊的構成方式依據邊存在交易即存在連接邊的原則。基于深度學習的模型目標是找到一組映射f:V→R d,使得該映射最大化地保留網絡中每一個節點出現在其領域的概率如公式(1):

理論上來說,交易行為類似的客戶節點連接的公共交易對象節點集也十分類似,則其成為彼此鄰域的概率更高。有效的網絡表示算法應能保證客戶節點對應的嵌入表示坐標更加接近。網絡學習算法的核心是將網絡結構轉化為節點序列帶入神經網絡模型進行訓練。每一個節點對應領域的樣本采樣方式十分關鍵。Deepwalk采用的是簡單隨機游走機制,Node2vec采用的是可以調節的隨機游走機制,而Metapath2vec則采用元路徑限制下的采樣方式。得到采樣數據后,三個方法采用類似的訓練步驟,將采樣軌跡作為skip-gram模型的數據源,獲得每一個頂點的嵌入表征,并通過negative sampling進行參數迭代更新。
Deepwalk網絡學習框架通過簡單隨機游走機制,將網絡結構轉化為節點序列。Node2vec在Deepwalk基礎之上,在軌跡采樣方式上考慮了網絡結構的差異。假設路徑中已獲得(c0,…,ci-1, ci的采樣服從以下概率分布:

其中p和q為調整采樣節點遍歷網絡的深度和廣度的超參數。
異構網絡學習框架在Node2vec的基礎之上,考慮了節點類別的差異,采取了基于元路徑的隨機采樣方式。對于異構網絡G=(V,E,T)以及長度為l的元路徑方案的采樣服從以下概率分布:

本文提出了基于大數據的精準營銷機器學習框架(見圖4)。通過客戶基礎屬性數據及行業衍生數據搭建異構網絡,進行異構網絡表示學習,模型輸出為每一個客戶節點所對應的客戶綜合屬性表征。將客戶綜合屬性作為模型輸入,對具有價值分類標簽的客戶數據進行分類模型訓練。

圖4 精準營銷機器學習框架
本研究通過一組可視化導圖(見圖5),闡釋了網絡學習框架。左上為一個原始網絡,這個網絡結構包含52個頂點及隨機產生的連接邊。右上圖指出,這組網絡結構具備明顯的4個聚集結構(clusters)。有效的網絡學習算法應具備識別聚集的能力,即為每一個節點分配對應的向量化表達,進而識別網絡中的聚集結構。通過node2vec算法,獲得的網絡節點對應的向量化坐標,左下方圖為對應頂點坐標降維后投射在二維坐標系中的結果。將這組坐標通過聚類算法進行聚類,結果被分為四類。將這四類與對應的頂點匹配,可以從網絡結構圖(右下圖)看出,網絡識別算法的結果可以很好地識別網絡聚集結構。

圖5 網絡分析示意圖
基于前述中闡述的研究方法和框架,本研究通過真實數據集驗證方法的有效性。研究數據來自一家中資中等規模的城市商業銀行2019年(2019年1月1日至2019年12月31日)的客戶借記卡銀聯交易流水表單。選取的客戶標準是活躍客戶,即每月銀聯交易均超過5筆的客戶。從滿足條件的活躍客戶集中隨機選取的8000名客戶。根據8000名客戶在銀行客戶管理系統所對應的客戶分類價值標簽,客戶集被分為高價值客戶(金融資產大于50萬),價值客戶(金融資產大于20萬),普通客戶(在實驗期內有過金融產品購買但未晉升至價值客戶),未知客戶(并未有金融產品購買記錄)。其中,高價值客戶共1645戶,價值客戶2292戶,普通客戶2387戶,未知客戶1676戶。
根據金融交易網絡的重構規則,通過對交易軌跡樣本對應信息的分布統計確定網絡對應的交易對象節點。依照交易軌跡樣本,構成連接交易發起節點和交易對象節點的公共邊。最終形成的重構交易網絡由交易發起節點,交易對象節點,及兩點間的連接邊構成。網絡由8478個節點,179691條邊組成,網絡的密度為0.005。
本實驗匯報了在不同算法下,由不同時間段數據集構成的,具備不同屬性的子網絡結構,對于客戶節點表征在分類任務中的效率結果。首先,從網絡構成角度考慮了網絡研究的有效性。除了完整網絡結構之外,本文考慮了基礎信息子網及金融交易子網及這兩個子網絡所對應的網絡學習結果對于分類效率的影響。其次,從數據角度考慮基于不同數據采集時間段構成的網絡結構與基于全年數據的完整網絡,在客戶行為識別方面的差異。我們在一年數據的基礎之上,也考慮了上半年和下半年數據構成的網絡結構。最后,本實驗進一步測試了不同網絡識別算法在不同網絡結構下的結果對應的分類效率。采用Deepwalk及Node2vec算法分別對同構網絡(基礎信息子網及金融交易子網)進行網絡表示學習,采用Metapath2vec,Node2vec及Deepwalk分別對于異構網絡(綜合信息網絡)進行網絡表示學習。
對Deepwalk進行以下設置:節點表示的維度為128,每個節點開始的路徑數為10,路徑長度為100,窗口大小為5。Node2vec在Deepwalk基礎之上基礎上添加兩個參數p、q的設置,根據網格搜索的結果從{0.25,0.5,1,2,4}中選擇最優結果。將Metapath2vec的元路徑為“ACDCTCDCA”,其余參數與Deepwalk一致。實驗采用的訓練數據與測試數據比為0.7,分類器使用L2正則技術的one-vs-rest的邏輯回歸分類器,對具
有有效標簽的客戶節點數據,重復實驗10次,并報告10次結果的平均微觀F1值。如表2所示。

表2 實驗分類效果:平均微觀F1值
實驗結果表明:首先,基于完整網絡結構(綜合信息網絡)的網絡學習結果對應的分類效率,要明顯高于基礎信息子網及金融交易子網的分類結果。結果說明,具備多維度信息的異構網絡相對于具備單一信息的網絡結構,能夠突出各類群體間的行為特征差異。其次,基于全年數據搭建的網絡表示結果相對于半年數據,更能反應客戶的行為屬性特征,進而對客戶價值分類的判斷更有幫助。第三,通過使用針對異構網絡設計的算法Metapath2vec得到的嵌入坐標的分類效果明顯優于在Deepwalk及Node2vec學習框架下結果。這說明針對異構網絡表示學習的算法更適用于異構網絡。結果說明了基于客戶基礎屬性和交易屬性異構網絡及異構網絡表示學習算法的學習框架,能更好地識別客戶行為及基礎屬性上的異同,將不同價值分類的客戶區分開來。結合網絡表示學習的獲得的客戶屬性指標能顯著增強了分類任務效率。
企業在日益激烈的市場競爭中若想立于不敗,需要準確定位價值客戶并將有限的營銷資源向這一部分客群傾斜。在大數據的背景下,企業也積累了大量客戶數據資源,包括客戶屬性數據、業務相關數據及行業衍生數據。本研究為大數據挖掘技術在企業精準營銷領域的應用探索,并從移動運營商及商業銀行角度做了具體分析。在方法方面,本研究創新地將客戶行為模式的研究轉化為網絡結構的識別,基于客戶移動軌跡數據及日常交易流水數據搭建重構交易網絡,并借助網絡表示學習算法,將對應節點的網絡表示結果作為交易行為屬性指標納入客戶價值分類模型,從而解決了直接運用軌跡數據帶來的數據維度高且稀疏的問題。
通過針對實驗分析證明,將客戶基礎屬性和交易行為屬性放入統一的研究框架之下并利用異構網絡學習算法獲得的價值客戶分類效率最高。各類具備大規模客戶衍生數據的企業在實際業務中均可以采用本研究提供的研究框架,構建基于客戶數據的網絡,將未知客戶的對應嵌入坐標導入分類器,獲得相應客戶分類,為營銷團隊實施營銷策略提供了極大便利。本文采用的方法可以用于第三方支付公司、電信企業、政府部門等具備構建網絡數據的實體,進行基于網絡的個人行為研究。未來的研究方向包括:優化網絡構建方式;針對不同規模數據集可能產生的研究結果差異進行進一步分析論證;加強異構網絡分類任務研究框架的理論機制研究等。