曲浩
(方正證券股份有限公司 北京 100020)
近年來,隨著社會經濟的不斷發展,各類金融企業不斷涌現,證券行業的競爭壓力越來越大。在此背景下,相比獲取新客戶,老客戶流失問題更需要得到證券公司的關注,因為挽留現有客戶的成本比吸引新客戶的成本低很多(夏國恩,2010)。因此,對于證券公司來說,在想辦法吸引新客戶的同時,也應盡力避免客戶流失,對有流失征兆的客戶進行提前干預,這對提高公司競爭力有重要的戰略意義。此外,企業數據庫中儲存著海量的客戶信息和客戶行為等數據,如果能夠充分利用這些數據,從中挖掘有價值的信息,進而建立科學的客戶流失預警模型來指導業務,將會大大提升公司的服務和管理水平。為了有效解決客戶流失預警問題,企業可通過基于大數據的策略設計和建立模型,從數據中挖掘流失客戶的主要特征,并準確定位流失客戶群體,實現對客戶流失行為的監控和預警,盡可能地挽留客戶,避免由客戶流失造成的利潤損失。
國內許多學者曾對客戶流失問題進行了研究,現有研究主要集中在探討電信行業客戶流失的原因。例如,周靜等(2017)著眼于客戶流失影響因素研究,運用社交網絡分析方法,通過構造與網絡結構相關的變量進行影響因素探討,運用邏輯回歸方法構建客戶流失預警模型。李季等(2020)利用某移動通信公司的客戶消費數據和個性化營銷實驗,分析了客戶在使用運營商的服務過程中,服務與需求之間的匹配程度及客戶投入行為與客戶流失之間的關系。此外,隨著深度學習技術的發展,也有學者通過深度卷積神經網絡的方法了解客戶流失的原因。相比電信行業研究的如火如荼,證券行業的客戶流失研究相對較少。鄭宇晨和呂王勇(2016)從賬戶周轉率、投資收益等反映客戶交易情況的指標出發,采用K均值聚類獲取客戶流失狀態,再通過逐步回歸方法進行變量篩選,最終建立logistic客戶流失預警模型。舒宏和李雙宏(2021)基于大數據技術,深入挖掘客戶的證券業務數據和行為數據,建立客戶畫像,進而融合大數據和人工智能技術,提出客戶流失預測模型和實現步驟 。
通過文獻回顧可以看出,對客戶流失預警的研究大多是在海量業務數據的基礎上,采用聚類、回歸等統計方法和機器學習模型進行數據挖掘和預測。雖然該領域的研究成果頗豐,但目前相關研究多集中在電信行業,而關于證券行業客戶流失問題的探索不但數量少,而且多圍繞客戶管理方面的宏觀理論,結論以方法論的建議為主,并未產出可落地的預警體系應用于業務中。本文以某券商A的客戶作為研究對象,結合業務背景,對大量真實數據進行分析探索,在得出研究結論的同時,將模型結果落地為一套代碼,使本文的研究內容在具有理論意義的同時,還有很高的實用價值。
本文的最終目標是基于客戶數據建立一套流失預警體系,能夠對A證券公司的客戶流失行為進行監控和預警。整個研究框架可分為三大模塊:變量挖掘、模型建立和模型應用。
首先,變量挖掘部分包含潛在流失人群篩選及因變量和自變量的確定。根據A證券公司的業務要求,潛在流失人群的判定標準為若T-1時刻的凈資產大于等于5000元,且T時刻凈資產小于5000元,則判定該客戶在T時刻是潛在流失人群。該客戶將被持續觀察60個自然日,如果在此期間該客戶一直保持凈資產持續低于5000元,則該客戶在第T+60時刻被判定為流失客戶。再基于A證券公司數據庫導出的客戶個人信息表、資產負債表、交易量表、傭金表、委托表、行為服產盈利表、回訪情況表多源數據構建重要影響因素。
其次,在模型建立部分,由于上一步驟計算出的自變量數目較多,考慮到計算效率和模型的穩定性,本文將結合業務知識和BIC變量選擇方法選取部分穩定有效的特征用于最終建模。基于邏輯回歸模型,確定訓練集和測試集的時間對應關系,再利用實際數據構造訓練集和測試集并進行建模,并對模型的效果利用AUC指標進行評估。
最后,通過模型預測出每天的流失預警名單,進而將這些名單發布給前端業務人員,讓業務人員對名單上的客戶進行及時挽回。此外,本模型還可以輸出每個客戶的流失概率,據此劃分人群的流失風險等級,使業務人員可以對不同風險的客戶采取不同的干預策略,有助于對客戶的精細化管理和運營。
本文使用的問題來自A證券公司經脫敏后的業務數據,時間跨度為2020年7月—2021年7月,涵蓋大約12萬名用戶,涉及9張客戶信息表共112個原始字段。由于商業信息保密的原則,我們無法在本文中公布這些原始數據字段,但在后續建模中會匯報最終用于建模的變量。

以2021年5月2日的所有用戶為例進行說明,該批用戶的觀察期為包括5月2日在內的未來60天,即2021年5月2日—6月30日。對每個用戶,記錄其在觀察期內的凈資產情況,若60天內每天的凈資產均小于5000元,那么該用戶便被標為“流失”。因此,對于2021年5月2日的待觀察用戶,通過60天的觀察期,可在2021年7月1日得到其流失情況。
(2)潛在流失人群定義。如果直接對所有用戶進行流失預測,涉及的群體非常龐大,為提高預警工作的效率,本文對每天的所有客戶都先從中篩選出部分潛在流失人群,這部分潛在流失人群相對其他人群來說具有較高的潛在流失風險。再對這部分人群進行預警建模,從中找出真正流失的客戶,判斷的標準是客戶在觀察期前是否已經表現出一些流失跡象。
結合公司的業務實踐,我們以凈資產的變化作為判斷依據,對于第T日的第i個客戶,若其在第T-1日凈資產大于等于5000,并且第T日凈資產小于5000,那么認為他屬于第T日的潛在流失人群。仍以2021年5月2日的數據為例進行說明:對2021年5月2日的每個用戶記錄其在2021年5月1日的凈資產和2021年5月2日的凈資產,若5月1日凈資產大于等于5000元,且5月2日凈資產小于5000元,便將其納入5月2日的潛在流失人群名單中。之后便以這一名單上的用戶作為研究對象,繼續觀察60個自然日,判斷其最終的流失標簽。通過這種方法,每天都能篩選出一批潛在流失人群,這部分潛在流失預警人群也是后續建立流失預警模型的數據基礎。
(3)自變量時間節點的確定。明確了如何篩選研究對象、如何計算流失標簽后,接下來需要確定建模過程中自變量所需數據的時間范圍。本文建模的核心思想是利用用戶的歷史信息對未來狀態進行預測,即生成某日人群的自變量時利用的是該日之前一段時間的數據。用于生成自變量的時間段的長度需要合理定義,如果時間段太短,就會使得自變量信息提取不充分,難以準確預測未來情況;如果時間段太長,用到的數據太過久遠,那么對預測未來的參考價值就不大,甚至可能造成干擾。本文結合A證券公司業務情況最終認為,30天是一個合理的時間長度。因此,對于第T日的第i個用戶,將利用其在第T-30日至第T-1日的數據生成自變量。仍然以5月2日篩選出的潛在流失人群為例,這部分人在之前30天(即4月2日-5月1日)內的數據情況就是生成X的時間跨度,后續將利用這一時間段內的數據對自變量進行計算。
由于用戶每天都有一個流失狀態標簽,一個直觀的辦法是采用逐日建立模型對客戶流失狀態進行預測。但由于日模型更新迭代的頻率較快,且只使用一天的數據,如果當天的樣本量較小,日模型的預測效果就會受到影響。因此,為了增加模型的穩定性,本文嘗試建立7個交易日模型(簡稱周模型),7個交易日周模型以7個交易日的數據為訓練集。
表1為7個交易日周模型在2021年4月15日和4月28日兩組數據上的擬合結果。由表1可知,除了“總交易次數均值”在4月28日的模型中不顯著之外,其他自變量在兩個模型中均是顯著的,且顯著程度較高。此外,從系數結果可以看到,兩個在不同日期建立的模型系數有相同的方向和相近的大小,說明選出的11個自變量在客戶流失概率刻畫過程中的作用較為穩定。從模型評估結果來看,4月15日周模型的AUC為0.846,精確率為66.4%,召回率為86.5%;4月28日周模型的AUC為0.822,精確率為72%,召回率為82.7%。由此可以看出,周模型具有一定的穩定性,且預測能力已經達到了較高水平。
綜上所述,模型產生的一個重大應用價值就是基于流失風險的人群進行細分。具體做法如下:本文對客戶的流失狀態進行預測,根據模型預測出的流失概率將客戶等量劃分為10類。其中,前10%的客戶有最高的預測流失概率,10%~20%的客戶有次高的預測流失概率,以此類推。為了驗證模型效果,可以計算每類客戶的實際流失率,對比發現,擁有較高預測流失率人群的實際流失率也相對較高,特別是“前10%”和“10%~20%”的客戶實際流失率分別高達92.43%和92.70%。因此,可以根據模型給出的預測流失概率對客戶劃分不同的流失風險等級,如“高流失風險”“中等流失風險”和“低流失風險”,并在實際業務中根據風險等級對客戶應用不同的挽回策略。
該研究結果將在兩個層面對A證券公司的業務系統實現支持:從策略支持的角度,本文最終將提供一套完整的客戶流失因子影響度分析及客戶流失預警邏輯體系。從技術支持的角度,本文最終將提供一套高效、穩定的程序代碼,包含流失因子分析、流失預警及策略分析等部分,以便A證券公司的開發人員進行后期開發、部署和應用。