黃英持,鄭婷婷
(1.中國移動通信集團廣東有限公司數據和產品研發中心,廣州 510623;2.廣東開放大學信息與工程學院,廣州 510091)
移動用戶信用評估系統的設計與開發研究
黃英持1,鄭婷婷2
(1.中國移動通信集團廣東有限公司數據和產品研發中心,廣州 510623;2.廣東開放大學信息與工程學院,廣州 510091)
運營商的數據資源優勢,為信用評估系統的發展帶來新的機遇。建立消費者的指標體系,借鑒已有信用評估模型,使用Apache Spark實現決策引擎,并經過數據采集、數據標準化、數據訓練等過程提高計算的準確度,計算結果以Web Service提供,用戶可通過多種方式實現個人信用值的快速計算與查詢。
信用評估;指標體系;決策樹;Apache Spark
對企業組織和個人的信用信息進行采集、整理、保存和加工,稱為征信,其本質在于利用信用信息對金融主體進行數據刻畫[1]。長期以來,中國征信市場是以央行為主導的單一格局,但在用戶覆蓋面和數據多樣性方面,央行征信系統有很大的局限性,例如對于藍領工人、學生、個體戶、自由職業者等用戶,無法建立較準確的個人信用記錄,且金融機構和民間團體了解這些用戶信用記錄的成本也比較高。
大數據為信用評估提供了豐富的數據資源,也改變了信用評估產品的設計和生產方式。大數據的出現,特別是互聯網金融的蓬勃發展,為信用評估活動提供了全新的發展視角[2-3]。例如互聯網征信,主要是通過采集個人在互聯網交易或使用互聯網各類服務過程中留下的信息數據,并結合線下渠道采集的信息數據,利用大數據、云計算等技術進行信用評估的活動[3-4]?;ヂ摼W征信為征信發展提供了豐富的信息來源,改變了征信服務理念和傳統的信用評分模式,從而更好地推動我國個人征信市場的建立及社會信用體系的完善。
目前較有代表性的互聯網征信系統包括阿里巴巴的“芝麻分”的信用評級產品和“花唄”的個人信用消費產品,京東的“白條”的個人信貸消費產品等,這些產品在需要支付押金或預授權等現實中的各種履約場景都可以得到應用。
移動運營商具有先天的數據資源優勢,充分利用移動運營商所擁有的優質數據建立個人信用記錄,并與其他征信平臺合作整合,既能挖掘移動運營商的資產潛力,也能順應“互聯網+”的發展潮流。
基于移動用戶的消費行為,選擇合適的特征指標體系,可以盡量以較少的變量反映數據的主要特征[5]。綜合可獲取的指標以及專家意見,可大致建立用戶信用評估的主要指標體系,如表1所示。

表1 移動用戶征信主要指標體系
第一層分為身份特征、行為特征、人脈特征、信用歷史、賬戶狀況5個維度。身份特征維度主要是利用運營商實名制的優勢獲取用戶年齡、居住工作地等與通信和行為無關的基本特征;行為特征衡量用戶對移動通信,移動互聯網的使用情況;人脈特征主要反映用戶的社交圈子的信用程度;信用歷史和賬戶狀況反映了用戶過去和現在的基本信用情況。
概括而言,消費者信用評估方法可以分為統計模型和非統計模型兩類,統計模型包括判別分析、邏輯回歸、K近鄰規則、決策樹等;非統計模型包括數學規劃、支持向量機、神經網絡、遺傳算法等[6]。為了獲取更準確的計算結果,可以將上述兩種或幾種方法有機地結合起來,實現更有效的信用評估計算。例如可以把決策樹和非統計模型的方法結合起來計算用戶的消費特征,使用貝葉斯網絡分類模型訓練得到的數據,這都是系統中可以借鑒的實現方式。
信用評估計算的關鍵是科學合理地選出信用變量,并產生一個公式。常用于個人信用評估的數據挖掘方法包括分類、聚類、關聯規則分析、預測、孤立點檢測等[7]。數據挖掘的前提是需要采集到足夠的數據樣本,但樣本中有些特征指標的變量需要經過歸一標準化處理后才能進行下一步的計算,例如對于離散變量,可通過標準化計算把它的值映射到[0,1]區間。然后使用熵值法計算指標的權重。熵值法的基本思路是求出指標的熵,然后根據指標熵的冗余度求權重。
當樣本庫中采集到足夠數量和經處理后滿足質量要求的樣本數據,就可以根據樣本的指標特征值,對樣本集進行分析,得到決策樹。決策樹是一個類似于流程圖的樹狀結構,以樹的形式采用自上而下的方式給出分類規則[6]。決策樹方法包括兩個主要步驟:構建和剪枝。每個決策樹都可由其分支,對該類型的對象依靠屬性進行分類,在構建決策樹時,一般采用基于信息熵定義的信息增益來選擇內部結點的測試屬性。而決策樹剪枝主要是識別并消除由數據集中的噪聲或異常數據所產生的分枝,以幫助改善決策樹對未知類別對象分類的準確性。
當完全采用決策樹方法時,由于它使用信息熵或其他的啟發式信息來選擇充當分支結點的屬性,用幾率代替概率來計算信息熵,隨著樹的深入構造,誤差將會越來越大。因此,采用決策樹的方法往往要結合其他方法,例如聚類分析、神經網絡等,以減少累積誤差。基本思路是先根據決策計算的結果作區段劃分,然后對每一個大類別進行聚類分析,得到多個子聚類,再對每個子聚類建立一個能擬合包含所有樣本的子模型。這樣,就得到一種類似樹狀的結構——聚類樹。對于基層的子聚類,當某些子聚類滿足指定條件時,就可實現節點的合并。
在本系統中將采用分布式計算、離線更新模式。首先進行訓練數據采集,再對數據進行整理、清洗,使數據標準化,并通過訓練構建模型的離線更新,最后通過在線加載模型進行預測。后端機器學習子系統中涉及大數據的部分計算量較大、實時性要求較低,獨立運行不會影響到在線子系統的運作。系統架構示意圖如圖1、圖2所示。

圖1 移動用戶信用評估系統數據流程圖
信用評估接口將從基礎數據模塊獲取待評估用戶的基礎數據,然后調用決策引擎進行評估。決策引擎根據策略,將不定時地從已有的決策模型庫加載決策模型以進行預測。分析維度框架包括通信行為、行為偏好、身份特征等指標體系,并使用聚類分析、決策樹、關聯分析等方法進行數據挖掘與建模。在離線部分,數據采集模塊定期從數據庫采集增量數據進行標準化,然后訓練、更新模型。

圖2 移動用戶信用評估系統模塊圖

圖3 MLlib算法庫
系統決策引擎采用Apache Spark MLlib[7-8]作為核心框架。Apache Spark是一個開源集群運算框架,由加州大學柏克利分校AMPLab所開發。Apache Spark允許將數據加載至集群內存,并多次對其進行查詢,非常適合用于機器學習算法。Apache Spark MLlib是一種基于Spark的高效、快速、可擴展的分布式計算框架,它實現了常用的機器學習,如:聚類、分類、回歸等算法。MLlib算法庫核心如圖3所示。
信用評估接口管理接入平臺和移動用戶信用歷史,接入平臺通過Web Service接口獲得移動用戶信用值,用戶可以通過多種渠道,例如公眾號、App等查看自己的信用值。
本文給出了基于移動用戶消費行為數據的征信評估系統的設計思路,先提取用戶的特征指標體系,通過決策引擎根據需要調用信用評估方法,如決策樹、聚類分析等,利用Apache Spark MLlib算法庫實現高效、快速的分布式計算。該系統充分利用了運營商大數據的優勢,可以高效、靈活、準確地完成用戶信用評估與預測。實踐表明,經過一定時期的訓練及試運行后,系統計算的準確率可達到80%以上,具備一定的實用性。
[1]徐鑫.大數據征信“大有可為”[J].上海信息化,2016,10:29-33.
[2]張健華.互聯網征信發展與監管[J].中國金融,2015,01:40-42.
[3]人民銀行石家莊中心支行征信管理處課題組,劉旭,趙玉清.大數據環境下互聯網征信發展與監管研究[J].河北金融,2016,04:3-8.
[4]鄧舒仁.關于互聯網征信發展與監管的思考[J].征信,2015,01:14-17.
[5]賴輝,帥理,周宗放.個人信貸客戶信用評估的一種新方法[J].技術經濟,2014,33(9):97-103.
[6]王昱.基于組合分類的消費者信用評估[J].管理工程學報,2015,29(1):30-38.
[7]葛繼科,趙永進,王振華,等.數據挖掘技術在個人信用評估模型中的應用[J].計算機技術與發展,2006,16(12):172-174.
[8]Apache Spark.Spark文檔[EB/OL].[2017-04-14].http://spark.apache.org/docs/latest/.
[9]寧永恒.基于Spark的若干數據挖掘技術研究[D].杭州:計算機應用技術,2016.
Research on the Design and Development of Credit Evaluation System for Mobile Communication Customers
HUANG Ying-chi1,ZHENG Ting-ting2
(1.China Mobile Guangdong Digital Research Center,Guangzhou 510623;2.The Open University of Guangdong,Guangzhou 510091)
The advantages of data resources of telecommunications operators bring new opportunities for the development of credit evaluation system.Establishes the index system of consumers,uses the existing credit evaluation model,and uses Apache Spark to realize the decision engine.After the procedure of date acquisition,data standardization,and data training,improves the accuracy of the calculation.The results are provided by Web Service,and users can realize the rapid calculation of querying personal credit value through a variety of ways.
黃英持(1983-),男,廣東江門人,碩士研究生,從事領域為大數據創新產品研發工作
2017-06-02
2017-06-10
1007-1423(2017)17-0081-04
10.3969/j.issn.1007-1423.2017.17.017
鄭婷婷(1984-),女,廣東湛江人,碩士研究生,講師,研究方向為移動應用技術、大數據技術
Credit Evaluation;Index System;Decision Tree;Apache Spark