999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

移動用戶信用評估系統的設計與開發研究

2017-08-10 09:52:45黃英持鄭婷婷
現代計算機 2017年17期
關鍵詞:用戶模型系統

黃英持,鄭婷婷

(1.中國移動通信集團廣東有限公司數據和產品研發中心,廣州 510623;2.廣東開放大學信息與工程學院,廣州 510091)

移動用戶信用評估系統的設計與開發研究

黃英持1,鄭婷婷2

(1.中國移動通信集團廣東有限公司數據和產品研發中心,廣州 510623;2.廣東開放大學信息與工程學院,廣州 510091)

運營商的數據資源優勢,為信用評估系統的發展帶來新的機遇。建立消費者的指標體系,借鑒已有信用評估模型,使用Apache Spark實現決策引擎,并經過數據采集、數據標準化、數據訓練等過程提高計算的準確度,計算結果以Web Service提供,用戶可通過多種方式實現個人信用值的快速計算與查詢。

信用評估;指標體系;決策樹;Apache Spark

0 引言

對企業組織和個人的信用信息進行采集、整理、保存和加工,稱為征信,其本質在于利用信用信息對金融主體進行數據刻畫[1]。長期以來,中國征信市場是以央行為主導的單一格局,但在用戶覆蓋面和數據多樣性方面,央行征信系統有很大的局限性,例如對于藍領工人、學生、個體戶、自由職業者等用戶,無法建立較準確的個人信用記錄,且金融機構和民間團體了解這些用戶信用記錄的成本也比較高。

大數據為信用評估提供了豐富的數據資源,也改變了信用評估產品的設計和生產方式。大數據的出現,特別是互聯網金融的蓬勃發展,為信用評估活動提供了全新的發展視角[2-3]。例如互聯網征信,主要是通過采集個人在互聯網交易或使用互聯網各類服務過程中留下的信息數據,并結合線下渠道采集的信息數據,利用大數據、云計算等技術進行信用評估的活動[3-4]?;ヂ摼W征信為征信發展提供了豐富的信息來源,改變了征信服務理念和傳統的信用評分模式,從而更好地推動我國個人征信市場的建立及社會信用體系的完善。

目前較有代表性的互聯網征信系統包括阿里巴巴的“芝麻分”的信用評級產品和“花唄”的個人信用消費產品,京東的“白條”的個人信貸消費產品等,這些產品在需要支付押金或預授權等現實中的各種履約場景都可以得到應用。

移動運營商具有先天的數據資源優勢,充分利用移動運營商所擁有的優質數據建立個人信用記錄,并與其他征信平臺合作整合,既能挖掘移動運營商的資產潛力,也能順應“互聯網+”的發展潮流。

1 移動用戶信用評估指標體系構建

基于移動用戶的消費行為,選擇合適的特征指標體系,可以盡量以較少的變量反映數據的主要特征[5]。綜合可獲取的指標以及專家意見,可大致建立用戶信用評估的主要指標體系,如表1所示。

表1 移動用戶征信主要指標體系

第一層分為身份特征、行為特征、人脈特征、信用歷史、賬戶狀況5個維度。身份特征維度主要是利用運營商實名制的優勢獲取用戶年齡、居住工作地等與通信和行為無關的基本特征;行為特征衡量用戶對移動通信,移動互聯網的使用情況;人脈特征主要反映用戶的社交圈子的信用程度;信用歷史和賬戶狀況反映了用戶過去和現在的基本信用情況。

2 信用評估計算的實現

概括而言,消費者信用評估方法可以分為統計模型和非統計模型兩類,統計模型包括判別分析、邏輯回歸、K近鄰規則、決策樹等;非統計模型包括數學規劃、支持向量機、神經網絡、遺傳算法等[6]。為了獲取更準確的計算結果,可以將上述兩種或幾種方法有機地結合起來,實現更有效的信用評估計算。例如可以把決策樹和非統計模型的方法結合起來計算用戶的消費特征,使用貝葉斯網絡分類模型訓練得到的數據,這都是系統中可以借鑒的實現方式。

信用評估計算的關鍵是科學合理地選出信用變量,并產生一個公式。常用于個人信用評估的數據挖掘方法包括分類、聚類、關聯規則分析、預測、孤立點檢測等[7]。數據挖掘的前提是需要采集到足夠的數據樣本,但樣本中有些特征指標的變量需要經過歸一標準化處理后才能進行下一步的計算,例如對于離散變量,可通過標準化計算把它的值映射到[0,1]區間。然后使用熵值法計算指標的權重。熵值法的基本思路是求出指標的熵,然后根據指標熵的冗余度求權重。

當樣本庫中采集到足夠數量和經處理后滿足質量要求的樣本數據,就可以根據樣本的指標特征值,對樣本集進行分析,得到決策樹。決策樹是一個類似于流程圖的樹狀結構,以樹的形式采用自上而下的方式給出分類規則[6]。決策樹方法包括兩個主要步驟:構建和剪枝。每個決策樹都可由其分支,對該類型的對象依靠屬性進行分類,在構建決策樹時,一般采用基于信息熵定義的信息增益來選擇內部結點的測試屬性。而決策樹剪枝主要是識別并消除由數據集中的噪聲或異常數據所產生的分枝,以幫助改善決策樹對未知類別對象分類的準確性。

當完全采用決策樹方法時,由于它使用信息熵或其他的啟發式信息來選擇充當分支結點的屬性,用幾率代替概率來計算信息熵,隨著樹的深入構造,誤差將會越來越大。因此,采用決策樹的方法往往要結合其他方法,例如聚類分析、神經網絡等,以減少累積誤差。基本思路是先根據決策計算的結果作區段劃分,然后對每一個大類別進行聚類分析,得到多個子聚類,再對每個子聚類建立一個能擬合包含所有樣本的子模型。這樣,就得到一種類似樹狀的結構——聚類樹。對于基層的子聚類,當某些子聚類滿足指定條件時,就可實現節點的合并。

3 信用評估系統架構與實現

在本系統中將采用分布式計算、離線更新模式。首先進行訓練數據采集,再對數據進行整理、清洗,使數據標準化,并通過訓練構建模型的離線更新,最后通過在線加載模型進行預測。后端機器學習子系統中涉及大數據的部分計算量較大、實時性要求較低,獨立運行不會影響到在線子系統的運作。系統架構示意圖如圖1、圖2所示。

圖1 移動用戶信用評估系統數據流程圖

信用評估接口將從基礎數據模塊獲取待評估用戶的基礎數據,然后調用決策引擎進行評估。決策引擎根據策略,將不定時地從已有的決策模型庫加載決策模型以進行預測。分析維度框架包括通信行為、行為偏好、身份特征等指標體系,并使用聚類分析、決策樹、關聯分析等方法進行數據挖掘與建模。在離線部分,數據采集模塊定期從數據庫采集增量數據進行標準化,然后訓練、更新模型。

圖2 移動用戶信用評估系統模塊圖

圖3 MLlib算法庫

系統決策引擎采用Apache Spark MLlib[7-8]作為核心框架。Apache Spark是一個開源集群運算框架,由加州大學柏克利分校AMPLab所開發。Apache Spark允許將數據加載至集群內存,并多次對其進行查詢,非常適合用于機器學習算法。Apache Spark MLlib是一種基于Spark的高效、快速、可擴展的分布式計算框架,它實現了常用的機器學習,如:聚類、分類、回歸等算法。MLlib算法庫核心如圖3所示。

信用評估接口管理接入平臺和移動用戶信用歷史,接入平臺通過Web Service接口獲得移動用戶信用值,用戶可以通過多種渠道,例如公眾號、App等查看自己的信用值。

4 結語

本文給出了基于移動用戶消費行為數據的征信評估系統的設計思路,先提取用戶的特征指標體系,通過決策引擎根據需要調用信用評估方法,如決策樹、聚類分析等,利用Apache Spark MLlib算法庫實現高效、快速的分布式計算。該系統充分利用了運營商大數據的優勢,可以高效、靈活、準確地完成用戶信用評估與預測。實踐表明,經過一定時期的訓練及試運行后,系統計算的準確率可達到80%以上,具備一定的實用性。

[1]徐鑫.大數據征信“大有可為”[J].上海信息化,2016,10:29-33.

[2]張健華.互聯網征信發展與監管[J].中國金融,2015,01:40-42.

[3]人民銀行石家莊中心支行征信管理處課題組,劉旭,趙玉清.大數據環境下互聯網征信發展與監管研究[J].河北金融,2016,04:3-8.

[4]鄧舒仁.關于互聯網征信發展與監管的思考[J].征信,2015,01:14-17.

[5]賴輝,帥理,周宗放.個人信貸客戶信用評估的一種新方法[J].技術經濟,2014,33(9):97-103.

[6]王昱.基于組合分類的消費者信用評估[J].管理工程學報,2015,29(1):30-38.

[7]葛繼科,趙永進,王振華,等.數據挖掘技術在個人信用評估模型中的應用[J].計算機技術與發展,2006,16(12):172-174.

[8]Apache Spark.Spark文檔[EB/OL].[2017-04-14].http://spark.apache.org/docs/latest/.

[9]寧永恒.基于Spark的若干數據挖掘技術研究[D].杭州:計算機應用技術,2016.

Research on the Design and Development of Credit Evaluation System for Mobile Communication Customers

HUANG Ying-chi1,ZHENG Ting-ting2
(1.China Mobile Guangdong Digital Research Center,Guangzhou 510623;2.The Open University of Guangdong,Guangzhou 510091)

The advantages of data resources of telecommunications operators bring new opportunities for the development of credit evaluation system.Establishes the index system of consumers,uses the existing credit evaluation model,and uses Apache Spark to realize the decision engine.After the procedure of date acquisition,data standardization,and data training,improves the accuracy of the calculation.The results are provided by Web Service,and users can realize the rapid calculation of querying personal credit value through a variety of ways.

黃英持(1983-),男,廣東江門人,碩士研究生,從事領域為大數據創新產品研發工作

2017-06-02

2017-06-10

1007-1423(2017)17-0081-04

10.3969/j.issn.1007-1423.2017.17.017

鄭婷婷(1984-),女,廣東湛江人,碩士研究生,講師,研究方向為移動應用技術、大數據技術

Credit Evaluation;Index System;Decision Tree;Apache Spark

猜你喜歡
用戶模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 青草免费在线观看| 福利一区三区| 欧美午夜一区| 色成人亚洲| 精品国产免费观看一区| 日本三级欧美三级| 丁香婷婷久久| 亚洲天堂首页| 亚洲视屏在线观看| 欧洲日本亚洲中文字幕| 亚洲中文字幕久久无码精品A| 99精品伊人久久久大香线蕉| 欧美中文字幕第一页线路一| 日本免费精品| аⅴ资源中文在线天堂| 国产主播一区二区三区| 欧美国产在线精品17p| 国产在线麻豆波多野结衣| 精品福利视频导航| 国产h视频在线观看视频| 91精品国产情侣高潮露脸| 深夜福利视频一区二区| a欧美在线| 无码国产伊人| 蜜桃视频一区| 中文成人无码国产亚洲| 欧美亚洲国产精品第一页| 亚洲第一黄片大全| 综合社区亚洲熟妇p| 国产麻豆精品在线观看| 欧美亚洲香蕉| 国产精品妖精视频| 老汉色老汉首页a亚洲| 免费不卡在线观看av| 亚洲国产成人久久精品软件| 欧美成人精品高清在线下载| 欧美黄网站免费观看| 国产精品久久久久久久久久久久| 少妇精品在线| 亚洲国产成人在线| 亚洲伊人天堂| 无码AV日韩一二三区| 亚洲区一区| 国产又粗又猛又爽| 久久久久88色偷偷| 亚洲动漫h| 国产无遮挡猛进猛出免费软件| 国产十八禁在线观看免费| 欧美日韩一区二区三| 国产一区在线观看无码| 国产一级毛片yw| 亚洲Va中文字幕久久一区| 国产资源免费观看| 亚洲综合精品香蕉久久网| 性激烈欧美三级在线播放| 国产丝袜91| 久久99这里精品8国产| 日韩成人午夜| www欧美在线观看| 国产激情无码一区二区APP| 亚洲欧美日韩中文字幕在线| 欧美成人精品在线| 国产在线视频自拍| 欧美国产日韩在线观看| 欧美日韩激情在线| 日韩少妇激情一区二区| 国产三级视频网站| 久久久精品久久久久三级| 亚洲成a人在线观看| 亚洲精品手机在线| 香蕉eeww99国产精选播放| 国产亚洲精| 亚洲熟女中文字幕男人总站| 亚洲区一区| 在线精品亚洲国产| 三区在线视频| 国产丝袜一区二区三区视频免下载| 一区二区三区高清视频国产女人| 9啪在线视频| 色香蕉影院| 亚洲黄网在线| 亚洲精品午夜天堂网页|