999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

移動用戶信用評估模型研究

2017-06-20 23:13:27黃英持鄭婷婷
移動通信 2017年11期
關鍵詞:模型

黃英持+鄭婷婷

【摘 要】為了研究運營商如何利用大數據的優勢提高移動用戶信用評估的科學性與準確性,基于熵值法和分類決策樹模型,建立了移動用戶信用評估模型,詳細分析其實現原理,并給出實際應用場景。通過具體的應用,證明該模型能減少人工分析中更新計算公式的繁重工作量,高效、靈活、準確地完成用戶信用預測評估工作,具有科學性和實用性。

信用評價 熵值法 分類決策樹

1 引言

2015年1月5日,中國人民銀行發布通知,允許8家機構進行個人征信業務,這被看作是個人征信體系即將向商業機構開放的信號,推動了各種互聯網征信平臺的蓬勃快速發展。在此之前,金融機構和民間團體主要通過央行個人征信報告來獲取信息,但是對于藍領工人、學生、個體戶、自由職業者等用戶,并沒能建立個人信用記錄,金融機構和民間團體了解這些用戶信用記錄的成本也比較高,可能無法對這些用戶的信用風險進行準確的判斷。

現有的互聯網征信平臺依托互聯網產生的海量數據,有巨大的價值,雖然也無法覆蓋到個人用戶的方方面面,也存在一些盲點,但相比互聯網企業,移動運營商所擁有的數據資源是互聯網征信平臺先天缺失的,移動運營商在征信業務上有其獨特的、不可取代的優勢,充分利用移動運營商擁有的優質數據建立個人信用記錄,并與其他征信平臺合作整合,既能挖掘移動運營商的資產潛力,也能順應信息時代的發展潮流。

本文將立足于利用運營商大數據的優勢提高移動用戶信用評估科學性、準確性的思想,基于熵值法和分類決策數模型,提出移動用戶信用評估方法與模型。

2 信用評估方法的歷史和現狀

信用評估方法大致經歷了3個階段[1-2]:專家打分法、公式法、規則引擎計算法。

專家打分法由專家根據經驗對每個離散指標值賦予指定的分數、每個指標賦予權重,然后綜合計算得出最終得分。專家打分法是最原始的評估方式,目前在一些特殊場景仍然使用這種方式,比如積分入戶、貸款審核等。

公式法是最簡單普及的信用評估方式,目前依然被廣泛使用。公式法由專家意見結合實際的業務運營經驗制定出評估公式,計算機根據用戶的指標值可以直接計算出相應的信用得分。但隨著業務復雜度的增加和指標的膨脹,單一的公式法也體現出了明顯的局限性,無法適應業務需求,因此越來越多的系統采用規則引擎來實現。

規則引擎可以動態定義復雜的規則,在不同情況下采用不同的公式和參數計算。規則引擎法可以看作是加強版的公式法,但是仍然有許多局限性。這種方法計算方式更靈活,但是參數和公式仍然是預先擬定的,當業務情況發生變化時,仍然需要手動調整計算公式和規則、參數。

通過大數據進行評估預測[3-5],是信用評估方法未來的方向,采用機器學習算法是基于大數據進行訓練學習的,其過程如圖1所示。采用機器學習算法可以使訓練、預測評估、反饋形成閉環,計算公式由大數據訓練產生,過程更加科學,只要定期運行訓練算法、更新模型就能應對業務情況的變化。

本文基于機器學習的信用評估方法,構建了信用評估的分類決策樹模型,該模型能提高信用評估的效率與準確性,現已應用于信用評估系統,能通過Web Service返回評估結果。

3 移動用戶信用評價方法

信用評價模型采用決策樹分類算法和決策樹回歸算法進行預測[5-9]。決策樹模型首先必須有滿足一定數量和質量的樣本訓練集進行訓練,形成決策樹模型,然后在運營過程中持續擴大訓練樣本,達到較高的準確度。具體步驟如下:

采用專家打分法結合熵值法估算樣本的評價取值;

對樣本進行訓練,形成決策樹和回歸樹模型;

使用測試樣本對模型進行驗證;

使用模型預測用戶信用等級和評價。

3.1 生成樣本數據集

從移動公司數據部大數據平臺可獲取特定指標體系模型的樣本數據,本文采集樣本為50 000筆數據,其中40 000筆用于訓練數據集,10 000筆用于模型驗證。樣本的分布必須滿足對指標取值范圍的有效覆蓋,因此,提取樣本數據后必須驗證樣本中指標值的范圍。比如在用戶類型中包括:鉆石卡、金卡、銀卡、VIP卡、普通用戶,每個值必須有接近實際比例的數量,其他指標集同理。

3.2 估算樣本信用

傳統的估算方法一般使用專家法或者公式法。原始的專家打分法工作量太大,且專家打分主觀性隨意性和波動性無法保證,而公式法的主觀性也較強[6,10],因此本文采用專家打分法結合熵值法進行估算。具體步驟如下:

對參與估算的指標進行歸一標準化處理;

使用熵值法計算每個維度下面指標的權重;

使用專家打分法賦予維度權重;

使用指標權重和維度權重計算出信用得分;

根據信用得分賦予等級。

(1)指標歸一標準化

特征指標按類型可劃分為連續變量和離散變量。變量必須經過歸一標準化處理后才能進行樣本集的信用積分和等級計算;對于離散變量,只有有序類型的指標才能參與計算。有序類型的指標由專家給出評分標準,如表1所示:

(2)計算維度指標權重

維度指標的權重計算采用熵值法。熵值法的基本思路是求出指標的熵,然后根據指標熵的冗余度求權重。熵值法的意義在于指標聚集度越高,則權重應該越低,防止計算出的結果區分度太低。假設有一個指標,絕大比例的樣本的得分均在區間[0.8, 0.9]中,則該指標的區分意義不大,權重應該降低。

計算維度指標i的熵采用的公式如下:

(3)

(4)

其中,hi是維度指標i的熵;樣本數量為n;k的計算公式為:

(5)

維度總共m個指標,第i個指標的權重計算公式為:

≤wi≤ (6)

由以上公式可獲得指標體系中五個維度下指標的權重。

(3)賦予維度權重

維度的權重屬于專家決策或者運營者決策的范疇,因此,維度權重di由專家打分法賦予,如表2所示:

表2 專家打分法賦予的維度權重

維度 身份特征 行為特征 信用歷史 賬戶狀況 人脈特征

權重 0.15 0.2 0.2 0.3 0.15

(4)計算樣本信用得分和等級

經過上述步驟,可獲得指標歸一化標準分、維度指標權重、維度權重,則可以計算用戶的信用得分和信用等級。

設維度權重為di,維度指標權重為wi,樣本指標標準分為p,則:

維度得分公式為:

(7)

樣本信用得分公式為:

(8)

至此可得到每個樣本的信用得分。雖然對所有指標直接賦予權重也可以計算樣本得分,但是顯然使用熵值法更加科學準確,區分度更高。

3.3 構建分類決策樹模型

在訓練樣本中,除了采集原始的數據集外,還有一個通過計算出來的信用等級的指標,稱為決策指標。本文采用C4.5算法構建決策樹,首先將這個集合看成一個節點,然后選擇合適的屬性進行分裂。當判斷符合條件時,分裂結束,構建決策樹完成。

(1)選擇分裂屬性

C4.5算法在選擇分裂屬性時,選擇屬性熵增益率較高的優先分裂。熵是用于衡量集合有序性(或者說“純度”)的一個度量。熵的增益率較高表明采用這個屬性分裂能最大限度提高整體的純度。

熵的計算公式是:

(9)

其中,Entropy(s)是集合s的熵,pi是屬性的不同性。比如一個集合有10個樣本,其中3個信用等級為2、5個信用等級為3、2個等級為4,則集合的不同性分別為3/10、5/10、2/10,而集合的熵為:

Entropy(s)=-3/10×log2(3/10)-1/2×log2(1/2)-

1/5×log2(1/5) (10)

熵的增益計算公式為:

(11)

其中,V(A)是屬性A的值域,S是樣本集合,Sv是S在屬性A上值等于v的樣本集合。

熵的增益率公式為:

(12)

其中:

(13)

其中,S1到Sc是c個值的屬性A分割S而形成的c個樣例子集。

使用增益比率代替增益來選擇屬性,會產生一個實際問題:當某個Si接近S時,分母可能為0或非常小。如果某個屬性對于S的所有樣例有幾乎同樣的值,這時要么導致增益比率未定義,要么是增益比率非常大。為了避免選擇這種屬性,可以采用這樣一些啟發式規則,比如先計算每個屬性的增益,然后僅對那些增益高過平均值的屬性應用增益比率測試(Quinlan 1986)。

(2)分裂節點

對于連續變量類型的指標,先對指標值進行排序,然后按定義bin的值,根據比例劃分成n份Sample,計算每份Sample的均值,選取相鄰兩個Sample均值的中間點作為切分點分裂。

對于離散變量,則分為兩種情況:當屬性值屬于有序變量時,直接按照屬離散屬性,每個屬性分裂成一個bin;當屬性變量屬于無序變量時,則遍歷所有的分裂組合,選擇熵的增益最小的分裂方式。

(3)分裂結束

重復以上過程,對每個屬性進行分裂,直到完成構建決策樹。判斷分裂是否結束的條件有:樹的高度是否達到最大值、樣本數量是否達到最小值、信息增益是否小于未分裂狀態。當分裂結束時,返回到該葉子節點中決策指標中比例最大的值。

(4)驗證模型

完成構建決策樹模型之后,對測量數據集進行預測,然后比較預測準確率,可以了解模型的預測準確率。實踐中,該模型經過訓練后,準確率超過80%,具備一定的實用性。隨著后續運營中數據的持續積累和反復增量訓練,預計該模型的準確性和實用性會持續提高。

4 移動用戶信用評估模型應用

移動用戶信用評估模型的應用流程如圖2所示。信用評估系統從基礎數據模塊采集待評估用戶的基礎數據,經分析整理后計算熵值,構建決策樹模型進行評估。如果用戶對于授信平臺的評估結果有異議,可以向平臺提出核對申請,由平臺人工審核校正,人工矯正的數據可以作為下一輪訓練數據。外部平臺通過授信接口獲得移動用戶信用以后,作為用戶消費額度授信的基礎參考數據。

授信平臺信用接口模塊通過Web Service向外部提供信用查詢能力,移動用戶可通過公眾號、第三方平臺等方式獲取自己的信用狀況,如圖3所示:

5 結束語

本文建立了基于熵值法和決策樹的用戶信用評估模型,并充分利用了運營商的大數據優勢,使用該模型實現了用戶信用的預測評估。該模型應用于移動用戶信用評估系統,可以高效、靈活、準確地完成用戶信用的預測評估工作,減少了人工分析及更新的繁重工作量,具有科學性和實用性。

參考文獻:

[1] 趙靜嫻. 基于決策樹的信用風險評估方法研究[D]. 天津: 天津大學, 2009.

[2] 郭仌,梁世棟,方兆本. 消費者信用評估分析綜述[J]. 系統工程, 2001(6): 9-15.

[3] 申華. 基于數據挖掘的個人信用評分模型開發[D]. 廈門: 廈門大學, 2009.

[4] 葛繼科,趙永進,王振華,等. 數據挖掘技術在個人信用評估模型中的應用[J]. 計算機技術與發展, 2006(12): 172-174.

[5] 張麗娟,李舟軍. 分類方法的新發展:研究綜述[J]. 計算機科學, 2006(10): 11-15.

[6] 金劍,林成德. 基于混合型專家系統的資信評估系統模型設計與實現[J]. 計算機應用, 2003(4): 81-83.

[7] 王剛,韓立巖. 基于信息熵和回歸分析的信用風險評估研究[J]. 運籌與管理, 2003(5): 94-98.

[8] 葉中行,余敏杰. 基于遺傳算法和分類樹的信用分類方法[J]. 系統工程學報, 2006(4): 424-428.

[9] 李旭升,郭耀煌. 基于貝葉斯網絡分類的個人信用評估模型[J]. 統計與決策, 2006(20): 13-15.

[10] 田博,覃正. 電子商務中的信用模型研究[J]. 情報雜志, 2007,26(4): 42-44.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 精品人妻系列无码专区久久| 999精品在线视频| 免费A级毛片无码免费视频| 久久久久青草线综合超碰| 久久精品国产亚洲麻豆| 国产电话自拍伊人| 欧美国产菊爆免费观看| 91青青草视频| 日韩经典精品无码一区二区| 日韩无码黄色| 日本不卡视频在线| 国产人碰人摸人爱免费视频| 黄色网在线免费观看| 国产成人精品亚洲77美色| 亚洲男人天堂网址| 国产91九色在线播放| 国产免费a级片| 69视频国产| 国产JIZzJIzz视频全部免费| 日韩国产另类| 国产在线精品人成导航| 又大又硬又爽免费视频| 四虎影视国产精品| 日韩无码视频网站| 精品福利国产| 在线国产综合一区二区三区 | 国产裸舞福利在线视频合集| 亚洲国产理论片在线播放| 一级黄色欧美| 国产迷奸在线看| 国产污视频在线观看| 欧美成人在线免费| 啪啪免费视频一区二区| 国产玖玖视频| 国产熟女一级毛片| 国产婬乱a一级毛片多女| 成人福利一区二区视频在线| 中文字幕免费视频| 日本手机在线视频| 一本大道香蕉久中文在线播放 | 欧美在线伊人| 国产视频入口| 国产欧美日韩另类精彩视频| 中文字幕佐山爱一区二区免费| 亚洲专区一区二区在线观看| 蜜臀av性久久久久蜜臀aⅴ麻豆| 成人综合久久综合| 亚洲AV色香蕉一区二区| 国产精品女主播| 久久人人妻人人爽人人卡片av| 欧美中文字幕无线码视频| 亚洲IV视频免费在线光看| 亚洲国产系列| 成人福利在线观看| 国产区在线看| 四虎永久在线精品国产免费| 成人国产精品2021| 中文字幕丝袜一区二区| 好久久免费视频高清| 国产18在线播放| jizz国产在线| 精品一区二区无码av| 国产成人精品午夜视频'| 国产91久久久久久| 亚洲人成网址| 强乱中文字幕在线播放不卡| 中文字幕 91| 欧洲成人免费视频| 伊人久久精品无码麻豆精品 | 亚洲国产精品美女| 3344在线观看无码| 黄色污网站在线观看| 亚洲男人在线天堂| 亚洲an第二区国产精品| 国产精品美女免费视频大全| 日本在线亚洲| 国产一区二区三区在线观看视频| 内射人妻无套中出无码| 91无码国产视频| a毛片在线免费观看| 亚洲成人黄色在线| 97青草最新免费精品视频|