■江乾坤 常夢瑤
我國P2P網貸平臺大數據風控應用研究
■江乾坤常夢瑤
我國P2P網貸平臺正面臨風險控制難題,應用大數據風控是其可持續發展的重要議題。本文從P2P網貸平臺大數據風控的定義、特點與模式比較出發,回顧了大數據風控在我國P2P網貸行業的應用現狀,剖析了其數據共享、真實性、制度缺失、數據處理復雜等應用不足,建議加強征信體系專業化建設進程,提高大數據真實性處理能力,完善大數據制度建設并加大風控模型的研發投入。
P2P網貸平臺大數據風險控制
據網貸之家數據顯示,截至2016年6月底,我國P2P網貸平臺累計達4127個,網貸行業累計成交量為22075.06億元,預計全年網貸行業成交量或將突破2萬億元,但全國網貸問題平臺數累計數也超過2000家,部分P2P平臺壞賬率高達20%以上。雖然許多網貸問題平臺屬于“偽互聯網金融”,其創新“異化”行為隨著監管部門的專項整治而被清理整頓(江乾坤和陳文瑤,2016),但P2P網貸平臺的高利率—高風險特性帶來的風險控制難題卻會長期存在。事實上,P2P網貸平臺之所以能在國際范圍內快速崛起,它本身是“互聯網+”時代技術變革的產物,其創新優勢在于摒棄傳統的信貸風控模式,運用大數據技術深入挖掘數據建模的可行性,通過完善的數據征信來破解信貸風控難題。因此,研究如何運用大數據技術進行風險控制將是我國P2P網貸平臺可持續發展的重要議題。
(一)大數據風控的定義
大數據風險控制(簡稱“大數據風控”)是指通過運用大數據構建模型的方法對借款人進行風險控制和風險提示。大數據并不單純指數據量的增加,最重要的是發現曾經忽略的數據的價值(劉新海,2014)。
(二)大數據風控的特點
1.風控數據維度大。大數據風控最大的優勢就是豐富了信用風險評估的數據緯度,這些用戶行為信息,很大程度是大數據采集和分析的結果,用戶一般是不會提供給金融行業的。
2.風控數據實時有效。數據是有時間價值的,實時有效的數據對于風險評估結果影響很大,滯后的數據會影響評估結果,不能反映實時的風險變化。大數據信用評估體系更看重用戶現在的信息。
3.信用評價結果精準。“互聯網+”時代,只有大數據技術才能從龐大的碎片化數據中準確識別用戶的信用情況。大數據風控模型將海量數據納入風控體系,并以多個風控模型進行多角度分析,評分結果更加全面準確。
(三)模式比較
大數據不僅是一種資源,而且是一種商業思維拓展和技術方法創新。從美國借貸市場的信用風險評估模式比較來看(表1),小數據時代有經過60年打磨的傳統風險評估模式—評分卡建模技術,如FICO(Fair Isaac Company,費埃哲)、Lending Club等,大數據時代則引入了大數據風險評估模式—機器學習技術,如ZestFinance、Kabbage等(張杰,2016)。
對比兩類風險評估模式可知:
第一,大數據風險評估模式的服務人群更廣泛。傳統風險評估只能服務有豐富借貸記錄的借款人,而大數據風險評估還可以服務無信用記錄或信用記錄不好的借款人。ZestFinace能夠讓信用記錄不完整或不夠完善的人群公平地享受金融服務。在FICO的征信體系里,有15%的人是沒有信用記錄的,而ZestFinace就是要給沒有被傳統征信體系覆蓋的人群解決貸款問題。
第二,大數據風險評估模式的數據來源與數據格式更全面。FICO評分僅采用借貸數據,而ZestFinance采用了大量非傳統的信用數據,包括電子商務、社交網絡、搜索行為等,傳統信用數據的比重僅占到40%左右。FICO信用分數所包含的貸款人的變量一般只有幾十項,而Zest Finance模型包含的變量數以萬計,它搜尋極多、極邊緣的變量。比如申請人電子郵件所使用的用戶名,申請人填寫申請表時的大小寫習慣,是否擁有預付款或已付全款的手機等。Zest Finance將成千上萬的信息數據聯系起來,就可以勾畫出一個人的精確圖景。
第三,大數據風險評估模式的建模方法更科學。FICO主要運用可解釋性強的線性模型,不注重算法本身,將大部分精力關注在建模的過程管理和數據的預處理等方面,如響應變量定義、逾期滾動率分析、表現期時間窗選取、格式轉換、缺失值處理、分箱選擇、變量穩定性分析等。Zest Finance則重點關注表達能力更強、準確率更高的非線性模型,如梯度提升樹、隨機森林、神經網絡、張量分解等。讓機器代替人工去衍生更多的變量并作出篩選,從而可以利用到更多的弱變量(張杰,2016)。
第四,大數據風險評估模式的變量個數更豐富。FICO評分一般擁有500個數據項,從中提取50個變量,利用一個預測分析模型做出信用風險量化評估。而Zest Finance模型往往要用到3500個數據項,從中提取70,000個變量,利用10個預測分析模型進行集成學習或多角度學習,最終得到消費者信用評分。
第五,大數據風險評估模式的運行效率更高效。Zest Finace模型與FICO評分相比,效率能夠提高90%,它在5秒鐘內能對每位信貸申請人的超過1萬條原始信息數據進行分析,并得出超過7萬個可對其行為作出測量的指標。此外,Zest Finace在風控方面也有很好的改進,能把相關貸款人違約率降低將近50%。

表1 美國借貸市場兩類信用風險評估模式的比較
(一)總體情況
2013年互聯網金融興起伊始,P2P網貸平臺主要是作為傳統金融的補充,服務對象瞄準的是傳統金融覆蓋不到的小微企業主和個人,提供的借款與傳統銀行信貸差異不大,只是額度更低、限制條件更寬松、期限和還款方式更靈活,在風控環節仍是延續銀行的做法:以央行征信報告為主要數據源,以專家經驗或專家規則為評判策略。2015年初,央行釋放出了個人征信市場化的信號,“大數據”開始逐漸被P2P網貸行業的風控人員所接受,一些數據被證實可以做為征信報告的有效補充,例如移動設備信息用于識別身份冒用、黑名單灰名單用于識別多頭負債、位置信息用于評估穩定性、頁面行為分析用于識別欺詐、消費記錄用于評估可支配收入水平,社交關系用于評估信用行為等(張杰,2016)。
目前,我國P2P網貸行業的大數據風控應用仍處于初級的“數據”階段,“市場先行,風控滯后”的局面有待改善。不過,一些P2P網貸平臺逐漸重視大數據風控技術,推出了各具特色的模式。(1)極速模式。2014年10月7日,宜人貸正式將“極速模式”添加進“宜人貸借款”APP中。該模式應用了大數據技術,通過積累的海量數據和算法模型,深入分析用戶各方面的信息,以做出是否貸款及貸款額度的決策。宜人貸可做到1分鐘授信,10分鐘批貸,批貸額度最高可達10萬元,平臺月費率在0.78%。這一切都由計算機在后臺完成,大大節約了線下審核時間。(2)積木盒子模式。2014年11月份,積木盒子開始組建金融大數據中心,主要在貸前審查、貸后管理上進行應用。大數據中心負責對個人數據進行采集、加工和決策。最明顯的信用貸“讀秒”,積木盒子大數據中心會根據用戶提交的電商消費數據、銀行卡信息和手機通話信息,來判斷用戶的信用等級,是否符合“讀秒”標準,最后決定是否通過這筆借款。(3)BeeR.C.密風控。樂金所擁有自主研發的大數據風控成果—BeeR.C.密風控。首先,BeeR.C.密風控會對個人借款人以及相關企業法人的真實身份進行驗證,確保借款人信息的真實可靠。其次,BeeR.C.密風控將借款方五個風控指標調查數據分數,導入企業貸款,及抵押類貸款兩大產品類型8種以上的風險控制模型,計算出BAA,BA,BB,BC,BD,BF六種信用級別,分值范圍在180至1100分之間,根據每個貸款產品的貸款策略和標準,以及每種產品相對應的風險水平,決定可以接受的信用分數水平。最后,風控委員會根據分值召開決策會議,決議“同意”、“否決”或“要求補充擔保品”。
(二)拍拍貸的魔鏡風控系統
2015年3月24日,拍拍貸正式發布其歷經八年自主開發、具有自主知識產權的“魔鏡風控系統”。該系統依托600萬在線用戶、已經積累近40億條數據,被認為是行業內首個基于大數據的風控模型,首個能準確預測借款標的風險概率的風控系統,也是首個能基于準確風控評級、制定風險定價的風險管理系統。
在大數據采集階段,與傳統銀行的風控考察借款人的70-80個數據維度相比,魔鏡風控系統采用2000多個數據維度,平均使用400個數據維度來評價一位借款人(李先瑞,2015)。該系統既沿用了傳統銀行征信體系的決策指標,又納入了海量互聯網行為數據。多維度的大數據征信信息可對借款人從不同角度精確描述和深入量化其信用風險,其數據來源如表2所示:

表2 魔鏡風控系統的大數據來源

圖1 拍拍貸公司利用大數據技術構建的全自動風控系統
在大數據分析階段,拍拍貸構建了三個完備的全自動風險控制系統(如圖1):反欺詐系統、魔鏡評級系統和風險定價系統服務。魔鏡等級將很大程度影響到借貸人的借款成功率、最終借款利率、最高借款額度等。通常來講,借貸人的信用等級越高,其違約率越低,貸款成功率越高。針對每一筆借款,風險模型會給出一個風險評分,以反映對逾期率的預測。每一個評分區間會以一個字母評級的形式展示給借入者和借出者。從AAA到F,風險依次上升,例如AA的目標逾期率小于0.1%,F級則大于10%。
最后,根據以上三個風險控制系統來準確把握對借款人是否放貸、放貸額度和放貸利率,有效避免違約風險。
(一)信貸數據嚴重不足,各平臺的數據彼此孤立
獲取足夠多的信貸數據對于提升P2P網貸平臺風控能力至關重要,海量的數據才能建立更準確的風控模型。然而,我國銀行業信貸風險管理起步較晚,信貸數據積累不足,沒有建立一套完整、連續的基礎數據庫。我國央行征信系統覆蓋的人群非常有限,遠低于美國征信體系對人口85%的覆蓋。近年來,社交數據、網購數據、通信數據等為P2P網貸平臺獲取并有效利用信用數據提供了新源泉。大數據真正的技術含量和價值體現在數據提取與利用上,它應該是由不同企業、不同部門共享而成,進而真實、動態地反映個人與企業的經濟狀況及信用等級。不過,目前各個企業對數據大多抱著封閉獨享的態度,數據與平臺之間彼此孤立,難以形成共享的數據鏈和數據網,而這恰恰是大數據風控所必須的。此外,各個信用機構的評分依據不能完全遷移,這在某種程度上也限制了數據的體量和維度。
(二)大數據質量存疑,真實性難以判斷
首先,社交數據并不能準確反映個人信用評級。美國最大的P2P平臺Lending Club曾嘗試通過用戶在Facebook上的表現來確定其信用度,最終遭遇失敗。美國很多大數據征信公司的信息錯誤率高達50%(巴曙松,2016)。宜信曾大費周折的收集借款人的社交數據,最后發現社交數據根本不能用。其次,交易數據嚴重失真。目前許多電商平臺的“刷單”現象嚴重,一種是商家找所謂的消費者進行“刷單”,賣家買快遞單號,其收件人和寄件人與實際的買家、賣家不一致;另一種是快遞公司發空包,但快遞公司并未完成配送,而幫助商家完成平臺上的物流信息(齊愛民,2015)。
(三)大數據相關制度缺失,數據泄密情況嚴重
中國互聯網信息中心發布的《2015年第35次中國互聯網絡發展狀況統計報告》顯示,46.3%的網民遭遇過網絡安全問題,我國個人互聯網使用的安全狀況不容客觀,大規模數據泄露事件時有發生。在數據收集和使用過程中,許多數據會涉及個人隱私。美國對個人隱私的保護是有明確邊界的,而目前我國關于互聯網個人隱私保護和信息安全的相關法律還很薄弱,個人數據泄露事件頻頻發生,小微企業的商業秘密保護問題也不樂觀。如何高效、適度地開發和使用大數據,不僅僅是一個技術問題,更是一個社會問題。這些泄露的數據大量流入數據黑市,造成了用戶安全、企業安全甚至國家安全方面的連鎖反應(齊愛民,2015)。數據的收集和使用在很多時候沒有征得數據生產主體的同意,不僅導致數據濫用和隱私泄露,而且容易引起數據生產主體的抵制。
(四)大數據技術要求高,數據處理異常復雜
傳統信用體系的數據處理變量相對較少,且各個變量之間彼此相關,對變量進行建模分析時可對每個變量精確分析并最終得到相對透明的結果供使用機構參考。但是,大數據時代征信機構使用的數據變量數龐大,變量之間無必然因果聯系,基于大數據的數以千計的變量規模和多模型使得數據的處理和模型的解釋變得異常復雜,在實際應用中帶來諸多麻煩。超大規模的數據存儲和云平臺數據分析對計算機的存儲與計算能力的要求也會越來越高。
我國P2P網貸平臺大數據風控的有效運用仍然存在許多障礙,但在消除障礙、解決問題中前行是其可持續發展的必然趨勢。為此,本文提出如下建議:
(一)加強征信體系專業化進程
擁有優質數據資源的公司通常形成數據孤島,并不能很好互通,而數據獲取是P2P平臺征信面臨的首要問題。首先,應允許P2P網貸平臺接入大數據信用數據庫,實現各方面信用平臺的有效對接,并注意建立違約披露機制。其次,鼓勵設立專業化的征信數據服務機構。如蜜蜂數據建立的一站式征信服務平臺,與多家P2P平臺實現了對接,提供專業化征信服務,并建立網貸黑名單,提供失信人曝光等服務。第三,要精細化征信范圍。
(二)提高大數據真實性處理能力
P2P網貸平臺在應用大數據建模時應注意剔除無效數據,避免數據誤導。對不同類型的借款人采用不同的評分細則,根據職業、借款用途等做出精準劃分。尤其是對借款用途為企業經營的借款人,不應套用個人借款的信用審核模型,應就企業借款建立專用的信用審核模型,提高模型準確性和平臺風控能力。
(三)完善大數據制度建設工作
應當明確個人信息的外延邊界,明確區別個人信息與個人隱私。在現有國家和地方個人信息保護立法實踐的基礎上制定個人信息保護的專門法。設立個人信息監督管理機構,避免多頭監管帶來的問題,強化個人信息保護的事前監管。
(四)加大風控模型的研發投入
ZestFinance優于傳統信貸機構的重要原因之一就是其強大的數據挖掘能力和模型開發能力:基于多角度學習的預測模型,模型及時更新而且不斷細化。相比而言,我國P2P網貸平臺需要加大對量化的信用風險分析的研發投入,適應大數據風控的垂直化、場景化發展趨勢,開發適合中國國情的大數據模型,強化對數據與消費者的理解。
[1]巴曙松,侯暢,唐時達.大數據風控的現狀、問題及優化路徑〔J〕.金融理論與實踐,2016(2).
[2]江乾坤,陳文瑤.我國P2P網貸平臺創新“異化”現象探析〔J〕.商業會計,2016(11).
[3]劉新海,丁偉.大數據征信應用與啟示——以美國互聯網金融公司Zestfinance為例〔J〕.清華金融評論,2014(10).
[4]李先瑞.大數據征信破解小微企業融資困境探討——以拍拍貸為例〔J〕.會計之友,2015(13).
[5]齊愛民,盤佳.數據權、數據主權的確立與大數據保護的基本原則〔J〕.蘇州大學學報(哲學社會科學版),2015(1).
[6]張杰.大數據風控的場景化趨勢——人人信〔EB/ OL〕.新浪網.2016(6).
[7]JinSFGZ.The Signaling Value of Online Social Networks:Lessons from Peer-to-Peer Lending〔J〕.2014.
[8]Fraiberger,Fraiberger,SamuelP.andSundararajan,Arun,Peer-to-Peer Rental Markets in the Sharing Economy[M].NYU Stern School of Business Research Paper,October 6,2015.
[9]Martina Pokorná,Miroslav Sponer.Social Lending and Its Risks〔J〕.Procedia-Social and Behavioral Sciences,2016,220:330-337.
◇作者信息:杭州電子科技大學會計學院教授
杭州電子科技大學會計學院研究生
◇責任編輯:張力恒
◇責任校對:張力恒
F275
A
1004-6070(2016)08-0059-04
本文系浙江省自然科學基金(Y15G020077):我國P2P網貸平臺的風險因子挖掘與風險控制策略設計;浙江省杭電智慧城市研究中心(ZXZH1401010):數據挖掘與決策支持研究。