“大數(shù)據(jù)”概念的最早出現(xiàn),是從2012年2月份紐約時(shí)報(bào)一篇文章開始的。到目前為止,在大數(shù)據(jù)領(lǐng)域當(dāng)中的投資已經(jīng)越來越熱,該領(lǐng)域企業(yè)越來越多。但是,有多少公司到底真正使用的是大數(shù)據(jù)?我相信幾乎沒有太多,這讓我想到1999年、2000年,我剛到美國的時(shí)候目睹了所謂互聯(lián)網(wǎng)1.0版本破滅的過程。
大數(shù)據(jù)在美國金融當(dāng)中最直接的場景,主要運(yùn)用于信用評估體系。美國的信用評估體系很早,對個(gè)人有制衡作用,因此個(gè)人不敢將違約的事情做得太絕。中國現(xiàn)在也在做,但是還不太成熟,這個(gè)領(lǐng)域中有很多機(jī)會。
五大因素評估信用值
美國的信用評估體系很簡單,首先是債務(wù)的歷史。如果個(gè)人曾經(jīng)有過違約,對個(gè)人今后借款能力就會有影響。
第二是債務(wù),當(dāng)下總共欠了多少錢,這個(gè)也很重要,即使你是比爾蓋茨,如果你借款已經(jīng)超過了你的償還能力,也是個(gè)問題。
第三點(diǎn)信用歷史時(shí)間,如果你是在10年之前就有過一張信用卡,或者是相比另外一個(gè)人到今年才有第一張新的信用卡,我不能說哪個(gè)哪個(gè)之間的償還能力更強(qiáng),但至少我會知道第一個(gè)人有更多的信用數(shù)據(jù),這個(gè)就是不一樣的。
第四點(diǎn)是很多相關(guān)的其他因素都很重要。比如說最近有沒有買房,如果買房就有買房信用卡的記錄,有沒有買車?也有。這些東西全部加起來形成了美國現(xiàn)有的評分體系。
從某種程度上來說,對于信用數(shù)據(jù)如果變量太多,信用模型處理起來就會比較麻煩。因?yàn)樗纳疃缺葟V度要重要,對于我來說,我可能關(guān)心的是你過去20年,如果你有記錄,和你從最近一年當(dāng)中才有記錄,二者之間是不一樣的。
那么同樣,關(guān)注用戶的歷史遠(yuǎn)遠(yuǎn)多于現(xiàn)在,也許這個(gè)人一開始是個(gè)屌絲,最近突然發(fā)財(cái)了,可能他的償還能力就會有巨大的改變,但是這樣的因素有沒有體現(xiàn)在這個(gè)里面?很多人不知道。怎么樣把縱向和橫向廣度上的東西都放進(jìn)來,這個(gè)就會顯得相對來說比較重要一點(diǎn)。
傳統(tǒng)信用評估:1.0版本信用模型
我們首先搭建一下傳統(tǒng)信用體系中,兩種類型人物的基本模型,以諸葛亮和司馬懿來舉例。如果將他們歷史上的典故事例來模擬化舉例,可以得出兩個(gè)人信用情況的模型。
司馬懿如果活在今天并且要借錢,可以看看今天他的信用條件怎么樣:跟曹操混了那么多年,日子過得不錯(cuò),擁有過許20年的信用歷史,而且這個(gè)官級從養(yǎng)馬開始一點(diǎn)點(diǎn)升上來,他可能蓋房子借過錢、買馬車借過錢,所以信用值也不錯(cuò),最近沒有新的貸款,如果從美國典型的風(fēng)控角度來說,絕對可以借錢給司馬懿。
如果是諸葛亮要借錢,我們先看諸葛亮的情況:他日子過得沒那么好,幫劉備把蜀國給搞下了,但是畢竟蜀國財(cái)政沒那么好。收入可能只有3000塊錢,過去24個(gè)月還違約過一次,只有7年的信用歷史,最近還老是借錢,借過3次,貸款類型也不豐富,借過錢買過馬車。
將這二者之間進(jìn)行比較,毫無疑問大家都會選擇把錢借給司馬懿,而不借給諸葛亮,這是個(gè)典型的傳統(tǒng)的風(fēng)控模型,看重債務(wù)歷史,而不看重現(xiàn)在。
真正的信用評估應(yīng)該是這樣的:傳統(tǒng)的占很大一部分,但是可替代的網(wǎng)絡(luò)數(shù)據(jù)也占據(jù)一部分,包括用戶在網(wǎng)上體現(xiàn)出來的網(wǎng)絡(luò)行為、社交信息和來自用戶自己的回答,要把所有這些信息全部給綜合起來才可以。在傳統(tǒng)數(shù)據(jù)當(dāng)中,我們只看到了深度沒看到廣度,現(xiàn)在更多是注重廣度,因此當(dāng)下網(wǎng)絡(luò)上的數(shù)據(jù)也是很重要的。
大數(shù)據(jù):2.0版本信用評估模型
以上是信用評估的1.0版本,倘若以互聯(lián)網(wǎng)的思維和方式來分析,或許就能獲得截然不同的結(jié)果。所以在2.0版本當(dāng)中,司馬懿和諸葛亮的介紹可能是這個(gè)樣子:
首先,司馬懿的上網(wǎng)IP地址來自于魏國國家圖書館、蔡文姬茶樓等,他不從工作的地方來、也不從家里來,可以證明他沒有穩(wěn)定的收入。而他剛剛申請了兩個(gè)發(fā)薪日貸款,這證明他以前有錢,現(xiàn)在沒錢。而他的學(xué)生貸款是從公司里扣除的,說明他錢不歸他控制,而由魏國國家政府控制著意味著信用記錄并不好。而從地址來看,他最近一會在許昌,一會在洛陽,一會在長安頻繁搬家,從整體情況來分析,很可能最近他混得比較慘。
而諸葛亮借錢的原因是他去年被馬車撞了,蜀國的醫(yī)療保障不健全,他只好自己付了醫(yī)療費(fèi),這意味著40%的DIT來自于他借款還醫(yī)療費(fèi),而之所以歷史信用記錄不長,是因?yàn)樗麆倓偘岬剿拇ǎ?dāng)丞相的時(shí)間不長,信用體系仍然沒有建立完全,但最近五年他一直住在丞相府,地址相對穩(wěn)定,而且在學(xué)生時(shí)代曾從司馬徽,龐德公那里拿過獎(jiǎng)學(xué)金。如果把所有的因素放在一起,信用評估的結(jié)果就會發(fā)生變化。
在大數(shù)據(jù)的場景當(dāng)中,如果有一個(gè)合適的建模的方式,能夠產(chǎn)生一個(gè)二維決策,那么就可以看到,最終借款的人應(yīng)該是借給諸葛亮,而不應(yīng)該是借給司馬懿。
大數(shù)據(jù)信用模型的關(guān)鍵點(diǎn)
大數(shù)據(jù)模型理念,一切數(shù)據(jù)皆為信用數(shù)據(jù),以此“積少成多、匯流成海”。在此之前做統(tǒng)計(jì)、做因果系統(tǒng)的時(shí)候,總是希望能找到原因判斷這些事情到底是不是靠譜。但是在大數(shù)據(jù)的情況之下,我們認(rèn)為可以暫時(shí)不考慮背后的原因,并不是不知道原因就等同于它不靠譜。我們只看關(guān)聯(lián)不看因果。
大數(shù)據(jù)的關(guān)鍵點(diǎn)之二是數(shù)據(jù)的來源。包括錯(cuò)誤信息也是有用信息,比如說謊能體現(xiàn)出一個(gè)人素質(zhì)。
第三點(diǎn)就是所謂的建模,總而言之,大數(shù)據(jù)當(dāng)中對所謂特征的變化,特征的提取和最后所謂獨(dú)立模型細(xì)節(jié)的建立,最后模型的整合都跟以前傳統(tǒng)統(tǒng)計(jì)上的理論有很大的區(qū)別。