凌小山 鐘元癸
【摘要】數據貼近了人們的工作生活,已經漸漸的作為大家工作生活中的一項型的生產工具。在如今這個信息技術快速發展的時代,大數據不僅僅是成為了一個熱詞,同時與人們的生活產生了密切的關系,在文中主要就大數據時代的風控進行探討。
【關鍵詞】大數據 風控 消費
在大數據成為熱詞的那段時間,大數據風控似乎往往作為互聯網金融企業代言詞。就拿“E租寶”這樣的龐氏騙局企業,在宣傳中也號稱“引領大數據在行業信用管理和風控防范之中的應用趨勢”。
當然,我首先檢討一下,自認為我們塔塔數據是行業的引領者,這段時間看到了一家銀行已經有“稅E融”也看到了他們組建了大數據工作站,開展了大數據風控的各項探索。已經運用大數據DT引進大量外部數據,在工商族譜、社交數據上做欺詐分析,利用邏輯回歸,支持向量機(SVM),決策樹等模型補充或替代傳統的打分卡,在更廣泛的數據源上開始進行建模分析等。在這種背景下我迫切的感受到了壓力,作為數據供應商與方案解決商我們不能夜郎自大了。
一、行業內對于如何落地大數據風控存在的疑問
第一,不同的消費場景下,客戶客群的特征是不一樣的,收集到的客戶信息差異可能很大,這些大數據方法的客觀性無法保證。就如針對熱愛社交的年輕群體,能夠爬取到有價值的社交數據,知識圖譜就能發揮出一些價值。但針對貸款主流群體來說,這些人的數據就很難獲取了。
第二,目前的信用體系中,貸款審批的衡量、反欺詐能力、額度評估能力與催收手段等等,共同決定了風險決策。大數據與風險決策落地探索依舊是困難重重。也許在不同的場景下,有些可能是反欺詐的決定性更強些,有些可能是額度的評定更強些,有些可能是催收的手段來的更直接。拋開具體的貸款場景來運用大數據風控依舊不是很成熟。
第三,算法模型具有一定的適用性和局限性的,還需要通過不斷地實踐創新內測來完善。
第四,傳統的金融產品的風控決策也是以數據作支持的。人工的風控決策是信審人員長期與調查借款人信息與經驗的判斷,風險控制在大數據與DT應用初期與信貸專員的經驗還需要有機結合,因為損失性的貸款成本是無法的估量的。
第五,大數據風控成本。從基礎的設施投入、系統研發,大量的外部數據成本、再到到昂貴的大數據人才聘用,以及不初期出現的損失貸款,這些投入也是無法想象的。
第六,大數據風控若是沒有高瞻遠矚可持續經營的理念牽頭人,沒有一幫擁有激情的的人才團隊,是沒有最終的勝利,大數據的產出都存在很大的未知數。這些未知數讓很多望而止步。
二、讓大數據風控落地產生價值
如何能讓大數據風控落地,繼而產生可觀的價值,路漫漫其修遠兮,我們既然跨出了一大步,我更希望大家永不止步。基于目前首先該建立效果評估體系,循序漸進開展大數據風控各項工作:
第一,在產品上線的階段,有放貸限額,小范圍測試;而業務成熟階段,則會追求更高的批過率和更低的壞賬率,并尋求兩者之間最佳平衡。
第二,用量化指標進行衡量。也就是說,大數據風控作為風控的方法,應該用清晰的指標來衡量取得的成果。
第三,指標的物理含義是一般人都能理解的。只有讓為投入買單的老板們理解了大數據風控的衡量指標,他們才能作出決策以開展持續的技術投入。
第四,完備的指標。比如,實施了一種大數據風控技術,可能帶來壞賬率的下降,但同時也可能帶來批過率的下降。雖然壞賬少了,但業務量也降低了。但從“得”的指標上衡量,是沒有意義的。要“得”與“失”結合起來,根據企業不同的發展階段,選擇不同的技術。
在該評估體系下,決策者將能清晰地衡量具體的風控技術來帶的ROI,然后決策該采用什么樣的技術手段。在有清晰的產出預期下,大數據風控的投入就可以循序漸進的執行。人們將不再困惑于各種難以理解的模型算法,而是把它們當成工具,然后選擇最優的算法即可。
三、大數據風控系統評估
基于大數據的思想,人們提出了很多模型來做風控系統。同一種模型用不同的模型參數又可以橫向衍生出很多新的模型。那么在眾多的數學模型中,怎樣知道應該使用哪一種模型呢?模型評估體系的建設就顯得尤為重要。通常評估一個模型的好壞應該從模型的三個屬性去評估:
第一,精確性:在預測狀態變量時,模型必須有一定的精確性。
第二,穩健性:模型應該對于目標總體中的所有樣本都有效,而不僅僅是對開發測試樣本有效。
第三,合理性:模型表現出來的趨勢對于觀測到的行為必須有意義。
在這里我們主要講模型的精確性。KS值、EVA、洛倫茲曲線(ROC)是被廣泛使用的模型精確性評估指標。在統計學中,KS值是用來衡量模型的區分能力。通俗來講就是模型區分好客戶與壞客戶的能力。好客戶是指守約客戶,壞客戶是指違約客戶。KS值越大,模型的識別能力就越強,反之,就越弱。ROC曲線的作用是衡量信貸模型的目標累積強度。這里的目標是指違約客戶,通俗來講ROC曲線的凸度大小反應了模型識別壞客戶的能力。凸度越大說明模型越優秀,如:在20%的總體人群中就能夠辨別出60%的所有違約人群。ROC曲線凸度大小和KS值大小是正相關關系。ROC曲線的凸度越大,相對應模型的KS值就越大。這些指標有助于多個模型甄別,模型參數優化的情況。即便對于當前來看不錯的模型,我們也應該定期檢驗模型的重要評估指標。評估體系的建立固然重要但同時也要充分認識模型的局限性。在利用模型制定信貸策略時,我們應該信奉“實踐是檢驗真理的唯一標準”。
目前芝麻征信關于企業征信的產品已經在做內測,其他已經取得或者已經備案的企業征信大數據公司和我們塔塔數據致力于向消費金融公司和各大商業銀行普及大數據技術,提供標準化、模塊化、的大數據風控系統,以降低消費金融企業客戶使用大數據技術的資金成本和技術門檻。但是作為數據業類人來說我覺得更多的來自于技術本身對既有業務管理體系和決策層知識結構的挑戰,它的應用也是雙面的,可能會對企業與銀行的業務帶來混亂和災難。明確的效果評估體系,能給大數據風控技術落地帶來有效的指導和管控,把業務的開展統一到一個目標體系上來。
綜上基于在大數據不夠大,數據來源的客觀性、信息傳播的擊鼓傳花特性以及傳統的風險模型都需要大量的模型實踐積累的高昂的損失貸款成本、時間成本和數據引入成本。
因此在大數據時代初期階段,我們在風控應用上應做好有長期的積累與探索的思想準備,在信息不對稱性與共享的信息經濟中,DT更多的是作為新型的生產工具,在各大銀行消費型貸款業務、P2P互聯網金融業務中都應需要與征信服務公司和塔塔數據提供商進行多方位戰略合作從而提升在數據積累和建模等多方面的能力以面對新經濟形勢帶來的機遇與挑戰。
參考文獻
[1]巴曙松,侯暢,唐時達.大數據風控的現狀、問題及優化路徑[J].金融理論與實踐,2016,(02):23-26.
[2]白璐.新技術搶占大數據風控“藍海”[J].上海信息化,2016,(02):62-6.