文/范宇辰 陳偉
近年,“校園貸”問題的出現凸顯出高校大學生對消費金融產品的強大需求以及信用教育缺失的問題。各大網貸平臺五花八門,缺乏統一的監管體系。各個貸款機構為了搶奪市場,隨意調整大學生借貸政策,降低門檻等以吸引更多學生來借款,且一些不良機構利用學生的知識盲點,編寫高額利息和高額違約金的合同,使學生陷入校園貸的陷阱中。銀監會、教育部等部門多次下發了一系列通知,規范、整治校園貸業務,“一律暫停網貸機構開展校園貸業務”。
以阿里、騰訊為首的互聯網金融機構依托其自有數據基礎紛紛切入學生信貸領域,推出“芝麻信用”、“花唄”等產品,一定程度緩解此問題,但存在覆蓋面不夠、利息較高等缺點。其他持牌正規金融機構,因為數據缺失問題無法有效評估學生征信,其優質的消費金融產品無法服務于廣大學生群體。
此次研究在學校多維度、高精準的特殊數據環境下,探索了結合大數據、機器學習技術建立起適合大學生的信用評價體系——“油菜花信用”,從而輔助金融機構向大學生提供定制化、規范化的金融服務,控制風險、獲取利潤。同時,在校內利用信用模型的展現、運營幫助大學生培養正確的信用意識、風險意識和防范意識,疏堵結合,有效推進“校園貸”問題解決,同時為構建信用社會奠定基礎。
高校和互聯網金融機構建立模型都基于大數據基礎,機構的模型經過市場檢驗更加成熟。相較于互聯網金融機構,依托于高校大數據環境建立學生征信模型擁有諸多優勢。
在校大學生移動支付占比近92%,信用卡持卡人數少,缺少歷史信用記錄。一般金融機構只能從移動支付和互聯網社交方面收集大學生的信息。
而高校作為學生最主要的生活場所,擁有完整且多方面的學生信息,例如學生基本信息、成績記錄、校園卡消費記錄、圖書借閱記錄、上網記錄等等。涉及維度廣泛且健全,對建立信用評估模型十分有利,而這方面的數據往往是金融機構易忽視且難以獲取的。
高校比金融機構更了解大學生,數據基礎更好。大學生的日常行為信息是客觀地被記錄,個人無法修改也無法作偽。而金融機構所采用的大學生數據真實性需要經過鑒別。在數據準確性上,高校的征信模型比金融機構自建征信模型具有更大優勢。
金融機構自建征信模型主要用于自身業務場景需要,為其業務提供風險評估和信用分析。
高校建立征信模型是第三方獨立征信體系,為學生個人建立信用檔案,依法采集、客觀記錄其信用信息,并依法對外提供信用信息服務。作為專業化的信用信息服務平臺,不僅僅服務于金融機構,還可服務于其他任何有需要的社會機構,如招聘單位、共享經濟類互聯網企業等等,前景廣闊。
“油菜花信用”是一個基于東北財經大學學生大數據環境下的信用評分模型。數據來自于學校數據中心整合的學生基本信息數據、教務成績數據、一卡通消費數據、圖書借還數據和獎懲助貸數據等多維度數據資源,以身份、成績、消費、履約和獎懲五個維度作為衡量標準,通過使用專家打分法、邏輯回歸兩種方式建立模型,對學生在校行為進行打分評價,分數范圍從350分至950分。
信用評分模型的訓練數據和預測數據分別來自學校學工、教務、一卡通及圖書館等平臺。具體包括學生的基本信息、成績信息、消費信息、借還書信息及獎懲信息。數據在學校數據中心進行集成,經過數據清洗整合,選取部分信息完整度較高的大四學生(供158名)數據進行建模。
1. 多維評分體系
FICO評分是Fair Isaac公司開發的信用評分系統,也是目前美國應用得最廣泛的一種,FICO分數已是被公認的衡量消費者信用等級的指標。FICO 評分系統得出的信用分數范圍在 300~850 分之間,分數越高,說明客戶的信用風險越小,它采集客戶多維度信息,通過邏輯回歸模型計算客戶的還款能力,預測客戶在未來一年違約的概率。
參考FICO評級模型,參考信用風險領域的要素分析法等理論體系,設計多維度的指標體系,經過多次迭代測算,確定各指標權重,計算用戶信用得分。
目前指標體系包括學校財富a、履約情況b、經濟情況c、消費情況d、其他e,設定不同指標權重后,計算公式如下:

以橫軸為信用分數,縱軸為人數百分比繪制評分圖,由多維評分分布圖得知,615~700得分的分布人數最多,這部分人群信用一般;550~615得分區間分布著大約12%的人群,信用較差;5%以下的人群得分小于550,信用極差;700~750得分的人群信用較好,占大約10%;750分以上信用極好,人群比例大約5%比。從目前的分析結果看,信用結果分布良好,基本符合正態分布。
2.機器學習——邏輯回歸算法
機器學習采用經典的邏輯回歸,選取158名學生的績點、圖書逾期時間、一卡通余額平均值、總消費、獲獎等級及平均逾期率作為特征向量,將學生是否有過逾期行為作為是否違約的分類依據,有過違約行為為1,從未有過違約行為為0。按照3:1的比例對數據集進行隨機劃分,訓練數據占比75%(共118條數據),測試數據占比25%(共40條數據)。得到測試數據的40名學生的違約概率p,然后對概率值 p 進行線性計算(350 + 600* (1-p)),得到最終的信用分數。在參數選擇上,選用L2正則化方法,訓練采用網格法進行超參數搜索,最終得到最優的超參數C=10。由于特征向量量綱維度不同,在做分析之前統一對數據集進行樣本歸一化處理。處理后數據使用python語言進行編程測試。得到結果如下:
邏輯回歸評分分布仍符合正態分布,結果完全達到可用目標。
為了評估模型,用該預測結果計算了TPR與FPR值,繪制了ROC曲線并計算了AUC值。計算結果如下:
TPR值為:

圖1 TPR值表
FPR值:

圖2 FPR值表
AUC值為0.942。測試集的精準率為87.5%,召回率為78.6%,f1值為81.5%。
采用ROC曲線是因為:人群的違約情況中經常會出現類不平衡現象,而ROC有個很好的特性,測試集中的正負樣本的分布變化的時候,ROC 曲線能夠保持不變,能夠準確反應模型優劣,如圖3所示。AUC的值就是ROC曲線下面的面積,越大模型越準確。
本項目面向大學生群體和企業機構分別采用兩種不同服務模式。
學生端:平臺主要對學生提供信用評分查詢、征信報告分析、信用管理服務、信用成長建議。學生可通過移動客戶端充分了解自己的信用信息,根據信用建議調整自己的行為,增強信用意識。

圖3 由邏輯回歸算法結果得到的ROC曲線
企業端:向企業機構提供數據服務。信用報告形式,金融機構可直接根據本平臺的分析結果對學生進行評級劃分;數據接口形式,企業機構可利用數據接口獲得相關信用數據輔助業務開展。
以合作共贏的前提下,依托高校學生征信模型,融合企業方具體場景業務需要,協助企業構建生產環境的信用服務模型。
根據已有數據結合提取的特征屬性,使用專家評分法卡、機器學習、邏輯回歸、深度學習方法進行初步的模型設計,通過調整模型參數和模型融合得到效果相對較好的模型。
引入更多的學生數據進行測試,檢驗模型的有效性,從而進一步地調整優化模型。
利用更多合作機構的數據,如信用卡數據、房屋租賃、工作等多方面的數據,進一步完善和迭代模型,使準確性更高。
進入大數據、人工智能時代后,高校沉淀的海量數據究竟應該如何發揮作用,能發揮哪些作用,這些疑問需要網絡信息部門不斷探索求證。不同角度看待高校信息部門做征信研究(金融類服務)是否恰當,一定會得到不同結論。參考阿里螞蟻金服提出Techfin,對比金融機構Fintech的例子,網絡信息中心作為高校IT技術的領先者和數據的集成管理者,未來的在角色定位應該是TechX,利用新興技術(Tech)賦能其他部門(X),進一步發揮信息技術在教育教學、教育管理中的支撐引領作用,促進信息技術與業務的深度融合,為學校的學科建設、教學科研服務。