汪峰
(聚賢融資租賃(上海)有限公司 上海市 200131)
信貸風險問題是所有金融機構發(fā)展期間必須面對的重點問題,如果信貸風險管理水平不足,便無法滿足金融機構的發(fā)展需求,只有構建一套切實可行,能夠滿足金融機構發(fā)展需求的信貸風險預警系統(tǒng),才能夠使金融機構面對的信貸風得到有效控制。因此,有必要對大數(shù)據(jù)驅(qū)動下的信貸風險預警系統(tǒng)進行分析。
現(xiàn)如今,科技的發(fā)展令我國信貸行業(yè)獲得了長足的進步,各種信貸機構相互之間的競爭也變得愈發(fā)激烈,信貸風險的重要性得到了非常多的關注。信貸業(yè)務作為金融機構的一項主要業(yè)務,其在開展過程中具有非常大的風險,而我國目前的信貸風險管理技術卻與國際理念的風險管理技術存在一定差距,無法滿足金融機構的長期發(fā)展。而且在金融機構發(fā)展期間,信貸風險管理屬于一項綜合性較強的工作,風險貫穿在整個信貸業(yè)務的所有流程中,所以金融機構需要從貸前分析、貸時控制、貸后監(jiān)管等多個環(huán)節(jié)入手,以此來保證貸款的正常收回。就目前而言,信貸部門在開展業(yè)務的過程中,通常會將內(nèi)部數(shù)據(jù)作為判斷信貸風險的主要參考,信貸部門也為此專門構建了面向信貸業(yè)務數(shù)據(jù)信息的數(shù)據(jù)庫,但是因為數(shù)據(jù)信息相對較為單一,很難全方位體現(xiàn)出信貸風險,所以應該結合大數(shù)據(jù)技術完成信貸風險預警系統(tǒng)的構建,以此來整合信貸業(yè)務中產(chǎn)生的所有數(shù)據(jù),實現(xiàn)對信貸業(yè)務的全方位評估,為信貸業(yè)務中的風險情況做出預警,避免信貸風險的發(fā)生[1]。除此之外,通過構建信貸風險預警系統(tǒng)還可以完成對信貸業(yè)務的全方位管理,有效降低信貸業(yè)務開展期間需要面對的風險。在預警系統(tǒng)構建過程中,需要加強對大數(shù)據(jù)平臺的利用,以此來保證預警系統(tǒng)的使用效果。
基于大數(shù)據(jù)技術的風險預警系統(tǒng)可以分為源數(shù)據(jù)、數(shù)據(jù)交換、計算、應用、訪問五個層級。其中源數(shù)據(jù)層是風險預警系統(tǒng)中的數(shù)據(jù)核心,其中包含了信貸行業(yè)內(nèi)部、外部的各種數(shù)據(jù)信息。而數(shù)據(jù)交換層則能夠完成對風險預警系統(tǒng)中數(shù)據(jù)源的控制與管理,完成對數(shù)據(jù)源數(shù)據(jù)的存儲、組織,確保數(shù)據(jù)計算層在工作期間擁有足夠的數(shù)據(jù)支撐。數(shù)據(jù)計算層可以完成對交換層數(shù)據(jù)的提取、整理、加工,從而形成信貸業(yè)務需要的各種基礎數(shù)據(jù)與指標。而數(shù)據(jù)應用層則能夠?qū)⒂嬎銓犹幚砗蟮臄?shù)據(jù)傳輸至數(shù)據(jù)庫中,以便用戶訪問層對數(shù)據(jù)進行調(diào)取。
在信貸風險預警系統(tǒng)中,源數(shù)據(jù)層屬于預警系統(tǒng)的重點數(shù)據(jù)來源,還是信貸風險系統(tǒng)得以完善的基礎,其中主要包括內(nèi)部數(shù)據(jù)源以及外部數(shù)據(jù)源兩個部分。數(shù)據(jù)交換層則屬于信貸風險預警系統(tǒng)中的數(shù)據(jù)信息交換平臺,能夠以信貸系統(tǒng)獲取到足夠的數(shù)據(jù)信息,其主要作用就是將數(shù)據(jù)源層中的各種數(shù)據(jù)信息以數(shù)據(jù)文件的形式存儲到數(shù)據(jù)交換平臺中。數(shù)據(jù)計算層是信貸風險預警系統(tǒng)中的重要組成部分,屬于整個系統(tǒng)的核心內(nèi)容。數(shù)據(jù)計算層能夠利用數(shù)據(jù)平臺交互技術將各種數(shù)據(jù)信息存放到分布式系統(tǒng)中,并通過數(shù)據(jù)加工將結構、非結構數(shù)據(jù)處理成符合信貸風險預警系統(tǒng)的基礎數(shù)據(jù)內(nèi)容,并合理利用計算規(guī)則完成數(shù)據(jù)信息的加工、篩選,從而生成信貸風險指標[2]。在此期間,計算層會利用Hive 完成對關系型數(shù)據(jù)信息的存儲,利用Hbase 完成對半結構、非結構化數(shù)據(jù)信息的存儲,sqoop 將會用作數(shù)據(jù)信息的傳輸?shù)取?shù)據(jù)應用層可以完成對計算層數(shù)據(jù)的整理與匯總,并將整合后的數(shù)據(jù)傳輸至數(shù)據(jù)服務器中,保證數(shù)據(jù)訪問層具有足夠的使用數(shù)據(jù)。數(shù)據(jù)訪問層屬于信貸風險預警系統(tǒng)的訪問窗口,用以幫助用戶完成數(shù)據(jù)信息的訪問。信貸風險預警系統(tǒng)就是將信貸數(shù)據(jù)資料作為基礎,幫助金融機構完成信貸風險判斷的系統(tǒng)。
Hive 就是在Hadoop 上構建出的數(shù)據(jù)倉庫框架,在信貸風險預警系統(tǒng)中負責數(shù)據(jù)計算層貼源數(shù)據(jù)、數(shù)據(jù)匯總內(nèi)工作,在使用期間,不僅可以作為與ETL 相應的數(shù)據(jù)庫,用來完成對內(nèi)部、外部結構化數(shù)據(jù)信息的存儲,還能夠?qū)TL 加工處理后的數(shù)據(jù)信息與數(shù)據(jù)歷史記錄存儲在Hive 中。
Hbase 屬于分布式面向列的一種開源數(shù)據(jù)。在預警系統(tǒng)中,Hbase 的主要作用就是完成對行外非結構化數(shù)據(jù)的存儲,經(jīng)過存儲的非結構數(shù)據(jù)能夠通過Hbase 轉化成為結構化數(shù)據(jù)存儲至Hive。
Oozie 工作流屬于DAG 中的一組動作,動作中指定了執(zhí)行順序。在預警系統(tǒng)中,通過Oozie 能夠完成對流程的合理調(diào)度,從而在流程調(diào)度區(qū)域中發(fā)揮出非常好的效果。Oozie 的主要任務就是在數(shù)據(jù)平臺ETL 中對加工作業(yè)開展調(diào)度管理。
Sqoop 屬于幫助Hadoop 與關系型數(shù)據(jù)庫兩者之間將內(nèi)部數(shù)據(jù)相互傳遞的一種數(shù)據(jù)傳輸工具。在預警系統(tǒng)中,Sqoop 可以在應用層中使用,使用時能夠?qū)⒂嬎銓又屑庸さ贸龅母鞣N基礎數(shù)據(jù)以及匯總數(shù)據(jù)傳輸至關系型數(shù)據(jù)庫中,從而將數(shù)據(jù)提供給Web 進行查詢使用[3]。
Hadoop Streaming 是一種能夠為MapReduce 編程提供方便的工具包。在預警系統(tǒng)中,合理利用Streaming 就可以完成對數(shù)據(jù)的快速處理,并將貼源區(qū)的數(shù)據(jù)傳遞至關系型數(shù)據(jù)庫。
在信貸風險預警系統(tǒng)中,如何實現(xiàn)數(shù)據(jù)信息的存儲加工正是預警系統(tǒng)中的關鍵內(nèi)容。預警系統(tǒng)中的數(shù)據(jù)計算層需要在大數(shù)據(jù)平臺上設計并實現(xiàn)。在設計過程中,需要優(yōu)先將數(shù)據(jù)交換區(qū)中的數(shù)據(jù)信息全部傳輸至大數(shù)據(jù)平臺中,這部分數(shù)據(jù)信息將會存儲在數(shù)據(jù)計算層貼源數(shù)據(jù)區(qū)Hive 與Hbase 內(nèi),數(shù)據(jù)標準區(qū)則會將這部分數(shù)據(jù)信息進行標準化操作并實現(xiàn)統(tǒng)一設計、管理,然后在計算層的匯總層內(nèi)部將標準化數(shù)據(jù)按照加工規(guī)定完成加工統(tǒng)計,當前數(shù)據(jù)需要通過Sqoop 輸送至數(shù)據(jù)庫中使Web 端對其進行展示。數(shù)據(jù)計算層架構內(nèi)容如下:
(1)在數(shù)據(jù)計算層的整體架構中,交換區(qū)域外部數(shù)據(jù)平臺共包含3 部分,即信貸業(yè)務數(shù)據(jù)、外部數(shù)據(jù)以及業(yè)務實時數(shù)據(jù),這3部分數(shù)據(jù)會通過數(shù)據(jù)傳輸、推送等方式把數(shù)據(jù)傳輸至數(shù)據(jù)平臺。
(2)在數(shù)據(jù)計算層中,還能通過YARN 對數(shù)據(jù)平臺中的數(shù)據(jù)開展統(tǒng)一管理。然后采用HDFS 完成對數(shù)據(jù)文件的存儲、集群創(chuàng)建管理。
(3)數(shù)據(jù)平臺中的數(shù)據(jù)信息文件可以通過Hive 傳輸至信貸業(yè)務數(shù)據(jù)表中,在此期間需要利用腳步封裝數(shù)命令完成對Oozie 的合理調(diào)度。
(4)數(shù)據(jù)平臺外部數(shù)據(jù)能夠利用Hbase 進行轉換并進入Hive中,此時需要通過Oozie 完成數(shù)據(jù)信息調(diào)度。
(5)數(shù)據(jù)平臺業(yè)務數(shù)據(jù)與外部數(shù)據(jù)將會利用Hive 與轉換腳本生成標準化數(shù)據(jù),生成的數(shù)據(jù)將會經(jīng)過Oozie 調(diào)度存儲至Hive 中。
(6)利用Sqoop 與外部RDBMS 連接完成后,可以結合標準化數(shù)據(jù)按照匯總規(guī)則完成數(shù)據(jù)信息的匯總統(tǒng)計,方便Oozie 的后續(xù)調(diào)度。
(7)數(shù)據(jù)平臺中已有實時業(yè)務數(shù)據(jù)將會與標準化業(yè)務數(shù)據(jù)相結合,然后利用Streaming 完成數(shù)據(jù)加工。
(8)Sqoop 經(jīng)過腳本封裝將標準化基礎、匯總數(shù)據(jù)傳遞至RDBMS 中,這部分腳本需要由Oozie 進行調(diào)度。
(9)BI 工具可以利用標準sql 對RDBMS 基礎、應用、匯總數(shù)據(jù)進行訪問,利用Spark Sql 完成對歷史區(qū)域中的數(shù)據(jù)、實時數(shù)據(jù)訪問。
預警系統(tǒng)包括了貼源數(shù)據(jù)、歷史數(shù)據(jù)、標準數(shù)據(jù)、匯總數(shù)據(jù)四個不同的數(shù)據(jù)區(qū)域。為了能夠明確四個數(shù)據(jù)區(qū)域內(nèi)的業(yè)務數(shù)據(jù),系統(tǒng)數(shù)據(jù)表組織可以劃分成為三級,其中第一級主要用作區(qū)分預警系統(tǒng)中各類數(shù)據(jù)應該屬于哪一個區(qū)域,而第二級則主要用于區(qū)分數(shù)據(jù)信息的業(yè)務類型。第三級便是具體的數(shù)據(jù)表內(nèi)容,數(shù)據(jù)分組需要結合具體含義來完成命名[4]。
新店風險預警系統(tǒng)中的各類數(shù)據(jù)文件需要存儲到HDSF 中,為了對業(yè)務類型、文件類型進行區(qū)分,需要對數(shù)據(jù)文件專門進行組織。
作業(yè)可以利用一個作業(yè)同時處理多個數(shù)據(jù)邏輯,或是通過將一個業(yè)務邏輯拆分成為多個作業(yè)來完成處理。
在信貸風險預警系統(tǒng)中,貼源數(shù)據(jù)區(qū)就是為了完成數(shù)據(jù)加載、轉換專門設計出的數(shù)據(jù)區(qū),屬于純技術加工類型的數(shù)據(jù)區(qū)。將與源系統(tǒng)相同的數(shù)據(jù)結構與內(nèi)容融入到貼源數(shù)據(jù)區(qū)需要經(jīng)過構建數(shù)據(jù)表以及導入數(shù)據(jù)兩部分。第一部分為構建數(shù)據(jù)表,購進過程中為了能夠保證數(shù)據(jù)完整性,需要將構建的數(shù)據(jù)表結構與原系統(tǒng)的數(shù)據(jù)結構保持一致性。
數(shù)據(jù)標準區(qū)的主要任務就是將貼源數(shù)據(jù)區(qū)域內(nèi)的數(shù)據(jù)信息,按照信貸業(yè)務的分類方式實現(xiàn)數(shù)據(jù)標準化的過程。想要實現(xiàn)數(shù)據(jù)標準區(qū)就需要同時完成代碼標準化以及碼值標準化。實現(xiàn)步驟包括構建標準數(shù)據(jù)表以及構建標準碼值數(shù)據(jù)兩個部分,其中構建標準碼值數(shù)據(jù)就是實現(xiàn)碼值轉化,在數(shù)據(jù)標準化的過程中便可以完成碼值的轉換。
在預警系統(tǒng)中,數(shù)據(jù)匯總區(qū)的主要作用就是標準區(qū)域內(nèi)的數(shù)據(jù)按照風險指標加工規(guī)則完成匯總數(shù)據(jù)處理的整個流程。該部分包括構建匯總數(shù)據(jù)表以及匯總數(shù)據(jù)加工兩個部分。
預警系統(tǒng)能夠通過Sqoop 完成數(shù)據(jù)信息的傳遞,完成對Hive中的基礎數(shù)據(jù)與匯總數(shù)據(jù)的傳輸,關系型數(shù)據(jù)庫中數(shù)據(jù)信息可以提供給其他區(qū)域使用。流程調(diào)度即是完成作業(yè)調(diào)度管理,由于預警系統(tǒng)中需要通過腳本完成大部分操作的實現(xiàn),所以調(diào)度作業(yè)類型需要選定shell 作業(yè)。在流程調(diào)度過程中,主要包含三個實現(xiàn)文件,三個文件分別代表作業(yè)流程、配置信息以及腳本信息。通過作業(yè)流程能夠完成對作業(yè)的調(diào)度管理,而利用配置信息則可以完成面向?qū)Χ喾N參數(shù)的有效說明,腳本信息則可以完成對實現(xiàn)過程的封裝處理。
總而言之,時代的發(fā)展令信貸行業(yè)面對的風險越來越大。在大數(shù)據(jù)的驅(qū)動下,通過將信貸業(yè)務數(shù)據(jù)與外部數(shù)據(jù)相結合,可以在數(shù)據(jù)平臺中完善信貸風險預警系統(tǒng),在信貸業(yè)務開展期間完成風險評估。相信隨著更多人了解到信貸風險預警系統(tǒng)的重要性,預警系統(tǒng)將會變得更加完善。