陳銘新







隨著云計算、大數據、物聯網、人工智能、區塊鏈、5G等新技術的廣泛應用,全球加速進入“萬物互聯、泛在智能”的數字經濟時代。在此背景下應運而生的新金融,是以數據為關鍵生產要素、以科技為核心生產工具、以平臺生態為主要生產方式的現代金融供給服務體系。
在新金融體系下,數據已成為關鍵的生產要素,通過采集和整合金融機構自身業務系統數據、生態場景中的用戶行為數據,以及物聯網數據等全域數據,沉淀并形成可共享、可復用的數據資產,充分挖掘其內在價值,尤其是與不同金融場景相結合所產生的價值,并通過平臺生態的生產方式,智能合理地配置金融資源,引流至民生環境的改善和弱勢群體生存發展領域,以及未來真正需要經濟資源滋潤的領域,不斷提升金融產品的種類和服務的質量與效率。從數據采集、集成整合、數據價值挖掘、共享服務能力四個維度形成數據價值、數據服務和數據運營閉環,讓數據來源于生態場景,又反哺服務于生態場景,數據能力建設也因此成為助力金融機構推進數字化轉型的主要抓手。
金融機構數據能力建設賦能
近年來,各家商業銀行紛紛沉淀金融科技能力,開始建設數據中臺,構建可信、一致、準確、完整、及時、好用的數據管理體系,強化自身數據能力建設,全面服務第一曲線和第二曲線的業務經營層面,賦能產品、流程、體驗、運營和風控等方面,提升數據要素價值創造力,滿足新金融體系數字化轉型的要求。
數據中臺是提供企業級數據與分析能力的智能中樞,是全域數據供應網的核心基礎設施,通過聚合和治理跨領域的海量數據,將數據抽象封裝成數據產品和服務,為業務中臺和業務前臺提供可共享、可復用的數據能力,是集中體現企業的“數字力”(即企業級數據獲取、管理和運用的能力)水平的標志性載體,打造開放共享的數據經營文化。數據中臺的核心能力包括以下幾個方面。
第一,全方位的數據采集能力:支持多渠道、多類型、多方式的數據獲取,提供大吞吐量、插件式、可配置的數據采集能力;支持拓展采集社交場景的用戶行為數據,以及網點、供應鏈、普惠金融場景的設備、環境等物聯數據;基于多方安全共享,支持工商稅務、金融市場行情、互聯網輿情等外部數據合作,豐富數據的維度和粒度。
第二,高效海量的數據計算能力:支持海量處理、彈性伸縮,提供高性能數據檢核、清洗、轉換、加載和多異構數據庫的數據集成能力,提升數據供給的時效性;按照統一的數據模型和實施工藝,對內外部多種類數據進行全方位的鏈接和融通,打通不同部門、層級與不同行業間的數據孤島,實現明細數據、衍生數據的集成與整合,形成企業級、一致、共享可信的全景數據視圖。
第三,靈活的數據服務能力:支持高性能、高并發的數據服務,建立以數據分析挖掘為中心的友好用數環境,支持各類數據用戶敏捷地開展數據分析和構建機器學習模型,實現“將數據交給業務人員”的目標,即時賦能業務,打造“衣食住行教娛醫公共服務”及社會治理生態樣板間,支持擴展客群、營銷觸達等應用場景。
第四,企業級的數據資產管理能力:基于統一的數據標準和模型方法,從數據的定義、產生/加工、關聯、資產盤點、評價與運營等各階段,將企業的數據資產統一管理起來,實現數據資產的可見、可懂、可用、可評價和可運營,讓數據越用越多、越用越好,提升數據價值,最終實現對業務的深度賦能。
第五,數據安全運營能力:支持全渠道、全產品、全場景的客戶隱私數據授權管理,建立數據分級、分類授權體系,支持字段級的精細訪問控制,支持數據的使用行為分析、異常操作的監控和阻斷,構建客戶授權統一視圖,提供金融級數據安全和運維保障能力。
數據中臺的數據模型建設探索
數據中臺是把多源、異構、分散的數據進行關聯、融通,加工成為重要生產要素的高能轉化器,數據建模設計是保證數據完整性、一致性與準確性,并實現數據共享的基礎,也因此成為數據中臺建設的基礎。
建模思路
數據中臺的數據模型設計既要滿足數據中臺全域數據的整合和統一管理、數據應用共性需求沉淀復用的總體目標,又要確保數據可信、數據單點加工、數據路徑全局最優的基本原則。
以往的數據類系統(OLAP)較常采用的維度建模方式,可滿足多維分析的“上卷、下鉆”場景需求,但維度建模并不強調企業“單一業務真相”的概念,缺乏明確的企業級數據建模過程,很難保證數據的一致性和準確性,不適用于數據中臺整合數據模型的建設。
基于對數據模型設計經驗的歸納,并結合范式模型和維度模型的特點,探索、總結、提煉出一套統一的、體系化的粒度建模方法,以“數據粒度”為核心概念,將來源于各個系統或應用的數據從企業全局的角度按粒度進行定義,并對歸屬同一數據粒度的數據項(屬性)作合并同類項處理,包括同名同義屬性去重、同名不同義屬性拆分、同義不同名屬性合并等,保證數據的單點加工,為數據分析應用提供全局、統一、一致的數據資產。
數據中臺模型的構建過程并非從零開始,而是在原有數據模型資產基礎上的繼承和完善,采用粒度建模方法,整合原生數據及所有應用的衍生數據,對跨業務領域的數據作標準化處理,抽取通用業務邏輯,優化數據路徑,解決數據重復計算、數據不一致等痛點,通過模型的共建及共享機制建設,形成完整統一的數據模型。
總體設計思路是,以企業級業務邏輯模型、數據字典、數據標準、數據規范和數據需求為輸入,按照數據調研(包括業務調研、需求調研)、主題域模型設計、概念模型設計、邏輯模型設計和物理模型設計逐層細化,最終輸出數據中臺整合模型(見圖1)。
模型設計
作為數據中臺面向用戶并提供數據能力和業務能力的總覽,整合邏輯模型可以直接支持相關人員自主查數和用數的數據資產清單,是數據中臺的統一數據視圖。
整合邏輯模型按照“一級數據域—二級數據域—三級數據域—數據粒度”的框架進行設計,具體包括數據調研、模型滿足度分析、數據域設計、粒度分類設計和屬性設計等過程(見圖2)。
在邏輯模型層面,實體與粒度是一對一的關系。同一數據粒度的所有數據項在邏輯上都屬于同一實體,因此每個實體都是數據粒度的“寬視圖”(見圖3)。
建設效果
基于粒度建模方法建設數據模型,可以從根本上保證數據的完整性、準確性、一致性和易用性,提升數據時效性,推動數據的整合與共建共享,全面提升數據價值,支持更多用數場景,為數字化經營提供支撐。有如下幾個特點。
第一,全域整合:繼承、重構和完善金融機構現有的數據模型資產,按數據粒度構建全域整合模型,覆蓋應用使用的所有具有業務含義的原生和衍生數據;第二,內外連接:通過各類識別特征,將銀行內部數據與集團數據、生態平臺等外部數據進行鏈接和融通,避免數據孤島;第三,一套標準:整合模型嚴格遵循企業級數據規范,所有數據項都納入企業級數據字典管理,實現企業級的“書同文、車同軌”;第四,單點加工:通過掛接屬性合并同類項,進行去重、拆分、合并等處理,確保屬性定義無二義性、數據單點加工,避免“一個數據多點加工”帶來的數據冗余及數據不一致問題;第五,提升時效:遵循整體最優原則,通過路徑穿透分析,優化數據加工路徑,整合與下沉公共衍生數據,加工前移,確保數據路徑全局最優,避免數據間網狀依賴及多層依賴帶來的時效性問題,提升數據的復用性和時效性;第六,易于使用:根據面向業務的“多級數據域+數據粒度”的設計框架,組織企業級業務對象大寬表,使數據變得可閱讀、易理解,方便業務人員直觀、便捷地使用數據;第七,敏捷交付:通過公共衍生數據等基礎數據能力的整合和下沉,實現應用的敏捷快速交付。
數據中臺數據資產建設與運營
數據資產是有價值的、能帶來未來經濟利益的數據資源,是金融機構開展數字化經營和管理活動的基本生產要素。采用粒度建模方法建設數據模型,有助于從整體視角直觀地反映企業級業務活動模式的本質,了解數據的業務規則。而企業級數據資產管理,提供企業級的全面、清晰和易用的數據資產(數據業務規則)的統一管理、分析和共享服務,則有助于創造和提升數據價值。因此,數據資產的建設與運營,是數據中臺建設的重點工作。
數據資產體系
根據數據在數據中臺架構中的定位、數據的產生方式和應用場景,可以將數據資產劃分為基礎數據資產、集成數據資產、萃取數據資產、應用數據資產、數據規范資產等。
基礎數據資產來源于數據采集層和業務應用,主要包括已采集的原始數據及未采集的系統數據,如貼源數據物理模型、應用物理模型等。基礎數據資產須滿足業務邏輯模型和企業級數據字典、數據架構管理要求。
集成數據資產主要來源于數據整合層,是把不同來源、格式及特征的基礎數據在集成環境中進行集中、整合,形成企業級單一視圖的數據,例如整合數據。
萃取數據資產來源于數據產品層,是面向業務對象匹配業務需求,對基礎數據、集成數據進行抽象、分類、提煉、加工后產生的,具備同一粒度,且更適用于業務場景的數據,例如指標(定量類)、標簽(定性類)等。
應用數據資產來源于數據整合層、數據產品層和數據服務層,是為滿足最終業務應用場景,通過對基礎數據、集成數據和萃取數據進行組織、封裝和再加工等方式,形成的數據驅動應用和服務,例如報表、報告、可視化展示視圖、數據服務接口,以及計算邏輯(包括標簽的加工規則、指標的統計分析邏輯、復雜計算模型、人工智能模型、圖算法模型、分析挖掘算法)等。
數據規范資產是業務數據統一化、結構化、標準化的數據定義和規則,例如企業級數據字典(覆蓋所有基礎元數據需要的數據標準和數據規范)、業務邏輯模型(覆蓋所有業務基礎信息的邏輯模型和數據標準)等。
數據資產建設
數據資產的建設內容,包括數據資產盤點、數據資產類目體系構建、數據資產多維畫像和數據資產管理平臺建設等。
數據資產盤點。基于數據資產體系,逐步開展數據資產的全面識別、采集、梳理和盤點,摸清數據家底,掌握數據分布,解決“數在哪”的問題(見圖4)。
數據資產類目體系構建。構建數據資產類目體系,從數據內容出發,建立多維度、全域數據資產版圖,方便不同類型用戶按照用數習慣查找數據,解決“找數難”問題(見圖5)。
數據資產多維畫像。在構建企業級統一數據資產目錄的基礎上,給數據資產打上標簽,形成數據資產的多維畫像,涵蓋數據資產的業務屬性、數據屬性、技術屬性等,幫助不同用戶找到從自身工作領域去“認知和理解”數據資產的“切入點”,進一步解決“數難懂”問題。
數據資產管理平臺建設。建設數據資產管理平臺,動態更新維護數據資產的目錄和內容;發揮數據可視化的優勢,根據業務需求建設系列業務專題的數據資產視圖,如普惠金融專題數據資產視圖、房金條線專題數據資產視圖等,展現數據資產的貢獻度、與內部數據交互和相關數據產品服務的支持情況,方便用戶“查數、知數、用數”。
全鏈路數據質量管理。通過對數據庫表、接口等數據對象的識別及數據關系的解析構建全鏈路數據血緣,建立數據從源頭到應用的全流程穿透式質量管理機制。根據上層應用(如監管報送等)對數據項的要求,逐層分解落實至對應源系統數據項的質量要求,定期出具質量報告、促進整改,確保為上層應用提供高質量源數據。
數據資產運營
數據資產運營以用戶為中心,以發揮數據的業務價值為導向,以“敏捷用數”支持業務開展為目標,依托數據資產管理平臺工具的能力,采用“明確目標—多維評估—改進優化”的閉環式迭代管理模式,促進數據資產時效、質量、成本和價值的持續優化,達到資源使用效率最大化與數據價值敏捷變現的效果,支持業務開展。
數據賦能應用拓展
客戶畫像分析
數字化經營以用戶為中心,參考業界多個客戶評價維度,結合在業務管理、風控領域積累的業務經驗,基于金融機構內外部融合數據,全面分析客戶的社會屬性、產品屬性、行為習慣、風險承受能力等客戶商業全貌,形成覆蓋身份特質、行為偏好、關系信息、信用記錄、經營狀況、履約能力、金融特征、風險合規等八大維度的統一客戶畫像體系。與同業相比,該體系更多地從客戶的金融特征、風險合規及企業的經營狀況等視角進行客戶識別,可廣泛應用到業務推廣、風險管控等多領域、多業務場景。
知識圖譜應用
數字化經營的本質是連接,包括人與人的連接、人與物的連接和物與物的連接。基于豐富的數據資產,建信金科開展了數據線索連接探索工作,累計探索了資金上下游、泛集團派系、控股股東、一致行動人、企業實際控制人、小微企業黑名單關聯、基于企業相關人資金交易流水的疑似團伙發現、疑似行外賬戶識別、失聯人關系修復、企業違約風險傳導、企業與企業關聯緊密度等十幾個模型,挖掘出泛集團關系、一致行動人、實際控制人、疑似親屬、企業緊密關聯度、小微企業社區標簽、疑似賬戶持有、資金上下游、違約風險傳導系數等關系和屬性,有效補充了組織機構知識圖譜等潛在知識,提升風險管控能力,支撐穿透式監管等場景應用。
普惠金融業務增信
服務實體經濟是商業銀行的重要使命之一,實體經濟中的新興市場主體大多數是民營小微企業,具有平均生命周期短、技術升級換代快、輕資產且對資金依賴程度高等特點。針對小微企業融資難、融資貴的問題,建信金科基于多方安全共享能力,與產業鏈合作,融合企業納稅、社保、質檢、海關等多維數據進行智能增信,實現客戶的智能分層,基于分層結果進行綜合信用評價和授信,讓優質客戶獲得更合理的融資額度和貸款利率,拓展普惠業務、服務普惠金融業務(見圖6)。
多層次的智能反欺詐體系
新冠肺炎疫情加速了社會數字化進程,線上化已成為常態化生活方式。針對近年高發的網絡詐騙等痛點,建信金科構建了多層次的智能反欺詐體系。利用數據埋點與實時數據采集來補充反欺詐偵測的數據源,滿足準實時欺詐偵測場景;通過整合模型、指標、標簽等能力建設,建立反欺詐指標模型資產,滿足反欺詐日常策略、模型的快速迭代和應用建設;利用流計算能力,提高多維實時計算能力,提升反欺詐應用能力;實現包括渠道、客戶、產品的事前、事中、事后的欺詐實時預警或阻斷,突破傳統的“規則+名單”偵測體系,使用“名單+規則+模型”的智能偵測模型,實現首筆實時的反欺詐能力(見圖7)。
(作者系建信金融科技有限責任公司數據業務總監、Big Data中心總裁)
責任編輯:董 治