◎雷濤
目前大數據在互聯網金融領域主要解決三個問題:(一)解決運營交易成本過高的問題。網銀降低了20萬個網點成本,而阿里主要是把信用和抵押進行置換。(二)提供流動性,解決資產與負債流動性不匹配的問題。P2P就是將存款進行轉讓,比如眾籌。(三)拓展4000萬中小微企業市場。互聯網金融出現以后,把市場體量做大了,不只服務于現有客戶,還可以把碎片化的需求和供給進行整合,進而細化滲透到中小企業市場。同時,我們還關注到了金融高端客戶市場,即理財的運營市場。海外金融機構提到,對于每一位高端客戶,與其接觸的次數及準確接觸的能力都是非常有限的。那么,怎樣把理財內容和手段精準提供給每一位高端客戶,這是大數據可以解決的問題之一。
大家都在談互聯網的優勢,覺得互聯網很美妙。但是要研究互聯網,一定要面對互聯網自身的問題,其中最具挑戰的就是信息過載問題。在互聯網上,信息以WebPage的形式呈現,等待人們去點擊,那么互聯網經濟的主體必然是注意力經濟。例如,2013年1月,財經金融類網站總訪問次數381539萬,訪問時長9122萬小時,即10413年。如何從這些過載的信息中獲取被稀釋了的數據價值?這是當前互聯網經濟面對的最具挑戰的一個問題。
是不是互聯網就是終極形態?我們給出了一個經濟范疇的定義,即這樣的模式怎么去掙錢。互聯網早期最簡單的業務形態是2B,即企業向客戶出售產品或服務,以直接賺取金錢為目的。衡量指標就是產量等概念。第二個時代就是2C,即互聯網經濟下,企業盡可能多地發展用戶,不以直接從用戶處賺取金錢為目的,希望通過后向收費或者發掘用戶終身價值等方式賺取利潤。這個時代,像谷歌、Facebook等公司主要是經營用戶,衡量指標是用戶體量。
未來我們看到的將是2D的業務形態,也就是大數據經濟。數據將是未來企業的重要資產。企業通過數據創造新的商業模式,或直接通過數據售賣以及利用數據提供增值服務獲得巨大利潤。在這一時代,海量用戶和良好的數據資產將成為未來核心競爭力與收入的重要來源。這個數據未必是靠人的點擊。比如,你可能與運營商沒有任何交易往來,但是手機的傳感器在持續記錄你的位置信息,這個信息在不斷地跟基站通訊,你的行為就已經被運營商捕捉了。所以2D更多的是以數據為驅動力的生意模式。這種生意模式可以把附加值擴展得很大。
以上是對互聯網經濟形態的分析。具體說,就是大數據更多的是幫助金融企業,包括傳統銀行獲得金融IQ,即接觸市場和用戶的權利和能力。我們認為,傳統銀行的數據價值遠大于互聯網公司。其實,金融企業很多先下的數據沉睡在數據庫里,而這些數據的價值遠遠大于阿里數據的價值。
大數據可以幫助金融企業解決信息不對稱,及營銷、定價、風險和欺詐問題。從我們做過的案例中發現,主要體現在以下三個方面:
(一)市場營銷。包括交叉銷售、二次銷售方面。體現在如何進行客戶挽留、客戶價值評估等。例如給保險公司做了全量的數據處理后,就可以實現很多財險和壽險的匹配。還包括客服投訴評估和產品投放評估等。
(二)信貸和風險。主要是信用分配、風險評估、實施授權、風險干預和欺詐識別等。
(三)預測與估價。包括周期行為分析、量化分析、流失分析、催收分析等。
實現路徑的關鍵點,就是“去IOE”(替代IBM小型機、Oracle數據庫、EMC存儲)。完備數據是核心,處理一千倍以上數據規模,需要顛覆性的系統架構才能解決。我們為一家大型股份制銀行做完備數據,幫助客戶看到過去需要通過業務規則、銀行家的經驗形成的業務判斷,現在通過機器學習的方式,發現了很多新規則。比如異常交易、欺詐等,很多都是通過數據本身的特性發現的。科技創新本身帶來的深刻變革就發生在今天。現在太多銀行用僵化的表結構、或用字段的方式去對客戶、市場、業務規則做描述,而新的互聯網的思路用一張表就處理完成。這種新的結構,完全依賴于云計算新的方式。
另外,金融業本身也在發生業務革新。銀行屬性從記賬式的賣方更多轉向風險、欺詐、定價的買方屬性。而這些特點很多都是非線性的,需要大量的計算能力。業務驅動加之科技目標驅動,使得新的基礎設施部署成為必然。
舍恩伯格的《大數據時代》有一個核心的概念——全量。大數據首先要數據全量在線。現在太多系統都是孤立的,銀行的對公、對私,還有卡業務都是分開的,當把所有業務糅合在一起時,就會發現很多客觀規律。有一個保險公司的案例,這家保險公司以前只能做抽樣,對高端人群、某一個險種人群的調查,通過在兩千個維度里抽取一些維度,比如收入,進行建模,建模之后進行試用,再考察結論。現在有了大規模的計算能力,就不進行干預,完全讓機器自己去找規律,讓機器學習出在兩千個維度里到底什么是建模的規則,這完全是黑箱建模的思路。
黑箱建模讓我們發現了很多以前不知道的規律。比如,實現機器學習以后,能發現反洗錢有1000多條在線規則。對于保險用戶,在9000多萬用戶里有百分之零點幾的用戶年收入四萬多,但是買了七萬多的保險產品。那么相應的銷售人員是以怎樣的保險理財理念去推銷產品的?有怎樣的經驗?這是需要發掘的。
在無假設條件下,通過機器學習能發現用戶特征。這些工具、方式、方法,可以幫助金融客戶非常清晰地了解以前未知的市場和用戶。
現在大數據又擴展到另外一個范疇,自然語義內容、視覺內容、行為關系網絡等復雜的關系。這些內容在以前的數據結構上很難處理,現在有了大規模的計算平臺,大數據可以讓系統用新的組織方式,如矩陣、向量進行處理。這個數據非常稀疏,但是有很大的社會屬性和經濟價值,它會通過評估關系的鏈條來描述出很多個體的社會屬性,也就是個體的社會資本。現在供應鏈金融規模比較大,但是需要靠專業領域技巧去識別供應鏈。其實銀行根據轉賬記錄建立一個大的社交網絡就可以傳播這些鏈條,就可以把一些細碎的、小型供應鏈通過計算模式挖掘出來。
要精確,還是要混雜?
一家保險公司,怎樣評估它的產品?品牌是很模糊、很難量化的,我們用了十多億條微博數據和論壇數據來畫一條曲線,也就是在這個周期之內品牌的波動,就可以把品牌感知量化,把產品投放也量化。
要群體,還是要個體?
銀行做數據業務做了10多年,實際上就是群體和個體的差異。互聯網數據完全瞄向個體,數據結構也是精準于個體,而傳統的數據面向經營指標、面向群體。宏觀意義上來看,假如小明去了100次書店,以前要回答的問題是他第101次買不買書,即業績和經營指標的問題;而現在我們關心的是他第101買什么書,需要將什么樣的內容推薦給他。這不是一個概率問題,而是一個模糊的程度問題。量化這個程度,我們要基于個體描述,而不是基于群體的共性描述。
要決策,還是要工具?
很多人認為大數據是決策性的,筆者認為,大數據實際上更多的是一個自動化的匹配工具。我們為一家保險公司計算了9000萬用戶在每一個險種上的流失概率。當結論上升到領導的時候,這個決策必須是宏觀的,周期很長,幾個月后反饋回來可能就有偏差了。而大數據的動作是直接把數據下沉,9000萬個用戶的所有流失概率全部分給5萬個保險代理人,每個人通過專門的程序就可以看到由他負責的客戶到底在做什么樣的動作。把權限和能力全部推到一線,而不是上升、匯總到總部做決策。所以大數據更多的是一個自動進行的過程,而不是分析決策的過程。