關杏元 王彥博 李曉林 張月



隨著數字化時代的來臨,大數據、人工智能等精尖技術進入了高速發展階段。然而,對一些行業而言,存在數據樣本量少、特征少、標注信息缺失、數據質量差等問題,同時由于相同行業不同企業間的競爭以及同一企業中不同業務條線、業務系統間的阻隔性等情況,難以實現有效的數據信息交流與整合,易造成“數據孤島”現象,這使大數據、人工智能相關技術難以發揮出預期的應用效果。
當前隱私與數據保護已成為全球關注的焦點,無論是機構還是個人都對隱私和數據保護越發重視,政府機構也出臺了相關的法律法規來保護數據安全和隱私。而聯邦學習(Federated Learning)作為一種新興的人工智能技術,能夠在隱私、安全和監管的要求下,讓AI系統更加高效、準確地使用數據,突破小數據(數據樣本和特征受到制約)和弱監督(數據標注信息受到制約)等條件約束,實現機器學習模型的可用性,為“數據孤島”以及“隱私計算”問題提供了解決方案。
聯邦學習的發展歷程
聯邦學習概念源自Google于2016年為更新Gboard系統的輸入預測模型而設計的一個機器學習系統。聯邦學習面向的場景是分散式多用戶,每個用戶客戶端擁有當前用戶的數據集。傳統的機器學習的做法是將這些數據收集在一起,得到匯總數據集,基于匯總數據訓練得到模型。聯邦學習方法則是由參與方共同訓練得到全局模型,首先各參與方基于自己的本地數據訓練本地模型,再通過參數交換和聚合操作,得到全局模型;在該過程中,用戶數據始終存儲在本地,不對外發送,滿足數據安全和隱私保護要求。
最初的聯邦學習框架是在機器學習本身的技術層面思考信息流的傳遞,保護原始數據不出庫。但聯邦學習技術的發展,對其提出了增強安全的要求,不僅要求保護原始數據,同時要求進一步保護中間交互的參數,以此提高系統安全性。通過聯邦學習結合差分隱私、同態加密、秘密分享等密碼學技術的綜合應用,對數據隱私實現端到端的閉環保護。此外,通過對代碼、算法、通信、硬件等方面的優化,可提升聯邦學習系統的性能,縮小其與傳統集中式機器學習用戶體驗的差距。
發展至今,聯邦學習技術逐漸趨于成熟,在業務場景得到了較好的嘗試和應用。同時,國際和國內機構也在推動聯邦學習等隱私計算技術的標準建立。例如,IEEE在2021年3月正式發布了P3652.1《聯邦學習基礎架構與應用指南》;3GPP、ISO、ITU-T及中國金融標準化委員會(金標委)等機構也組織制定聯邦學習的相關標準,促進聯邦學習技術向著更具通用性、可用性、安全性的方向發展,為聯邦學習技術生態發展奠定了基礎。
聯邦學習的三種模式
聯邦學習面向的場景是多參與方,每個參與方擁有各自的數據集。根據參與方持有數據情況的不同,聯邦學習可分為三種模式:橫向聯邦學習(Horizontal Federated Learning)、縱向聯邦學習(Vertical Federated Learning)和聯邦遷移學習(Federated Transfer Learning)。
橫向聯邦學習
橫向聯邦學習是指在參與聯合建模的各方之間用戶重疊較少,而用戶特征重疊較多的情況下,通過把各參與方的數據集按用戶維度切分,并取出雙方用戶特征相同而用戶不相同的那部分數據進行訓練。
在金融場景中,橫向聯邦學習適用于金融機構間的聯合建模,即參與方之間業務場景相似,用戶特征相同,而用戶群體交集較小的場景。例如,兩家不同地區的銀行機構,它們的用戶群體相互交集很小,但是它們的業務很相似,因此用戶特征是相同的;但由于某些特定業務場景,如小微企業信貸等,各參與方可使用的建模樣本均較少,因而難以各自采用傳統機器學習算法構建模型,在這種情況下,可以通過橫向聯邦學習來聯合使用多個不同機構間的樣本數據,擴大模型訓練的樣本空間,從而構建更準確、泛化能力更好的模型。
縱向聯邦學習
縱向聯邦學習是指在參與聯合建模各方數據集的用戶重疊較多,而用戶特征重疊較少的情況下,通過把數據集按照特征維度切分,并取出雙方用戶相同而用戶特征不相同的那部分數據進行訓練。
縱向聯邦學習往往用以解決一方數據維度過少,僅用一方數據無法較好地實現建模目標,或是一方只有Y標簽,需要使用其他參與方的特征來構建聯合模型的場景,多用于異業之間的聯合建模。在金融場景中,縱向聯邦學習常用于金融機構與其他行業機構之間的聯合建模,即參與方的用戶交集比較大,但各參與方所擁有的用戶特征差異性大。例如,銀行與運營商之間的聯合建模,它們的用戶交集較大,但銀行記錄的都是用戶的收支信息、信貸行為、還款記錄等金融行為信息,而運營商擁有用戶短信、上網情況等通信行為信息,因此它們之間的用戶特征差異性很大,銀行機構在智能風控、智能營銷、反欺詐、存客運營等業務場景中,均可使用縱向聯邦學習,通過參與方之間特征的互補來提升模型的信息量,以增強聯合模型的識別和預測能力。
聯邦遷移學習
聯邦遷移學習是指在參與方數據集的用戶與用戶特征重疊都較少,往往無法基于用戶或特征進行切分,在這種情況下可以利用遷移學習來克服樣本和標簽不足的情況。
遷移學習的目的是把源領域的知識遷移到目標領域,使得目標領域能夠跨越數據積累直接實現應用智能,通常適用于源領域數據量充足,而目標領域數據量較小的場景。例如,在金融領域的反洗錢、大額信貸業務等場景或是在業務啟動階段,普遍存在金融樣本有限問題,難以采用通用的機器學習算法建模。利用源領域的大量數據訓練好一個模型,通過遷移學習,將數據、模型和任務都遷移到目標領域的小數據中,可以得到一個魯棒性較好的新模型。聯邦遷移學習將遷移學習方法與多方安全計算中的同態加密等算法相結合,實現了聯邦化的遷移學習算法。
基于聯邦學習的隱私計算
聯邦學習的基本原理是在企業、機構或終端各自數據不出本地的前提下,通過基于密碼學機制下的參數交換,建立虛擬的共有模型。這個共有模型的性能經與傳統方式下將各方數據匯聚在一起再使用機器學習方法訓練的模型進行對比,兩者效果基本一致。
聯邦學習的參與方一般包括數據方、算法方、協調方、計算方、結果方、任務發起方等,這些不同角色可以根據不同的實現機制,由不同的實體承擔,或是由某一實體承擔多個角色。目前的聯邦學習的實現架構主要分為兩種:一種是基于協調方的中心化聯邦架構,另一種是點對點的去中心化聯邦架構。在中心化聯邦架構中,各參與方需要與中心協調方或中央服務器合作完成聯合訓練;而在點對點的去中心化聯邦架構中,各個參與方是對等關系,不存在中心化的服務器,所有交互都是參與方之間通過多方安全計算等密碼協議直接進行交互和計算的。
橫向聯邦學習通常是基于中心化聯邦架構,通過中心協調方來協調和匯總全局的模型。模型訓練之前,中心協調方將初始模型分發給各參與方,各參與方再根據本地數據集進行模型訓練, 然后各參與方把本地訓練得到的模型參數加密上傳至中心協調方,中心協調方對所有模型梯度進行聚合,再將聚合后的全局模型參數加密傳回給各參與方,反復此步驟,直到全局模型收斂得到最優模型。而縱向聯邦學習根據不同業務場景、參與方之間的信任度、安全強度需求等,可選擇采用中心化聯邦架構或去中心化的點對點網絡架構,與之對應的是采用密碼學技術的差異。聯邦學習常采用同態加密、差分隱私以及秘密共享、不經意傳輸、混淆電路等多方安全計算技術來增強中間交互模型參數的安全性。此外,隨著產業應用的需求,聯邦學習也與其他多元技術融合來滿足更多應用場景。例如,通過采用差分隱私進一步增強對梯度參數的保護程度,防止中間梯度信息的泄漏與原始數據的反推;與可信執行環境融合,進一步提升本地隱私數據的安全性或模型的安全等級。
聯邦學習的金融應用場景
反欺詐場景
機器學習在金融反欺詐的應用場景中迅速發展,并已取得顯著成效,金融詐騙行為能夠被有效識別。但在巨大的經濟利益驅動下,金融詐騙手段層出不窮,傳統基于單一企業的數據建模逐漸難以應對不斷升級的詐騙手段,需要通過聯邦學習等隱私計算技術打通企業間的數據孤島,構建跨行業數據共享的反欺詐模型,以提升金融反欺詐的效率與精準性。
借助聯邦學習技術,可以在保證用戶隱私信息、企業的數據安全以及企業的數據所有權與控制權的前提下,融合銀行機構、電商、運營商、政務等多元數據,實現跨行業、跨機構的反欺詐體系建設。基于金融行為特征、消費行為特征、通信行為特征、社交行為特征等,構建針對不同細分金融反欺詐業務場景的專有模型,通過跨行業、跨機構的多樣性欺詐數據特征互補,從而提升金融行業的整體反欺詐能力。
以國內某商業銀行為例,其借助聯邦學習技術,引入外部數據源,聯合行內已有樣本和特征,利用聯邦Fastboost算法構建反欺詐模型,并與現有欺詐系統進行對接,具體應用如圖1所示。
實證結果表明,通過聯邦學習算法構建的跨機構反欺詐模型, 其AUC指標達到0.84,KS指標達到0.55,KS指標對比僅基于行內數據構建的模型提升了約15%。這表明聯邦學習模型能夠對用戶欺詐行為進行有效識別,有效提升商業銀行的風險防控能力。
信貸風控場景
在信貸風控領域,因信審過程需要調用不同的數據接口,因此面臨著信貸審核成本高昂的情況;此外,銀行等金融機構在面對中小微企業的信貸需求時,缺乏企業經營情況等有效數據,導致中小微企業融資難、融資貴、融資慢;同樣,消費金融類企業在面對風控時,缺乏互聯網用戶行為畫像等有效數據。
在中小微企業信貸場景中,針對中小微企業信貸評審數據稀缺、不全面、歷史信息沉淀不足等問題,通過聯邦學習機制,在確保數據提供方數據安全以及隱私保護的情況下,能夠為銀行融匯企業經營數據、稅務數據、工商數據、支付數據等多源信息,豐富建模特征體系,共同提升模型的有效性。此外,通過將風險前置,從風險源頭切入,采用隱私計算還可幫助金融機構過濾信貸黑名單客戶以及過濾明顯沒有轉化價值的貸款客戶。
以國內某商業銀行為例,其在進軍中小微企業貸款市場過程中,苦于沒有充足的數據特征維度用以判斷企業的信用評分,因此將風控縮緊,雖然保證了業務安全性,卻降低了盈利性。借助聯邦學習的方式,該銀行與某支付機構進行跨機構數據協作,對企業進行信用評估。銀行提供建模樣本Y標簽,外部合作機構提供相關樣本的X數據特征,采用聯邦邏輯回歸算法構建風險評分模型,對客戶進行評分區間預測,相關方案如圖2所示。
基于外部數據源輔助的模型訓練結果顯示,其AUC指標達到0.71,KS指標達到0.34,能夠為銀行在中小微信貸場景提供有效的風控能力。
此外,聯邦學習技術也可用于消費金融機構信貸場景。針對消費金融機構Y樣本量不足、好壞樣本區分度不夠、樣本呈偏態分布等問題,建議通過聯邦學習機制,融合多家信貸機構的數據進行小樣本聯合建模,并不斷積累業務數據迭代優化模型。
銀保營銷場景
銀行在保險業務的推廣方面存在天然優勢,同時也是其重要業務組成的一部分,但是目前銀行在保險產品的營銷和精準獲客方面存在以下的問題:一是獲客難度大。銀行在尋找客戶過程中,因客戶畫像不精準,導致獲客轉化率低。二是客戶需求把握不準。因客戶維度的缺失,導致銀行營銷人員對潛在客戶的需求定位不清晰,難以挖掘其真實需求,潛在價值沒有得到充分的發揮。三是總成本居高不下。因獲客轉化率低,同時產品推介針對性不強,導致銀行保險業務營銷的整體ROI偏低。
以國內某商業銀行為例,在代銷保險業務中銀行希望從數億客群中挖掘出潛在的保險用戶,進行銀保交叉營銷。在實施過程中,采用聯邦學習技術,利用保險公司已有人群特征標簽作為種子用戶,并選用聯邦推薦算法,構建多維、準確的聯邦推薦模型,從而識別出更多潛在相似人群,同時優化營銷渠道。
對模型運行結果及營銷結果進行統計分析,實證結果表明, 在轉化率、ROI、長短期保險營銷比例等方面,聯邦學習模型結果均有較為明顯的提升,如圖3所示。
結語
聯邦學習是當前隱私立法時代能夠兼顧隱私與數據保護要求以及機器學習、數據挖掘應用需求的一項前沿IT技術。在商業銀行具體業務場景中,基于聯邦學習的隱私計算平臺能夠解決數據使用合法合規的問題,拓寬金融行業數據邊界,并打破數據割裂的壁壘。借助聯邦建模可以在保護用戶信息不泄露的前提下,將來自支付應用的消費數據、交通出行數據、通信數據、上網行為數據等多方、多維度信息納入聯邦風控模型、聯邦反欺詐模型、聯邦營銷模型、聯邦反洗錢模型等多類業務場景中,在滿足合規經營的前提下,進一步推動銀行數字化轉型、智能化發展,全面提升商業銀行的業務質效。
(龍盈智達〔北京〕科技有限公司大數據中心楊璇、袁開蓉以及同盾科技有限公司人工智能研究院彭宇翔、張明明對本文亦有貢獻。王彥博〔wangyanbo@lyzdfintech.com〕為本文通信作者)
責任編輯:孫 爽