“數據孤島”橫向連片成網
同盾科技 《知識聯邦(KF):面向隱私保護的層次化統一的人工智能框架》的論文被2020年第十一屆IEEE知識圖譜國際會議收錄,“知識聯邦”一詞吸睛無數。保護數據隱私和安全日益嚴格,這給數據中心化相對應的人工智能(AI)技術,放大難度系數。直接的局面是,在金融、政務和醫療等數據敏感場景,人工智能變得非智能。這是因為,海量數據分散在諸多行業、機構的系統里,形成了“數據孤島”,造成了“只見樹木、不見森林”。沿襲AI技術路徑,也只是在各自的“孤島”上,縱向深挖。行業在思考,如何打破“數據孤島”,需要橫向連接,讓“孤島”之間連片成網。
從數據到知識四級驅動進階
新的技術理念應運而生,應時而來。同盾科技提出了知識聯邦(KF)框架及其參考實現的智邦平臺(iBond)。知識聯邦融合了機器學習、深度學習、聯邦學習等AI技術。這里的知識聯邦則包括了四個層級:信息層,支持底層的數據統計和計算,滿足簡單查詢、搜索和簡化操作等要求;模型層,支持訓練、學習和推理;認知層,能夠在不同層次的抽象和語境中,表現出來抽象特征;知識層,融合了知識發現、表示和推理。為此,知識聯邦實現了從數據驅動到知識驅動的進階,智邦平臺已經部署在生產環境中,涵蓋金融、醫療、保險、市場營銷和政府工作等涉及敏感數據的應用場景。
應用元知識聯邦技術分析用戶行為
當用戶在手機端登錄銀行App的時候,先輸入密碼;但是,銀行無法確認是否是你本人操作。如果加上行為認證,可以檢驗成功,增加了安全性;但是,在傳統技術邏輯下,銀行無法針對特定用戶行為特征,收集到對應樣本。否則,會觸碰到用戶隱私的敏感神經。科技向善,造福社會。同盾科技獲得國家專利授權的“面向行為分析的元知識聯邦技術”,在不觸碰用戶隱私前提下,更好實現了用戶行為分析。通過元學習,讓模型學到元知識,解決了數據量小的問題。同時,通過知識聯邦,解決了數據安全的問題,此外,在服務器端的知識匯聚以及反饋,解決了認證模型效果提升問題。
讓數據“不可見”
在字里行間,數據的“可用不可見”透露著硬幣的兩個面:數據的可用性;數據的不可見性。只在這樣,基于充分保護數據和隱私安全的前提,才能實現大數據的價值轉化。至于數據的“不可見” ,還是以智能風控與分析決策服務商同盾科技為例,管窺行業的探索成果。其已經做到以下三點:一是全面脫敏,實現云端API、云端SaaS服務系統、數據中臺敏感數據去標識化;二是全方位支持國密和國際標準算法;三是必須用到明文的數據處理中間環節,通過調用位于DMZ區(非軍事化隔離區)的受嚴格權限管控的解密服務,對操作行為進行安全審計。
讓數據“可用”
解決數據安全和隱私保護僅僅是第一步,行業普遍認為,可用性才是大數據價值的終極體現。那么,基于聯邦學習的技術加持,讓不流通的數據也能“可用”起來。在“不可見”的難題下,如何“隔山打牛”,實現數據“可用”的目標呢?這就是基于聯邦學習的知識聯邦理論框架體系。作為知識聯邦的子集,聯邦學習采用分布式的機器學習、深度學習技術,參與各方在加密的基礎上,共同建立一個公共虛擬模型,在訓練和交互全過程中,各方數據始終留在本地,不參與交換和合并。參與各方里面,沒有一方能擁有所有的數據,也沒有一方擁有所有的模型,共用開放數據,而不享有數據,從而保護數據安全和隱私最大化。
安全與效率達成平衡
常態下,安全等級越高,整體效率便降低。于是,同盾科技的智邦平臺依據信息類型、敏感程度、處理方式等,基于敏感等級的隱私數據進行不同層級的保護,以此平衡安全與效率的問題。說的再直白點,對不同敏感等級的數據采用部分屏蔽、泛化、哈希加密等脫敏方法。當然,要保證脫敏后的各方數據具有一致性。對客觀事物的數量、屬性、位置及相互關系的抽象表示,謂之數據;加工處理具有邏輯關系的數據,謂之信息;歸納、演繹、沉淀下來的有價值的信息,謂之知識。從定義可見,知識聯邦朝著擔綱數據安全和隱私保護重任的方向走去。