張 濤
(中國移動通信集團安徽有限公司網絡部,安徽 合肥 230088)
大數據時代,數據資產已成為企業的核心發展要素之一。數據共享是企業想要進一步發揮數據價值的必然選擇,只有將數據整合、分析和挖掘,才能實現從量變到質變的飛躍。然而,現實中數據往往分散在各個應用系統中,形成了“數據孤島”。數據分散較為嚴重,分散的數據無法挖掘出數據的巨大價值。數據只有開放共享,才能談如何利用數據促發展。
近年來,數據泄露事件頻發。例如,2018年3月,Facebook被曝有超過5 000萬名用戶資料遭“劍橋分析”公司非法用來發送政治廣告。各部門擔心數據共享開放會引起信息安全問題,擔心數據泄密和失控,不敢把自己掌握的數據資源向他人共享開放,阻礙了數據共享的進行,也讓企業網絡信息安全管理工作壓力倍增[1]。因此,迫切需要建立相應的數據共享安全管理體系,同時利用技術手段完善數據共享安全管控,以打破部門間、地區間的信息保護,做到真正的數據信息共享[2]。
數據資產管理是數據安全治理的基礎。摸清數據資產家底首先需要制定數據分級規范,即確定數據級別與數據內容的對應關系。根據數據敏感級別分為關鍵級、重要級、較重要級和一般級。如原始信令碼流包含較多用戶個人隱私信息,數據級別定義為關鍵級。其次,根據數據規則定義通過數據文件掃描或數據流量采樣等技術手段實現數據資產自發現和數據分級。最后,按照數據分級級別,落實不同安全防護級別的數據安全管控措施。
數據共享就是讓分散在各個應用系統中的數據進行各種操作、運算和分析。實現數據共享,可以減少數據采集等重復工作,打破系統間數據共享壁壘,從而把重心放在數據關聯分析、數據價值挖掘及業務增值開發等領域。
現實情況是,由于擔心數據泄露等安全事件發生,各系統產生的數據難以實現真正的數據共享。因此,要想發揮數據資產的價值,需要制定數據共享審批的審批規則。
數據共享審批內容應包含共享的數據類型、共享的數據級別、數據共享形式及傳輸方式,按照數據共享遵循“按需最小化共享”的原則,評審共享的數據范圍、數據字段需求、數據共享的時間粒度及數據共享的時限范圍等。依據評審結果,形成數據共享詳細方案。
數據共享審批通過后,依據數據共享審批結果制定數據共享規則庫,如表1所示。規則庫包含源地址、目的地址、數據標簽、數據內容、共享數據字段、創建時間、失效時間、數據級別、數據傳輸頻次、數據傳輸協議類型及創建事由等。

表1 數據共享規則庫
針對數據共享過程中數據泄露之后無法追溯的痛點,通過數據標簽標識合法授權數據共享信息流,依據數據共享規則庫及時發現非法獲取數據信息流。
數據標簽通常是不可察的,它與數據共享數據塊緊密結合并隱藏其中,成為源數據不可分離的一部分,并經過不破壞源數據使用價值的操作保存下來。數據標簽需要加強保密性和可用性,確保溯源操作的100%可執行。
通過專用密鑰對合法授權的數據共享規則加密[3],生成對應數據共享的獨有數據標簽,每一個數據標簽對應一個合法授權的數據共享。為加強數據標簽的保密性,每生成一個數據標簽對應采用一個獨有的密鑰。生成數據標簽后通過padding的方式,附著在數據共享數據塊上。對于數據敏感級別高的,可以采用在數據塊隨機位置嵌入數據標簽,以確保數據標簽的保密性。數據標簽生成過程,如圖1所示。
在網絡環境下,在數據傳輸鏈路上部署探針實時采集數據信息流。對于合法授權的數據共享數據流,由于數據共享規則庫記錄了源、目的IP地址信息及數據標簽,再結合數據標簽嵌入位置信息,可以實時識別出合法授權的數據共享數據流。而對于非法的數據共享數據流,即使其偽造數據標簽,也無法做到與數據共享規則庫及嵌入數據標簽位置同時一致。在實際應用中,通過模板的方式為數據共享定制數據共享規則和嵌入數據標簽方式。數據敏感級別高的數據共享,使用保密系數高的加密算法和隨機位置嵌入數據標簽。

圖1 數據標簽生成過程
在實際部署時,數據共享溯源監控范圍可能無法覆蓋所有數據傳輸鏈路及數據導出等應用場景。如僅獲取到需要溯源的文件,由于無源、目的IP地址,無法直接與數據共享規則庫直接匹配。因而,采用比對密鑰信息和嵌入數據標簽位置信息,經過相似度匹配后,解密數據標簽后可以實際獲得數據泄密的源頭。數據共享文件溯源過程,如圖2所示。
共享數據溯源系統核心系統為數據溯源管理系統和數據標簽分發中心。數據標簽分發中心依據數據共享審批結果,給合法授權的數據共享信息流分配數據標簽。針對數據敏感級別高的系統,可采用強加密算法來加密生成數據標簽,同時采用隨機嵌入數據標簽的方式。數據敏感級別不高的系統,可采用普通加密算法來加密生成數據標簽和固定位置嵌入數據標簽的方式。數據標簽及嵌入數據標簽位置信息分發過程采用數字證書分發,以確保數據標簽信息分發的安全性。數據標簽分發中心在分發給系統數據標簽信息的同時,將數據標簽信息同步發送給數據溯源管理系統。數據溯源管理系統通過部署在數據傳輸鏈路上的探針實時采集數據信息流,在剔除掉正常業務交互信息流(如信令交互等)的情況下,依據數據共享規則庫和數據標簽位置信息實時發現非法的數據共享。對于僅獲取到需要溯源文件的情況,由于無源、目的IP地址信息作為參考,無法直接與數據共享規則庫直接匹配。因此,此時采用比對密鑰信息及嵌入數據標簽位置信息,經過相似度匹配后解密數據標簽,以達到追蹤溯源的目的。共享數據溯源系統部署,如圖3所示。

圖2 數據共享文件溯源過程

圖3 共享數據溯源系統部署
如圖4所示,采集到數據信息流后,通過源、目的地址可以唯一索引到數據標簽的位置信息,進而獲取到數據標簽。之后將數據共享規則庫中源地址、目的地址、數據標簽與采集數據信息流中的對應信息進行匹配,如出現不匹配情況(正常情況下,應完全匹配),即可判定為非法數據共享,對相應的源系統和目的系統進行標識并發出告警。當上述信息完全匹配,通過一段時間的連續采集,進一步判定數據內容、共享數據字段、傳輸頻次及傳輸協議類型等信息是否與數據共享規則庫一致,如出現不匹配情況,可判定為合法數據共享的違規操作,對相關情況予以記錄,并通過日志記錄違規操作行為。數據共享管理部門可據此督促源系統整改相關的違規操作行為,對于非法數據共享應立即采取措施關閉數據共享,情節嚴重的可依據法律法規追究相關人員的責任。

圖4 共享數據溯源流程
本文提出了一種基于數據標簽的共享數據溯源方法,通過數據標簽信息來標記合法授權的數據共享信息流,結合數據共享規則特征庫和嵌入數據標簽位置信息來進行非法數據共享數據信息流的追蹤溯源,并可對合法授權的數據共享信息流的違規操作進行追蹤。