郝久月 夏吉廣 王開林 陳清輝
1. 公安部第一研究所 2. 北京中盾安信科技發展有限公司
隨著“互聯網+可信身份認證平臺”(以下簡稱CTID平臺)行業應用實踐廣泛、深入,平臺為全國260多家政府機關和社會各行業累計提供認證服務超過21億次,日均認證量超1500萬次。目前,CTID平臺已掌握的身份類數據資源類型已達幾十種,總體數據規模達百億條。此外,CTID平臺衍生出了更多的服務場景,如政務服務、酒店住宿、家政婚戀和電子購票等,特別是隨著5G和物聯網的發展,平臺在智能門鎖、工業物聯網等領域進行拓展。據估算,平臺數據年增長率將達300%,CTID平臺的數據資源將不僅僅是單一身份數據,也將包含越來越多的場景數據。與此同時,網絡環境中的個人信息保護問題成為重中之重。例如在疫情期間,大數據、信息化等在全國防疫工作中發揮了重要作用,但部分系統仍然存在身份、家庭住址、生物特征等個人隱私信息的過度采集、超權限采集等問題。
因此,為挖掘數據價值,同時確保個人信息安全,CTID平臺按照公安大數據相關標準持續開展數據資產管理工作,有效支撐CTID平臺安全、穩定服務,為公共安全、社會治理和智慧城市等建設提供支撐。
CTID平臺從數據內容上有基礎認證數據和日志數據兩大類,從數據類型上有結構化數據、半結構化數據和非結構化數據,從網絡分布上有公安網、互聯網和專線等,因此CTID數據具備多源異構的特點。如果數據標準不統一、質量參差不齊,就無法進行數據的多維分析和復雜建模,將大大降低CTID大數據的使用價值。大數據治理解決方案,能夠實現多種類型和多種來源的數據整合和分層治理,面向服務層提供數據服務和建模平臺,為CTID各類使用場景提供數據支撐。
CTID數據資源優勢包括:(1)數據體量大、種類多、涵蓋全;(2)安全性高。CTID平臺基礎認證服務數據是對源數據采用符合國家密碼標準要求的算法進行脫敏生成,保證了數據在使用過程中的機密性,即使發生信息泄露,也無法還原為明文,保障了數據安全;(3)人像認證準確度高。人像經過多數據源篩選出的最優照片選用多個先進算法完成建模,形成了高質量的生物特征模板,比對準確度高。

基于上述分析,CTID平臺形成了“多源接入、分層治理、統一服務”的大數據治理框架。治理框架共分為數據接入層、數據治理層、數據服務層等三層。在數據接入層充分考慮海量離線數據分析和實時數據比對的要求,采用分布式任務調度系統進行數據歸集調度;在數據治理層,以業務需求為導向,實現多源數據整合和建模工作;在數據服務層,實現對數據資產管理和數據共享交換服務。
數據治理:包括數據接入、數據處理和數據組織、數據服務等建設,同時實現數據質量探查、數據生命周期管理等功能,為支撐整體CTID應用服務提供基礎。
數據管理:基于數據治理成果,形成CTID數據資產服務,形成包括數據資源目錄、數據分級分類等的工具平臺。
應用服務:主要針對CTID的認證管理、第三方服務接口和插件等提供應用服務管理功能。
基于數據治理總體框架,平臺正逐步引入數據資產管理的理念,將現有CTID平臺的數據管理、數據資源管理升級為數據資產管理[1]。將數據作為一種全新的資產形態,充分融合業務、技術和管理,以確保CTID數據資產保值增值。

平臺一方面通過合理的數據使用流程和機制,優化數據的存儲和計算資源;另一方面持續完善已有數據資源,豐富外部數據資源,實現全域數據資產的持續擴充。
CTID平臺數據加工分為數據安全處理區和數據服務區。數據安全處理區完成原始數據的接入、處理、整合,具體流程包括入庫、清洗、脫敏、同步、存儲。主要流程如圖3所示。

入庫:通過ETL工具獲取數據源數據,實現異構數據批量獲取以及任務調度。若數據源數據類型為數據庫,則由數據庫側轉換增量數據為文件,再由ETL工具抽取文件數據,如數據庫側無法轉換文件,則采取直連數據庫方式。
清洗:利用大數據平臺的高性能,在大數據庫內實現數據獲取的過程,形成資源庫。
脫敏:文本脫敏算法采用國產密碼算法SM3,人像照片采用特征建模算法抽取模板,形成脫敏庫。
同步:將數據安全處理區內脫敏庫同步至數據服務區。
存儲:根據數據的敏感程度,CTID平臺采取了安全域劃分及分域管理措施,對各區域數據采用不同的安全策略,確保數據安全可控。其中,將涉及用戶隱私的數據設置了高等級的數據存儲區域,與其它數據存儲進行隔離。采用符合國家安全標準的國產密碼算法,在敏感數據的采集、傳輸、存儲全過程中進行加密實現信息的保密性,同時對信息進行數字簽名實現信息的完整性。
原始庫是存儲CTID原始庫數據,能夠反映原始業務場景的數據層級,原始數據層來源于業務庫和生產庫,并可在此基礎上補充其他數據源。原始數據層實現數據的標準化和價值增值,為各類應用提供基本的數據支撐,為數據融合、數據抽象和進一步增值完成數據準備,并支持信息溯源、原始場景回溯等業務需要。
資源庫主要是以實體的特征、關系、軌跡和行為等進行專題數據構建,包括身份脫敏信息庫、日志庫、虛實關系庫等。
主題庫按照人員、事件、地址、設備、組織進行主題構建,主題數據層從更高層次對主題對象進行抽象,形成了跨業務的人、事、地、物、組織的統一視圖,為數據的多維分析和復雜建模提供了基礎。
業務庫是CTID平臺支撐各類應用的數據庫,記錄業務過程,為各業務應用提供數據支撐等,如健康碼應用數據庫、政務應用數據庫、人員管控數據庫等。
身份信息索引庫對人員身份信息建立全局索引,用來解決人員身份信息關聯和業務沖突問題。目前,該索引庫整合了身份證件信息、人口信息、出入境證件信息,具有權威性、可信性。
數據治理采用基于開源大數據處理組件形成獨特的數據治理體系技術架構,如圖4所示。

CTID平臺針對數據敏感程度及數據的開放范圍進行分級分類,構建完善的數據分級管理體系和標準。利用數據分級分類對數據進行標識,配合數據授權、數據鑒權,確保數據的安全存儲、維護及使用。
為確保基礎核心數據安全,CTID平臺設計了唯一數據服務接口對外提供應用服務,并在數據接口層布署安全訪問控制措施,如端到端信息加密、點對點互簽互驗、采用專線連接及鏈路通道VPN加密等,同時部署網絡入侵檢測及防火墻等網絡安全防御系統,保障接口層的數據、通信及網絡安全。CTID平臺對第三方認證機構提供業務協同接口,支撐第三方認證機構開展服務。
從存儲、傳輸和應用層面確保數據安全。在存儲上,應用終端和互聯網后臺存儲的是經過國產密碼算法脫敏、不可逆的數據,并在異地建設數據備份中心。在傳輸上,敏感信息經脫敏后通過邊界接入平臺擺渡到互聯網端;同時在通信鏈路上使用國產密碼加密,有效保證數據傳輸安全。在應用上,應用終端使用安全控件對采集的數據進行加密,服務提供方無法留存個人數據,確保數據不被竊取,個人隱私不會泄露。
在平臺整體建設上全面部署入侵檢測、入侵防護、病毒查殺系統,不斷加強網絡安全監控,通過防火墻、ADS設備實時監控網絡攻擊狀態、攔截非法訪問,采取抗DDos設備對DDos攻擊進行攔截,采取IPS設備對網絡入侵攻擊進行攔截,進一步在互聯網端裝載“網防G01”網站內核防護系統等網絡安防系統,在平臺運維過程中持續優化安全基礎設施性能及策略,提升安全保障能力。
大數據是一種重要的國家治理資源,作為國家治理現代化的新型高科技技術,能夠有效優化治理中的生態環境,促進制度創新與治理轉型。同時大數據通過對海量數據的關聯分析,可以進行科學預測,為解決現實社會治理問題提供新思路、創造新手段,具有廣闊的應用前景。目前,CTID平臺正積極研發大數據分析服務,運用大數據技術提升國家治理現代化水平。
CTID平臺利用復雜關系網絡分析、知識圖譜等先進技術,研究支持網絡實體行為、多安全域身份聯合的關聯分析模型,構建網絡身份與真實身份核心要素關聯,為完善社會治理、建設網上社會信用體系提供支撐。
隨著無人駕駛、遠程醫療、工業物聯網、智能家居等應用的興起,物聯網已成為未來經濟新的增長點。CTID平臺通過建立人與物之間的綁定關系,能夠實現對物品高可信級別的監控、使用和管理,助力物聯網應用,推動產業發展。
本文圍繞CTID大數據治理技術開展了總體架構、技術、安全等方面的探討。目前,CTID平臺已形成國內最權威的基礎身份信息數據庫,建立了專業、高水平的數據治理團隊對身份基礎數據持續開展清洗、關聯、治理等工作,確保身份數據準確鮮活。隨著CTID平臺的廣泛應用,區塊鏈、物聯網、5G等技術的發展,CTID平臺將不斷豐富完善數據的種類和維度,利用大數據分析、人工智能等技術不斷挖掘數據價值,研發關聯分析、用戶畫像、信用評級等大數據分析模型,形成數據洞察能力,構建CTID大數據產業生態,為國家治理能力現代化提供技術支撐。