李烽 謝穎
近年來,中國進入了經濟高速發展的階段,全面深化改革取得重大突破,人民群眾的生活條件得到了極大的改善。但是,由于社會發展的不均衡,貧富差距較大等問題依然存在,老年人口增長快、規模大,老齡問題愈發凸顯。當前,民政部門主要負責人民群眾的民生保障、基層社會治理、社會福利、養老服務等方面工作,民政業務涉及面廣,數據資源分散在眾多業務系統中,民政部門手握重要的基層數據資源,但是未能有效利用和發揮數據資源的價值。因此建立民政大數據平臺,通過大數據技術有效利用民政數據資源,發揮數據要素在民政部門的價值,為民政部門“十四五”信息化業務的開展提供支撐手段,是智慧民政建設的當務之急。
(一)數據格式多樣,數據標準未統一
民政部門涉及基層社會治理、救助、福利、組織及養老機構管理等多種關系民生的業務,數據資源種類較多,數據格式未統一,需在省、市、縣、區、鎮、村縱向條線,根據國家部委的數據標準,建立統一數據標準規范體系,為民政業務的持續發展提供基礎數據標準支撐和依據。
(二)數據口徑不一,數據質量待提高
現有民政業務系統基本屬于煙囪式建設,存在數據來源不唯一、不完整、更新不及時等問題,導致數據質量整體不高,缺乏整體的數據服務能力,需建立統一的大數據平臺,打破數據孤島,加強數據質量的管理和優化,為民政大數據應用提供高效的數據服務能力。
(三)數據聯通不暢,數據共享需加強
民政內部業務系統較多,由各部門管理和使用,系統之間交互越來越頻繁;隨著民政業務的發展,與其他委辦廳局的業務交互也逐漸增多。隨著民政部門內外部數據資源共享交換的需求越來越多,需通過大數據技術,打通內外部數據共享交換的通道,建立統一的數據共享交換系統,有效拓展數據采集深度和廣度,不斷提升民政數據共享交換能力。
隨著民政業務數據規模越來越大、類型越來越多、范圍越來越廣,為滿足民政內外部數據資源的互聯互通,實現數據資源的有效管理和維護,需建立民政統一大數據平臺,實現民政業務數據化、數據業務化的目標。大數據平臺的設計主要包括數據源的分布、大數據支撐平臺的建設及大數據應用等方面。
(一)數據源
數據源主要是省、市、縣民政部門內部業務數據,以及其他委辦廳局、企業、組織等接入的外部共享數據,包括社會組織信息、婚姻信息、殯葬信息、養老機構信息、福利機構信息及留守兒童信息等。
(二)大數據支撐平臺
大數據支撐平臺是整個大數據平臺的基礎工具,采用基于Hadoop的大數據技術,包括數據采集、數據存儲、數據分析等關鍵技術,以處理民政相關規模較大的結構化和非結構化數據。民政的數據資源主要分布在各業務系統中,數據來源于多種類數據庫,Hadoop工具適用于將關系型數據庫的數據導入到分布式文件系統HDFS中。對數據時效性要求不高的數據,可采用Sqoop/DataX等工具,將數據采集到大數據平臺中;對于需要實時計算的數據,可采用kafka消息中間件,通過消息隊列的方式采集到大數據平臺。
(三)數據共享交換平臺
數據共享交換平臺是省級民政部門橫向與其他委辦廳局,縱向與部、市、縣等民政內部部門數據共享交換的主要通道,主要包括資源目錄管理系統和數據共享交換系統。資源目錄管理系統是通過對全省民政數據資源進行梳理、編目、注冊和管理,讓數據需求方能夠通過數據資源目錄及時了解已有的數據資源,并提供相應的數據查詢、訂閱等功能。數據共享交換系統是根據數據資源目錄的注冊情況,以及訂閱的數據情況,將通過審核的數據及時共享給其他部門,實現對內對外數據互聯互通。
(四)數據倉庫設計
數據倉庫是將民政業務數據歸集后進行加工處理,根據業務數據的發展規律、時間變化以及與其他相關數據之間的關聯分析等,為民政大數據應用分析提供數據支撐。民政數據倉庫的設計主要分為ODS層、DM層和DIM層:
ODS層與民政內部業務源數據保持一致,主要包括社會救助、基層社會治理、社會福利與慈善、養老機構等數據,以及公安、衛健、人社等有關人口、社保、收入、健康等數據。
DM層是基于ODS,根據統一的數據標準規范,對原始業務數據進行整理加工,梳理、分類和整理成基礎的數據資源寬表,主要包括民政機構、行政區劃、家庭成員、電子證照等幾大類數據,為后續DIM層設計提供支撐。
DIM層是基于DM層基礎上進行二次加工,根據業務主題需求進行設計和建模,主要包括婚姻信息、死亡人口、民生保障、未成年人保護及養老機構等主題。
(五)數據資源管理
數據資源管理主要是針對省級民政大數據平臺建設過程中,對大數據收集、處理、分析等數據要素全生命周期的管理,包括元數據管理、數據質量管理、數據標準管理及數據安全管理等內容。
元數據管理貫穿整個大數據平臺建設全過程,包括技術元數據、管理元數據、業務元數據,制定統一的元數據標準,登記元數據的來源,并能夠支持元數據入庫、瀏覽、查詢和統計等功能,當發現數據質量問題時,能夠追溯數據的來源,并對所有數據資源建立血緣關系。
數據質量管理主要是明確入庫的數據資源是否滿足完整性、一致性、及時性、準確性等,通過及時發現數據質量問題、反饋數據質量問題,并形成數據質量報告,對有問題的數據進行反饋和糾正,不斷提升和優化數據質量,為多源數據融合的分析和挖掘提供保障。
數據標準管理:統一的數據標準規范體系是建設民政大數據平臺的先行條件和基礎,通過數據標準的管理,確定數據來源的唯一性,消除一數多義的現象,并逐步將數據標準納入規范的流程,持續對數據標準進行更新、發布和使用監督等。
數據安全管理是在數據歸集、處理和分析等全生命周期中的安全進行事前預防、事中保護、事后響應,對數據敏感性進行分級分類梳理,增加用戶的數據權限管理,對共享的數據進行脫敏和隔離處理,防止數據泄露,保障數據資產的可控和可信。
(六)大數據應用
大數據應用主要包括社會救助對象用戶畫像、家庭收入分析、民生問題跟蹤分析等。社會救助對象用戶畫像是根據全省所有救助對象救助情況,對各市、縣、區、村的救助對象分布情況,對每年救助資金的額度、救助對象的變化、救助人員的家庭情況等進行多維度的分析和統計,為后續社會救助的補助力度、補助方式等提供有力支撐。家庭收入分析是對家庭成員之間進行關聯分析,包括家庭主要成員、工作單位、個人收入、家庭救助情況等信息,將家庭成員的總體收入、家庭收入分布、工作穩定、家庭救助原因、是否存在大病返貧、是否存在留守兒童和老人等進行關聯分析,讓民政部門更有效的了解全省家庭收入情況。民生問題跟蹤分析是基于全省各地區人員、家庭、養老機構、福利機構、救助機構等相關信息,根據微博、微信等公眾平臺相關民生熱點信息,針對群眾關心關切問題,通過大數據平臺進行多維度統計分析,了解是否存在民生利益未得到保障、基層服務不到位及救災物資配置失衡等現象,及時對民生問題進行跟蹤分析。
省級民政大數據平臺的建設是民政部門數據資源有效利用的根基,通過建立規范的數據標準體系,不斷加強數據質量的提升,確保數據資源的整體安全有效,實現內外部數據資源互聯共享,為民政業務數據化提供大數據服務能力,豐富和提升民政數據資源的資產價值化進程,實現民政業務的大數據應用有效落地。
作者單位:湖南省郵電規劃設計院有限公司