周志凱 宋肖紅
(杭州數政科技有限公司 浙江省杭州市 310012)
隨著信息技術從IT 時代發展到DT 時代,信息技術與經濟社會的交匯融合引發了數據迅猛增長,數據已成為國家基礎性戰略資源,2020年更是將數據明確列為第五大生產要素,與土地、勞動力、資本、技術等傳統要素并列為要素之一。政府作為數據要素的最大擁有者,推進政務大數據的開放共享,提升社會數據資源價值,無論是企業還是社會公眾,都對其抱有很大的期待,這必然對政務大數據的數據質量和規范性,提出了更高的要求。如何利用現有的技術,探索建立統一的數據管理制度,提高數據質量和規范性,將是政務大數據治理面臨的挑戰。
近年來,為實現對政務數據資源的有效管理和應用,黨和國家的政策文件中陸續對政府數據治理工作提出了一系列相關要求,各地政府也紛紛制定并發布政府數據治理的相關政策規范,2010年至今,全國31 個省(自治區、直轄市)共出臺了125 份省級政府層面與政府數據治理直接相關的政策文件,截至2019年底,我國31 個省(自治區、直轄市)中,已有22 個省份設立專門的數據管理機構。
政府政策文件的支撐,專門數據管理機構的設立,為政務大數據治理奠定了良好的基礎,基于政府各業務部門的數據,本研究從數據規范的通用性和數據業務屬性的專有性出發,結合政府數據資源開放共享的需求,充分考慮到數據治理的通用性、易用性、擴展性,以及業務屬性的針對性,構建以政府元數據集為紐帶的通用規則集和業務規則集,實現了治理規則針對不同主題數據集的靈活適配,為政府治理、數字政府提供數據支撐。
基于政務大數據的特點和治理現狀,各個業務部門的數據歸集到大數據中心,形成海量、多源、多類型的政務大數據庫,然而,由于政府各個業務部門業務規范和數據標準的不同,單一的數據治理規則已不滿足政務大數據治理的需求,鑒于此,需要針對不同業務需求,個性化的定制治理規則,精準匹配,進行數據治理。
在構建政務大數據治理規則體系的過程中,首先,我們依托數據歸集中心各業務部門的數據源,經過整合、關聯、提取等一系列操作,形成部門元數據集合,并根據其業務屬性、數據屬性進行打標,集合形成分類元數據集,同一類別的元數據集包含相似的業務或數據屬性,具有相似的數據治理需求;其次,根據各業務部門數據源數據庫的存儲要求,以及數據庫通用的數據規范要求,去重、分析、整合,凝練出政務大數據可以通用的數據庫規范集,數據庫規范集普遍適用于各業務部門的數據治理需求,具有普適性;再次,根據各業務部門的業務規范,分類梳理,匯集成帶有業務專用性的數據庫可使用的業務規范集,業務規范集具有業務屬性,針對性的適用于不同的業務數據項;最后,將分類元數據集、數據庫規范集、業務規范集結合起來,互相關聯,形成通用規則集和業務規則集,構成政務大數據治理規則中心,并可根據歸集中心數據的增加和業務的擴充而擴充完善。政務大數據治理規則形成模式如圖1所示。

圖1:政務大數據治理規則形成模式

圖2:政務大數據治理規則體系
政務大數據治理規則包含通用規則集和業務規則集,結合規則與元數據的關聯關系集(即規則元數據集),共同形成政務大數據規則體系,可以靈活、快速、精準的對待治理的數據集進行配置,有針對性的進行數據治理。
2.2.1 通用規則集

圖3:政務大數據治理規則的應用
通用規則集根據數據庫的存儲、使用等規范,整合提取具有普適性的規則集合而成,通用規則不包含明確的業務屬性,普遍適用于各業務部門的數據項,一般從完整性、準確性、規范性、唯一性、一致性、關聯性等六個方面出發,作用于所有數據項,保證數據項符合基礎的治理規范,是最基礎最廣泛的治理規則集合。
完整性 Completeness:完整性主要校驗數據項內容是否完整,即數據項是否缺失。包括對數據項的非空檢驗等規則。
準確性 Accuracy:準確性用于度量數據項內容是否準確,即數據項內容是否與其對應的客觀實體的特征相一致。包括對數據項的數值異常檢驗、空格檢驗等規則。
規范性 Conformity:規范性關注數據項內容是否規范,即數據是否滿足用戶定義的規范或在一定的值域字典范圍內。包括對數據項的格式規范檢驗、值域字典檢驗、編碼規范檢驗等規則。
唯一性 Uniqueness:唯一性用于檢查數據記錄是否唯一,即數據是否存在重復記錄。包括對數據記錄的主鍵重復檢驗、整條記錄重復檢驗等規則。
一致性 Consistency:一致性用于校核數據上下文是否一致,即數據表同一的不同屬性值或不同記錄的同一屬性格式規范是否一致。包括對同一數據記錄不同數據項的一致性檢驗、同一數據項不同記錄的一致性檢驗等規則。
關聯性 Integration:關聯性用于校核關聯數據是否符合規定,即有關聯的不同數據源中同一實體的同一屬性的值是否一致。包括數據記錄關聯數據項的存在檢驗、關聯數據的一致性檢驗等規則。
2.2.2 業務規則集
業務規則集根據各個業務部門各個業務的業務規范分析梳理而成,業務規則具有較強的業務屬性,一般與業務部門的具體業務數據項相關聯,具有專項性。業務規則集根據元數據的屬性分類,一般從編碼、字典、長度、格式、數值范圍、特殊字符、業務邏輯等七個方面分析梳理,基本涵蓋各業務元數據數據治理的需求。
2.2.3 規則元數據集
規則元數據集根據各業務部門歸集的數據整合、分類、提取而成,是通用規則集和業務規則集梳理的基礎,是規則與數據項關聯關系的集合,在數據治理流程中對實現規則與數據項精準配置起到關鍵作用。規則元數據集包含元數據項業務部門類別,元數據項業務屬性分類,元數據項與通用規則、業務規則的關聯關系等信息。
通用規則集、業務規則集構成政務大數據治理規則中心,與規則元數據集一起,形成政務大數據治理規則體系,具體如圖2所示。
政務大數據治理規則體系在政務大數據治理中起關鍵作用,將政府各業務部門歸集到大數據中心的數據,依據治理規則中心的規則組件和各主題數據標準中心質量標準的要求,靈活配置滿足其需求的規則,并根據治理任務中心的治理任務和調度任務設置,對其執行離線或流式數據治理任務,從而得到符合數據規范的規范數據,政務大數據治理規則體系在政務大數據治理流程中的應用如圖3所示。
基于政務大數據治理規則體系的治理規則中心,將通用性和個性化的規則整合分類,囊括了各個主題不同的數據治理需求,并可隨著歸集中心數據項的完善而擴充完善,實現治理規則的統一管理、靈活配置,并以其具備通用性、易用性、可擴展性,使數據治理規則配置有據可循,有據可依,統一協調,精準適配,避免了人為的不一致和重復開發,在政務大數據治理過程中作為不可或缺的一環,發揮著其重要作用。
隨著數字政府的不斷推進,政務大數據治理受到越來越多的關注,是政府治理、數字政府的基礎,本文從政務大數據治理的現狀出發,結合政務大數據的特點,依托信息技術和政務大數據治理的政策、機構基礎,構建形成以政府元數據集為紐帶的通用規則集和業務規則集,形成政務大數據治理規則體系,并應用于浙江省大數據治理平臺,為全省“最多跑一次”改革提供了基礎數據支撐服務。