【摘要】在信息化發展迅速的當下,數據質量在各個領域都至關重要。鑒于常見數據存在多種質量問題,公共數據清洗的主要目的是檢測并去除數據中的錯誤和不一致性,以提高數據質量。首先,數據脫敏是確保數據清洗環境安全的重要步驟。其次,通過數據質量管理可以進一步規范數據的質量標準。為了深入理解公共數據清洗,本文將探討數據脫敏的方法和公共數據質量管理規范。
【關鍵詞】公共數據;數據清洗;數據脫敏
【DOI編碼】10.3969/j.issn.1674-4977.2024.05.016
Research on Standards Related to Public Data Cleaning
SHAO Hua1*, GAO Gang2, YANG Chengshi3, TIAN Xin1
(1.Shenyang Huaruibo Information Technology Company Limited, Shengyang 110004, China; 2.China National Tobacco Corporation Liaoning Province Company, Shenyang 110000; 3.Liaoning Big Data Management Center, Shenyang 110000, China)
Abstract: In the rapidly developing era of informatization, data quality is crucial in various fields. Given that common data has multiple quality issues, the main purpose of public data cleaning is to detect and remove errors and inconsistencies in the data, in order to improve data quality. Firstly, data desensitization is an important step in ensuring the security of the data cleaning environment. Secondly, data quality management can further standardize the quality standards of data. In order to gain a deeper understanding of public data cleansing, this article will explore methods for data desensitization and standards for public data quality management.
Keywords: public data; data cleaning; data desensitization
在當今信息時代,公共數據在政府決策、企業管理和科學研究中扮演著至關重要的角色。然而,由于公共數據來源廣泛、格式不一、質量參差不齊等問題,公共數據的準確性和可靠性受到挑戰。因此,對公共數據進行清洗是保證數據質量和可信度的重要步驟。
本論文的目標是研究和探討公共數據清洗相關的標準和存在的問題,提高數據質量和可用性,促進公共數據的應用和共享,為決策制定和科學研究提供可靠的數據支持。
公共數據是指由政府、機構、組織或社會公眾所擁有和生成的非私人數據,可供公眾訪問和利用的數據資源,通常以開放、透明和非專有的方式提供,旨在促進信息共享、民眾參與和社會創新。
公共數據的范圍廣泛,涵蓋各個領域和行業的數據。包括但不限于以下類型:
1)政府數據。政府部門、機構收集和管理的數據,包括行政管理、法規政策、土地房產、人口統計、財政預算、政府采購、交通運輸、環境監測等數據。
2)經濟數據。涵蓋宏觀經濟指標、國內生產總值、就業和失業率、物價指數、金融數據、貿易數據、商業注冊等與經濟發展相關的數據。
3)社會數據。關于社會問題、人口和社會群體特征、教育就業、社會福利、社會保障等方面的數據。
4)科學研究數據。科學實驗、觀測和研究所收集的數據,包括地球科學、天文學、生物學、生態學等領域的數據。
5)健康醫療數據。醫療衛生機構和研究機構收集的與健康狀況、疾病流行、醫療資源等有關的數據。
對于國內數據清洗的問題,貴州省制定了DB52/T 1540.3—2020《政務數據第3部分:數據清洗加工規范》,該標準對數據清洗的環境和過程作出了具體要求。
針對環境要求,敏感數據脫敏,以及數據機密和安全需要重點關注,除此之外還需要注意適當的計算資源、數據存儲、數據訪問權限、數據格式和標準、清洗工具和軟件,以及數據校驗和驗證等方面的需求。這些要求會在實際清洗過程中根據具體情況進行調整和配置。具體要求如下:
1)計算資源。數據清洗可能涉及大規模的數據處理操作,因此需要足夠的計算資源來支持高效的數據清洗流程。這包括計算機的處理能力、內存和存儲容量等方面的要求。
2)數據存儲。清洗過程中需要對數據進行讀取、寫入和存儲,因此需要具備足夠的存儲空間來容納原始數據和清洗后的數據。存儲介質的性能和可靠性也是考慮因素之一。
3)數據訪問權限。數據清洗可能涉及敏感數據,因此需要確保數據的訪問權限和安全性。只有經過授權的人員才能訪問和處理數據,以保護數據的機密性和隱私性。
4)數據格式和標準。數據清洗需要對數據進行讀取和解析,因此要求數據以一定的格式,并符合特定的標準。清洗環境需要支持處理各種常見的數據格式,如文本文件、CSV、JSON、數據庫等,并具備相應的數據解析和轉換能力。
5)清洗工具和軟件。數據清洗通常需要使用相應的工具和軟件來實施清洗過程。這可能包括數據處理軟件、編程語言、數據集成工具、數據庫管理系統等。清洗環境需要配置和安裝這些工具,并保證其正常運行。
6)數據校驗和驗證。數據清洗過程中需要對數據進行校驗和驗證,以確保清洗后的數據符合一定的標準和規范。因此,清洗環境應提供相應的數據校驗工具、算法和方法,以保證數據的準確性和一致性。
針對數據清洗過程,采用了ETL和ELT兩種方式的流程進行介紹,其中對數據抽取、定義規則、數據過濾、數據驗核、錯誤標識、數據處理、數據轉化、結果檢驗的部分單獨做了規范要求。最重要的部分是針對不同的數據錯誤類型,采用對應的清洗方法,常用的一些清洗方法有缺失值處理、異常值處理、數據格式化、重復值處理、數據一致性處理等。
數據脫敏是解決數據清洗環境要求的重點之一,也是一種保護敏感數據隱私的方法,可以在數據使用和共享過程中降低敏感數據的風險。DB37/T 3523.2給出了數據脫敏的指導和建議,需要注意以下幾個方面。
1)確定敏感數據。明確哪些數據屬于敏感數據,例如個人身份信息、財務數據等。這有助于集中精力對這些數據進行脫敏處理。
2)選擇合適的脫敏方法。根據具體的數據類型和使用需求,選擇適合的脫敏方法。常見的脫敏方法包括替換、加密和擾動等。選擇的方法需確保脫敏后數據的可用性和實用性。
3)脫敏層次的確定。根據數據需求和隱私保護要求,確定脫敏的層次。可以選擇整體脫敏、部分脫敏或字段級脫敏,以最大限度地保障數據隱私。
4)隨機性和一致性。在脫敏過程中,確保脫敏后的數據保持一定的隨機性和一致性。隨機性可使攻擊者難以還原原始數據,而一致性可確保數據在不同場景下的有效性。
5)數據保護措施。對于已經脫敏的數據,依然需要采取相應的數據保護措施,如訪問權限控制、加密傳輸、安全存儲等,以防止數據泄露或未經授權訪問。
6)數據脫敏評估和驗證。對脫敏后的數據進行評估和驗證,確保脫敏處理的有效性和數據質量。這包括驗證脫敏后數據的一致性、安全性和可用性等方面的檢查。
7)監控和更新。持續監控脫敏數據的使用和共享,及時更新脫敏策略和方法,以應對不斷變化的數據隱私保護需求。
同時,遵守相關法規和隱私保護政策也是進行數據脫敏的重要指導。確保了解適用的法律法規,并與數據保護專業人員和法律顧問合作,以確保數據處理和共享符合法律和隱私規定。
除此之外,標準文件中給出了脫敏的基本原則、脫敏規劃、脫敏流程等方面需考慮的要點信息,其中脫敏的流程包括:識別脫敏數據、標識敏感數據、確定脫敏場景、選擇脫敏方法、定義脫敏規則、執行脫敏操作、評估脫敏效果。脫敏方法作為其中重點之一,常用的幾種脫敏方法有掩碼、規整、替換、亂序、均化等。這么做的目的是保護敏感數據的隱私,遵守法規和規范,促進合規共享,支持數據分析使用,增強組織的公眾信任和聲譽。通過數據脫敏,在充分利用數據的同時,最大限度地降低敏感數據的風險,提前建立好數據清洗所需要的環境。
數據清洗過程中的數據質量是十分重要的。良好的數據質量可以作為決策依據、確保分析結果準確可信、提高數據的可用性和可靠性、促進數據集成和共享,并提高業務流程的效率。因此,在數據清洗過程中,務必重視和提高數據質量的處理和保證。在標準DB3713/T 261文件中,重點規定了公共數據質量管理的職責要求、數據質量管理指標、公共數據生存周期與各階段管理要求和評價,其中數據的評價指標包括:規范性、完整性、準確性、一致性、時效性、可訪問性。最終得到的數據都要依靠這六個指標去判斷數據的質量。數據的管理要求包括:數據需求、數據采集、數據清洗、數據開放、數據應用、數據評估和數據退役。其中數據清洗是保證數據質量的關鍵內容,重點應關注以下內容。
1)數據準確性。數據應該準確無誤,反映真實的事實和情況。確保數據來源可信,并通過驗證、審查和驗證機制來保證數據的準確性。
2)數據完整性。數據應該完整,不應缺少重要的字段或記錄。確保數據集中包含完整的信息,并對缺失的數據進行處理,填充有意義的值或進行相應的標注。
3)數據一致性。數據應該在不同數據源、不同系統和不同時間維度下保持一致性。確保數據定義和格式的一致性,避免數據沖突和不一致的問題。
4)數據時效性。數據應該及時更新,反映最新的情況和事實。確保數據采集、更新和發布的及時性,同時留意數據質量和可用性與即時性之間的平衡。
5)數據安全和隱私保護。數據應該經過適當的安全措施進行保護,防止未經授權訪問和濫用。采取數據脫敏、加密、訪問權限控制等措施,確保數據的安全和隱私保護。
以上是一些公共數據質量管理規范的要點,具體的規范可根據不同的行業、組織和數據使用場景進行調整和補充。關鍵是建立一套系統化的規范和流程,確保公共數據的質量和可用性,提供可靠的數據支持和決策依據。
數據質量問題越來越受到學術界和商界的廣泛關注,高質量的數據才能提供準確可靠的信息,為決策支持提供幫助。國外針對數據質量和數據清洗雖研究較早,成果較多,但仍有新的問題提出。如隨著Web數據量迅速增長,如何對大量的Web數據進行清洗是一個值得關注的問題。
總之,數據清洗是公共數據分析中的重要環節,在大數據時代,傳統的數據清洗方法已經不符合現代數據分析的要求,必須根據數據的轉變,結合數據挖掘等知識進行數據清洗,提高數據清洗的效果,滿足大數據時代企業對數據清洗的要求。未來的數據清洗將更加自動化、智能化和實時化,處理多源數據、跨領域應用,并注重數據倫理和隱私保護。數據清洗將成為數據處理和分析的重要基礎,為決策和創新提供可靠的數據支持。
【參考文獻】
[1]公共數據開放第2部分:數據脫敏指南:DB37/T 3523.2—2019[S].
[2]公共數據開放數據質量管理規范:DB3713/T 261—2022[S].
[3]政務數據第3部分:數據清洗加工規范:DB52/T 1540.3—2020[S]
【作者簡介】
通信作者:邵華,男,1973年出生,高級工程師,博士,研究方向為電子信息技術,shaohcn@foxmail.com。
高剛,男,1978年出生,高級經濟師、高級會計師,碩士,研究方向為經濟管理。
楊成實,男,1967年出生,正高級工程師,學士,研究方向為數字政府及大數據管理。
田歆,女,1997年出生,學士,研究方向為標準化文件編寫。
(編輯:侯睿琪)