隨著互聯網、大數據、人工智能等先進技術的發展,信息數據呈現幾何增長。這些數據已經滲透到當今社會的各行各業,為政府和企業進行科學決策、開展各類研究、規劃未來發展方向等方面提供了充分的科學依據,成為政府和企業發展中不可或缺的戰略資源。
隨著政府和企業智能化、信息化的轉型升級,存量數據形成規模,數據質量和可用性均不高等問題逐漸暴露出來,數據資源的利用率長期處于低位,導致政府和企業在進行決策過程中缺乏有效數據進行支撐的窘境,這也是數據資源沒有發揮出其真正效應的根本原因。數據資源體系則成為解決此類問題的一劑良藥。
為確保數據資源體系建設工作的順利推進,依托數據資源建立便于任務推進、促進協調溝通、符合實際需要的數據治理工作組織,包括成立數據采集席位、數據治理席位、數據分析席位、數據運維席位、數據管理席位,共同構成數據資源體系建設的組織架構,并根據組織架構層級確定角色和職責,建立多層次、相互銜接的運行機制,如圖1所示(見下頁)。

圖1 數據治理工作組織
數據管理席位由數據架構工程師組成。負責數據資源體系的架構設計、關鍵數據治理技術突破和技術咨詢、數據實施開展的指導培訓以及數據資源共享交換的權限審批。
數據分析席位由數據挖掘工程師組成。負責業務場景的數據分析、算法建模和模型部署以及數據共享交換服務的注冊發布,解決數據價值挖掘和數據決策支撐的痛點需求。
數據治理席位由數據ETL工程師組成。負責結構化數據的抽取、轉換和加載,開展數據標準區、數據主題區和數據專題區的建設工作,提升數據資產化價值。
數據采集席位由數據爬蟲工程師和數據開發工程師組成。負責數據需求調研,實現對網頁數據、數據庫在線、物聯網傳感數據和離線文件四種場景的數據采集,進行流程開發和運維管理。
數據運維席位由大數據運維工程師組成。負責平臺應用的部署、運維和管理,大數據集群和數據倉庫服務器的運維調優工作。
在數據資源體系建設的具體實施過程中,可分為數據需求調研,數據體系規劃,數據標準化建設,數據資產建設四個環節;而這四個環節的執行過程都需要數據質量稽查和數據安全管理這兩個模塊的支撐。
在進行數據需求調研時,分兩個階段開展工作:首要工作是對現有數據資源進行盤點和統計,其次是對數據應用進行需求調研及規劃設計。數據資源盤點對數據項目是否能成功落地起決定性的作用:數據湖里若是連“水”都沒有,討論數據應用的需求就是“空中樓閣”,應用設計得再好,也無落地的可能。數據資源盤點完成后,需要針對實際情況,進行數據的需求分析和規劃設計,使數據資源的建設方向有的放矢。
對數據資源進行盤點,具體包括以下步驟:
一是從最易接入的數據類型入手,獲取數據庫中的數據。通過已有的數據庫,獲取數據字典(若無則需要與業務人員進行字段意義的逐一確認),最終理解每個數據庫的部門歸屬、用途和意義,進行元數據記錄及數據量統計。
二是盤點服務器數據,例如系統日志和數據庫日志等,最終掌握每個日志的部門歸屬、用途和意義,進行元數據記錄及數據量統計。
三是盤點IoT數據,需要整理每種IoT數據所需的解析協議,進行元數據記錄及數據量統計;盤點非結構化數據,整理公司云盤、SVN等文件存儲器下的電子文檔及多媒體文件等,形成清單列表,表名屬性、分類、用途及歸屬等信息。
數據應用的需求分析,從業務的實際痛點出發,過程中需要與一線作業人員充分溝通,探求如何優化業務人員的工作流程,提高實際業績。例如,為銷售人員提供公司客戶群體畫像,為售前人員提供能預測潛在客戶購買概率的AI模型等。數據應用需求分析完畢后,要對項目周期內的應用進行規劃,即合理的應用交付范圍,后續的數據資源建設方向都以此為目標。
把握整體數據和應用情況后,即可對數據體系進行設計和規劃。
對于原始區數據引接問題
?原始數據區需引接領域與類型;
?原始數據區未來采用全量同步或增量同步的引接方式;
?非結構化數據引接前對于數據的處理及解析方式;
?歷史數據的引接范圍時間周期。
標準數據區對引接的原始數據處理方式問題
?需要進行數據清洗和轉化的方式及操作過程;
?對于字典標準、業務標準等標準集的抽取和制作方式;
?數據標準化的完成路徑。
主題區設計問題
?主題區基于業務的主題庫設計;
?主題庫內的字段選擇;
?基于業務的主題庫內容更新方式。
專題區設計問題
?專題區基于業務和管理的專題庫設計;
?主題庫至專題庫的映射關系設計;
?專題數據服務提供時效;
?數據應用與數據服務接口的交互方式。
一般來說,在這個階段,需要制定數據庫模型設計的規范、制定數據開發規范;二是進行數據庫模型構建,并提交評審討論。
數據標準是保障數據內外部使用和交換一致性、準確性的規范性約束,是進行數據標準化、消除數據業務歧義的主要參考和依據。數據標準管理是指數據標準的制定和實施等一系列活動,目標是通過統一的數據標準制定和發布,結合相關約束、系統控制等手段,實現數據平臺上數據的完整性、有效性、一致性、規范性、開放性和共享性管理。
數據標準管理主要內容包括標準規劃、標準制定、標準發布、標準執行和標準維護五個階段。一般來說,通過將數據與標準集進行關聯匹配來達成數據標準化的目的。需要注意的是,關聯匹配的前提是業務表與標準集之間存在可關聯字段,這就需要在標準構建階段,甄選出業務價值最高需要進行標準化建設的字段。
數據資產建設是數據資源體系建設前期投入最大、最困難也最難看到顯著成效的模塊。但是所有數據化建設的最后,都要以數據資產為基礎,圍繞資產去實現實際的數據應用,因此數據資產建設階段的成果質量好壞至關重要。
數據資產建設主要分為:
數據庫選型這個階段需要為不同的數據區選擇合適的數據庫產品(原始數據區采用HDFS文件系統,使用HIVE進行數據清洗轉換及查詢;專題區可以用MySQL進行數據存儲,提供快速的查詢反饋)。
平臺選型數據處理管道(pipeline)的開發需要平臺工具的支持,這些平臺工具能完成不同數據源的協議適配與數據引接,并能開發工作流實現數據的處理和流轉。
數據區建設這一步進行實際的數據開發工作,根據前序已經確立的方向及開發規范,引接真實數據,進行數據清洗,建設原始區、標準區、主題區及專題區,并創建自動化工作流,使數據得以定時化、自動化更新。
數據資產建設完成后,即可按需開發數據接口,為上層應用提供數據服務。
數據質量稽查需貫穿整個數據資產建設的過程,是數據質量的重要保障,是數據應用正確指導業務活動的前提。通過數據質量稽查,要求數據在提供給數據應用前,要滿足準確性、完整性、一致性、有效性、唯一性、及時性、穩定性。
目前,業內較為通用的校驗規則如下:
單字段校驗通過單一字段的約束條件進行校驗,包含不為空、比較運算、包含、不包含、取值范圍(區間)、取值范圍(枚舉)、字段長度、字段類型、正則表達式等規則,可用于校驗數據的準確性、完整性等;
唯一性校驗針對單一字段或者多個字段組合后做唯一性約束校驗,通過重復記錄行或其他違反唯一性約束屬性值進行校驗;
關聯性校驗針對字段的關聯關系校驗,通過引入其他關聯字段驗證字段的存在和缺失進行校驗;
記錄行統計型校驗針對某個字段的記錄行總數做校驗,通過統計記錄行數量與合理閾值范圍比較來進行校驗;
多源對比校驗針對多個數據源進行對比校驗,通過關聯字段和對比字段的對比,以校驗通過率高或匹配率高的數據知曉哪個數據源的數據質量高。
數據治理流程中主要涉及數據采集安全和數據處理安全兩方面:數據采集安全包括數據分級分類、數據標簽、數據采集身份管理、數據源鑒別、記錄和數據質量管理;數據處理安全包括數據脫敏、數據分析安全、數據,使用安全、數據導入導出安全和數據處理環境安全。
隨著數據資產的不斷積累,政府機關及企事業單位對于數據價值挖掘的需求逐漸顯現。數據價值挖掘的過程,不僅是使用數據分析挖掘工具進行數據處理的過程,更是以數據規劃設計為起點,通過構建數據資源體系進行系統化的數據資源管理的過程,也是為數據支撐業務打好最結實的基礎,最終讓數據資產發揮其應有的價值。