王樹明 吳濟勝 鄧夢航
(1.中國煙草總公司湖北省煙草專賣局信息中心 湖北省武漢市 430030)
(2.武漢楚煙信息技術有限公司 湖北省武漢市 430030)
黨的十九大報告提出要“推動互聯網、大數據、人工智能和實體經濟深度融合”[1]。數據成為企業數字化時代的重要資源,它以產品或服務的形態為企業創造價值,為企業轉型升級發揮重要作用[2]。數據不是孤立存在的,數據從產生、處理、加工、融合、流轉,到最終消亡,會形成一種關系鏈路,這就是數據血緣[3]。數據血緣分析就是在溯源過程中找到相關數據之間的聯系,比如,當數據發生異常,需要能追蹤到異常發生的原因,把風險控制在適當的水平[4]。數據血緣分析能幫助我們追蹤數據的來源、處理的過程,這對于數據質量的監控、數據處理性能的調優和數據資產價值的評估等,都有非常重要的作用。
湖北煙草已經構建了一套覆蓋全業務鏈條的完整數據中心[5],包括一體化數據存儲、一體化數據管理和一體化數據分析三部分內容。然而,由于歷史、管理等多方面原因,數據中心依然面臨數據加工無序、數據獲取與開發不規范等現象,血緣分析是規范化數據治理的一個有效工具[6]。
傳統數據中心的構建包括下面六個層次:最底層是部門的業務數據庫(DB),數據經過抽取轉換層(ETL)[7]進入操作性數據層(ODS)[8],然后經過明細數據層(DWD)[9],再進入輕度匯總層(DWA)[10],最后進入數據集市(DM)[11]。其中,每層的具體任務如表1 所示。

表1:數據中心層次結構……p>