郎書旭 張孝臨 畢宏剛 姜山紅 彭觀偉
(1.遼寧科技大學計算機與軟件工程學院,遼寧 鞍山 114051;2.鞍鋼集團礦業(yè)有限公司,遼寧 鞍山 114000)
AK公司(以下簡稱“公司”)是某國有大型鋼鐵集團的全資子公司,是我國掌控鐵礦石資源多、產量規(guī)模大、具有先進工藝技術、具有完整產業(yè)鏈的冶金礦山龍頭企業(yè)之一。近幾年來,該公司展開了大數(shù)據(jù)工程應用及相應改革措施。
AK公司經(jīng)過多年的信息化建設,數(shù)據(jù)成爆炸式的增長,各種數(shù)據(jù)服務需求不斷涌現(xiàn)。雖然傳統(tǒng)信息系統(tǒng)在飛速建設,但公司內各系統(tǒng)和數(shù)據(jù)庫大多是獨立采購或者獨立建設的,新舊 IT 系統(tǒng)中沉淀的數(shù)據(jù)之間難以打通,導致公司內形成“數(shù)據(jù)孤島”“數(shù)據(jù)煙囪”式系統(tǒng)高達200余個,系統(tǒng)分散割裂且不易形成可共享的數(shù)據(jù)服務,在一定程度上已成為公司在數(shù)據(jù)化轉型過程中的一個制約。公司通過對以前采集的大量數(shù)據(jù)分析診斷,發(fā)現(xiàn)在數(shù)據(jù)生成、處理加工、運行維護和利用過程中存在不少問題。隨著公司的數(shù)據(jù)平臺及數(shù)據(jù)日益龐大復雜,數(shù)據(jù)環(huán)境對數(shù)據(jù)系統(tǒng)運行維護、數(shù)據(jù)開發(fā)帶來新的挑戰(zhàn)。
數(shù)據(jù)治理包括由企業(yè)數(shù)字化轉型創(chuàng)新方式指導并且由企業(yè)數(shù)據(jù)治理部門發(fā)起并推行關于如何制定、實施和完善針對整個企業(yè)內部數(shù)據(jù)的商業(yè)應用和數(shù)據(jù)技術創(chuàng)新的一整套政策措施。公司制定了相應的數(shù)據(jù)治理發(fā)展戰(zhàn)略,發(fā)展戰(zhàn)略分為數(shù)據(jù)應用管理、數(shù)據(jù)管理、數(shù)據(jù)管控,步驟缺一不可。圖1為AK公司大數(shù)據(jù)工程的發(fā)展戰(zhàn)略圖。

圖1 AK公司大數(shù)據(jù)工程發(fā)展戰(zhàn)略圖
大數(shù)據(jù)開發(fā)管控平臺是構建一站式的數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)調度、數(shù)據(jù)運維的平臺,滿足大數(shù)據(jù)集中管理、隔離開發(fā)的要求,為數(shù)據(jù)開發(fā)提供豐富多樣的工具和工具可視化的能力,助力企業(yè)需求進行快速更新和迭代,提升開發(fā)效率,推進企業(yè)應用數(shù)據(jù)驅動業(yè)務增長進程。企業(yè)大數(shù)據(jù)工程建設的過程離不開軟件平臺的支持,對此,公司應用了STQ軟件系統(tǒng)。
STQ軟件系統(tǒng)具有強大的數(shù)據(jù)整合能力。STQ軟件系統(tǒng)具備多集群任務開發(fā)、統(tǒng)一調度、分布式運行的能力。STQ軟件平臺可以對接多個集群,進行任務開發(fā)、統(tǒng)一調度、分布式運行。由于公司“數(shù)據(jù)孤島”“數(shù)據(jù)煙囪”式系統(tǒng)高達200余個,開發(fā)STQ軟件系統(tǒng)需要將之前的數(shù)據(jù)標準化。在算法創(chuàng)新方面,應用圖計算算法,以圖表達、圖存儲和圖分析的方式,在用戶觸達領域優(yōu)化了目錄式的數(shù)據(jù)資產管理方法,帶來語義化、關聯(lián)化、實時化和智能化多方面的優(yōu)勢。
(1)“盤”
“盤”——有什么數(shù)據(jù),在哪里,有什么問題。在這個階段公司通過數(shù)據(jù)資產整合和盤點,構建電子數(shù)據(jù)資產目錄,為數(shù)據(jù)服務使用建立良好基礎。
公司開發(fā)出提供數(shù)據(jù)資產掃描嗅探技術,智能化識別關系型數(shù)據(jù)庫、大數(shù)據(jù)等數(shù)據(jù)資產信息。提供數(shù)據(jù)資產維護管理和公司數(shù)據(jù)資產目錄能力,配合數(shù)據(jù)資產查詢檢索、數(shù)據(jù)資產展示功能。該技術支持常見關系型數(shù)據(jù)庫、MPP數(shù)據(jù)庫,分布式數(shù)據(jù)平臺的元數(shù)據(jù)采集。由于需要采集的數(shù)據(jù)過于龐大,所以采用元數(shù)據(jù)(Metadata)作為本系統(tǒng)的數(shù)據(jù)基礎,元數(shù)據(jù)也是數(shù)據(jù)治理的重要采集和管理對象。
公司定期采集數(shù)據(jù)資產分布、數(shù)據(jù)存儲情況、數(shù)據(jù)總容量、數(shù)據(jù)資產數(shù)目等信息,提供以圖表形式呈現(xiàn)數(shù)據(jù)資產的分布覆蓋范圍,從數(shù)據(jù)存儲位置、數(shù)據(jù)總容量、數(shù)據(jù)資產數(shù)目、變化趨勢角度進行呈現(xiàn),方便數(shù)據(jù)管理人員了解數(shù)據(jù)存儲情況以及變化趨勢,為數(shù)據(jù)資產運營提供支撐和輔助。
(2)“規(guī)”
“規(guī)”——確定數(shù)據(jù)標準規(guī)則以及目標。數(shù)據(jù)標準化的過程是為了規(guī)范系統(tǒng)建設的過程中,本公司人員對業(yè)務的統(tǒng)一理解,增強業(yè)務部門、技術部門等對數(shù)據(jù)的定義的標準化和使用數(shù)據(jù)的一致性標準化,進而增強數(shù)據(jù)的易懂性和可傳遞性。
(3)“用”
“用”——基于數(shù)據(jù)價值,提供場景化應用支撐。為了提升數(shù)據(jù)的價值和場景化的考慮STQ軟件系統(tǒng)是基于區(qū)塊鏈開發(fā),系統(tǒng)具有數(shù)據(jù)安全服務機制,數(shù)據(jù)供需求雙方依托區(qū)塊鏈技術,憑借數(shù)據(jù)監(jiān)管方頒發(fā)的可信證書完成數(shù)據(jù)交互任務。系統(tǒng)加入了數(shù)據(jù)共享與交易網(wǎng)絡,更加提升了系統(tǒng)的安全性。數(shù)據(jù)消費方需要從區(qū)塊鏈中獲取數(shù)據(jù)提供方發(fā)布的數(shù)據(jù)資產信息,數(shù)據(jù)消費方需要選擇需要獲取的數(shù)據(jù)信息發(fā)起數(shù)據(jù)授權請求,等待批復結果。數(shù)據(jù)消費方拿到批復結果,發(fā)起數(shù)據(jù)訪問,數(shù)據(jù)訪問經(jīng)代理發(fā)送到數(shù)據(jù)提供方的訪問代理,請求認證通過,則可以訪問大數(shù)據(jù)中心數(shù)據(jù)?;趨^(qū)塊鏈無痕水印實現(xiàn)數(shù)據(jù)溯源。數(shù)據(jù)生產加工和消費使用過程中,接觸的人員多,不乏有人利用職務之便或者保管不善,有意無意將數(shù)據(jù)泄露,公司通過區(qū)塊鏈無痕水印技術,實現(xiàn)泄露數(shù)據(jù)的反向追溯,發(fā)現(xiàn)泄露人員及泄露點,及時進行補救。
(4)“治”
“治”——找到差距,針對性進行治理。公司關注數(shù)據(jù)質量,確保數(shù)據(jù)價值。“治”的具體過程是STQ軟件系統(tǒng)提供數(shù)據(jù)治理管理能力,STQ軟件系統(tǒng)支持稽核規(guī)則管理、數(shù)據(jù)治理稽核調度、稽核預警及數(shù)據(jù)治理報告?;颂峁┓漳芰?,方便和現(xiàn)有ETL平臺進行整合;支持數(shù)據(jù)一致性、完整性、及時性、波動性等檢查。STQ軟件系統(tǒng)提供數(shù)據(jù)血緣自動化采集能力,支持通過數(shù)據(jù)庫運行日志、數(shù)據(jù)庫執(zhí)行腳本、ETL工具進行數(shù)據(jù)血緣影響自動化采集,系統(tǒng)具備自動識別分表的邏輯的功能,提升元數(shù)據(jù)血緣影響關系采集的自動化程度,降低數(shù)據(jù)治理難度。支持數(shù)據(jù)加工血緣影響關系、任務依賴關系、任務模型依賴關系的采集;提供可視化分析能力,方便運維人員進行問題分析和故障定位。
系統(tǒng)構建公司數(shù)據(jù)資產知識庫,提供數(shù)據(jù)資產檢索能力,提供按照關鍵字、分類查詢檢索能力,支持模型、指標、維度、任務資產的綜合展示,方便數(shù)據(jù)運維管理人員、數(shù)據(jù)消費人員進行數(shù)據(jù)資產的探索為了方便價值評估。STQ軟件系統(tǒng)可以自動化采集數(shù)據(jù)庫執(zhí)行日志、業(yè)務系統(tǒng)數(shù)據(jù)訪問日志、元數(shù)據(jù)訪問情況、數(shù)據(jù)授權情況、數(shù)據(jù)關聯(lián)數(shù)據(jù),對以上數(shù)據(jù)進行綜合評估,形成公司數(shù)據(jù)資產價值,提供數(shù)據(jù)價值綜合分析能力,為數(shù)據(jù)運維、數(shù)據(jù)下線提供支撐。
公司通過大數(shù)據(jù)應用實踐與數(shù)據(jù)化轉型,現(xiàn)階段公司能及時診斷發(fā)現(xiàn)數(shù)據(jù)生產、產品處理加工、系統(tǒng)的運維和數(shù)據(jù)利用過程中存在的問題,針對問題及時分析因地制宜地提供合理的解決方法、手段以及工具。公司合理的使用大數(shù)據(jù),已經(jīng)能夠解決數(shù)生產使用過程中普遍存在數(shù)據(jù)質量、數(shù)據(jù)一致性和數(shù)據(jù)性能等問題,實現(xiàn)數(shù)據(jù)存儲合理,解決數(shù)據(jù)生產過程受控的問題,提升產品質量。公司根據(jù)企業(yè)發(fā)展需要,積極適應大數(shù)據(jù)時代要求,公司的數(shù)據(jù)化轉型取得了初步成效。