陸斌 崔金棟 高志豪
(1.杭州電力設備制造有限公司余杭群力成套電氣制造分公司;2.東北電力大學經濟管理學院)
大數據時代的來臨要求各類企業重視數據資源建設管理,根據目前的實際情況,國家頒布了《關于促進大數據發展的行動綱要》,明確指出大數據背景下政企數據資產管理的重要性[1]。加強信息化建設,對數據進行充分的管理,達到充分挖掘和充分利用的目標是各企業的轉型方向。作為國家重要的支柱型企業,供電企業的數據資產管理的地位越來越重要,數據資產的價值在供電企業中的比重也越來越大。但是,目前大數據背景下的供電企業數據分散且不易獲取,各級供電企業之間數據存在壁壘,在“數據難獲取、數據難共享、數據難挖掘”的背景下,供電企業數據資產難以發揮企業內部大數據特征下的數據價值,造成巨大的數據浪費,不利于供電企業的良好發展[2]。國內外各專家學者團隊對于數據資產管理理論的研究略顯不足,大數據背景下的數據資產管理研究也處在初級階段,缺乏相關數據資產管理機制研究[3,4]。因此,結合大數據背景下的供電企業數據資產特征,研究新的數據獲取和數據資產管理機制就顯得至關重要。
供電企業的數據來源于各業務層,例如電網規劃、電網檢修、各類工程項目等都會存在大量的數據,這些數據存在形式多樣,常以設計圖紙、各類方案以及各種數據統計表的形式存在[5]。目前這類數據在完成第一次使用后就會被存檔,但很難進行二次利用,大量的存檔數據占據了很大的資源,但無法合理有效的利用,數據資產得到極大的浪費。因此,當前的數據資產管理模式已經難以跟上時代的步伐,特別是在大數據的背景下,無法實現數據的合理利用就會給供電企業帶來不可估量的經濟損失[6]。如何提升數據資產的利用需要兩方面的考量,一方面要強調技術理念創新,另一方面要加強管理理念的創新。技術和管理方面的提升才能實現數據資產多方位、多級別、多部門的共享。最終構建供電企業各數據資產用戶的數據共享平臺,實行分權限的電力數據資產利用,將用戶與供電企業數據相連,發揮數據的最大效用,才能發揮出供電公司數據資產對用戶、電網、發電、供應商和政府社會服務的有效性。因此,構建合理的供電企業數據資產管理機制,在技術方面和管理機制方面進行革新,才能發揮供電企業數據資產的共享作用,同時也為其他行業以及更多的主體提供借鑒。
大數據背景下,供電企業數據存儲量劇增,已經為PB 量級,并依然處在長期上升階段,供電企業中的數據管理部門短時間內無法適應大數據量下的企業數據管理,各部門應對大數據量的數據資產經驗明顯不足[7,8],問題主要有三方面:一是數據質量不高,主要原因是數據采集和提取技術較為落后,無法準確提取可再利用的有價值的信息;二是數據之間存在壁壘,各部門之間的數據接口不一致,導致無法順利的數據共享;三是沒有數據使用的明確場景,即數據資產的利用價值得不到肯定,很多數據資產價值挖掘的系統不夠完善,無法得到認可。
以上三個問題的存在導致供電企業數據資產的管理能力遲遲無法得到提升,深層次的原因有三點:一是供電企業與互聯網、電子商務公司相比缺乏數據敏感度,供電企業作為傳統的產業很難短時間內改變其信息化管理進程;二是供電企業的主業是保證電力供應的穩定性,往往在內部忽略數據資產的價值,不能將數據和主業相結合;三是供電企業的部門較多,難以形成統一的數據使用場景,各部門數據結構也存在差異,無法形成數據合力,數據資產的潛在價值得不到利用。

圖1 Hadoop平臺子項目及其功能

圖2 供電企業數據資產管理機制
Hadoop 是對海量數據分布式處理的軟件框架,目前已經成為大數據分析的主流平臺。借助Hadoop 平臺中的HDFS 進行供電企業數據的信息存儲,同時,利用Hadoop 框架中的核心設計MapReduce 進行數據處理,為供電企業數據資產數據的獲取和處理提供技術支持。Hadoop 子項目包括HDFS、MapReduce、Hbase、ZooKeeper、Hive 等,具體的功能結構如圖1 所示。供電企業數據資產信息數據的處理用到了HDFS 組件和MapReduce組件,具體的內容如下:
1.HDFS 組件數據存儲
HDFS 系統用來存儲供電企業數據信息,即將獲取的供電企業數據進行存儲。HDFS 組件包括一個NameNode 和多個DataNode,其中,NameNode 主要工作是進行數據存儲位置的定位,同時,將存入的供電企業數據資產信息進行命名處理,將這些存入的信息進行分配,分配到各個DataNode 節點中。DataNode 在接到NameNode 的分配內容后,進行響應,執行NameNode 下達的數據存取命令,對數據信息進行實時性的存儲或者提取操作,總結起來,NameNode 與DataNode 二者工作機制遵循心跳機制原則,保證信息交互的聯動性。此外,HDFS 錄入供電企業數據不只是單一路徑,為了保證數據的安全性,HDFS 數據錄入采用多路徑備份,對數據信息實行分塊保存,組成每塊為64M 的數據存儲集群,這就大大提升了數據存儲的可靠性和安全性,同時也利于提升數據的存取效率,提升MapReduce 的數據預處理能力,為后期供電企業數據資產的共享機制做鋪墊。
2.MapReduce 組件數據處理
HDFS 組件供電企業數據存儲保證了數據的存取效率,使得信息的可得性、安全性與完整性得到大大的提升,為MapReduce的數據處理打下了良好的基礎。MapReduce 可以將數據進行特征歸納并得到處理結果。在HDFS 系統的供電企業數據就可以依據MapReduce 的這種特點,進行信息處理。MapReduce 把這個數據信息Job 將要處理的大數據分成若干個數據模塊,數據模塊與計算任務(Task)相對應,并通過調整計算節點自動對相應的數據模塊進行處理。MapReduce 中的組件TaskTracker 將數據處理進行任務分工和細致化,通過同時調動多個Map 任務,來實現供電企業數據的有序化,即通過多個Map 任務使HDFS 系統中較為混亂和無序的供電企業數據變得有序,分割數據信息,生成多個<類別i,信息j>鍵值對,這些鍵值對代表數據類別和數據內容信息之間的對應映射關系。在Map 組件數據分割與序化任務結束后,需要通過Merge 組件將上述步驟中被分割的鍵值對<類別i,信息j>進行合并,以各類別為基礎進行合并,最終將同一類別的信息鍵值對列表進行合并,合并成統一的大的鍵值對列表。在此過程中,Map 組件的輸出結果作為Reduce 組件的輸入值,然后Reduce 組件進一步對鍵值對列表深度處理,形成最終的數據信息并進行輸出。該過程以NameNode 節點與DataNode 節點的心跳機制為基礎,進行的聯動處理,整個預處理過程遵循HDFS 中的NameNode 節點與DataNode 節點的實時動態交互原則,最終完成供電公司數據處理過程。
以上兩個步驟利用Hadoop 平臺完成了供電企業數據的前期采集,采用大數據技術進行了數據的初步預處理,方便后續供電企業數據資產的相關處理和管理,為大數據背景下供電企業數據資產管理提供了技術幫助。
供電企業數據資產管理機制主要分為四大部分,分別是數據統計、數據分析、數據應用和數據價值評估,這四個主要數據處理過程是供電企業數據資產管理機制的主要框架。數據統計階段是供電企業數據資產管理的基礎環節,筆者在前面介紹了大數據技術在數據統計和采集方面的應用,數據統計階段將內外部數據進行獲取,并最終存儲到供電公司數據倉庫中。數據分析階段主要通過離線分析和實時分析進行供電企業數據資產的深度挖掘。數據應用階段主要注重效率應用、質量應用和價值應用。數據價值評估階段則實現對供電企業數據資產的合理評估。具體的供電企業數據資產管理機制如圖2 所示。在進行數據資產管理時遵循“四多”管理原則,即“多目標聯動,數據處理高效化”“多部門協同,數據共享快捷化”“多格式融合,統計結果有序化”“多渠道采集,獲取方式多樣化”,保證供電企業在大數據背景下合理有效的對數據資產進行管理。
基于Hadoop 平臺的數據前期處理和采集可以有效的提升供電企業數據采集的能力,篩選有效信息,從數據的源頭開始進行數據管理,清洗各數據,并且讓供電企業的數據形成統一的接口,規范數據結構及數據格式,形成數據采集的規范,解決數據采集過程中存在的問題,提升數據采集質量的效率。
數據資產得不到有效利用的重要原因之一是供電企業內部無法形成統一的數據利用平臺,各個部門的數據只在內部處理和使用,無法有效共享。部門之間的交叉數據利用效率極低,因此應該加強供電企業內部數據的平臺搭建,對各部門的權限進行合理界定,形成數據資產平臺,各部門根據角色權限進行數據的獲取和發布,有效的提升數據利用水平,完善供電企業數據資產的共享機制。
提升大數據背景下供電企業的數據資產的利用效率離不開管理模式的優化,要針對大數據時代的要求進行管理模式的革新。首先要對供電企業的各項業務進行重新梳理,進行頂層業務邏輯圖的設計,明確各流程的數據流轉方式和方向,從業務流程角度明確數據的流向,避免后期數據的冗余;其次,要明確供電企業數據資產管理的總目標,提升員工對數據的重視程度,從數據使用標準、數據安全規范、數據業務流程等多個方面對員工進行培訓;再次數據標準、數據視圖、業務框架、績效評價體系以及人才保障機制等多個方面。再次,對供電企業的各項電力設備信息進行統計,收集物聯網中的設備數據信息,補充到數據資產平臺中,形成統一的數據資產管理新模式。最后,要在技術發展和社會發展的過程中保持制度的靈活性,及時改進和處理供電企業數據資產的管理機制,使供電企業數據資產能夠保持活力,在各個時期為供電企業的發展發揮最大程度的數據支撐價值,實現數據資產效用的最大化。