尹君 代作松 王文哲
1. 國網烏魯木齊供電公司 新疆 烏魯木齊 830000
2. 南京南瑞信息通信科技有限公司 江蘇 南京 210003
3. 中國葛洲壩集團國際工程有限公司 北京 100025
所謂的元數據,指的是一種描述性數據,是對系統進行理解和使用的重要資料,也就是說所有對系統進行描述的數據都屬于元數據,如文檔、手冊等。從使用者的角度進行劃分,可以將元數據分為業務與技術兩種;從記錄形式上劃分,可以分為結構化與非結構化兩種。元數據最主要的作用就是對系統進行描述,從而幫助系統使用人員準確全面的了解系統的各項功能。如果系統中缺少了元數據,那么系統中所收集的和儲存的數據將會失去它的作用[1]。
由于各平臺間存在的差異,元數據的獲取方式各不相同,要想獲得完整準確的元數據,存在著一定困難。各企業所建立的大數據平臺都有一定的閉源性,特別是平臺相關的元數據獲取十分困難。第二,系統自動獲取的元數據信息只對技術進行了描述,而缺少業務類的元數據信息,這不利于大數據平臺的數據提取與挖掘工作。第三,平臺元數據模型出現變更,通常是事后才發現,這會對數據中心的數據質量造成較大的影響。企業業務變更頻繁的同時,元數據模型也需要進行頻繁的更新,在對元數據進行管理中需要保證模型與業務數據的同步,如果管理中出現問題,將會影響到系統對元數據的采集,從而影響了數據的質量。通過上述問題可以看出,在大數據平臺日常的管理過程中,企業通常忽視了元數據管理的重要性,在需要使用時才發現元數據出現了問題[2]。
3.1.1 技術型元數據的自動獲取。電力行業的大數據平臺一般使用關系型數據庫進行元數據的儲存。其具體的儲存情況如下:視圖信息、索引表的基礎信息、Hive表、儲存表都儲存在TBIS之中;視圖授權信息以及屬性信息儲存在平臺的儲存庫中。根據表與表之間的關聯性對表內信息進行整合,從而獲取表內的字段、視圖等技術型元數據信息,在獲取這些元數據信息以后,通過業務表模型與業務字段模型來對電力行業大數據平臺的元數據信息進行儲存。
3.1.2 元數據關聯性信息的分析。其具體的分析過程如下:第一,在日志文件中對HIVESQL數據進行讀取,獲取到需要進行處理的數據信息。第二,對數據信息中的關鍵信息進行分塊處理,從而形成信息的邏輯分塊。第三,從形成的邏輯分塊中獲取到被處理信息的目標、源、邏輯以及字段等信息,然后對這些信息進行整合,形成元數據的基本信息,同時對數據的流向信息進行記錄,進而組建信息的關聯性。第四,在完成元數據信息的提取后,可以將這些信息封裝在平臺的任務之中,實現大數據平臺對元數據處理的自動化執行。在大數據平臺實際進行數據信息的處理時,由于數據量較大,需要分析的工作量是巨大的。這時就可以采用日志切分法、多線程處理法等多種處理方式,提高數據信息分析處理效率,從而滿足電力行業數據處理的需求。
以技術部門為管理主導。元數據的管理工作與其他管理工作不同,其管理方式更偏向于技術活動。需要專業的技術人員對其進行開發與維護,在大數據平臺建設之初就需要對元數據管理工作進行建設,并對其具體工作流程進行明確的規定。
制定元數據的管理制度。管理制度中需要包含元數據的具體管理要求以及相關的注意事項,具體內容:第一,在元數據管理系統建立之初,就需要對業務型元數據的屬性進行補充,且補充的內容要準確、全面并符合元數據補充規范,在系統完成后需要相關技術人員對補充的元數據信息進行審核。第二,當大數據平臺的業務信息、數據結構以及相關功能發生變更時,需要對相關的元數據進行及時的更新,保證元數據信息與系統信息的一致,同時需要注意對歷史版本進行保留。第三,大數據平臺建設時,相關開發人員需要參照相關元數據的內容,避免平臺后期開展的業務活動,與元數據信息的脫節。第四,當大數據平臺中相關業務下線時,要對相元數據進行保存,以方便后期的查閱。
充分利用元數據管理系統。對元數據信息的利用,不僅局限于分析數據的關聯性以及版本的管理等,上述功能更偏向于為技術人員提供服務。在元數據的實際使用中,應該充分挖掘元數據的利用方式。只有充分利用元數據,才能體現出這些數據的價值,元數據的管理工作是為了更好的對其進行利用,在利用過程中出現的問題又能反向的對其管理工作進行完善。電力行業管理人員以及技術人員要養成使用元數據的習慣,從而更加充分的對其進行利用。
血緣分析主要是對分析元數據的數據來源進,通過查看元數據的關聯信息,能反向進行分析直到數據信息的起點,從而了解數據信息的來源。血緣分析能夠為企業解決數據的追溯問題,提高平臺數據信息的質量。
關聯分析主要是分析信息的重要程度。通過分析信息的重要程度實現信息的準確評估。這主要是幫助電力行業技術人員對重要數據進行認知,使技術人員能夠準確地對重要數據進行優化,從而提升平臺的運行效率。
元數據影響分析主要是分析數據的影響范圍。影響分析主要是對數據進行正向的分析,從而到達數據的終點。影響分析主要是對電力行業各種數據的影響變化程度以及影響范圍進行分析。該分析能解決企業數據平臺無法準確定位影響范圍的問題,能為企業的平穩生產提供數據保障。
總之,電力行業對業務的精細化管理提出了更高的要求,這就需要電力行業改變以往的數據管理方式。而對元數據進行管理則是企業數據管理的基礎,并在一定程度上保證了企業數據的質量。