梁盈威, 萬嬋, 楊朝誼
(廣東電網有限責任公司 信息中心, 廣東 廣州 510000)
目前,某大型電網企業已完成對內部主數據的規劃設計、試點建設與推廣應用工作。但由于企業數據資源龐大,在建設推廣的過程中業務需求的不斷擴展,主數據的識別缺乏一種可量化的技術評判標準,導致業務人員在增補過程中產生不少分歧,最終導致主數據應用效果不佳。
主數據是作為企業核心主營業務數據的唯一可信數據源,為企業內部核心數據共享交換提供完整的、實時的、準確的、一致的核心主數據視圖。結合企業內部業務需求,須滿足統一標準化“誰產生、誰識別、誰維護”的三大原則。
主數據(Master Data)指的是各個業務系統間的共享數據(如,人員、供應商、組織部門、客戶等),具有高價值、共享性、唯一性、基礎性、穩定性、完整性、準確性的特點[1]。
主數據識別是一項復雜的工作,結合企業主數據“誰產生、誰識別、誰維護”的三大原則情況,引入科學的分析方法論和主數據識別管理知識[2-4],設計一套明確的主數據識別管理工作流程,才能有效并快速地實施識別工作。本文將主數據識別分為四大工作步驟,整體流程如圖1所示。

圖1 主數據識別流程
數據實體梳理[5-6]:從業務角度出發,分析目前業務流程中的數據內容,得出在業務流程中核心業務實體和對應的數據生產部門,以此作為主數據識別的對象和數據管理責任方,從業務層面規范數據標準唯一性。
主題域劃分:通過參考IBM的IFW模型并充分結合電網企業數據模型標準的業務情況,將梳理出來的實體劃分到對應的主題域中,如參與方、協議、位置等。
數據評分:數據評分分為4個步驟:① 識別數據對象是否屬于企業主營業務的重要實體;② 確認主數據識別指標與分數;③ 利用科學方法論量化識別得出主數據識別指標對應的權重;④ 根據識別指標和指標權重制作主數據識別評分表。
數據模型構建:將以需求為主導,方法論為指引,遵循企業既有標準,梳理主數據建模步驟。
主數據是企業數據資源利用的重要保障,而主數據的評判標準則是主數據識別工作的重點之一,科學的客觀評分決策機制為主數據識別提供客觀的決策依據。
1) 主營業務數據實體識別
電網內的主數據是描述現實世界中的核心對象,是參與企業運營獨立存在的業務對象,包含最重要、最穩定、最基礎三大特征。
基于企業主數據的三大特征,本文優先采用德爾菲法[7-8],邀請業務專家對已梳理的業務數據實體進行投票識別。投票指標:主營業務∈(是,否),若最終結果為“是”,則繼續進行后續的主數據識別工作;若結果為“否”,該對應的數據實體則不被列入主數據行列管理。
2) 構建主數據識別的評判指標
主數據評分指標項的選取是通過對企業的主數據識別標準與方法,同時參考電網企業集團網省兩級架構的特點,在確定主數據的評分指標中,需要綜合考評以下九大指標內容。
① 業務等級:分為“一般、重要、較重要、非常重要”,級別越靠后,越符合主數據的使用標準,也越能體現該數據的高價值性。
② 共享業務部門個數:主數據的共享性,主數據可以跨部門共享使用,記錄數據消費方個數。
③ 數據有效期:主數據的穩定性,一般從產生到消亡的時間越長越符合主數據的穩定性。
④ 主責級別:分為“省級共享、網級共享”,反應電網企業的行業結構,體現主數據的高價值性和共享性。
⑤ 業務唯一性:主數據的唯一性,能夠唯一識別業務屬性。
⑥ 系統跨度:主數據的核心價值在于各個系統之間的共享使用,系統跨度是共享性的體現。
⑦ 更新頻率:主數據的穩定性的體現,如一個數據頻繁被更新,存在多個版本,則不符合主數據的特性,不利于主數據管理。
⑧ 使用頻率:主數據的高價值性體現,如一個數據被系統頻繁使用,該數據一定是系統中的關鍵核心數據。
⑨ 基礎性:主數據不是衍生數據,是生產之后未加工的基礎性數據,這樣才更利于共享使用。
3) 評判指標量化賦值
為確保評分指標在使用過程中能充分反映企業決策者意向,嚴格把控主數據識別的精細度,對于指標的評判分值將不采用簡單的是或否的評判基準,而是采用量化手段進行多維度的評判,步驟如下。
(1) 首先將評判指標細分等級,采用專家分析法[9],將指標進行多維拆分,如業務等級指標不再是以前的“一般”或“重要”兩個評判基準,而是根據業務實際情況,參考行業的成果,經專家分析拆分出“一般、重要、較重要、非常重要”四個等級。
(2) 等級量化賦值,每個指標采用10分總分制計分。在得出等級劃分后,我們將10分作平均分配法,分配到各個維度中去,如業務等級指標有4個維度,則維度平均基礎占比10/4=2.5分,分配結果為:“一般”=2.5分,“重要”=5分,“較重要”=7.5分,“非常重要”=10分。
(3) 分值校準,在最后我們還需要使用集體決策法,提供數據管理者的主觀能動性和專業性,將數學平均分析法的結果作最后的調整,原則如下。
? 評分分值最大值<10分;
? 根據主數據標準和行業業務性質調整分值,如業務等級指標為“一般”=2.5分,但重要性“一般”的數據實體在電網業務主數據標準是不被納入主數據范圍,所以經過調整分值后,“一般”=0分;
? 調整其他評判基準等級分值,分值間隔的偏離量∈[-0.2,0.2]。如業務等級指標剩余分為:“重要”=5分,“較重要”=7.5分,“非常重要”=10分,分值之間間隔為2.5分;調整后“重要”=6分,“較重要”=8分,“非常重要”=10分,分值之間間隔為2分;(2-2.5)÷2.5∈[-0.2,0.2],分值可用。
(4) 識別結果輸出,“一般”=0分,“重要”=6分,“較重要”=8分,“非常重要”=10分;
主數據識別評分的指標類別和分值對于主數據的識別工作具有重要意義,但并不足以支撐整個識別工作。主數據識別過程中的關鍵是確定識別指標的權重,這關系到主數據識別的精準度,必須采用科學客觀的確認方法,常見的有主成分分析法、因子分析法等。本文將使用主成分分析法[10-12]作為量化識別方法論。
主成分分析法(簡稱PCA),通過降低維度的作用,把多個相關且復雜的指標數據進行矩陣降維的方式成為少數幾個相互無關的綜合主成分指標,使問題簡單化,在電網企業使用主成分分析法將九大指標維度進行數據評分降維、降噪、去冗余分析,利用大數據計算維度的占比權重。具體步驟如下。
① 梳理電網企業主題域中的數據實體分析樣本,如人力資源域中:人員、組織、崗位等實體,使用數據庫管理技術獲取樣本中所有九大維度指標的專家評分,再將評分結果羅列成矩陣形式,輸出隨機數據矩陣K,其中每一行代表一個數據實體的一條評分數據,每一列代表指標維度,如k11代表數據實體人員在指標業務等級維度的一條初始評分數據,如此類推得式(1)。
(1)
② 將矩陣K各個業務指標的原始數據進行標準化、歸一處理,將數據轉換成相同度量尺度的可比較狀態,具體方式通過每列變量值減去當前列的平均值,再除以當前列的標準差來完成,最終形成標準化集合矩陣X,如式(2)。
(2)
③ 求X矩陣的協方差矩陣,協方差矩陣用于對數據進行降噪,減少數據的干擾值,得到每個指標維度與其他8個維度的方差關系,形成新的矩陣C,矩陣C為i行j列,此時原始的數據將轉化為協方差數據,如式(3)。
(3)
④ 求C的特征值(主成分),利用線性代數知識或是MATLAB中eig函數可以得到求矩陣C的特征值,用于去除總量數據中冗余量,特征值越大,原始數據在對應特征向量變換下的獨立數據量越多,更有利于分析工作,如式(4)。
特征值=λ1,λ2,…,λe
(4)
⑤ 由矩陣C中求到e個特征值,由大到小排列后,包含的信息量也是遞減的,所以進行實際分析時會選擇m個貢獻率大于85%的特征值,計算每個特征值的貢獻率,指某個特征值占全部特征值的比重,如式(5)。

(5)
⑥ 根據式(5)原則,選取出m個特征值后,根據式Cvm=λmvm的公式原則,求出對應的特征向量,排列成矩陣,如式(6)。
特征向量矩陣V=[v1v2…vm]
(6)
⑦ 計算指標維度對應主成分的得分系數,分別用對應的V×X矩陣得到矩陣Tm,其中每一列都是該主成分一個指標維度的評分系數,如式(7)。
Tm=[mt1mt2…mt9]
(7)
⑧ 計算每個維度的綜合評分系數,綜合每個特征值的評分系數Fl,l=1,2,…,9,為式(8)。
(8)
⑨ 計算每個維度的百分比權重Sl,為式(9)。
(9)
根據權重結果值,將信息綜合整理成主數據識別評分表,如表1所示。

表1 主數據識別評分表
基于主數據識別的工作流程和評分流程設計,對某大型電網企業進行仿真數據測試與分析工作,得出主數據實體識別驗證。本文將嚴格遵守設計流程對測試數據進行數據實體梳理、主題域劃分、數據評分三大工作步驟,對比分析識別效果。
(1) 根據業務系統分析情況,分別從數據生產方篩選出數個測試用業務實體:供應商編碼、供應商名稱、員工薪資、員工編號、客戶訂單、客戶名稱。
(2) 參考IFW 模型并結合企業的實際情況,將數據主題域劃分為參與方、協議、位置、分類、資源和項目六大模塊,將測試數據實體根據業務屬性歸類參與方的數據主題域中,通過參照主數據識別評分表中的規范,進行初步專家評分后,得出參與方主題域中的相關實體和基礎指標分值,具體如圖2所示。

圖2 主數據識別測試實體基礎分值圖
(3) 參考然后再根據主數據識別評分表中的權重數據進行分值權重化,最終結果如圖3所示。

圖3 主數據識別測試實體最終分值圖
(4) 最后經過企業需求和專家評估判斷,設定符合主數據識別的分數閥值為總分的60%,合格分數為6。所以本次測試實體中總分超過6的供應商編碼、供應商名稱、員工編號、客戶名稱為新識別的企業主數據。
快速準確地完善建模,以規范好主數據服務的實施落地,是主數據識別工作最后也是最必要的工作。因此數據建模工作也是需要有先進的方法論和規范化的管理去落實。本文研究的建模方式將按照IBM建模方法論指引[6]、參考企業公共信息模型、遵循企業數據標準和實際需求梳理整體建模步驟。
(1) 梳理數據集:評分識別中已將主數據分到六大數據主題域中,在此基礎針對每個域梳理出對應的數據集,形成數據集工作件。
(2) 對每個數據集在信息資源規劃標準中找到對應的實體及其屬性,梳理對應的數據庫原始表、字段以及引用關系。
(3) 多渠道補充完善該數據集的數據元(屬性),通過遵循IRP建立基礎屬性集、參考IBM實踐框架[6]、與企業內部交流的方式,進行補充完善工作,確保主數據實體選擇準確,屬性的含義描述合理,與企業公共信息模型映射正確性。
(4) 拆解數據集為對象:參考企業公共信息模型[16],建立數據集的數據元在企業公共信息模型中的映射,按面向對象方法拆解出多個需最終落地的邏輯模型實體(對象),形成數據字典工作件。
(5) 繪制模型關系圖:根據數據字典工作件,將拆解后的各個實體對象梳理出繼承及關聯關系形成對象關系圖。
完成以上五步主數據模型構建(邏輯建模)步驟,主數據管理可以按企業的實際數據庫環境進行落地實施(物理建模)工作,然而這已超過了主數據識別的研究范圍,進入了一個新的研究課題,本文不作過多敘述。
本文對主數據識別中的管理方法、識別技術和建模技術進行了研究,提出了主數據識別工作流程的四大步驟,設計了主數據量化識別評分法,降低主數據的主觀性判斷分歧錯誤,科學地預防主數據識別的質量風險。通過仿真數據識別測試,驗證了量化識別法的高效性和可操作性,有助于企業對主數據識別工作的效率提升,減少管理成本。