

基金項目:貴州省煙草公司“煙草企業數據資產管理研究與應用”(中煙黔科(2022)13號2023XM29);貴州省煙草公司“貴州煙草商業數據治理關鍵技術研究與應用”(中煙黔科(2022)13號2023XM30)
摘 要:在數據資產質量評估內涵的基礎上,本文結合煙草商業數據資產質量管理特點,從內容質量、表達質量、結構質量、效用質量四個維度七個指標構建煙草商業數據資產質量評估指標體系,并采用熵權法與模糊綜合評價結合的方法,對數據質量進行客觀評估。
關鍵詞:數據質量;評估;熵權法;模糊綜合評價
一、引言
隨著信息技術的迅猛發展,數據已成為企業乃至國家的重要戰略資源。數據資產化不僅意味著將數據視為可管理、可運營、可增值的資產,更強調通過高效的數據治理和質量管理,釋放數據的潛在價值。煙草行業正面臨國內外市場環境的變化和消費者需求的多樣化挑戰。數據的精準獲取、高效處理和深度挖掘,已成為行業創新發展的關鍵。然而,由于歷史原因和技術限制,煙草行業在數據質量管理方面存在諸多問題,如數據準確性不高、完整性缺失、一致性差等,這些問題嚴重制約了數據資產價值的發揮。煙草行業作為傳統的經濟支柱,其數字化轉型和數據資產化進程對提升行業競爭力、實現可持續發展具有深遠意義。構建數據質量評估體系,不僅有助于提升數據治理水平,而且對企業的決策水平提升、業務創新促進、數據安全保障等方面都具有重要意義。
數據質量評價是學界關注的熱點問題之一,學者們針對不同領域已提出了一些有代表性的評價模型及指標體系。針對電子商務數據質量管理,孫俐麗等(2019)構建了包含內在維度、情境維度、應用維度、資產維度 4 個層次結構的數據質量評價指標體系。針對服務平臺數據質量管理,程芳等(2020)通過分析數據質量關鍵因素提出數據質量能力成熟度模型框架及成熟度等級。針對CGSS數據質量管理,曾嬈等(2021)從內在質量與使用質量兩個維度包含準確性、一致性、描述完備性、及時性、豐富性、可靠性、完整性、平衡性七個指標建立評估體系。在數據交易方面,黃倩倩等(2022)提出了六大指標、五類主體、四類產品及三大評估方法為架構的數據交易流通質量評估模型。在政府數據質量管理方面,張珺等(2023)從政策規范和標準、數據源頭管控機制、數據質量管理流程體系、數據質量實施管理體系等維度,提出了政府數據質量管理的實踐體系。還有學者從元數據管理、產品視角、評估模型等角度,對數據質量管理展開了重要研究。
當前,數據質量管理評價體系及模型各具特色和優勢,但在煙草行業大數據質量管理方面缺乏針對性研究。在上述數據質量評價的研究基礎上,結合煙草行業對數據質量管理的實際需求,本研究聚焦煙草企業所擁有的核心數據,根據數據資產質量評估內涵,建立煙草商業數據資產質量評估指標體系。
二、數據資產質量評估概述
數據資產質量管理是一種對數據從計劃、獲取、存儲、共享、維護、應用到消亡全生命周期的每個階段里可能發生的數據質量問題進行識別、度量、監控、預警等一系列管理活動,是確保數據準確性、完整性、一致性、及時性和可用性的過程。準確性是指數據是否真實、可靠地反映實際情況;完整性包括數據記錄、數據屬性是否完整以及數據是否滿足業務需求;一致性指數據在不同來源、不同時間、不同格式下是否保持一致;及時性是指數據是否能夠及時反映出實際情況的變化;可用性則強調數據是否易于理解和解釋。準確性是數據質量的核心,完整性是數據質量的基礎,一致性是數據質量的重要保障,及時性是數據質量的重要特征,可用性是數據質量的重要標準。
數據資產質量評估是對數據資產進行全面、客觀、準確的評估,以確定數據的質量管理水平是否達到預期標準,幫助企業了解數據質量管理的成效和不足。
三、煙草商業數據資產質量評估指標體系
根據上述數據資產質量評估內涵,結合煙草商業數據資產質量管理特點,從內容質量、表達質量、結構質量、效用質量四個維度七個指標,構建煙草商業數據資產質量評估指標體系,具體如表1所示。四個維度在評估數據質量時各具特色,相互補充,共同構成了全面、系統的數據質量評估體系。
1.內容質量
內容質量關注數據的“內在”屬性,即數據所承載信息的準確性和完整性,這兩個屬性是確保數據能夠真實、全面地反映現實情況的基礎,關系到數據的可信度和使用價值。
數據的準確性是確保基于數據的分析和決策可靠性的基石。在煙草商業領域,數據真實性的驗證,涉及到檢查數據是否真實反映了實際情況,如銷售量、庫存量等關鍵指標。邏輯準確性的檢查也不可或缺,要求數據必須符合業務邏輯,如價格不能為負數、庫存量不能超過倉庫的實際容量等。為確保數據的準確性,可采用對比驗證,即將數據與可靠來源進行對比,以計算誤差率或符合度。邏輯檢查則通過預設的規則或算法檢驗數據間邏輯關系的合理性。通過重復觀測,對同一現象進行多次觀測并比較結果的一致性,提高數據的準確度和可信度。
數據的完整性是確保信息全面、詳盡且無遺漏的關鍵,對防止因信息缺失而導致的分析偏差至關重要。在評估數據完整性時,可采用記錄檢查,即確認數據記錄是否包含所有必要的字段,以確保沒有遺漏任何重要信息。通過空值分析計算數據集中缺失值的比例,了解數據的完整程度。屬性完整性的檢查可根據預設的完整性規則驗證數據檢查是否滿足必填字段的定義,以確保數據屬性如產品規格、價格、銷售日期等齊全,為煙草產品的市場分析、供應鏈管理和銷售策略提供堅實的數據基礎。
2.表達質量
表達質量強調數據的“外在”表現,即數據呈現方式的清晰度和易理解性。良好的表達質量使數據易于被用戶理解和接受,無論用戶的專業背景如何。
數據可理解性是評估數據是否易于被理解且無歧義的重要標準。數據可理解性可以采用多種方法,一是通過用戶測試,讓非專業用戶嘗試理解數據,并收集他們的反饋,從而了解數據在實際應用中的可理解程度。二是可進行元數據分析,通過檢查數據是否有清晰的定義、標簽和文檔支持,確保數據的準確性和易于理解性。最后,還應該評估數據呈現方式是否過于復雜,并探索能否將其簡化為更直觀的形式,以提升數據的可理解性和使用效果。
3.結構質量
結構質量注重數據的“組織”方式,包括數據的一致性和及時性,確保數據在不同系統和部門之間無縫流轉,減少數據整合和分析時可能出現的錯誤和不一致。
一致性要求數據在不同環境下保持統一,避免數據沖突和矛盾,包括格式一致性和業務規則一致性兩方面。格式一致性要求來自不同來源或不同時間點的數據在格式上保持統一,如日期格式、貨幣單位等,以確保數據在處理和比較時的準確性。業務規則一致性則要求數據遵循統一的業務規則,如促銷策略、折扣政策等,以保證數據在業務邏輯上的一致性。數據一致性計算可以采用比較同一數據在不同時間點或不同來源的值是否一致,格式/類型檢查也是確保數據格式和數據類型在不同數據集或系統中保持一致性的有效方法。
數據及時性是評估數據更新速度和延遲時間的重要標準,以確保數據能夠及時反映煙草業務的最新動態。數據更新頻率的評估有助于了解數據更新的速度,而數據延遲時間的衡量則揭示了從數據生成到可供分析使用的時間差。及時性指標可通過在數據生成、處理、傳輸和存儲的各個環節中,記錄時間戳計算數據在各個處理階段的耗時。延遲計算則是確定數據應該到達的時間點,并計算實際到達時間與應該到達時間之間的延遲。
4.效用質量
效用質量關注數據的“實用”價值,即數據在滿足特定需求和解決問題方面的能力。
數據的相關性是指數據與用戶需求或業務目標的匹配程度,評估不同數據表或數據集之間關聯是否準確、一致的重要標準。數據相關性指標可通過業務目標對齊、歷史趨勢分析、相關性系數計算等方式獲取。
可信度反映數據來源的可靠性和數據處理過程的透明度,是確保基于數據決策準確性的關鍵。可信度計算首先可采用來源追溯,即評估數據來源的權威性和可靠性,確保數據來自可信賴的渠道;其次是處理過程審計,檢查數據處理過程中是否存在不當操作或錯誤,以保證數據的完整性和準確性;最后利用驗證機制借助第三方驗證服務或工具進一步確認數據的真實性。
四、煙草商業數據資產質量評估模型
1.指標權重確定
數據資產作為一種獨特的動態資產,其價值隨著時間的流逝不斷增長和演變,因此指標權重須根據質量管理的進步和行業需求進行動態調整。這種靈活性不僅反映了數據資產質量的動態特性,更有助于推動數據質量評估指標的不斷完善和提升,從而更好地服務于煙草行業的決策制定和業務發展。根據此特性,煙草商業數據資產質量評估指標權重采用熵權法。熵權法通過計算各指標的信息熵,根據指標的相對變化程度對系統整體的影響決定指標的權重,從而避免主觀因素對權重分配的影響。
2.評價模型的確定
在指標體系中,存在部分指標不易定量的情形,如完整性、可理解性存在模糊性和不確定性,難以用精確的數值描述。據此,煙草商業數據資產質量評價模型可采用模糊綜合評價模型。模糊綜合評價則是一種基于模糊數學的綜合評價方法,適用于處理邊界不清、不易定量的因素,其通過構建模糊評價矩陣和確定隸屬度函數,能夠將這些模糊因素定量化,進而進行綜合性評價。這種方法能夠綜合考慮多個因素,包括定性指標和定量指標,使評價結果更加全面、準確。
3.煙草商業數據資產質量評估應用
根據質量評估指標體系,因素集為U ={A,B,C,D,E,F,G}。將每個因素均分為五個評價等級優(V1)、良(V2)、中(V3)、差(V4)和很差(V5),評價集為V ={V1,V2,V3,V4,V5}。對“卷煙營銷多源數據交叉客戶信息”數據集采用專家打分法,得到了每個因素對應每個評價等級的隸屬度,如表2所示。
對煙草行業所有數據集的7個因素中,能定量計算的指標直接計算信息變異程度,定性指標則先通過模糊綜合評價將其量化,再應用熵權法確定權重,得到權重向量W={wA,wB,wC,wD,wE,wF,wG}={0.08,0.20,0.11,0.17,0.10, 0.18,0.16}。權重向量準確性因素A的權重為0.08,其權重最小,表明所有數據集在準確性方面相差較小,而完整性方面相關較大。采用乘積-求和算子,Bij=∑wi*rij。對每一列進行求和,得到模糊綜合評價結果向量B={0.298, 0.327,0.261,0.083,0.031}。根據向量B,該數據集在“良”評價等級上的隸屬度最高(0.327),因此可以認為該數據的質量評價為“良”。
本文采用熵權法與模糊綜合評價相結合的方法,對數據質量進行了全面客觀地評估。該方法不僅提升數據質量和管理效率,還為數據資產管理提供了直觀的決策參考,對推動煙草行業的數據資產管理與價值轉化具有實踐意義。
參考文獻:
[1]孫俐麗,袁勤儉.數據資產管理視域下電子商務數據質量評價指標體系研究[J].現代情報,2019,39(11):90-97.
[2]程芳,趙彥慶,王磊.基于數據服務平臺的數據質量能力成熟度模型研究[J].標準科學,2020(10):120-123.
[3]曾嬈,丁玲,王文強.CGSS數據質量評估的改進模型[J].湘潭大學學報(自然科學版),2021,43(1):22-27.
[4]黃倩倩,趙正,劉釗因.數據流通交易場景下數據質量綜合管理體系與技術框架研究[J].數據分析與知識發現,2022,6(1):22-34.
[5]張珺,漆源.數據質量管理實踐體系探討[J].信息技術與標準化,2023(8):15-18.
[6]周艷會,曾榮仁.基于元數據的數據質量管理研究[J].信息技術與信息化,2020(7):26-29.
[7]LEE Y W,STRONG D M,KAHN B K,et al.AIMQ:a methodology for information quality assessment[J].Information&Management,2003,40(2):133-146.
[8]JORGE M,ISMAEL C,BIBIANO R,et al.A Data Quality in Use model for Big Data[J].Future Generation Computer Systems,2016,63(10):123-130.
[9]ARDAGNA D,CAPPIELLO C,WALTER SAMá,et al.Context-aware data quality assessment for big data[J].Future Generation Computer Systems,2018,89(9):548-562.
作者簡介:張鑫(1986— ),女,苗族,貴州臺江人,碩士,研究方向:財務管理、企業數字化;嵩濤(1990— ),男,漢族,貴州貴陽人,碩士,助理工程師,研究方向:數字營銷;沈鑫(1990— ),男,漢族,貴州貴陽人,本科,研究方向:信息化管理、企業數字化。