孫俐麗 袁勤儉


摘 要:[目的/意義]數據質量是阻礙電子商務數據價值實現的關鍵因素,構建電子商務數據質量評價指標體系,有助于明確電子商務數據質量優化方向。[方法/過程]基于數據資產管理的視角提出電子商務數據質量評價指標,并采用德爾菲法對評價指標進行修正,然后運用層次分析法確定各指標權重。[結果/結論]通過定性與定量相結合的方法構建了包含內在維度、情境維度、應用維度、資產維度4層次結構的數據質量評價指標體系,為指導電子商務數據質量管理、提升數據資產價值提供有益參考。
關鍵詞:電子商務;數據質量;評價指標;數據資產管理
DOI:10.3969/j.issn.1008-0821.2019.11.010
〔中圖分類號〕F724.6 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)11-0090-08
Abstract:[Purpose/Significance]Data quality is the key factor that hinders the realization of data value in e-commerce.Constructing an evaluation index system of e-commerce data quality is helpful to clarify the direction of data quality optimization in e-commerce.[Method/Process]Based on the perspective of data asset management,this paper put forward the evaluation index of e-commerce data quality,and used Delphi method to revise the evaluation index,and then used AHP to determine the weight of each index.[Result/Conclusion]Through the combination of qualitative and quantitative methods,a data quality evaluation index system was constructed,which included four layers of internal dimension,situational dimension,application dimension and asset dimension.It provided a useful reference for guiding the data quality management of e-commerce and improving the value of data assets.
Key words:e-commerce;data quality;evaluation index;data asset management
大數據背景下,數據已成為電子商務企業的核心資產。然而大數據環境下,龐大的數據量和復雜的數據結構,加劇了低質量數據產生的風險,給電子商務數據質量管理帶來挑戰,對企業數據資產價值實現以及企業核心競爭力產生重大影響。面向數據資產管理,以數據資產價值實現為準繩,建立電子商務數據質量評價標準已成為實踐迫切需求。
關于數據質量評價一直是學界關注的熱點問題之一,學者們針對不同領域、從不同視角已提出了一些有代表性的評價模型及指標體系,包括用戶需求視角[1]、產品視角[2]、Web環境下基于用戶體驗的視角[3-4]、基于數據生命周期視角[5]、基于應用邏輯視角[6]、數據長期保存的視角[7],以及大數據環境下的數據利用質量的3A評價模型[8]、5要素模型[9]、基于上下文感知的評估模型[10]、大數據質量框架[11-12]。現有評價模型各具特色和優勢,但尚未形成廣泛認可的評價模型體系。當前對數據質量的描述維度不盡相同,涉及生產、開發、運營、管理、成本等諸多功能因素,現有成果為本研究奠定了堅實的基礎。基于國內外數據質量評價研究現狀,并出于我國電子商務數據質量管理的現實需求考慮,本研究以電子商務企業擁有的結構化或半結構化的用戶行為數據、商品數據、交易數據、系統產生的其他業務數據等核心數據為主要研究對象,就以下3個方面問題展開研究:1)數據資產管理視域下數據質量評價出發點是什么?2)如何基于數據資產管理視角構建電子商務數據質量評價指標體系?3)各指標的測量準則和測量項是什么?
1 評價維度及其指標的理論分析
為了減少德爾菲法操作過程中專家咨詢輪次,本研究首先通過對當前研究的理論分析,提出初步的評價維度及其指標,為專家提供背景資料。
關于數據質量是一個復雜的、多維度的概念范疇。現有研究已有不少關于“數據質量”內涵的研究成果,盡管對數據質量的涵義有不同的看法,但一般認為數據質量是可以由若干數據質量維度來衡量,即通常用維度一詞來確定數據的哪些方面是可以測量的,并通過它們來描述和量化數據質量。當前數據質量的研究已經取得一定成果,其中以Wang R等提出的質量描述框架為典型代表:包括固有質量、獲取質量、表達質量、與環境相關的質量4個維度,該框架適用于傳統數據環境下,數據主要來源于企業系統內部,數據量有限、數據結構較為單一的情況,但大數據環境下,數據本身、數據組織及應用與傳統數據環境相比產生諸多差異,對數據質量的評價也相應發生變化。對于大數據環境下的數據質量,Merino J等提出了在大數據環境下的數據利用質量模型,包括環境適用性、時效性、操作適用性3個維度[8]。Loshin D等認為數據質量的維度有不同劃分標準,實踐者應該從便于實際使用出發傾向于那些便于測量、適合在企業內推廣的維度,提出了內在維度、上下文維度、定性維度[6]。
以上成果是基于不同的研究背景和出發點所產生的結論,但是對于數據資產管理視域下電子商務數據質量不能簡單地套用傳統數據質量標準或者大數據質量標準來衡量,原因在于:1)從數據構成及數據規模來看,電子商務的數據既包括來源于企業自身業務系統的結構化的、可控的數據,也包括相對而言不可控的、半結構化數據、外部合作獲得的數據,就數據來源和數據格式的復雜程度而言,電子商務的數據介于傳統數據和常規意義上的大數據之間。2)從數據利用需求和目的來看,電子商務數據利用需求有其獨特的行業特性。有別于公共領域數據、科學數據,商務數據利用需求集中體現在對客戶需求的挖掘、對市場機會的發現等商業需求,場景化、預測性是其主要特征。3)從數據資產管理角度來看,就是要通過對數據進行資產化管理使得數據能夠成為企業核心資產,充分體現數據資產價值,從而提升企業管理水平和經營效益,最終提高企業市場競爭力[13]。從數據的資本屬性角度考慮,必然對數據質量產生相應的要求。所以,本研究在數據資產管理視角下,將衡量電子商務數據質量的出發點歸納為:一是體現電子商務行業的數據利用需求特征,以及企業業務發展對數據質量的要求,能夠為企業運營決策提供準確、真實、可信、及時、細致、全面的客戶數據以及相關運營數據,滿足數據驅動、場景驅動的電子商務經營需求。二是體現數據作為企業資產屬性所要滿足的質量要求,即需要具備數據資本變現價值,以及為企業商業目標服務等質量要求。
本研究在當前研究成果基礎上,基于數據資產管理視域下電子商務數據質量的評價出發點,并咨詢了兩位電子商務數據專家(分別為數據中心負責人和數據分析師)意見,參考國際數據管理協會(DAMA International)對數據質量維度及其指標應具備可度量性、可控性、可跟蹤性[14]的原則,按照由低至高的層級思路,初步梳理出如下評價維度及其可能的指標:
1.1 數據值層次的質量維度
數據值層次的質量維度關注的是數據值本身所具有的質量屬性,主要描述數據值的結構、格式、含義、值域,但不關注數據值的背景信息等其他質量屬性。數據值質量維度其實質就是元數據的質量,是衡量數據質量最基本的維度,是數據利用的基礎。數據值質量維度下的二級指標有:
1)準確性:是指數據與數據所表示的實體的實際值之間的一致程度,包括數據內容和形式上的準確,即數據的類型、格式、精度及值域范圍的準確[15]。
2)可追溯性:數據的可追溯性是指可以追溯數據的來龍去脈,是對數據生命周期的全面追蹤,可追溯性指標是用來描述對數據生成和處理過程信息的掌握程度,數據是否可追溯是影響數據資產可信度的重要因素。
3)語義唯一性:語義唯一性要求數據集中相似數據對象的名稱和含義一致。語義一致是保障數據在企業內部進行交換和共享的前提條件。
1.2 數據集層次的質量維度
數據資產是一個有機聯系的整體,在數據值的基礎上,還需要考量數據元、數據記錄、數據集等不同數據層次之間數據的完整性、一致性、有效性。數據值維度與情境質量維度共同構成數據應用質量的基礎。本研究將數據情境維度的二級指標歸納為以下幾個方面:
1)完整性:是描述數據信息的完整程度,包括數據記錄完整性和數據庫完整性兩個方面。數據記錄完整性是指數據元本身的完善程度,包括兩個層面:一是記錄層面的完整,即數據庫內沒有記錄丟失;二是每一條數據記錄的屬性值是完整的,沒有缺失值。
2)一致性:是指數據的數值、標識、約束條件等的一致程度。不同數據庫/表之間代表相同實體的數值是相同的、同一個數據對象在不同用戶同一時間訪問時的值是相同的。
3)可識別性:是指對核心概念對象的唯一命名和表示,也就是說同一條記錄在系統中只出現1次,以及對具有內在邏輯聯系的數據之間建立關聯匹配,能夠將具有業務相關性的分散在多各庫表中的屬性值關聯起來。數據可識別性是用戶畫像、用戶建模的提前條件。
1.3 數據應用層次的質量維度
數據應用質量是指對數據利用需求的滿足程度,是建立在數據內在質量和情境質量的基礎之上,在數據應用過程中體現出來的質量。數據應用質量是衡量數據質量的核心維度,是決定數據資產價值的關鍵因素。包含以下二級指標:
1)易用性:是指數據被利用的容易程度,包括兩個層面的含義,一是用來描述數據的表達質量,包括數據的標識符號、定義的清晰程度和簡潔程度,數據的業務規則是否明確易懂沒有歧義。另一個層面是描述數據易于操作處理的程度。
2)有效性:這里的數據有效性是相對于無效數據而言的,可以用虛假數據、數據冗余、臟數據、違規違法數據等無效數據所占的比例程度來衡量,無效數據比重越高數據有效性越差。例如,商戶違反平臺規則通過虛假交易進行“刷單”產生的訂單數據就是虛假數據。
3)及時性:是數據滿足利用者時效性要求的程度。一方面指數據本身更新的及時性;另一方面是指數據中心提供數據報告等數據產品的及時性。數據的及時性是相對的。
4)合理性:是指數據值尤其是關鍵業務指標值的波動幅度在合理范圍內。數據是業務變化的體現,常規情況下,業務數據都會在一個相對穩定的區間內波動,如果出現異常變化可能就預示了數據處理程序、規則等出現問題導致數據質量問題。
1.4 數據資產層次的質量維度
在電子商務領域,數據的資產價值主要體現為數據的效用價值、變現價值。根據調研情況,并結合專家咨詢結果,數據資產維度的二級指標主要有:
1)數據容量:一是數據總量大小,即數據的規模,包括企業各業務系統當中生成的業務數據、存儲在服務器中的日志數據,以及通過合作或公司兼并等途徑獲得的外來數據。二是數據粒度是否可用,這是數據驅動決策的前提,通常做法是將數據存儲為最原子級。
2)價值密度:電子商務領域高價值密度的數據資產主要體現為通過數據能夠實現對消費者社會屬性、生活習慣、消費行為、信用情況等進行全面描繪,為企業提供了足夠的信息,能夠幫助企業快速、精準地定位目標用戶群體以及獲得詳細用戶需求等更廣泛的反饋信息。
2 評價維度及其指標修正
本研究運用德爾菲法對評價指標進行修正,共有11位專家參與了咨詢,包括電子商務公司的數據中心負責人1名、數據挖掘專家2名、高級產品經理2名、資深數據分析師1名、副總經理1名,以及學界圖情領域專家2名、博士研究生2名(出于保密承諾,此處隱去專家的姓名及單位名稱)。由于事前曾與這些專家有過合作或聯系,所以有較高的響應率。
根據上文基于數據資產管理視角對數據質量評價維度及指標的分析結果,于2018年12月通過電子郵件或微信共計發放3輪問卷,歷時約1個半月。第一輪問卷返回率為100%,有效率為92%;在第一輪專家意見的基礎上對指標進行了修改后再次發出問卷,第二輪問卷返回率為92%,有效率為100%;在第二輪專家意見的基礎上對問卷進行第二輪修改。第三輪咨詢返回率為83%,有效率為100%,經過兩輪修改專家基本對指標體系達成一致意見。
根據咨詢結果,專家基本上對4層次結構的評價維度表示認同,但具體表述上可以更精煉;專家意見主要集中在數據質量評價指標及測量項上面,主要包括:數據值維度增加了“結構一致性”指標,并將原“語義唯一性”改為“語義一致性”;情境維度下將原“及時性”改為“新鮮度”,并對其測量項進行完善,突出數據資產管理對數據新穎性的要求;資產維度下,增加數據安全性指標,多位專家提出數據安全性問題,認為保證數據安全是數據資產管理的重要職責,應當納入數據質量評價范疇。還有專家提出增加“關聯性”指標,用以描述數據之間關聯關系的揭示以及用戶檢索結果的相關度,本研究認為“關聯性”指標中的數據關聯關系的揭示與“可識別性”指標內涵相似,可將這部分測量項納入“可識別性”指標,但本研究認為用戶檢索結果的相關度屬于系統匹配機制的質量范疇,所以對于這部分內容未予采納。此外有一位專家認為需要增加可信度指標,經與專家溝通理解其出發點后,認為該指標可以通過“可追溯性”、“有效性”等指標來表達。專家對指標測量項也提出了補充和完善建議,修正后的評價指標及其測量準則與測量項參見表1。需要說明的是表1中的測量項僅是列舉常見項目,實踐中需要根據具體數據對象進一步取舍或優化。
3 評價指標體系構建
層次分析法是一種將定性分析與定量分析相結合的多因素決策方法。層次分析法首先將復雜問題層次化,將問題拆分成若干形成因素,根據因素間的相互關系,將因素按不同層次聚合,形成層次結構模型;其次,對每一層次各個元素的相對重要性進行兩兩比較,將主觀判斷表量化,最終把系統分析歸結為最低層相對于最高層的相對重要性權值確定問題[16]。數據質量指標的重要性是難以精確定量的問題,運用層次分析法定性與定量相結合的特點,能夠降低指標權重評估中主觀因素的不確定性影響,對于質量指標權重研究不失為一種行之有效的方法。本研究邀請2名信息資源管理領域學者以及5名電子商務領域資深業務專家(包括總經理1名、資深產品經理1名、數據中心負責人1名、高級數據分析師1名、系統架構師1名),參與對數據質量評價指標的相對重要性評分。
首先,將問題拆解,建立層次結構。如圖1所示,將數據質量評估包含的因素分為3個層面:由上到下分別是目標層A(數據資產管理視角下電子商務數據質量評價結果)、準則層B(B1內在維度、B2情境維度、B3應用維度、B4資產維度)、指標層C(準確性、可追溯性等14項質量評估指標,圖中從左至右分別記為C1、C2、C3……C14)。需要說明的是,每個指標下還包括若干質量規則,但因為規則內容較為具體,需要根據各企業具體業務規則來確定,前文中的規則也只是舉例說明,所以,本指標體系只涉及質量指標層,沒有包括規則層。
其次,構造判斷矩陣。依據層次分析法的步驟,對于從屬于上一層每個因素的同一層各個因素,進行兩兩比較,請專家采用“1~9標度法”打分,數據統計結果顯示每一層指標的重要性均值都大于5,變異系數小于0.25,說明指標具有可靠性。將每一指標評分結果取均值后,運用AHP軟件計算出各矩陣的最大特征根λmax和相應的特征向量W(即單一層次權重),并進行一致性檢驗。
對于目標層A與準則層指標B的判斷矩陣,如表2所示,兩兩比較準則層指標之間的重要程度,通過AHP軟件計算獲得指標權重。
表7中各級指標權重值大小代表了各指標在數據質量評價體系中的重要程度,不僅給數據質量評估提供了衡量標準,同時也是為數據質量建設提供了參考依據。從表7的指標體系權重分布情況開看,內在維度、情境維度、應用維度、資產維度4個一級指標的權重依次遞減,表明在數據資產的內在質量、情境質量是衡量數據質量的基礎,數據應用維度和資產維度質量的優劣一定程度上取決于數據基礎質量水平,因此,電子商務數據質量監管應始終重視數據最基礎的質量屬性,沒有扎實的質量基礎數據應用和數據資產也將無從談起。二級指標中權重較高的有準確性、可識別性、情境維度下的一致性、結構一致性、語義一致性、有效性、合理性、完整性、安全性、可追溯性等,這些數據質量屬性是衡量數據質量的關鍵因素,也為相關資源調配、設定質量問題處理優先級等數據工作提供了依據。
4 總 結
本研究構建的電子商務數據質量評價指標體系是從數據資產管理視角出發,充分考慮電子商務數據需求特征,采用德爾菲法,融合專家智慧與經驗,構建評價框架,并通過定性與定量相結合的層次分析法確定各質量維度及其指標的權重。評價體系包含數據內在維度、情境維度、應用維度、資產維度4個維度,各維度重要程度從上至下依次增強。
數據內在維度主要描述數據自身質量,包含準確性、可追溯性、結構一致性、語義一致性4個二級指標,其中準確性重要程度最高,要求數據與數據所表示的實體的實際值之間保持一致。數據內在維度質量是數據應用的前提。情境維度描述不同數據層次之間的質量表現,包括數據在上下文情境中的完整性、一致性、可識別性。應用維度描述數據應用方面的質量表現,包括數據的易用性、有效性、新鮮度、合理性,其中有效性和新鮮度指標權重相對較高,體現了電子商務數據應用特點。資產維度,主要通過數據容量、數據價值密度和安全性3個指標體現數據資產的價值效用。各數據質量維度及指標之間并不是相互孤立的,而是相互影響和制約的關系。例如:對數據標識和規則等的一致性約束提升了數據的準確性;數據完整性中對參照完整性的約束也是數據一致性的一個方面;數據完整性的約束規則實際上也是對數據準確性的一種驗證和保障;數據準確性和完整性的約束也是對數據有效性的維護。
與現有數據質量評價模型相比,本研究構建的四層次評價指標體系體現了數據質量評價維度之間的內在繼承關系,同時,融入了數據資產管理的核心價值述求,拓展了數據質量評價的理論內涵。本研究為有效管理和評價電子商務數據質量提供了理論依據。
參考文獻
[1]Cappiello C,Francalanci C,Pernici B.Data Quality Assessment from the Users Perspective[C]//International Workshop on Information Quality in Information Systems.ACM,2004:68-73.
[2]Yang W L,Strong D M,Kahn B K,et al.AIMQ:A Methodology for Information Quality Assessment[J].Information & management,2002,40(2):133-146.
[3]金燕,楊康.基于用戶體驗的信息質量評價指標體系研究——從用戶認知需求與情感需求角度分析[J].情報理論與實踐,2017,40(2):97-101.
[4]Azeroual O,Saake G,Abuosba M,et al.Text Data Mining and Data Quality Management for Research Information Systems in the Context of Open Data and Open Science[J].arXiv Preprint arXiv:1812.04298,2018.
[5]胡曉程.企業實施ERP系統數據質量管理研究[D].西安:西安科技大學,2011:2.
[6]Loshin D.數據質量改進實踐指南[M].曹建軍,江春,等譯.北京:國防工業出版.2016:124.
[7]張美芳.長期存儲的數字信息質量控制的研究[J].檔案學通訊,2011,(1):80-84.
[8]Merino J,Caballero I,Rivas B,et al.A Data Quality in Use Model for Big Data[J].Future Generation Computer Systems,2016,63:123-130.
[9]Heinrich B,Hristova D,Klier M,et al.Requirements for Data Quality Metrics[J].Journal of Data and Information Quality,2018,9(2):1-32.
[10]Ardagna D,Cappiello C,Sama W,et al.Context-aware Data Quality Assessment for Big Data[J].Future Generation Computer Systems,2018,89:548-562.
[11]Khushali Y D.Big Data Quality Modeling and Validation[D].CA:San Jose State University,2018.
[12]莫祖英.地市級政府公開信息質量評價實證研究[J].情報科學,2018,36(8):112-117.
[13]Meng X,Ci X.Big Data Management:Concepts,Techniques and Challenges[J].Journal of Computer Research & Development,2013:34.
[14]DAMA International.DAMA數據管理知識體系指南[M].馬歡,劉晨,譯.北京:清華大學出版社,2012:218-219.
[15]Lee Y W,Pipino L L,Funk J D,et al.Journey to Data Quality[M].Massachusetts Institute of Technology,2006:27-66.
[16]張濤.基于層次分析法的物流中心選址研究[D].武漢:武漢科技大學,2008:20.
(責任編輯:孫國雷)