劉文立,陳士翀,劉文思,宣東海,江麗娜,沈子奇
(國家電網有限公司大數據中心,北京 100052)
數據是信息時代重要的基礎性戰略資源。數據要素如同農業時代的土地、勞動力,工業時代的技術、資本,成為推動數字經濟發展的關鍵生產要素。2022年1月,國務院印發《“十四五”數字經濟發展規劃》,提出要“加快構建數據要素市場規則”“鼓勵市場主體探索數據資產定價機制,推動形成數據資產目錄,逐步完善數據定價體系”。同年12月,中共中央、國務院印發《關于構建數據基礎制度更好發揮數據要素作用的意見》,提出建立“合規高效、場內外結合的數據要素流通和交易制度”等數據基礎制度。數據資產評估是明確數據定價機制,激發市場主體活力,規范市場發展,加快培育數據要素市場的重要基礎。
能源是國家的經濟和社會發展的重要物質基礎。隨著能源行業的快速發展和信息化水平的提高,海量的能源數據被不斷地產生和積累。能源數據產生于能源的生產、運輸和消費三大過程,呈現出種類繁多、生產主體多樣、變動周期差異等特點[1]。具體來講,從區域上可以將能源數據分為省市縣三級行政區域管理;從種類上可以將能源分為煤炭、石油、天然氣、電力等;從業務上可分為能源供應、能源運輸、能源消費、電力生產等方面。如何從海量的數據中發掘背后潛藏的信息,基于能源行業的數據特征,對能源數據進行科學、有效的評估和管理,進一步促進能源數據的要素化、資產化,是能源行業面臨的一個重要問題。
該文基于對數據資產評估方法的前期研究[2],通過開展能源行業數據資產的特征分析,將數據質量、數據成本、數據應用等因素引入數據評價方法設計環節,形成一套可應用、可復制的能源數據評價方法,并選取典型能源數據資產化典型場景開展應用實踐,可以為能源數據資產的價值評估提供重要支持和依據。
數據資產價值化路徑是數據要素領域國內外學者的關注重點之一[3-5]。通過對數據的分析,張馳[6]認為數據資產的價值由內在價值和外在價值構成,影響因素包括數據質量、數據規模、可訪問性、鮮活性、關聯性、使用效果、價值密度、數據類型多樣性、共享性、再生性;并形成五個維度(顆粒度、多維度、活性度、規模度、關聯度)對數據資產內在價值進行衡量。馬丹等[7]對國內數據資產核算發展面臨的問題做了三個基本方面的歸納:一是數據資產定義難以界定,核算邊界不清晰;二是數據資產的分類方式不統一;三是對數據資產核算方法的研究不完善,認為對數據資產核算方法的探討應區別于普通無形資產。數據價值化研究,與數據的本質特征密切相關。康旗等[8]分析其一般特征,認為大數據資產應屬于無形資產進行核算。阮詠華[9]基于財務視角,從數據資源的權屬、成本、價值出發,認為常見無形資產類別不能涵蓋所有的數據資產,應引入新的無形資產類別進行補充。劉琦等[10]認為大數據資產具有共享性、冗余性、用途多樣性、時效性、無損耗性的特點,屬于一種新型的無形資產,其價值與數據資產的取得成本、技術差異、價值密度差異、用途、類型等具體相關,并從其來源、主體的性質、所屬產業、產權主體等方面進行分類。李靜萍[11]認為由于數據資產具有特殊屬性(包括復制成本接近于零、非排他性、規模性和異質性等),數據生產成本遠低于數據內在價值,數據交易市場非常有限且未來收益不易估計,因此無形資產價值評估方法不適用于數據資產的價值核算。馬丹等[7]給出了數據資產的統計原則和統計邊界——包括時間原則、收益性原則、可交易性原則、質量原則,提出按照數據資產是否市場化對不同數據資產采用不同的估價模型。張馳[6]認為雖然大數據資產與無形資產有許多類似之處,但由于一些企業的數據資產價值龐大,且數據資產具有區別于無形資產的無限復制性等特征,無形資產科目可能并不能完整反映大數據資產的真實情況,建議大數據資產應區別于無形資產進行單獨核算。崔靜等[2]給出了數據評價與價值評估的基本框架及各過程的基本要求,劃分了數據評價與價值評估,提出了數據評價與價值評估方法,形成了數據評價與價值評估實施總體框架,其中數據評價主要包括質量要素、成本要素與應用要素的評價,價值評估主要包括收益法、成本法與市場法的估值。綜上所述,現有研究廣泛開展了對數據資產特有屬性以及評價影響因素的分析,但缺少行業維度的特征分析,缺少對核心因素或指標的量化計算。此外,開展基于既有標準以及實際數據產品的應用實踐,能夠為相關研究結論提供分析案例。
能源大數據主要包括煤炭、石油、電力、新能源、熱力、水等能源行業生產、運輸、運營和管理過程中產生的數據,以及宏觀經濟運行、生態環境、氣象等能源行業密切相關的數據[1]。能源大數據分類的研究,包括分類方法、分類維度和分類體系等方面。其中分類維度研究與提取能源大數據特征、開展能源大數據資產評價方法構建緊密相關。能源大數據分類首先可根據其業務應用維度,按照數據產生的來源,包括數據產生的主體和數據的權屬,進行分類。其核心分類要素包括能源生產消費環節、能源類型、業務類型等。按業務類型,能源數據劃分為基礎數據、運行數據、管理數據、雙碳數據、指標數據和其他數據[1]。由于能源大數據的業務類型與數據利用場景,即能源數據資產的價值輸出口,具有直接關聯性,在能源數據資產評價方法構建中,該文將基于業務場景開展能源大數據特征分析。此外,也需按照常規數據的特征維度,包括數據規模、數據類型、數據質量、安全級別等對能源大數據進行分類。通過對能源大數據開展準確的分類,有助于開展能源大數據的多維特征分析,在能源數據資產評價工作中確定評價對象和評價方法。
能源行業與工業生產、人民生活息息相關。能源大數據既是生產、生活狀態的反映,同時能夠提供決策依據。能源數據資產特征分析,主要從技術特征和經濟特征開展。從技術特征來看,能源數據資產作為數據資產評價對象,具有數據體量大、數據類型多、數據價值高等方面特征。例如,在數據價值方面,由于能源行業一般具有較長的產業鏈——例如一次能源的石油、煤炭以及二次能源的電力,更容易形成局部生態,通過上下游產業數據形成關聯,促進數據價值產生倍增效應[12];基于能源大數據中心等協作平臺,形成能源數據的跨域合作與整體綜合利用,則實現了數據價值的進一步提升[13-14]。從經濟特征來看,國內能源行業在股權和投資主體上,呈現國有資產占比高的特點,對于數據確權方面具有較高的影響。基于產權價值理論,能源數據資產的權屬,可包括所有權、使用權、收益權、轉讓權等。數據資產權屬一方面影響數據資產價值評估,另一方面影響數據資產的流通。數據資產價值評估是完成數據權屬確定之后開展的評定過程,數據資產本身所具有的價值的體現也表現在數據權屬明確之后的價值體現;數據流通之后帶來的數據責任、數據安全問題無法追溯到權屬主體,會降低數據資產的可流通性。此外,由于能源行業的特殊性質,對其生產、運營的安全性、穩定性要求嚴苛,其生產、消費等環節受到各類政策法規的嚴格監管,這對能源行業的數據安全合規使用提出了同等級別的要求,因此其經濟特征也包括數據監管嚴格。
基于能源數據資產在行業視角下的技術、經濟特征,分析得到與數據評價構建相關的關鍵影響因素。一是結合能源數據資產的價值、權屬以及監管特征,其數據價值與應用場景具有關聯性。上文將能源數據按業務類型進行了劃分,不同業務類型數據的應用場景有顯著區別。例如管理數據主要應用在服務企業管理現代化方面,運營數據則可以應用在構建客戶服務相關場景上[15-16]。從應用場景出發,能夠有效梳理能源數據資產的評估邊界,確認數據資產的生存周期各個環節,確認成本評價涉及的成本項。此外,能源行業與社會、經濟發展高度相關,相關企業履行社會責任要求較高。其數據資產價值輸出,除在安全可控前提下流入數據要素市場外,對于支撐政府決策、服務社會經濟發展有較多體現[17-18]。
因此,在能源數據資產應用評價方法構建中,應開展多維評價體系設計,既考慮既有經濟價值和社會價值,也考慮應用趨勢、應用風險等方面。二是基于能源數據資產在體量、類型的復雜度,其數據價值受數據質量影響程度高。數據質量是數據資產的基本屬性,也是現有數據評價方法中的薄弱環節。能源數據的規模化采集多伴隨原有生產、消費環節,采集成本相比各環節數據治理成本相對較小;此外,由于能源行業體量大,不同類型、不同企業的信息化水平以及數據治理能力都存在較大差異,這導致數據質量參差不齊,體現出將數據質量的量化評價納入能源數據資產評價的必要性。數據質量涵蓋維度較多,從應用場景出發,考慮能源數據業務中的數據質量規則,能夠提升基于數據質量開展價值評估的準確性。
數據資產評估可分為數據評價與數據價值評估。圖1是能源數據資產價值評估的全流程,主要包括前期評價范圍的確定,以及數據評價和價值評估兩個關鍵環節。該文探索開展能源數據評價方法的構建。基于能源數據資產體量大、價值多樣等數據特點,以及數據質量等能源數據價值影響因素的分析,構建多維度評價體系。相關評價結果為后續能源數據價值評估環節的方法選擇,以及相關價值影響因素的量化提供參考和依據。

圖1 數據資產價值評估流程
能源數據成本評價,由數據評價人員通過對能源數據資產本身的表現形式,如數據集、數據產品等,從產生到評估基準日過程中涉及的各類成本項的歸集,進行評價實施。能源數據成本項主要包括前期費用、建設成本、運維成本和間接成本等。基于能源數據應用場景,從數據資產生存周期管理的視角,對數據采集、數據匯聚、數據存儲、數據開發、數據維護、數據安全等生存周期內發生的成本進行清查,見圖2。成本要素所涉及相關數據獲取方式包括現場調查、要求委評方提供、各類專項訪談等。獲取的數據包括但不限于成本憑證等資料,并根據數據資產生存周期中發生的合理成本進行歸集,甄別成本的合理性及完整性。

圖2 數據成本評價項
能源數據應用評價通過對數據的衍生應用場景及應用成效的多維分析,進行評價實施。評價維度主要包括數據資產使用范圍、使用場景、商業模式、供求關系、數據關聯性以及應用風險等,見圖3。應用要素所涉及相關數據采集方式為現場調查、要求委評方提供、進行高管訪談及各類專項訪談等。主要步驟包括:分析數據資產的使用范圍,現場訪談待估數據資產可以應用的行業、領域和區域;了解數據資產的具體應用場景、盈利模式,若已形成收益可收集相關合同等資料;從供求角度了解數據資產的稀缺性,可以通過訪談以及市場相關的支撐資料分析數據資產的稀缺性;數據關聯性上,重點通過訪談及實地勘察了解數據與用戶之間邏輯關聯匹配的程度、收益模式、數據和業務應用實現之間的關聯匹配等;在風險因素上,通過訪談及查閱評估對象的相關資料了解評估對象在管理、流通、數據安全等方面的具體制度和采取的措施。

圖3 數據應用評價收集項
數據成本與應用評價的主要目的是針對數據資產的數據本身進行所涉及成本的歸集與拆分,并分析數據的成本因素和可應用市場,是進一步應用成本法或收益法對數據進行估值的前提條件。
從能源數據資產的特征分析可知,數據質量是數據價值的重要影響因素之一。在數據生存周期各環節,應用提升數據質量的相關舉措,會增加應用成本法的數據資產的成本項目,提高數據資產成本。同時,數據質量的提高同步提升數據的價值。因此,基于收益法開展數據資產價值評估時,同樣需合理利用數據質量評價的結果。數據質量評價是能源數據資產評估的一個重要環節,是針對數據本身的質量情況,通過相關方法計算得出分數。該文參照國家標準GB/T 36344-2018《信息技術 數據質量評價指標》[19]選取評價指標,對能源數據按照準確性、一致性、完整性、規范性、合理性等五個方面進行評價,并且根據能源數據高關聯性的特點,創新性地提出合理性評價維度,構建二級指標對數據質量水平進行計算評定。并構建了數據資產價值發揮度與數據質量之間的聯系函數。此外在評價過程中,本研究基于參數估計算法思路,設計了一種依據質量評價誤差率計算所需最少數據樣本量的方法。數據質量評價流程如圖4所示。

圖4 數據質量評價流程
3.3.1 數據質量的價值聯系函數
將數據質量對數據資產的價值發揮程度,定義為一個[0,1]區間的量。其中,取值為0時表示數據質量過差導致無法發揮數據價值;取值為1時表示數據質量極高,能夠發揮全部價值。考慮數據質量影響具備非線性特征——質量未達到一定水平時,其價值發揮能力都近似于0,以廣泛應用于信息科學、控制科學等領域建模的Sigmoid函數[20-22]作為數據價值發揮度與數據質量之間的聯系函數,對數據質量評價結果進行應用。令能源數據資產真實價值為yr,數據資產名義價值為yf,發揮度為t,數據質量為x,0 yr=yf*t,t=1/(1+e-(x-k)/10) (1) 3.3.2 數據質量評價范圍確定及抽樣方法 數據資產評估工作組依據對待評估對象的調研情況,確定評價的業務范圍和數據范圍。當待評價業務涉及數據總量過大時,采取數據抽樣方法,提高評估可行性和執行效率。常見的抽樣方法有隨機抽樣、分層抽樣、系統抽樣、整群抽樣等。抽樣方法的選取及抽樣樣本量的確定,需參考業務性質、國家標準、行業標準等,結合具體情況,根據要求的評價誤差進行設計。 數據質量評價的指標雖然各有不同,其本質均是對符合指標規則的數據占總體的比例進行計算。因此,該文基于總體比例參數估計原理,構建抽樣樣本量估計算法。計算公式定義如式2: (2) 其中,n為達到誤差率所需要的最少樣本量,zα/2為正態分布α/2顯著性水平下的分位數,π為總體的比例,通常取使π(1-π)最大時的0.5,E為估計誤差,由評價要求的誤差率決定。分析可知,要求誤差率越小,其所需的樣本量越高,同時開展質量評價所需耗費的資源也就越多。例如,當取顯著性水平為0.025,估計誤差不超過1%時,經計算,為達到要求的誤差率,所需的樣本量至少為10 000;同樣顯著性水平下,估計誤差不超過0.1%時,所需的樣本量至少為1 000 000。因此,根據實際需要,合理設定誤差率。最后,根據設計好的抽樣方法和樣本量從待評價的總體數據中抽取數據質量評價樣本。 3.3.3 質量評價指標體系構建方法及得分計算 該文參照國家標準GB/T 36344-2018《信息技術 數據質量評價指標》,針對能源數據,引入準確性、一致性、完整性、規范性、合理性等五項數據質量評價維度;其次,結合能源數據特點,引入合理性并定義相關評價規則,建立數據質量評價體系。合理性指標,即業務合理性,是指能源數據符合業務邏輯的程度。由于數據在采集、傳輸過程中存在發生異常情況的可能性,將會導致部分數據損失業務合理性,使其失去直接應用的能力。量化為數據字段值符合業務邏輯的記錄條數與總記錄條數之比、出現邏輯異常的字段數與總字段數之比。得到如式3所示的能源數據質量評價模型: Q=α1*G+α2*W+α3*Z+α4*Y+α5*S (3) 基于上文構建的能源數據資產評價方法,該文選取能源電力行業某居民用電業務場景作為典型能源數據資產評價場景開展應用實踐。該場景基于住戶日常用電數據的處理分析,構建算法模型,對常住、非常住等不同居家狀態進行識別,并向相關政府部門等需求方提供數據服務。涉及數據資產內容包括用戶分類、用戶狀態、電能表標識、電能示值等。該數據資產涉及的數據采集、收集、整理成本由相關企業承擔,數據的使用符合有關法律法規規定。該文從數據質量評價、數據成本評價、數據應用評價實施電力能源數據評價。 4.1.1 確定評價數據范圍 進入數據評價環境。分析選定場景涉及數據總量及特征,按地域、時間維度設計抽樣數量及抽樣規則:隨機選取北京、浙江、黑龍江、陜西為抽樣對象,分別隨機抽取10 000個用戶編號為抽樣點;選定時間周期為1個月,并與抽樣省份隨機組合。選定數據資產應用場景共涉及數據表4張,數據字段76個,記錄總量1 344 206條,數據元素總量共計25 539 914個。經篩選,實施評價的字段共計48個,評價字段覆蓋率為63.16%。 4.1.2 建立數據質量評價體系及評價規則 基于國家標準,根據實際數據情況,從業務場景下數據質量關注角度出發,將準確性、一致性、完整性、規范性、合理性作為數據質量評價的5個備選維度。其中,由于數據不存在同一元素在不同表間存儲不一致的問題,故一致性指標不選取;規范性主要根據數據屬性中不同字段的格式問題,其內二級指標元數據、值域、安全等的合規率受限于數據使用者在流通中、交易過程中的具體要求,所以在質量評價過程中暫不進行評價。最終選取的一級指標包括準確性、完整性、規范性和合理性,二級指標包括準確性中的內容準確率、精度準確率,完整性中的元素填充率,規范性中的格式合規率,合理性中的數據有向性。評價體系如表1所示。選取層次分析法,協同該業務場景技術專家,分析并計算各指標權重系數。 表1 數據質量評價指標 選取數據質量規則庫中5個規則標準,包括國家標準GB/T 7408-2005《數據元和交換格式信息交換 日期和時間表示法》[23],GB/T 4754-2017《國民經濟行業分類》[24],行業內部標準計量點狀態、分類代碼,企業業務標準及常識性標準。詳見表2。 表2 數據質量評價規則來源 4.1.3 計算數據質量評價得分 按照3.3節數據質量評價方法進行計算,根據以上規則細化分析存在數據記錄變化異常等問題,得到該能源場景相關數據質量評價的整體得分為99.35,為數據價值評估提供重要的質量權重參考依據。 該能源數據資產對應數據成本相關的數據采集部分,因涉及數據為原業務的系統已有數據,不涉及新增額外的數據采集步驟,故不包括在數據總體成本中。數據資產成本主要涉及數據匯聚成本、存儲開發成本、運維成本及其它間接成本,包括用戶智能終端數據采集、數據中臺數據匯聚,基礎數據存儲、管理、安全防護等,以及應用場景下對數據的二次加工、處理、清洗、建模、計算,對相關數據的定期維護過程。對該能源數據資產的成本評價,將明確該數據資產所涉及的各類成本項的范圍劃定,為開展以成本法為核心的數據價值評估提供參考。 通過對該能源數據資產應用場景對應的產品資料的分析,該大數據場景現階段主要面向政府用戶,對包括公安、住建、民政等多個政府部門形成服務能力。通過能源數據建模分析方式,支撐政府施政,節約政府行政成本,體現了較高的社會價值。而由于數據稀缺度極高,雖然目前在經濟市場上尚未具備明確收益,未來具有較大的市場空間。通過對該能源數據應用分析,由于缺少明確的收益,可從節約政府行政成本、提升企業業務運行效率等方面進行收益范圍劃定,為開展以收益法為核心的數據價值評估提供參考。 該文研究構建了一種用于支持能源數據資產價值評估的數據評價方法,提出將數據質量、成本、應用作為數據資產價值化的關鍵影響因素,并通過能源數據質量的價值聯系函數進行量化分析。實踐結果證明,該方法能夠對能源數據資產在相關應用場景下進行有效評價。財政部于2023年8月21日正式對外發布《企業數據資源相關會計處理暫行規定》,這對能源數據的價值評估提出了更高要求。 基于數據的技術特征——例如數據質量、信息含量、隱私含量,業務特征——例如應用場景、商業模式,提取數據資產價值分析中的可量化維度進行建模,能夠有效提升開展價值評估的科學性、準確性和可操作性。在后續工作中,通過深入應用實踐,進一步構建能源數據質量指標體系,完善價值聯系函數計算分析,擴展基于能源數據特征的評價維度,為后續能源數據資產價值評估相關標準的制定提供參考。
4 能源數據評價應用實踐
4.1 數據質量評價


4.2 數據成本評價
4.3 數據應用評價
5 結束語