
摘要:數據作為生產要素的作用日益凸顯,海量數據大規模爆發并自由流動,數據形態、數據成為要素的過程復雜多變。本文結合對生命周期理論的認識,從供需角度出發,分析數據如何實現形態和價值的演變,提出演化三階段,即采集、標注、清洗、脫敏脫密、標準化、傳輸、存儲、集合等數據供給階段,確權、登記、評估、定價、交易等數據流通階段,以及數據應用階段。其中,數據形態會經歷從原始數據到數據資源、數據資產,再到數據要素的變化。
關鍵詞:數據要素;數據全生命周期
引言
數字經濟時代,數據已成為重要戰略資源和關鍵生產要素,經過供給、流通、應用,形態發生變化,價值不斷放大。因此,有必要基于生命周期理論,理清各環節的數據演變流程及形態,貫通數據流通通道,剖析難點與解決方案,為打通數據鏈條提供參考和啟示。
1. 數據生命周期全景
結合生命周期理論,從供需角度出發,數據通過“供給-流通-應用”三個階段,會經歷從原始數據到數據資源,再到數據資產,最后到數據要素的形態變化。首先,數據供給階段包括采集、整理、聚合,此時數據為原始狀態,呈現無序混亂、無直接價值的特點;其次,經過確權、登記、評估等環節后,數據完成資源化,成為有序、有潛在價值的數據資源;再次,數據作為“商品”,經過定價、交易、交付和清結算后,完成數據流通,成為有商業價值的數據資產;最后,將數據應用到實際場景,在社會生產活動中釋放生產價值,數據完成要素化。此外,數據銷毀是數據生命周期的最后一公里,是指設備在棄置、轉售或捐贈前,將所有數據徹底刪除,并無法復原的過程,一般通過覆寫法、消磁法、刪除、硬盤格式化、文件粉碎等方法進行銷毀,避免數據泄露風險。數據生命周期及形態演變如圖1所示。
2. 數據供給環節
高質量數據供給是數據要素價值釋放的源泉,“采集→標注→清洗→脫敏脫密→標準化→傳輸→存儲→集合”等暢通的數據供給通道,是高質量、大規模、多樣性數據供給的前提。
2.1 數據采集環節
數據采集是將各種信息傳感設備通過網絡連接起來,實現任何時間、地點、人、機、物等信息互聯互通的過程,其中涉及數據的分級分類。從分類看,美國將數據分為公共數據、非公共數據,歐盟將數據分為個人數據、非個人數據;2022年,《中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見》[1](以下簡稱“數據二十條”)對外發布,提出建立公共數據、企業數據、個人數據的分類分級確權授權制度,確定了我國數據的分類制度。從分級看,美國將數據分為國家安全信息、非涉密的敏感數據、開放數據三級,歐盟將個人數據分為普通數據、特殊數據和敏感數據三級;我國則根據《網絡安全標準實踐指南——網絡數據分類分級指引》[2],將數據分為一般、重要、核心三級。此外,工業、證券、金融、信息技術等行業基于數據安全,貴州、重慶、上海等地基于本地需求,分別制定了數據分類分級指南。
2.2 數據標注環節
數據標注是通過分類、拉框、注釋、描點等方式,將圖片、語音、視頻、文本等轉換成機器可識別信息的過程。目前,數據標注逐漸形成了完整產業鏈,并在和田、平頂山、菏澤鄄城等地形成了“數據標注村”,數據標注員被稱為“AI民工”[3],這反映出數據標注產業面臨的人力成本高、專業程度低、安全風險等問題。2024年,國家數據局公布成都、沈陽、合肥、長沙、海口、保定、大同7個城市為全國首批數據標注基地建設試點[4],這表明隨著數據標注復雜而精細需求的激增,其正由單純靠人工的粗放式發展向規范化方向發展。
2.3 數據清洗環節
數據清洗是將“臟數據”轉換為滿足要求的數據的過程,具體來看,需經過抽取清洗對象、定義清洗規則、標識錯誤數據、修正處理數據、數據轉換檢驗、評估清洗結果等步驟,將不一致、重復、不準確、缺失、不相關、無意義的數據進行清洗。該環節是數據可用的保障,當前已實現數據自動清洗。例如,三維天地公司搭建了數據清洗平臺,構建了不同主題模型的主數據信息庫,通過建立映射與匹配關系、語義定義與識別、數據批量操作等,實現在線數據清洗。
2.4 數據脫敏脫密環節
數據脫敏脫密又稱數據漂白、數據去隱私化,指對敏感信息通過脫敏規則進行數據變形,從而保護敏感隱私數據。從技術上看,分為兩種方式,其中,靜態脫敏更關注保真性,通過ELT技術對完整數據集進行大批量、一次性的整體脫敏,適用于開發測試、數據分析等場景;動態脫敏更關注安全性,采用中間件技術對外部申請訪問的敏感數據進行實時脫敏處理,適用于業務脫敏、運維脫敏等場景。
2.5 數據標準化環節
數據標準化是將多源異構數據轉化為機器可理解的結構化數據的過程,目的是將不同結構或來源的數據集合在一起,使數據間實現可比較和可統計。一般來說,分為基礎類、指標類數據標準。以基礎類數據標準為例,標準化過程分為三步,首先是編碼標準,即用于定義和規定特定領域內數據的表達方式,包括字符集、編碼方案、數據格式等;其次是命名標準,簡單理解是給數據起一個有意義、易理解的名稱;最后是數據元標準,表示數據元素的最小單位,用于描述數據含義。
2.6 數據傳輸環節
數據傳輸是指數據實現跨設備或系統傳輸的過程,也稱為數據通信,一般分為有線傳輸、無線傳輸和云存儲。數據傳輸技術正朝多方向發展,量子通信、光通信、納米通信等將是主要方向。其中,光通信由將電信號轉換成光信號的“發送機”、將光信號再轉化為電信號的“接收機”、傳輸光的回路“光纖”構成,以通信容量大、保密性能好和高速率等優勢,正成為數據傳輸的主流。
2.7 數據存儲環節
不同類型數據采用不同存儲介質,如讀取頻率大、讀取速度要求高的熱數據,以動態隨機訪問存儲器為主、存儲級內存為輔,在邊緣計算、機器人、自動駕駛等領域應用廣泛;讀取頻率一般、要求大容量的溫數據,多存儲在機械磁盤中,性能一般但價格便宜;讀取頻率低的冷數據,多存儲在磁帶、光盤中,單位存儲空間價格低、可靠性高,如歷史文獻、檔案數據多以此為主。隨著數據爆發,有存算分離、數據即應用等功能的云端數據中心逐漸成為主流。
2.8 數據集合環節
數據集合是實現數據互聯互通、開放共享的業務形態,主要分為三類集合載體。其中,數據庫多存儲結構化、當下數據,具有冗余小、成本低等優勢,但無法滿足海量數據的存儲需求;數據倉庫多存儲歷史數據,能解決結構復雜、大規模查詢困難等問題,具有數據量大、安全性高等優勢,但成本高、靈活性低;數據湖存儲多源異構的海量原始數據,具有分析、挖掘、共享、加密等多重功能,數據豐富、靈活度高,但數據質量一般、成本高。“湖倉一體”能滿足所有業務需求,可減少維護成本和時間,但可擴展性不足、管理成本高。
3. 數據流通環節
從經濟發展看,數據被定義為“要素”,而非“資源”,關鍵在于資源是客觀存在的,而要素多為后天形成,其作用是促進資源的優化配置和高效利用,即需方購買生產要素不是直接用于消費,而是將其投入生產,產生產品或服務,進而創造價值。數據具有非物質、強流動、可交易等特點,其價值并非存儲在介質中的價值,而是進入市場后,憑數據產品、服務或解決方案等衍生物賦能經濟發展。因此,數據可以作為“要素”參與經濟發展,且結合馬克思商品流通理論,本文認為數據流通只有經歷確權、登記、評估、定價、交易等環節,作為商品的數據才能實現其價值和交換價值。
3.1 數據確權環節
數據確權是明確權利主體和內容、調整各方關于數據利益關系的過程,平衡數據各方利益是其核心。從權益配置構成看,包括兩方面,一是配置權益主體,即數據承載的權益由誰享有;二是配置權益內容,即權力和利益,核心是基于數據而產生的價值與效益。我國經歷了數據“兩權”到“三權”分置的過程。2021年,《國家發展改革委等部門關于推動平臺經濟規范健康持續發展的若干意見》[5]提出試點探索數據所有權與使用權分離的資源共享新模式,初步解決了數據流通的確權難題,但一味強調所有權不利于數據流通。2022年,“數據二十條”提出建立數據資源持有權、數據加工使用權、數據產品經營權等分置的產權運行機制,淡化了“所有權”概念,進一步完善了數據流通的動態權益配置體系,其中,數據資源持有權明確了“相對占有”而非“絕對占有”的概念。
3.2 數據登記環節
從流程上看,數據登記是登記者基于特定登記目的,就某一登記對象向登記機構提出登記申請,登記機構根據登記制度開展登記審查后,將登記對象記載于登記載體中,并取得登記憑證、產生登記效力的過程。從發展階段看,我國很早就開始了數據登記相關探索。1990年,國家標準《數據處理轉義序列的登記規程》[6]規定了申請字符集登記需進行的流程;2016年,《“十三五”國家信息化規劃》[7]首次在國家正式文件中提出完善數據資產登記制度,標志著我國數字資產登記進入起步期。此外,我國部分地區通過成立數字資產登記服務機構、出臺登記辦法、打造登記平臺、研制登記標準等舉措,紛紛開展數據登記工作的探索實踐。
3.3 數據評估環節
《數據資產評估指導意見》[8]指出,數據資產評估是資產評估機構及其資產評估專業人員遵守法律、行政法規和資產評估準則,根據委托對評估基準日特定目的下的數據資產價值進行評定和估算,并出具資產評估報告的專業服務行為。從評估對象看,重點評估數字資產的信息屬性、法律屬性、價值屬性,以及數據資產的內在價值、成本價值、經濟價值和市場價值。從評估實踐看,《企業數據資源相關會計處理暫行規定》[9]明確了數據資源的確認范圍和會計處理適用準則。
3.4 數據定價環節
數據定價指依據數據質量、成本、應用評價結果,使用相應方法對數據進行量化估值,目的是將數據價值轉化為可量化的貨幣金額,以實現數據在市場的流通。當前,成本法、收益法和市場法是三大主流方法,但因數據具有非排他性、非競爭性、非損耗性等特征,使用三大方法進行數據定價時均面臨一定的難度。為精準捕捉數據的實際價值,貴陽大數據交易所自主研發了全國首個數據產品交易價格計算器,綜合考量數據成本、質量、隱私含量等因素,建立了“數據資產價值=數據資產開發價值×價值貢獻因子×多場景增速因子”的數據估價模型,計算數據產品價格,為數據交易雙方議價提供參考[10]。
3.5 數據交易環節
除數據開放、共享外,數據交易是數據流通的重要形式之一,指以數據為商品,進行定價、流通和買賣的行為,是供需雙方對數據權益進行價值交換的過程,傳統交易模式包括直售、交易商市場、經紀人市場和拍賣市場四類。我國市場交易體系處于成長期,其中,一級市場是對多端數據資源的使用權進行授權、轉讓的市場,匯聚了以數據集或數據接口為主的數據資源;二級市場也叫數據產品交易市場,是對數據資源進行脫敏和算法模型化后形成的標準數據產品進行交易的市場;此外,還存在“場外市場”,主要進行數據融資、信托、發債等數據資本化活動。
4. 數據應用環節
數字經濟時代,場景驅動成為新的創新范式,強調技術創新與市場需求的緊密結合。在場景驅動范式下,不同場景所使用的數據類型、參與主體、面臨的問題均有所差異,需結合具體應用需求,通過場景需求凝練、場景創新、解決方案供給、場景構建等過程,推動數據在場景中的應用與價值釋放。不同場景側重點各異,公共場景下,關鍵是打破“政-企-民”間的信息孤島和數據分割;產業場景下,重點在于盤活數據資源,以及如何使用數據切實解決產業痛點;企業場景下,核心是用數據賦能企業業務增長和組織運行;用戶場景下,難點在于數據隱私保護。根據《數據要素賦能新質生產力——數據要素場景創新發展報告(2024)》[11],高價值數據要素場景要滿足技術成熟度、組織統籌度、行業效益度和數據應用度“四度”特征,當前人工智能、金融服務、工業制造、惠民服務、社會治理、交通運輸、雙碳管理和農業生產等“行業八景”正成為應用場景牽引下的數據開發利用活躍領域。
5. 問題及建議
我國數據要素市場規模不斷擴大,數據“供給-流通-應用”主體日漸豐富,海量數據和應用場景集聚優勢亟待釋放。在供給環節,高質量數據供給不足,呈現政府數據多、企業數據少的形勢,政府掌握約80%的數據,但主要供內部使用,數據利用率不高。此外,《全國數據資源調查報告(2023年)》[12]顯示,2023年,我國數據存儲總量為1.73ZB,其中一年未使用的數據約占四成,數據產品成交率為17.9%,真正成為生產要素的數據資源占比不高。在流通環節,確權難、定價難、互信難,導致數據流通難,容易產生數據孤島、數據壟斷現象。據統計,2022年我國數據要素市場中數據流通環節市場規模占比為15%[13],全國43個交易平臺有10家處于停運狀態,11家處于擬建狀態,約2/3的交易平臺未正常運轉[14],可見數據交易市場仍未成熟。在應用環節,兩類問題較嚴重,例如,醫療數據由于敏感性和隱私保護要求,應用廣度和深度被嚴格限制,導致“有數無市”;制造領域多以供給原始數據為主,缺少個性化定制的數據資源,無法有效滿足市場需求,導致“有市無數”。
綜合以上分析,建議圍繞數據生命周期,以需求為牽引,通過強底座、攻技術、建場景和優環境,推動數據強供給、暢流通和深應用,充分釋放數據要素價值。首先,強化數字底座支撐,構建數字基礎設施體系,完善以5G、衛星互聯網等為主的數據傳輸設施,以智算、超算為主的數據處理設施,以及以區塊鏈、高速數據網等為支撐的數據流通利用設施,提供安全可信的基礎設施載體。其次,加強技術融合創新,全面梳理制約數據開發利用的關鍵核心技術,引導產學研用各界聯合開展技術攻關,推進“5G+”“工業互聯網+”“區塊鏈+”等技術跨界融合應用,探索開發基于數據要素的新產品和新服務。再次,打造典型應用場景,數據應用終究會落到實際場景中,政府和企業要加強應用場景的整體規劃研究,釋放場景市場機會,創新場景運營模式,調動各方力量加強場景建設與產業發展、企業經營的聯動。最后,優化數據發展環境,研制數據流通規則、標準和指南,探索更完善的數據要素確權、評估和定價體系,深化數據空間、數據沙箱等技術應用,增強數據利用可信、可控和可計量能力。
結語
綜合來看,數據全生命周期各階段面臨的價值點、問題點和策略點呈現顯著差異,只有結合數據要素實際應用場景,聯合政、產、學、研、用各界,共同開展創新與應用實踐,才能更強有力地疏通數據要素流通通道,釋放數據要素乘數效應,為經濟社會發展注入新動力。
參考文獻:
[1]中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見[EB/OL].(2022-12-19)[2024-09-18].https://www.gov.cn/zhengce/2022-12/19/content_5732695.htm.
[2]全國信息安全標準化技術委員會秘書處.關于發布《網絡安全標準實踐指南——網絡數據分類分級指引》的通知(信安秘字〔2021〕173號)[A/OL].(2021-12-31)[2024-09-18].https://www.tc260.org.cn/front/postDetail.html?id=20211231160823.
[3]國信證券.數字經濟專題報告數字浪潮下的主題投資機遇[EB/OL].(2022-05-25)[2024-09-18].https://max.book118.com/html/2022/0527/8044031017004104.shtm.
[4]嚴賦憬.7個城市承擔數據標注基地建設任務[EB/OL].(2024-06-08)[2024-09-18].https://www.gov.cn/lianbo/bumen/202406/content_6956334.htm.
[5]國家發展改革委,市場監管總局,中央網信辦,等.國家發展改革委等部門關于推動平臺經濟規范健康持續發展的若干意見(發改高技〔2021〕1872號)[A/OL].(2022-01-18)[2024-09-18].https://www.ndrc.gov.cn/xwdt/tzgg/202201/t20220119_1312327_ext.html.
[6]全國信息技術標準化技術委員會.數據處理 轉義序列的登記規程:GB/T 12054-1989[S].北京:中國標準出版社,1990.
[7]國務院關于印發“十三五”國家信息化規劃的通知(國發〔2016〕73號)[A/OL].(2016-12-27)[2024-09-18].https://www.gov.cn/zhengce/content/2016-12/27/content_5153411.htm.
[8]中國資產評估協會.中評協關于印發《數據資產評估指導意見》的通知(中評協〔2023〕17號)[A/OL].(2023-09-14)[2024-09-18].https://www.cas.org.cn/fgzd/pgzc/cd884ef9c8aa4c88adf1e12ecc7cc038.htm.
[9]財政部關于印發《企業數據資源相關會計處理暫行規定》的通知(財會〔2023〕11號)[A/OL].(2023-08-01)[2024-09-18].https://www.gov.cn/gongbao/2023/issue_10746/202310/content_6907744.html.
[10]潘偉杰,肖連春,詹睿,等.公共數據和企業數據估值與定價模式研究——基于數據產品交易價格計算器的貴州實踐探索[J].價格理論與實踐,2023(8):44-50.
[11]信息化與軟件產業研究所.賽迪聯合騰訊研究院等共同發布《數據要素賦能新質生產力——數據要素場景創新發展報告(2024)》[EB/OL].(2024-06-03)[2024-09-18].https://www.ccidgroup.com/info/1155/39849.htm.
[12]全國數據資源調查工作組.全國數據資源調查報告(2023年)[R/OL].(2024-06-20)[2024-09-18].https://www.sohu.com/a/787297273_120056153.
[13]工信部網絡安全產業發展中心,工信通(北京)信息技術有限公司.數據要素市場生態體系研究報告(2023年)[R/OL].(2024-02-24)[2024-09-14].https://www.sohu.com/a/759706102_468661.
[14]中國宏觀經濟論壇.數據要素市場建設:現狀、問題和建議[R/OL].(2024-04-12)[2024-09-14].http://ier.ruc.edu.cn/docs/2024-04/0e4c224693a34d41ade58abebcbc48b0.pdf.
作者簡介:通信作者:田美園,碩士研究生,工程師,1559235871@qq.com,研究方向:工業互聯網、區塊鏈、數據要素等領域的研究。