摘 要:“數據二十條”在表述數據產權“三權分置”時分別使用了“數據資源”“數據”“數據產品”三項表達來稱謂“三權”的客體,從政策上肯認并確立了數據產權的客體對象。從法律視角審視,前述三項政策表達仍需經由學理闡釋來論證其在法律上的定位及其相互關系,使之成為具有規范性的法律表達。“三權分置”路徑下,“數據”的核心特征應包括信息屬性、物理屬性和集合屬性,并在數據生產和流通使用的“價值鏈”上延展形成“數據資源”—“數據集合”—“數據產品”的類型層級。在分級分類構建原則下,作為產權客體的“數據”還可在橫向上形成以公共數據與企業數據為一級子類型、公用/ 私用公共數據與公開/ 不公開企業數據為二級子類型的類型譜系。由此,便可在“三權分置”路徑下闡明作為產權客體的數據的規范屬性與類型譜系,為數據產權“三權分置”的法律化奠定基礎和前提。
關鍵詞:數據產權 數據要素 三權分置 客體類型
一、問題的提出
《中共中央、國務院關于構建數據基礎制度更好發揮數據要素作用的意見》(以下簡稱“數據二十條”)明確提出要“建立保障權益、合規使用的數據產權制度”“逐步形成具有中國特色的數據產權制度體系”,并從宏觀政策上創造性地提出了構建“數據資源持有權、數據加工使用權、數據產品經營權”“三權分置”的產權結構體系,為數據產權制度化法律化提供了政策依據。
在表述數據產權“三權分置”的名稱時,“數據二十條”依次使用了“數據資源”“數據”“數據產品”三種表述,使之分別作為“持有權”“加工使用權”“經營權”三權的客體。從法律維度審視,盡管《民法典》《個人信息保護法》《數據安全法》等均明確規定了“數據受法律保護”,甚至定義了何為“數據”,但多數研究反思認為,當前法律文本和學術討論中的“數據”概念界定和使用上存在亂象和困局。進而,有關研究試圖在對數據相關概念辨析的基礎上厘清“數據”概念的涵義。①然而,這些研究所形成的關于“數據”的定義、特征、屬性等的認識仍然各有不同甚至完全對立。“數據”概念的共識形成難題,亦導致在“數據二十條”出臺后,仍有研究基于數據不同于實體物的獨特屬性認為數據無法確權,而只能采取行為規制模式。②與此同時,“數據資源”“數據產品”的政策表達尚未經由法理闡釋和法律構建上升為正式的法律規范術語,需進一步論證其在法律上的定位及其相互關系。因此,當我們仔細考究和再次追問:法律保護數據或確認數據產權的時候,究竟在保護或確認什么?可以看到,這一問題尚未得到充分解決和澄清。
因此,有必要以法律思維和視角闡明數據產權“三權分置”路徑下作為客體的“數據”的應然法律屬性和類型譜系,建構作為產權客體存在的法律上的“數據”,使之成為建構數據產權“三權分置”結構的基礎和前提。
二、“數據”作為產權客體的分歧彌合
理論上對數據能否作為產權客體的爭議,具體表現為從民法上權利客體特別是物權客體所要求的獨立性、特定性出發來論證數據能否作為財產權客體存在,并在數據是否具備客體性、數據是否具有財產性、數據是否具有排他性這三個層面展開論辯。
第一,就數據是否具有客體性,反對觀點認為數據缺乏民事客體須有特定性和獨立性這一基本要求,不構成“無形物”,與民法客體的實體權利表彰功能不相契合,因此不能作為民事權利客體存在。③而更多的觀點則認為,數據可以作為民事權利的客體,并從法律價值選擇、數據文件與內容區分等方面進行論證。④
第二,就數據是否具有財產性,有觀點認為數據依賴于載體、代碼和其他諸種要素才能發揮作用,本身并不產生商業價值,因而不具有財產性。⑤相反,大部分觀點則認同數據具有財產性,認為應認識到數據的財產屬性,通過賦予數據以財產權的方式,來強化數據本身經濟驅動的功能,以打破傳統法律思維之下依據單純隱私或信息絕對化過度保護用戶而限制、阻礙數據收集、流通等活動的僵化格局。例如,鄭佳寧教授基于先占理論、勞動報酬理論、功利主義理論證成了數據信息的財產性。⑥李愛君教授則基于數據交易實踐,認為數據因具備交換價值而具有財產性。⑦
第三,就數據是否具有排他性,理論上普遍認為數據具有非競爭性和非排他性,一人對數據的使用,不會影響其他人對該數據的使用,數據不會因為多人的使用而存在差別。因此,數據之上無法成立排他性的權利。⑧反對觀點則認為,數據是一種排他性的資源,當數據規模足夠龐大、內容足夠復雜和廣泛時,數據生產要素就表現出高度的排他性。實踐中,數據公司可能會將一些數據整理、編制起來形成數據集和數據庫,并根據某些條款向第三方出售訪問和使用許可,利用排他性獲得收入。⑨此外,還有觀點認為數據具有有限排他性,認為應對大數據集合提供有限排他權保護,以此保障權利強度的適中,從而使數據財產權成為一項相對的排他權。⑩
上述爭議經過持續不斷演化,在當前數據產權構建問題上形成了無法回避的兩個前置性問題:其一,數據具有的非排他性和非競爭性是否是影響甚至決定數據產權建構的根本原因?其二,個人信息數據是否具有財產性,以及確權能否合理解決個人信息數據財產利益的分配問題?這兩個問題直接關乎數據是否應當確權的問題,即在數據法律保護的模式選擇問題上,究竟是采取賦權模式還是行為規制模式。
整體而言,前述基于數據非排他性特征而否認數據產權的觀點存在兩條論證脈絡:(1)基于數據的易復制性、非消耗性、可重用性等技術特征認為數據具有使用上的非排他性和非競爭性,進而認為應將數據視為公共產品,采取行為規制而非確認權利的路徑對數據法律關系予以調整。其論證邏輯為“數據具有非排他性和非競爭性—數據應作為公共產品—公共產品上不應設置私有產權—數據不應確權”。(2)基于數據與信息之間的關系,認為數據作為信息的載體應與信息一樣具有公共性,應作為公共產品。這決定了在數據的獲取和利用上應遵循共享、互惠和開放的理念,而排他性的產權制度設計將阻礙和違背這一理念的實現。其論證邏輯為“數據是公共產品—公共產品具有非排他性和非競爭性—產權具有排他性—數據不應確權”。
盡管上述兩種論證邏輯存在不同,但本質上均將數據的非排他性與非競爭性以及由此而衍生的數據的公共性作為論證的前提。因此,解決數據排他性與數據產權之間沖突的關鍵乃是在厘清經濟學上非排他性與公共產品之間關系的基礎上,進一步論證數據在使用上的非排他性與非競爭性是否構成反對數據確權的理由。
從淵源上看,數據的非競爭性與非排他性來源于制度經濟學上的公共產品理論。薩繆爾森認為,公共產品是指每個人對這種產品的消費都不會導致其他人對該產品消費的減少,因而具有消費的非競爭性和非排他性。?所謂消費的非排他性,是指公共產品在技術上不易排除眾多的受益人,或者即使可以實現排他,但因成本巨大而不得采用;所謂消費的非競爭性,則是指一個人的消費不會減少其他人的消費,其邊際成本幾乎為零。?在公共產品與非排他性和非競爭性的關系上,經濟學家們認為并非是一種產品具備了“非競爭性與非排他性”才成為公共產品,相反,而是在對公共產品的共同特征進行總結和抽象后才得出公共產品普遍具有“非競爭性與非排他性”的特點。因此,非排他性與非競爭性并非自然存在的,而是經由人類理性建構出來的。就排他性而言,這一特性的出現,是由于特定歷史時期全體社會成員需要一種滿足共同需要的非排他的產品,于是就在公共產品的提供和設計上避開了排他這一原則。就競爭性而言,由于很多公共產品是政府為克服市場失靈而主動且大量提供的,使得公共產品因數量和規模巨大而產生了每增加一名消費者其邊際成本可忽略不計的非競爭性特征。由此可見,非競爭性和非排他性是市場經濟條件下公共產品的技術性特征,是公共產品存在的階段性條件。真正決定公共產品屬性的,是基于個人判斷基礎上的整個國家和社會達成的共識。?而非排他性與非競爭性,則是在確立某一物品為公共物品的前提下才具有的特性。簡言之,是某項物品的公共性決定了其非排他性和非競爭性,而非相反。因此,前述認為數據具有非競爭性和非排他性,進而將其視為公共物品的觀點顯然在邏輯上顛倒了二者之間決定與被決定的關系。
退一步而言,即使承認數據的非排他性與非競爭性,也不能直接推導出數據之上無法成立排他性的財產權這一結論。在法律中,許多權利客體均具有非排他性和非競爭性,但其上均設立了具有排他性的權利。典型的諸如自然資源國家所有權、取水權以及知識產權等。此外,以“數據二十條”所載內容來看,其對作為產權客體的數據至少存在“數據”“數據要素”“數據資源”“數據產品”等多種表述。其中,經由企業深度加工形成的“數據產品”因與原始數據和用戶信息無直接對應關系,實務和學說上均認可企業對其享有獨立的排他性財產權,或主張以知識產權模式予以保護,或主張以新型財產權的方式予以調整。?由此可以得出,即使作為客體的數據具有非排他性和非競爭性,也并不影響在其上成立排他性的財產權。而那種因數據具有非競爭性和非排他性而否認數據上可成立排他性財產權的觀點,混淆了權利客體與權利本身在性質上的差異性,忽略了自然意義上數據的特性與法律意義上數據權利的特性間的轉化關系,屬于典型的常識性錯誤,應予澄清和糾正。
其次,因來源于個人的數據是由個人與數據處理者合作生產的,認為難以劃定個人與數據處理者數據財產利益的邊界,進而否認數據確權的主張具有片面性,難以完整解釋數字時代數據利用的全部領域和場景。在數據生產過程中,無論是貢獻信息內容的數據來源者,還是提供數字技術的數據處理者,均對數據的初始產生做出了貢獻,對數據的流通和利用均有相應的利益期待。例如,用戶佩戴智能手表來獲取自身健康和運動數據的行為,一方面可通過該智能穿戴設備及其制造者或提供者的技術服務來獲悉自身的健康和運動狀態,另一方面還有將自身的健康數據轉移或關聯到其他網絡服務提供者,使用其他平臺提供的服務或功能進行再度利用的目的。此時,用戶的健康數據及其分析后的結果,既依賴數據來源者持續性的運動行為,又依賴產品或服務制造者或運營者的技術支持。若沒有數據來源者持續性地貢獻數據內容,數據生產者不可能持有大量具有分析價值的數據,也就不可能據此而進行流通利用,參與數字經濟活動。
在個人信息數據上,由于個人信息可以呈現“個人自我形象”,使個人身份在自主性、完整性層面獲得正確的定位,不僅可以滿足個體自主參與社會生活,維持自身的社會身份和關系,還可以滿足集體乃至整個社會對個人與他人關系相關信息的獲取和使用利益。?因此,在數據來源者分享自身數據時,會同時創造出兩種不同的使用價值:一方面,數據來源者為自身和他人貢獻了具有使用價值的數據,創造出了一種自己與他人能見度之間的社會關系;另一方面,數據來源者也為資本生產了具有使用價值的數據,使數據生產者可將數據轉化為符合自身商業發展需要的數據產品。這一過程被數字勞動理論的代表性學者克里斯蒂安·福克斯定義為“數字勞動產品使用價值的雙重性”:信息產品在轉化過程中,其使用價值不會被破壞或消耗,因用以商品交換,它表面上看似脫離了用戶,但實質上又未能真正地脫離用戶的控制。?而由于數字勞動過程中數字勞動者的主體異化問題,避免數字勞動者對數據價值的勞動貢獻被遮蔽和剝削,應賦予用戶等數字勞動者對來源于其的數據的財產性權益。?
比較法上,歐盟《數據法》也在前言部分提出,“數據生成至少是兩個行為者的行動結果,特別是連結產品的設計師或制造商,他們在許多情況下也可能是相關服務的提供者,以及鏈接產品或相關服務的用戶”。而這些用戶在使用“通過其組件或操作系統獲得、生成或收集與其性能、使用或環境有關的數據,并能夠通過電子通信服務、物理鏈接或設備訪問等方式傳輸這些數據的互聯產品”時可以“支持環境、健康和循環經濟的保護創新和數字及其他服務的發展,包括促進有關互聯產品的維護和修理”,因而對用戶具有潛在價值,應使“用戶能夠從嵌入在這些產品中的傳感器收集的數據中獲益,以獲取售后、附屬和其他基于數據的服務”。根據歐盟委員會關于《數據法》的解釋性備忘錄的解釋,其之所以創設一項新的被稱作用戶數據訪問權的權利,其目的就在于確認和保護物聯網產品用戶對其產品數據的訪問和使用權,從而“使每個人都能從這些機會中受益”。總之,由于用戶為數據的生成做出了貢獻,就不應單純將允許訪問數據的權利賦予數據處理者而對作為數據共同生產者的數據來源者不利,而應當將數據來源者作為數據的共同生產者,賦予其訪問和使用數據的權利。
承認并確認個人對個人信息數據的財產利益,也符合“數據二十條”的本旨。“數據二十條”明確提出要“建立健全個人信息數據確權授權機制”“推動數據處理者按照個人授權范圍依法依規采集、持有、托管和使用數據”,并“探索由受托者代表個人利益,監督市場主體對個人信息數據進行采集、加工、使用的機制”。既然數據處理者“持有”“托管”“使用”數據的財產權能來源于“個人授權”,那么,個人得以授權的前提必然是對個人信息數據享有上述財產權能。?其次,“數據二十條”還在第(七)部分“建立健全數據要素各參與方合法權益保護制度”中明確提出“充分保障數據來源者合法權益,推動基于知情同意或存在法定事由的數據流通使用模式”,并在第(十二)部分“健全數據要素由市場評價貢獻、按貢獻決定報酬機制”中明確表示“探索個人、企業、公共數據分享價值收益的方式”“推動數據要素收益向數據價值和使用價值的創造者合理傾斜”。那么,作為個人信息數據的來源者,就勢必因為其對數據價值的貢獻而享有財產利益的收益。?而這也是“非公共數據按市場化方式‘共同使用、共享收益’”新模式得以被構建的目的所在。因此,以“因個人信息數據的財產屬性而導致個人與數據企業在數據產權上的沖突”而無法確定“數據到底屬于誰”?,進而否認數據產權正當性的觀點并未闡述數據產權建構的核心理念和價值,也無法囊括數據產權“三權分置”的全部要義,具有明顯的片面性。
綜上所述,筆者認為,數據“三權分置”并非走入了數據權益法律保護的誤區,而是在尊重數據經濟時代數據要素價值創造和實現客觀規律以及吸納此前實踐和理論諸多共識基礎上,對數據財產權正當性的再次宣示,進而從制度和價值層面確立了“數據”作為新型財產的合理性以及“賦權模式”的正當性。21
三、“數據”作為產權客體的規范屬性
通過對數據作為產權客體的共識彌合與凝聚,解決了影響數據作為產權客體的前置性問題后,就可進入法律上客體建構的“特征取舍”階段,即通過貫徹建構數據產權的規范目的和價值,取舍已認知之特征,并將保留下來之特征設定為充分且必要之條件的客體建構的方法,解決數據作為產權客體“過度抽象化”的問題,明晰作為財產權客體的“數據”的規范屬性。22
(一)法律上的數據應具有信息屬性
在對“數據”概念的理解上,首要和關鍵問題在于辨明數據與信息概念之間的關系。有學者總結認為,信息與數據在制度規范、司法裁判以及學術研究中常被模糊性使用,并形成了信息與數據并用、信息包含數據、數據包含信息三種類型。23盡管當前學界對信息與數據之間的關系存在認識差異,但“數據與信息之間是載體與內容的關系”的共識已經形成,而分歧焦點也正體現在這一共識之上。認為數據和信息應予以區分的觀點,在對數據的理解上認為數據乃是記載和傳播信息的媒介或符號,否認數據具有特定意義,信息則是由作為符號的數據記錄和反映的客觀事實。由此,數據與信息的關系可表現為“信息= 數據+ 意義”。而數據信息一體論則認為,數據本身就是有意義的信息,數據并非單純的符號,而是記錄和反映客觀事實的信息。這一觀點常以個人數據與個人信息的對比來加以佐證,認為保護個人數據就是保護個人信息,因而無需對數據和信息加以區分。因此,當前對數據與信息間關系的爭論本質在于“數據”是作為符號層的對信息進行量化的工具,還是“數據”本身就具有相應的意義內容。
世界在本質上是由信息構成的,信息是宇宙空間普遍存在的事物運動的狀態和方式,其最為核心和本質的功能是可以通過一定的歸納型算法被加工成為知識,并針對給定的目標被激活成為求解問題的智能策略,按照智能策略求解實際的問題。24并由此,信息科學發展出了“數據- 信息- 知識- 智慧”(DIKW)的信息鏈理論。在這一邏輯中,數據始終是載荷或記錄信息的物理符號,真正有價值和處于核心位置的是信息。這是因為,知識和智慧的形成,不僅取決于以數據形式表征的信息,還取決于接受者個人對信息的提煉與推理能力。只有當信息接受者接收到并能夠從中提取出有關事物的正確理解和對現實世界的合理解釋時,信息才能轉化為知識和智慧。25奠定現代通信理論和數字技術基礎的信息論代表人物香農將信息的定義進行了簡化和精煉,剔除了蘊藏在信息概念內部的“意義”成分,用數字取代了其他符號對信息進行量度,從而將各種已符號化或非符號化的信息轉變為可度量、可計算的以0 和1 組成的二進制代碼。26因此,數據只是記錄或表示信息的一種形式,只不過在數字時代被泛化使用而成為“信息”的替代表達。
從法律邏輯上看,對數據進行調整和保護的根本目的在于確認和保護數據之于不同主體所具有的價值(精神或物質利益)。法律只調整和保護那些有價值的數據,無價值的數據無需法律保護。而數據的價值體現為其所記錄和反映的信息內容,沒有信息內容,數據就無意義,也就無價值,更無需用法律予以調整和保護。對個人而言,正因為與自身有關的信息被肆意泄露和交易,致使自身的隱私、榮譽、名譽等利益遭受侵害,才催生了對個人信息保護的利益需要;對企業而言,關注的或爭奪的并非是信息以何種形式或符號呈現,而是企業、商品、價格、消費者或市場等方面的信息。正因為市場信息的不完全和非對稱性,才使得市場交易信息具有了價值,從而可作為商品存在。傳統的信息如商業秘密等,因具有一定的商業價值才得以受到法律保護。已有的司法案例也表明,實踐中企業間對數據的爭奪本質上是爭奪數據所具有的信息內容,進而可通過對該內容的分析和挖掘,創造新的商業模式、實現利益倍增。有學者從數據交易的角度認為數據交易的本質仍然是信息交易,只不過與傳統介質相比,數據一方面作為信息的載體可以促進信息的流動,另一方面其本身就是信息的編碼,通過機器讀取即可直接呈現為信息。27這表明,數據的重要性體現在其信息屬性上,只有在數據上提取出信息并轉化為知識,才能支撐市場主體實現高質量發展。28法律所保護的數據應是具備價值、記錄和反映真實世界信息的數據,無價值或無意義的數據不應被納入法律所保護的范圍。比如隨便一串字符“20 xadajhjk”就沒有含義,但它是數據自然界中的一個數據。正因如此,“數據二十條”采取了相較于《個人信息保護法》不同的表述,明確提出了“個人信息數據”的概念,將數據區分為承載個人信息的數據與不承載個人信息的數據,以此來強調“信息”之于“數據”的重要性。因此,法律所要調整的數據應具有通過算法分析實現的信息價值,具有信息屬性。29
(二)法律上的數據應具有物理屬性
當前的法學研究中,存在兩種截然不同的“數據”定義。第一種明確指出其所研究的“數據”乃是“限于在計算機及網絡上流通的在二進制的基礎上以0 或1 的組合而表現出來的比特形式,以此區分于日常生活中各種紙面統計數據,也區別于以文字、圖像或視頻等形式顯示出的信息”。30從該定義中可以看出,論者明確將數據限定為電子化的比特形式,而將信息的其他表現形式排除在外。與之相反的觀點則采取了等同或類似于“數據是以數字、文本、音像、信息技術符號或其他形態為載體對客觀事物的記錄”這一定義。31對“數據”是否僅為電子形式存在于互聯網中的認識分歧又進一步被立法上對數據的定義所加劇。《數據安全法》第3 條第1 款對數據定義進行了明確規定:“本法所稱數據,是指任何以電子或者其他方式對信息的記錄。”這一定義有兩項必要元素:其一,數據是信息的記錄;其二,數據的形式有電子和非電子兩種形式。顯然,這一定義屬于前述第二種觀點。與之相反的是,《網絡安全法》第76 條第4 款所規定的網絡數據是指通過網絡收集、存儲、傳輸、處理和產生的各種電子數據。誠然,由于《網絡安全法》的調整范圍與對象是處于網絡中的數據,故而采取了“電子化形式”這一要素來定義“網絡數據”概念。但這恰恰揭示了“數據”概念法律轉化中特征取舍的另一重要基點,即法律上所要調整的作為財產權客體存在的數據究竟僅是電子化形式還是兼具電子化與非電子化形式。
數據成為生產要素是在數字化時代到來后形成的社會基礎共識,其功能和作用也在于作為關鍵生產要素推動數字經濟發展。而數字化的底層邏輯是以二進制的0 和1 的數字形式來進行運轉的“二值邏輯”。數字化標志著信息時代的新階段,意味著對信息的加工和傳輸僅需要以計算機和網絡作為唯一工具,而比特則成為承載信息對象的唯一載體。32計算機中所有的信息對象,如數字、字符、聲音、顏色、圖形、圖像甚至是計算機指令等,均用“比特”來表示。數據若要成為具有分析價值的數據要素,就必須適應和匹配數字化時代下計算機等信息技術系統的運行要求,即以0 和1 的比特形式實現對信息的記載和傳輸。因此,只有存在于網絡環境中的數據才能實現對信息的進化,才能通過電子數據的收集、存儲、處理或挖掘等提煉出有價值的關聯信息,這些有價值的信息才能通過進一步的電子匯集成為新的數據,成為知識和智慧的原材料,此種循環多次往復,并在大數據、云計算和人工智能技術的持續供給下,實現數據要素推動經濟發展的價值。33實際上,在傳統社會中也存在以其他媒介形式存在的“數據庫”。當前有關數據交易的實踐也均發生在網絡系統中,交易的實際發生均依賴于數字基礎設施的有效供給。這也是為何倡導采用區塊鏈技術、隱私計算等新技術實現“數據可用不可見”的交易模式的原因。由此,數據作為生產要素就具有顯著的技術依賴性,即數據要素的價值實現全流程均依賴于信息技術的發展,只有基于算力、算法等數字技術普惠發展的客觀條件下,數據的處理和應用能力才會相應提高,數據要素的價值才能得到充分釋放。34有觀點也認為企業數據保護問題的產生源于數字技術和互聯網的興起,是互聯網數字系統的原生問題,其解決方式亦不應脫離該系統存在。35那么,以數據要素為基礎形成的“數據財產”也應當是以0 和1 的比特形式存在于計算機和網絡中的電子數據。
僅僅具有電子形式還不足以使數據能為計算機等設備自由讀取和分析,數據還應當具有可機讀性,具備一定的格式。這是由數據要素技術依賴性所決定的,只有依賴于大數據的采集、加工、挖掘、處理等技術和方法,才能使數據具有使用價值,具備可用性。而可用性的前提是數據應按照一定的語言結構排列組合,成為計算機可讀取的特定格式的機讀數據。只有機器可讀的數據才能夠支撐當前算法、機器學習等人工智能技術的發展,才能增加和促進信息與知識的流動。36數據的機讀性在公共數據開放利用實踐上受到特別關注。美國2019 年通過的《開放、公共、電子、必要政府數據法案》明確要求政府規制機構以標準化、非專有化的格式公開其所有信息,并將機讀數據定義為“一種格式,該格式可以由計算機輕松處理而無需人工干預,同時確保不丟失語義”。37歐盟《關于開放數據和公共部門信息再利用的指令》認為只有以開放格式來表示數據,才可由任何人基于任何目的自由使用、重復使用和共享數據。我國公共數據開放利用的實踐也普遍規定應向社會提供可由機器讀取的公共數據。例如,《深圳特區數據條例》明確規定公共數據開放是“向社會提供可機器讀取的公共數據”的活動。38在定義上,機器可讀性是指結構化的文件格式,以便計算機等設備和應用程序可以輕松識別、提取數據內容,如CSV 39、RDF 40、JSON 41、XML 42等格式。這決定了即使是以電子形式存在的數據機器也不一定可讀。例如記載了文字或數據的PDF 文檔,盡管以電子化形式存在,且可由人類讀取,但計算機卻很難訪問和識別該文檔中的信息。再如文本或圖片的電子掃描件也并非機器可讀(但人類可讀)。因此,作為數據財產權客體的數據除了以電子形式存在外,還需要具備可讀性,即以結構化的可由機器讀取的形式存在。
(三)法律上的數據應具有集合屬性
從數據價值實現的角度看,單一的描述或記錄客觀事物的數據并不具有分析和利用的價值,而只有通過靜態的數據集生產或動態的API 接口調用形成規模巨大的“大數據”時,才能夠滿足數據利用主體的利用需要,成為具有生產價值的資源。經由收集、存儲和歸集形成的數據集合,既可由持有主體結合自身使用目的和場景加以利用,還可作為產品或服務向第三人共享或轉讓,并結合第三方自身適用場景和自由數據集予以有效利用。數據在平臺和網絡中的循環分享與交易,使數據資源的體量進一步增長,數據價值進一步擴大,從而成為支撐數字經濟發展的基礎和關鍵要素。數據價值實現的結合性與互動性特征有效解釋了不宜將單個數據作為財產權的客體,因為這樣會阻礙數據(集)之間相互流動、連結和擴展,也會直接阻礙數據規模性價值的實現。
但是,數據量大并不意味著其具有使用價值和可以滿足特定主體利用的需要。從產生上看,數據集是通過以不同的方式收集數據來創建的:手動或自動測量(例如天氣數據)、調查(人口普查數據)、決策記錄(預算數據)或正在進行的交易(支出數據)、許多記錄的匯總(犯罪數據)、數學建模(人口預測)等。不同收集方式形成的異質多樣的數據無法直接用于分析,而必須進行集成和互操作。通過數據集成和互操作,可移動和整合存在于不同數據存儲、應用程序和組織這三者內部各種不同類型的數據,包括存儲在數據庫中的結構化數據、存儲在文檔或文件中的非結構化文本數據以及其他類型的非結構化數據,如音頻、視頻和流媒體數據,進而將數據物理地或虛擬地合并到數據中心,為數據使用者的數據分析提供可機讀的電子化數據原材料。數據集成和互操作的過程一般會經歷數據抽取、數據清洗、數據轉換以及數據加載等技術步驟,使收集的原始數據經歷重復性刪除、格式轉換、結構變化等過程,成為具備數據分析所需質量條件的數據集。歐盟最新公布的《數據法》就明確要求數據應具有普遍可及性、互操作性和可移植性。這表明,原始的數據資源只有被結構化和標準化后,才可成為機器學習的原材料,才能成為具有經濟價值的數據財產。由此,數據不僅應具有量上的規模性,還應具有質上的價值性。
(四)小結
通過以上分析,可基于數據要素的技術與經濟特征及其價值實現的內在機理,形成法律上作為數據財產權客體的“數據”的初步定義:在電子存儲介質中存在的以數字形式對信息進行記錄的集合。其核心特征包括信息屬性、物理屬性和集合屬性。以上三種屬性分別從不同角度對數據進行理解。其中,信息屬性是從價值維度對數據進行定義,指的是法律所確認和保護的數據應當是能夠記錄和反映出客觀事物運動和存在方式的客觀載體;物理屬性是數據真實存在的表現,是從技術維度對數據進行定義,指數據應在電子存儲介質中以二進制的數字形式存在,可為機器識別和讀取;集合屬性則是從功能維度對數據進行定義,旨在揭示具有價值且可產生法律保護需求的數據形態應當是具有質量的數據集合。
四、“數據”作為產權客體的類型譜系
從數據的全生命周期來看,數據會經歷收集、處理、存儲、傳輸、分析、應用等多個環節,在不同階段均可產生相應的價值增值,進而形成不同形態。同時,不同環節中數據主體對數據的利益期待亦有不同,從而使數據在不同主體間形成不同的類型。“數據二十條”也提到,要“根據數據來源和數據生成特征,分別界定數據生產、流通、使用過程中各參與方享有的合法權利”。因此,應從縱向和橫向兩個維度對數據類型化,闡明在不同階段和主體中所形成的數據類型,為數據產權的構建提供基礎。
(一)數據的縱向層級
前文已述,數據要素并非單一的比特形式,而是人類社會經濟活動中經過加工處理有序化并大量積累起來的有用信息的集合,是自然界和人類社會生活中存在的可以用來創造物質和精神財富的具有一定量的積累和客觀物質存在形態的資源。43我們使用“數據資源”這一概念時,實際上是在抽象意義上表達能被人或機器記錄的人類社會和客觀世界的全部數據。這種數據本身是抽象的、難以確認其邊界和范圍的,也是無法衡量和評估其經濟價值的。而人力或機器本身的收集或采集能力有限,難以采集和掌握人類社會全部的數據,因而其采集或收集形成的數據集合相對于數據資源具有確定性。這種具體化和邊界化了的數據集合既能被人力所掌握和控制,也能夠向第三人轉讓,因而成為了可用于交易的數據財產。經過投入技術、資金和創造性勞動,這種數據集合又可被加工形成數據產品,從而輔助市場主體的商業決策。由此,數據經歷了從原始數據資源到用于分析的數據集合再到通過數據分析形成的數據產品的數據生產全鏈條。44
1.“數據資源”的雙重內涵:從抽象到特定
在法律上,數據資源類似于“一切人共有的物”,其包含著對客觀世界中所有承載價值的數據的梗概、抽象的含括,必須毫無遺漏地將現存以及未來所有可能為人們使用的數據加以描述,具有整體性、前瞻性和包容性。這種抽象的數據資源在經濟社會中具有廣泛的用途,可通過數據加工和分析形成不同樣態和類型,但是在加工和分析之前,其范圍邊界是不確定的,應用范圍和價值也是抽象和不確定的。45進而也因不符合私法上權利客體明確性、特定性的要求而難以成為私權客體。
相對而言,數據若要作為一項法律上的權利客體存在,需相應地進行特定化,即從整體的數據資源總庫中漸次分離而形成范圍和數量相對確定的“數據資源集合”,使之可為特定主體所支配,成為負載主體利益的客體。這是對“數據資源”的狹義使用,意味著抽象意義上的“數據資源”轉變為具體化的、可作為產權客體的“數據資源”。使廣義上的數據資源轉變為狹義上的數據資源的行為始于數據生產。所謂數據生產,是指通過技術手段將特定對象本身及其行為或過程以數字化的形式記錄下來,從而使數據與其所描述的對象發生分離,并形成存儲在網絡設施或設備中以“0”和“1”的數字形式表現的數據。46通過數據生產活動,實現了數據與描述對象之間的分離,形成了供數據分析的原始數據資源。這種可供數據分析的原始數據資源不僅在形態上獨立于抽象意義上普遍存在的數據資源,還因受到數據生產者的物理控制和支配而成為財產權的客體。
因此,所謂“數據資源”,實際上包含著廣義與狹義兩重內涵。在廣義上,數據資源泛指人類社會全部事物所呈現或表述的運動狀態及其變化形式,具有抽象性、整體性和不可支配性。數據資源不僅包含著所有現存的數據,還包括未來源源不斷產生的新數據。因此,數據資源是對所有可用于經濟生產的數據要素的統稱。它必須毫無遺漏地將現存與未來所有可能為人們所利用的數據資源進行總括性、前瞻性保護,也必須對所有已經數字化記錄、尚未數字化記錄甚至內容未知的數據資源開放包容。相對而言,狹義上的數據資源則是經由特定主體的數據生產活動而產生的,時空范圍、數量規模相對確定的具體類型的數據資源集合。這種資源集合在范圍和邊界上相對確定、在內容上僅是對特定范圍和數量的客觀事物運動狀態及其變化的記錄。
對數據資源進行區分的法律意義在于通過對客體內容和性質的區分,揭示出數據由整體性抽象性的“資源”轉化為具有特定性和支配性的“財產”、由主權意義上的公法客體漸次轉化為私權意義上的私法客體的變化趨勢,有利于貫徹數據概念由自然意義向法律規范轉化而形成可利用和可交易的財產權客體的價值理念,也便于通過技術統一確權登記以明確并公示其數量與范圍,從而標示其權利邊界與效力,更便于部門法上法律調整模式和工具的介入,從而援引民法和其他部門法相關規則與法理完成數據權屬在私法上的制度表達與構建。同時,此種區分也有利于證成數據生產行為在數據要素化、客體化進程中的重要作用,為建構以數據生產者的數據持有權為核心的數據產權制度提供理論支撐。
2.“數據產品”的兩種形態:數據集合與數據產品
從客體的特定化進程來看,抽象意義上的數據資源總庫經由數據生產活動而轉化為現實、確定和特定的數據資源后,還可以進一步演變和轉化形成“數據集合”和“數據產品”。原因是,原始數據資源本身并不能直接用于數據分析和挖掘,只有先進行數據整理和預處理,才能使雜亂無章的原始數據轉化為符合機器讀寫要求的數據集合。這種具有使用價值的數據集合,是按照特定目的對原始數據資源進行匯聚、清洗、標注等加工處理而形成的可用于數據分析的數據集合,是對原始數據資源存在形態的改變,其應用價值尚不明確、用途寬泛,且可以不公開。47因而,數據資源在經過初步加工形成數據集合后,還可以進一步融合算法、程序、軟件等技術要素和特定商業應用場景,形成具有獨創性的數據產品或服務。48
然而,無論是學說上還是實踐中,對原始數據資源經過加工后所形成的數據是否可再區分為數據集合和數據產品存在不同的認識。這種分歧本質上體現為對數據產權客體應當采取“數據資源”+“數據產品”的二分法,還是應當采取“數據資源”+“數據集合”+“數據產品”的三分法。例如,有學者認為,無論是經過初步加工整理后的數據,還是經過深度加工而具有創造性的數據,均屬于數據產品。49但也有學者認為,數據在價值釋放過程中形態從最初的原始數據資源經過清洗、入庫變為了標品,形成了數據集合,而后再經過深度開發后形成數據產品。50從功能上看,區分數據在生產和流通使用過程中的形態變化的根本目的乃是為了區分不同數據上所負載的權益類型。只有完成了客體界定,才能進一步分析該客體上所負載的權益類型及其性質,也才能由此而構建數據產權體系。就此而言,筆者贊同三分法,認為數據產權的客體表現為從“數據資源”到“數據集合”再到“數據產品”的三重演進。
首先,數據集合與數據產品雖均經過數據處理者的加工處理活動,但是二者的用途和價值存在較大差異。數據集合是數據處理者收集、加工形成的以電子化形式記錄和保存的具備原始性、可機器讀取和可重復利用的數據,因其內容包括了個人信息數據等在內的各類數據,因而可被用于不同的目的和場景。如在廣東省深圳市騰訊計算機系統有限公司等與浙江搜道網絡技術有限公司等不正當競爭糾紛案51中,法院認為經過聚合形成的數據集合可以為數據分析提供必要的樣本,給企業帶來開發數據衍生產品獲取增值利潤的機會空間,其并未產生新的創造性價值,而僅為衍生數據的形成提供了可能。而作為經由算法、軟件、程序等大量投入并融合具體場景而形成的數據產品則具有目的特定性,即其是為滿足特定場景中所產生的數據利用需求,是一種定制化的服務。
其次,數據集合與數據產品上負載的利益類型不同。數據集合雖然經過數據處理者的加工,但因其內容的復雜性而使之不僅負載了數據處理者的財產權益,還負載了信息來源者的人身利益甚至是公共利益。但數據產品是數據在特定場景中應用后所形成的具有獨創性的產品,主要承載了數據處理者的財產權益。52以公共數據為例,之所以公共數據授權運營制度成為當前公共數據開發利用的主要方式,是因為公共管理和服務機構所持有的公共數據集合本身蘊含大量的個人信息、商業秘密和國家秘密,如果直接對外開放將引發極大的安全風險,而采取將公共數據集合授權給特定主體進行加工處理,開發形成產品或服務并向社會提供的方式將充分保障數據流通的安全性,有效緩解數據源單位和數據需求單位之間的信任危機。53盡管各地在授權運營上采取了不同的模式,但基本的程序仍然遵循運營單位向數據源部門或數據管理部門按照應用場景提出數據使用需求,經同意后采取“原始數據不出域、數據可用不可見”的方式在運營平臺內加工處理公共數據從而形成特定的數據產品。在這一過程中,公共部門始終持有公共數據集合并負有數據治理義務,而授權運營單位獲得的則是特定的數據產品。
最后,區分數據集合和數據產品,還有利于準確描述和認定不同數據產權的性質和內容。由于數據集合蘊含多種利益,數據集合上不僅存在數據處理者的財產權,還負載著特定數據來源主體的數據來源者權。根據“數據二十條”的規定,數據來源者對由其促成的數據享有獲取、復制和轉移的權利。這決定了數據處理者基于對數據集合的持有而行使其權利時,始終受到數據來源者權的制約,負有依照數據來源者的請求向數據來源者或其指定的第三方轉移數據的義務。而對于數據產品而言,由于其在形態上屬于數據處理者投入創新性勞動并融合特定場景而形成的具有較高社會經濟價值的標的物,其上可成立獨立的數據產權。例如,《深圳市數據產權登記管理暫行辦法》就將數據產品上所形成的產品經營權定義為相關主體對數據產品進行占有、使用、收益或處分的權利。《海南省數據產品超市數據產品確權登記實施細則》甚至將數據產品上的產權定性為“所有權”,并將其視為數據確權的創新模式予以重點推介。54因此,數據集合與數據產品的區分還進一步決定了作用其上的法律調整路徑和方法的差異。
(二)數據的橫向譜系
1. 公用公共數據與私用公共數據的類型區分
根據當前各地立法中所采取的定義,公共數據是指國家機關、法律法規規章授權的具有管理公共事務職能的組織以及供水、供電、供氣、公共交通等公共服務機構,在依法履行職責或者提供公共服務過程中產生的數據。界定公共數據范圍的標準是“主體+目的”,即凡公共管理或服務機構為了履行職責或提供服務所收集產生的數據,均可被納入公共數據范疇。55在公共數據開放和共享的實踐中,基于開放數據的內容和獲取的條件,將公共數據的開放分為禁止開放(共享)、有條件開放(共享)以及無條件開放(共享)三種模式。
以公共數據開放為例,禁止開放類數據主要包括開放后危害或可能危害國家安全、損害社會公共利益,涉及個人信息、商業秘密或保密商務信息,數據獲取協議約定不得開放以及法律法規規定不得開放的數據。有條件開放類數據是指對數據安全和處理能力要求較高、時效性較強或者需要持續獲取的公共數據。其他公共數據屬于無條件開放類。同時,禁止開放的公共數據在滿足一定條件,如采取脫敏或匿名化處理、公共數據指向的特定主體授權同意開放等,可轉化為受限或無條件開放類數據。這類數據可稱之為“轉化公共數據”,即通過技術手段的處理使其具備可開放性。最后,在公共數據授權運營模式下,授權運營單位對加工形成的公共數據產品和服務也享有排他性的權利,并可向用戶收取合理的費用。基于上述對公共數據開放類型的歸納總結,可依據公民獲取和利用公共數據及其衍生品的直接程度、無償程度、排他程度等標準形成公共數據法律調整模式由公法向私法過渡的類型序列:任何人不可獲取和利用的公共數據(禁止開放類)——任何人可自由獲取和利用的公共數據(無條件開放類)——公共機構為履行公共職能而排他利用的公共數據(包括在政府內部共享的公共數據)——有條件獲取并可排他利用的公共數據(有條件開放類)——國家(公共機構)自行開發利用或委托授權經營模式下形成的數據產品和服務。
由此,根據該公共數據受公法調整還是私法調整可在整體上抽象出公用公共數據與私用公共數據的典型區分。公用類公共數據是指該類數據可由全體社會成員無條件免費獲取和使用,政府的公共管理和服務機構開放此類公共數據的行為是一種典型的公共服務行為,受公法調整。此類數據包括禁止開放類、無條件開放類公共數據。私用類公共數據是指該類數據因在獲取條件和程序上的限制性,使其僅能被符合條件的特定主體所獲取和使用,從而使之呈現一定的排他性進而成為私法上產權的客體。在私用公共數據內部,又可根據處分權是否受限進一步區分為僅能開放而不得處分的公共數據和可自由處分的公共數據,前者主要是受限開放類公共數據,政府等公共部門僅能讓渡使用權而不得處分所有權;后者主要是政府等公共機構自行開發或授權運營單位開發所形成的公共數據產品和服務,可作為商品在市場上自由流通,政府等公共機構或授權運營單位對其享有完全的財產權。
將公共數據區分為公用類和私用類兩類的法律意義在于可以針對兩類不同的公共數據分別建構適合該類數據特點的法律制度體系,從而形成在公共數據法律調整上的公法與私法協同調整機制。一方面,公用類公共數據因其主要用于公共目的,因而屬于政府等公共管理機構的法定義務,受到公法的規范和約束。另一方面,私用類公共數據則主要用于數據要素流通市場的建設,因而應受到私法部門的調整。
2. 企業公開數據與非公開數據的類型區分
以數據的公開狀態為標準,可以將企業數據分為公開數據與非公開數據。其中,公開數據是指可由全體社會成員公開自由獲取的數據集合,非公開數據則是指企業采取技術保護措施而使其無法為社會成員獲取的數據集合。將企業數據分為公開與非公開數據,并不意味著只有此種分類,而在于通過此種分類可較為周延地反映企業數據上負載的利益沖突類型,并可為企業數據產權問題的解決提供基礎。從現有企業間關于數據財產權益的糾紛案件中可以看到,企業間對數據利益的爭奪主要集中在公開數據上。典型表現如企業為了低成本、快速度地收集和獲取數據,采取數據爬蟲技術從其他數據控制者已公開的數據中進行收集。通過實施數據爬取行為,后發或新入的企業無需通過大量資金投入和流量積累便可獲取大量優質數據而快速崛起。56而此種爬取技術的濫用則進一步會導致企業非公開數據的安全問題,比如入侵被爬取方計算機系統,竊取、篡改或刪除被爬取方數據,侵害被爬取方經由技術措施保密的商業數據等,造成被爬取方更大利益損害。因此,將企業數據區分為公開數據和非公開數據可以合理地劃分數據上的利益沖突形態,并適配相應的法律調整工具。
對企業公開數據而言,重點在于協調數據持有人的排他性財產利益與自由獲取方的合理使用利益。梅夏英教授認為,企業數據保護并不排斥部分數據內容的公開或分析,任何企業都會公開部分數據由用戶分享,或通過“API”方式與企業平臺互享,或依法提供給政府機關,在上述情形下,企業數據保護問題仍然完整存在。57若不采取產權方式保護企業的公開數據,為了獲取競爭優勢和商業利益,公開數據控制者反而會利用合同條款或技術措施來限制他人對其公開數據的訪問和再利用。然而,通過技術措施的限制一方面增加了數據持有者的經營成本,并進而轉嫁給消費者,另一方面會陷入與同業競爭者在爬取與反爬取博弈上的惡性循環。百度與奇虎之間曾經就數據爬取與反爬取形成過技術戰和價格戰,最終引發訴訟爭議。從數字經濟健康持續發展的角度看,若數據控制者過度依賴技術措施來維護自身的權益,則可能會降低數據的流動性和共享性,并使原本公開的數據轉化為封閉的數據,最終影響整個數字經濟的發展。同時,由于公開數據本身處于公開狀態,不屬于商業秘密的保護范疇,其本身因并未蘊含處理者的獨創性勞動也難以納入著作權的保護范圍,因而就必須通過另立產權的方式進行最低限度的保護。從這個意義上,對企業公開數據的單獨保護也構成了證成數據產權正當性的理據之一。
在數據產權正當性確立后,公開數據自然就成為了企業數據產權的客體。但是,對企業數據的保護不能使其享有完全絕對和排他的權利,而應基于互聯網的分享特質和信息的公共性原理對其予以限制,從而促進企業數據的合理流通。相應地,法律調整和保護企業公開數據的目標就應是對數據控制者與數據使用者之間的不同利益沖突關系進行衡量,劃定各自的優先順位并予以事先界權。因此,應允許數據使用者合法收集或利用企業已經公開的數據,利用目的和方式既可以是為了科學研究、社會治理等公益目的,還可以為了商業模式創新、經營服務改善等私益目的。其次,若企業對已公開數據集具有獨創性,可賦予其絕對排他性保護,維持其私益性。最后,由于企業公開數據中可能包含個人數據,因而應強化對企業公開數據持有人的個人信息保護義務,企業在公開數據時應首先采取合理的技術措施保障個人信息安全。
相反,對非公開企業數據,企業出于商業目的對其采取了各種技術措施加以保密,而防止他人侵害,因此應直接賦予絕對的排他權利,可借助現有商業秘密保護制度和著作權保護制度的原理予以調整。58若數據使用者采取不正當手段侵入數據持有者的計算機系統、造成數據安全風險和損害后果,則因其手段的非法而無法享有使用權,且應為其違法行為承擔責任。同時,非公開數據也可通過數據交易的方式來實現流通利用的目的,且交易過程并非針對任何主體公開,由此既可維持非公開數據的秘密性又可在一定程度上實現數據的流通利用。
五、結語
權利的客體是權利設立的基礎,權利客體的本質屬性與特點必然影響乃至決定權利。59“數據”雖早已有之,但將其納入法律范疇并作為產權客體加以調整并無先例可循,這決定了對“數據”產權客體問題的研究,既不應囿于傳統法學理論,直接套用財產權客體理論予以匡囿,更不能秉持“拿來主義”,直接以其他學科對“數據”的認識作為研究前提。相反,應在將“數據”作為一項全新法律調整對象的基礎上,通過對數據自然特性和價值實現規律的實然概括,采用功能主義的法律方法,建立數據法律自身的基礎理論判斷和分析模式,實現數據客體的法律轉化,并以此作為建構數據權利及相應法律關系的前提和基礎。
基于此,本文在分析當前對數據作為產權客體的認識分歧及成因基礎上,提出應在“數據成為新型生產要素”的時代正當性下討論數據產權的客體,并進一步闡明了作為財產權客體存在的“數據”的定義、內涵及特征,并對其類型化,使之成為構建數據產權“三權分置”制度的基座。
本文系國家社會科學基金重大項目“我國政府信息公開到數據開放的理論創新與實踐路徑”(項目編號:22 & ZD329)階段性成果。