周林彬,馬恩斯
(中山大學 法學院,廣東 廣州 510006)
法律視角中,什么是大數據?大數據和普通數據有什么區別?目前理論*國內外經濟學與法學期刊對于大數據的關注從2014年起呈現井噴式增長,檢索HeinOnline和CNKI數據庫中經濟學、法學CSSCI期刊中以“大數據”為標題的論文共100篇,其中明確論及大數據定義的有71篇。該71篇對于大數據定義所引述的主要文獻高度重合于以下四處,分別是麥肯錫在 2011 年的《大數據:下一個創新、競爭和生產力的前沿》報告中定義的“是容量大小超出一般數據軟件所能采集、存儲和分析的數據集”、暢銷書《大數據時代:生活、工作與思維的大變革》中的“不是小部分的數據樣本,而是人們能夠運用和掌握的所有數據;不是精確的數據,而是比較混雜且為人們可以挖掘的數據”、美國國家科學基金會的“通過互聯網交易、電子郵件、網絡點擊等形成的分布式數據集”以及下文中IBM定義的“4V標準”。并大都表達“雖然對大數據并未形成普遍接受的定義,但理論和實務界普遍接受了4V標準”。、實務界*實務中大數據服務于“云計算”,云計算服務于“互聯網+”,“互聯網+”服務于“工業4.0”,大數據不依托云計算既無法挖掘,也無法存儲分析,更沒法應用和維護。所以大數據實務基本是云服務公司的一部分業務與工作。國內大數據產業發展頗有代表性的是阿里云、騰訊云和貴陽大數據交易所。阿里云的創設宗旨之一在于“云計算將數據變成生產資料和企業資產”;騰訊云在“TOD大數據處理”中表示“完成對海量數據的各種處理”;貴陽大數據交易所的定義“是對數量巨大、來源分散、格式多樣的數據進行采集、存儲和關聯分析,發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態”。與立法者*截至2017年4月,國務院及各部委共發布以大數據為調整對象的行政法規19部,地方法規規章201部。中央法規中明確定義“大數據”的僅有《國務院關于印發促進大數據發展行動綱要的通知》(下稱《綱要》)一部,地方共有16部。其定義基本延續了《綱要》的定義“大數據是以容量大、類型多、存取速度快、應用價值高為主要特征的數據集合”,也即“4V”標準。他國政府或政府間國際組織也制定了多部以廣義大數據為調整對象的法律法規,較有代表性的是歐盟1995年的《數據保護指令》、2015年的《通用數據保護條例》、澳大利亞的《隱私保護原則》、巴西司法部的《個人數據保護法》(草案)、日本的《個人信息保護法》和亞太經合組織(APEC)的《APEC隱私保護和框架》等。由于“大數據(Big Date)”的提法產生于2012年,早于前述大多數法律法規,故而對“大數據”進行明確的定義仍是空白。出于現實考慮,默契一致地選擇回避正面回答“什么是大數據”,而是采用了描述性的概念界定即眾所周知的“4V標準”*第一,數量(Volume),即數據巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即數據類型繁多,不僅包括傳統的格式化數據,還包括來自互聯網的網絡日志、視頻、圖片、地理位置信息等;第三,速度(Velocity),即處理速度快;第四,真實性(Veracity),即追求高質量的數據。,將“大數據”定義為“大量(普通)數據的集合”。這樣定義的優點是解釋力強,符合法理學常識中的“法律原則的抽象程度與解釋力成正比”,但缺點是“法律原則的抽象程度與可用性成反比”。“4V標準”的解釋力與實用性相悖,將大數據與普通數據的區別定位為數量而非性質上的區別,進而導致大數據在世界范圍內被拖入隱私權爭論的泥淖之中——“既然歸根結底是一般數據,當然應該參照個人信息保護規則”。同時也既無法被民法典或其他立法直接采納也難以被司法直接適用。但“法律視角中,什么是大數據”是不應也不能閃爍其詞的。不清楚大數據在法律上是什么,何談確權?如何流轉?如何保障?后續的法律和法律法規如沙灘城堡,如何穩定?
筆者認為,大數據是依確定目的而挖掘、處理的大量不特定主體的數字信息。
概念的提出是從“大數據”概念提出的背景與根本目的反推而來。大數據的重大意義已不需贅言*國務院印發《促進大數據發展行動綱要》提出“全面推進大數據發展,加快建設數據強國”,將大數據的重要意義概括為“提升政府治理能力、優化民生公共服務、促進經濟轉型和創新發展”。這四方面可以具體理解到社會經濟生活的方方面面,學界對大數據應用的潛在意義和發展前景已進行了汗牛充棟的論述,再次略去不述。。但究其根本,大數據技術、大數據服務和大數據產業的根本目的在于精確預測[1]2。通過隨機分析、回歸分析等統計工具和計算機算法實現對個人、企業、政府或國家行為與效果的準確預測*比如淘寶網統計買家購買偏好以便進行CCM(定向廣告投放),所以現在每個人看到手機或其他移動終端上的淘寶APP界面都是不同的。從2015年開始,淘寶在移動終端全面鋪開個性化推送業務。阿里官方給出了推送參數近一百種,比如購物風格、年齡、地域、收藏店鋪、瀏覽寶貝、平均購買力等等。比如男性的淘寶APP中基本不會出現唇彩的推送,女性用戶的推薦里也不會出現剃須刀,再暢銷也不會。。該定義由三個要件構成,分別是行為要件、行為對象和對象性質。
從行為要件來說,與一般數據不同,不具備“特定目的挖掘”主觀要件和“挖掘、處理”客觀要件而只是靜置、沉睡的數據,種類和數量再多、處理速度和本身準確性再高也不會產生這種精準預測力,也不是“大數據”。好比檔案館,里邊檔案再豐富如果不進行有目的的挖掘和處理,也只是大量普通數據而非大數據。
從行為對象來說,“大量不特定主體”有兩個意群,分別是“大量”“不特定主體”。“大量”即大數據的數量級門檻,也即“多大是‘大’”。由立法界定什么是“大”的制度效率低于司法界定和私法替代[2]65-66。這一方面是由于“摩爾定律”*當價格不變時,集成電路上可容納的元器件的數目,約每隔18—24個月便會增加一倍,性能也將提升一倍。的存在,“大量”必然是個動態的概念,另一方面是由于大數據應用領域寬泛導致各行業的數據總量和標準不同。“不特定主體”是借鑒了刑法對危害公共安全罪的犯罪構成要件思路*危害公共安全罪共四十七個罪名,如放火罪、爆炸罪、破壞交通工具罪等。該罪的犯罪客體是公共安全,即不特定的多數人的生命、健康和重大公私財產安全及公共生產、生活安全。犯罪的主觀方面是行為人明知自己的行為危害公共安全,有可能造成不特定的多數人傷亡或者公私財產的重大損失,并且希望或者放任這種結果的發生。其本質特征表現為不特定性。比如明確要炸毀對方車隊,雖然客觀上造成了重大傷亡,則仍可能屬于故意殺人罪,并不符合爆炸罪的主觀方面構成要件。而如果想要爆破一條道路制造恐慌,哪怕僅炸毀了一輛汽車也可能成立爆炸罪。,目的是為了區分侵犯商業秘密和信息盜竊。
從對象性質的角度來說,“數字信息”是“大數據”與“個人信息”的核心區別。目前,之所以歐美關于大數據的爭論主要集中在憲法權利、隱私權、法律倫理等方面*索引自HeinOnline,按照關鍵詞“Big Date”搜索近五年下載量前一百的法學文獻,占比如下:大數據的潛力26%,大數據隱私34%(其中援引第四修正案為27篇),大數據應用28%,大數據確權9%,其他3%。參見Lenard,Thomas M.,Rubin,Paul H.Big Data,Privacy and the Familiar Solutions[J].Journal of Law,Economics & Policy,Vol.11,Issue 1(Spring 2015),pp.1-32.一篇較為全面的綜述類論文。并爆發了數次激烈的沖突[3]276-281,究其原因,主要是稟賦效應和信息不對稱徒增的制度成本。而國內由于“大數據”提法的興起與販賣個人信息活動日益猖獗的周期高度重合、同步“流行”,使得國內輿論與研究者也將除大數據應用之外的主題放到了隱私權保障上*CNKI搜索“篇名”與“關鍵詞”包含“大數據”的法學論文共計3 796篇,其中以隱私權、個人信息保護為主題的共計1 500篇,約占40%。,《個人信息保護法》的呼聲也日益高漲*自2009年起我國個人信息泄露案件激增,八年來屢禁不絕。包括全國人大財經委副主任委員吳曉靈、央行副行長陳雨露、奇虎360董事長周鴻祎在內的政企兩界都認為制定《個人信息保護法》是一劑良藥,截至2017年5月3日相關信息搜索量也已超過210萬條。。但這和大數據的關系似是而非,主要是缺乏對大數據技術的進一步了解。之所以“似是”,是因為個體主義方法論下“大數據”的一切應用歸根結底確是來自于具體自然人,最終也確實是應用到具體自然人,“取之于斯而用之于斯”。之所以“而非”是因為大數據要分析和處理的是海量數字化信息,個人信息并不是天然的計算機語言無法被直接運算,必須轉化為數字信息才能產生最后“精確預測”的結果。這其中關于數據清洗、區塊鏈存儲、秘鑰、分布式處理以及其他在大數據存儲、分析的整個流程中,“個人信息”都不再以初始形式存在,大數據的內容是計算機語言表述的數字信息。
前述定義下的法律視角中的“大數據”和“隱私”、“個人信息”、“商業秘密”、“(一般)數據” 各自范疇均已界定,這是明確“大數據確權”的前提。
如開篇所述,大數據確權即大數據的權利性質、內容和歸屬。
傳統法經濟學在產權初始分配方面側重于以交易費用為基礎分析權利的歸屬問題,為什么此處的確權卻要論及權利的內容與權利的性質?究其原因有二,從理論的角度來看經濟學研究的基本假定是“其他條件確定”,所以無論是在“公地悲劇”、“火車燒柴”,還是在“蜜蜂神話”等經典模型中,產權的具體類型與性質是確定的,學界很少探討過度放牧是否侵害了畫家的寫生權,也不關注火車是否還影響了農場主的夜間休息安寧權,更不會探討什么是農場、火車。但在大數據問題上,如前所述理論與實務界對“什么是大數據”問題淺嘗輒止、貪功冒進,并不存在經典模型中確定的研究基礎。從實踐的角度來看,法律框架下對調整對象法律性質的界定具有實際意義,意味著不同的資源稀缺性度、不同的市場競爭條件、不同的制度成本。將大數據界定為財產權和人身權意味著截然相反的資源稀缺度,將大數據界定為知識產權或物權也意味著截然不同的制度成本,前者限制交易而后者鼓勵交易。而既然探討大數據確權的目的在于產生最有效率的制度設計思路,那么對交易成本與制度效率有重要影響的要素就應當是題中之意。故而,大數據確權除探討權利歸屬問題,有必要探討權利性質與權利內容。
大數據確權的目的和必要性如何?從法律經濟學來看,雖確權的具體目的包括鼓勵創新以提高正外部性溢出、降低信息不對稱的影響以滿足有效需求最大化的實現等不一而足,但根本目的是為了無限接近科斯的“零交易成本世界”。大數據的一切具體應用的不二法門是開放與共享。醫療大數據應用可以降低誤診率、提高藥物效用、提升整體居民健康水平,消費大數據可以促進供給側改革的實現、發現和滿足有效需求、降低庫存和開發失敗率、提升購物體驗,金融大數據可以預防系統性金融風險、加強反洗錢效率、提高資金效率,這些都是為了降低由逆向選擇、次品問題和道德風險產生的信息成本減損社會福利。大數據發展的指向應該是開放而不是封閉,是在個人權益與社會福利間謀求均衡,哪怕這種均衡不得不通過“卡爾多-希克斯最優”而非“帕累托最優”實現。
從確定大數據權利性質的必要性而言,探討大數據的權利性質即將目前法律性質不明的大數據界定為物權、債權還是知識產權的交易成本最低,制度效率最高。由于不同的法律性質意味著不同的保護模式,也就意味著不同的交易成本與制度效率。由于前述已言明大數據的本質屬性是財產性而非人身性,故不將“隱私權”列入大數據權利性質的討論范疇。
從確定大數據權利性質的可行性而言,大數據的法律性質之所以可以被選擇主要是因為其性質未定。由于“大數據”是依確定目的而挖掘、處理的大量不特定主體的數字信息,顯然不是天然存在而是人為加工的一種財產。故而其權利性質并不屬于自然權利而是屬于擬制權利。而大數據這一2012年開始“躥紅”的熱點問題,2017年編纂的民法總則卻對其權利性質問題刻意進行了回避*2016年7月的《民法總則(草案一審稿)》第一百○八條規定:民事主體依法享有知識產權。知識產權是指權利人依法就下列客體所享有的權利:(一)作品;(二)專利;(三)商標;(四)地理標記;(五)商業秘密;(六)集成電路布圖設計;(七)植物新品種;(八)數據信息;(九)法律、行政法規規定的其他內容。同年11月,《民法總則(草案二審稿)》第一百二十條規定,知識產權是指權利人依法就下列客體所享有的權利:(一)作品;(二)發明、實用新型、外觀設計;(三)商標;(四)地理標志;(五)商業秘密;(六)集成電路布圖設計;(七)植物新品種;(八)科學發現;(九)法律規定的其他客體。刪除了一稿中的“(八)數據信息”。而后正式頒行的《民法典總則》延續了二稿的表述,并在第一百二十七條中用“法律對數據、網絡虛擬財產的保護有規定的,依照其規定”,放棄了對大數據確權問題的正面回答而采取了開放式規定。。究其原因,很大程度上是出于對大數據發展并未成熟與法典式立法必要的穩定性之間存在沖突,可能導致法律適用上的不當進而增加社會成本。故而其法律性質目前處于制度空白期,所以可以被選擇。
既然是財產權,權利性質又可以被選擇,那么大數據應該屬于何種財產權的客體?我國民法典編纂的過程中,已頒布的《民法總則》在第五章“民事權利”的第一百一十三條“民事主體的財產權利受法律平等保護”后以第一百一十四條、第一百一十八條和第一百二十三條列明了財產權利的三個主要組成部分,物權、債權和知識產權。從法律經濟學來看,大數據的權利性質確定過程可以被視為一種制度選擇的過程,在前述在物權、債權、知識產權這三種路徑的制度競爭間進行“成本-收益分析”,得出效率最高的制度效率。
債權路徑帶有明顯的負外部性后果,促使壟斷和不正當競爭的形成。債權路徑中最主要的是通過契約意思自治來實現大數據確權,這是當前現實中最普遍的形式,比如貴陽和中關村的大數據交易中心所內進行公開交易以及企業間或企業內部進行的非公開數據交易*貴陽大數據交易所可以交易包括政府大數據、征信大數據、專利大數據在內的三十類數據交易品種。來自貴陽大數據交易所官方網站http://www.gbdex.com/website/view/dataDeal.jsp,訪問日期2017年4月3日。。互聯網巨頭正各自構建不同領域的互聯網托拉斯,比如騰訊對于人們現在的衣食住行(分別對應京東、大眾點評、58同城、滴滴打車)都持有相當股份,大數據確權存在制度空白的情況下,通過市場機制進行大數據交易的法律風險過高,進而導致交易成本高起。故而大數據企業選擇企業機制,在關聯企業內部流轉大數據形成市場替代。但這種市場替代事實上是一種“數據壁壘”,導致大數據企業與關聯企業得以迅速向行業壟斷的方向發展。總的來說,如果過度依賴契約路徑與放任大數據產權不明晰狀態的持續則將產生市場失靈,其主要形態是壟斷。屆時小型互聯網公司將不得不對大數據托拉斯繳納高昂的市場進入稅,直接損害社會福利。而微軟公司的視窗系統,蘋果公司的App Store都已經出現了這一問題。
知識產權路徑則面臨制度需求小、負外部性大的問題。大數據在技術方面類似計算機軟件著作權,目前也確實在通過這一途徑實現部分財產權益保障功能。從制度需求的角度看,知識產權法主要保護的是實現大數據的外在技術,而對于大數據本身的解釋力有限。其解釋力主要在于大數據分析和大數據應用,因為此階段確實包含了大數據工程師的智慧成果。但是在大數據挖掘方面則很難解釋,比如Cookies(電腦上網緩存)與網絡痕跡,并不包含明顯的智慧加工。同時由于諸如Hadoop、HDFS、Mapreduce等主流大數據開發和處理軟件為了快速普及、降低開發成本、實現行業話語等商業考量基本都采取了開源的方式,即很大程度上放棄了智慧成果的專屬權。故而如前所述,在大數據挖掘方面知識產權性體現的不明顯。最關鍵的問題是知識產權法某種程度上說是以限制應用來鼓勵創新。這與數據共享和零交易成本的“互聯網+”方向相左。從卡爾多-希克斯最優的角度來說,應該以補償大數據企業及其工程師的方式限制大數據的知識產權屬性。
相較于債權、知識產權這兩種路徑,“物權路徑”的制度效率最高,債權次之、知識產權最次。之所以“物權路徑”制度效率最高,理由在于兩方面。
第一是需要克服的制度稟賦難度低、制度改進成本小。若將大數據解釋為一種物權客體,則現有物權體系中的無體物基本能夠相融,從而更容易被立法者接受,克服制度稟賦難度較小。具體來說,物權的占有、使用、收益、處分四大權能較好對應大數據流程,占有對應大數據挖掘和大數據存儲,使用對應大數據分析和大數據應用,收益和處分對應大數據交易,這方面明顯優于知識產權路徑;另外民法學界共識物權客體范圍不宜過窄已成通說,在法律邏輯上的改動幅度小,不易觸及民法成熟體系的歷史稟賦,被民法典或其他私法部門法采納的阻力小、可能性高。
第二是抑制制度負外部性,降低交易費用。這又具體分成三個角度,首先是物權路徑不會直接導致因過度意思自治帶來的壟斷和不正當競爭以及其他市場失靈情形,甚至可以有效抑制壟斷(應用階段大數據產權公有化,下文詳述)從而優于債權路徑;其次是物權路徑權責最為明晰,大數據產權的所有者與應用者即相關法律責任的承擔者,相較于債權路徑而言降低了因合同相對性與內外雙重效力導致的“侵權無責”傷害社會福利的情形;最后是流轉順暢,相較于知識產權路徑而言將大數據理解為一種無體物動產則沒有復雜的登記與公示,更有利于大數據流轉和信息的傳播以及由此帶來的激勵創新等正外部性的產生。
大數據的權利內容即哪些具體權利應該被法律明確規定、保障。大數據的權利內容從具體層面上講,在諸如電商大數據、醫療大數據、金融大數據各有其差異,篇幅所限不宜贅述。但從產業鏈條上時間先后順序來看大體包含大數據挖掘階段、大數據存儲階段、大數據分析階段、大數據應用階段的權利內容四部分。當然,由于在技術創新和商業創新領域,非正式制度對正式制度發揮著類似企業機制對市場機制的有效替代作用。故而并非大數據的所有權利內容都適宜通過《民法分則》《個人信息保護法》或其他法律部門予以規制。以下說明的都是通過成文法尤其是民法典予以規制更具制度效率的大數據基本權利內容。
大數據挖掘階段的權利內容主要包括有Cookies輔助數據、網站爬行數據和旁路采集數據等*Cookies是讓網站服務器把少量數據儲存到客戶端的硬盤或內存,或是從客戶端的硬盤讀取數據的一種技術,包含相當的用戶信息,相當于確定網站中用戶的身份證,其存在形式與一般意義上理解的“電腦緩存”近似。網站爬行數據是網站上發生一切變化的數據記錄,其應用的典型例子“量子恒道”,在PC端淘寶店鋪的左下角經常可以看到,是通過分析流量、銷售、購買群、推廣效果等買家、賣家在平臺上發生的一切數據進行搜集整理從而進行優化店鋪經營的輔助工具。旁路采集數據也叫旁路監聽數據,是通過鏡像交換機的方式將出口數據備份到指定服務器進行同態模擬、記錄與分析而產生的數據。可以近似地理解為另一臺服務器對用戶在網上各種訪問行為的鏡像或者說實時錄像。。這三種數據分別涵蓋了大數據中的靜態數據(含線上、線下)和動態數據,如同在圍棋中占了三點“邊星”即鎖定了大局。目前Cookies輔助數據、網站爬行數據的主要爭論發生在學界而非實務界*實務界也即互聯網公司、數據服務公司等,由于前述三種數據或者有著嚴格的加密系統,或者時效性非常有限,或者專用性非常強(比如在淘寶量子恒道搜集的數據放到京東平臺上意義并不直接,用戶數據并不共享),所以實務界對于數據采集基本是“井水不犯河水”,爭議不大。而2014年“北京百度網訊科技公司與朱燁隱私權糾紛案”經過二審,南京市中級人民法院認定“百度網訊公司的個性化推薦行為不構成侵犯朱燁的隱私權”,事實上認可了網絡服務提供者對cookies數據擁有所有權,但有保護隱私的注意義務。國內學界有268篇論文討論了cookie與隱私權的關系問題,大體分成了三派觀點。盡管cookie輔助數據與網絡爬行數據、旁路采集數據不盡相同,但同作為網絡服務者挖掘用戶數據的工具有相當的借鑒意義。,大體流行三種說法即產生者所有說、挖掘者所有說和折中的必要契約說*產生者所有說認為cookie數據應屬于用戶所有,核心原因是cookie記載的是用戶的各類身份信息。挖掘者所有說認為cookie數據應屬于網絡服務提供者所有,經典的舉例是“好比一個人在別人的土地上留下了一串腳印,這串腳印當然屬于土地所有權人”。折中的必要契約說認為cookie數據本身是屬于用戶所有,但是在訪問網站時依據相關協議已經發生了所有權轉移,屬于依合同取得所有權的情形。篇幅所限,在此僅簡單介紹。關于互聯網各類計算機數據的產權問題目前大都屬于法律空白領域,受制于法律人的計算機與統計學的專業水平,進展一直較為緩慢,使得互聯網長期存在大范圍的法外之地。。此類元數據是整個大數據產業的原材料,也是前述“大數據定義”中的“數字信息”。缺乏界定已經產生了高額外部性隱患,即Cookies等元數據處于公共產品狀態,極低的平均可變成本使得騰訊、阿里等大型互聯網企業在短時間內獲取了10億級的個人數字信息,企業在某些領域正在比他們的國家更了解他的人民。進一步的數據搜集將使得壟斷加劇,新型企業不依托數據支持將很難進入相關領域,進而損害社會福利。這不能通過互聯網公司參與制定的行業慣例與標準進行界定,成文法的比較制度優勢必要發揮。
大數據存儲、分析階段*廣義上的大數據挖掘包含大數據存儲和大數據分析,狹義的大數據存儲即大數據數據庫,大數據分析即根據大數據挖掘目標對已存儲的大數據進行分析整理得出模型、結論或其他有價信息。大數據存儲和大數據分析在實踐中是云計算的靜態和動態過程的統一,兩者其實很難分得開。“分析”是“存儲”的目的,不需要分析的數據也沒必要存儲。當然,由于單位硬件存儲成本的飛速下降,“備而不用”的機會成本降低,“存儲”也有了獨立于“分析”而存在的現實。的權利內容主要包括清潔數據、區塊鏈數據、Hadoop的MapReduce分散節點數據、用戶行為模型數據等方面*清潔數據、區塊鏈數據、Hadoop的MapReduce分散節點數據、用戶行為模型數據是大數據運作流程的各個步驟。簡單來說,將cookie等包含豐富個人信息的一般數據進行重新編碼,非個人信息化以實現數據清潔(也即原有的個人信息此時已經成了某種程序語言,非專業者看起來會覺得更像是亂碼,不可辨認)。區塊鏈數據簡單來說可以比作大數據蜂房中的一個個六角形房孔,主要是用來保密存儲個人數據(不是個人信息,至少不是以一般可辨認形式存在的個人信息)的,當然其應用范圍在不斷擴展其內涵的當下也遠遠不止如此。簡單理解Hadoop的MapReduce分散節點數據就是前文提到的分散式運算存儲在不同計算機節點中的數據,比如將10PB數據分配到一百臺終端中進行存儲和計算,每臺終端中的數據即是。用戶行為模型數據顧名思義,是大數據的核心目標之一,通過多方面搜集個體身份、年齡、購買力、信用度等盡可能多的信息準確預測個人行為以進行定價、精準廣告推送、精準營銷以及在人工智能、VR等領域無限的開發潛力。。從法律經濟學的角度來看,之所以區塊鏈數據等大數據權利內容應該通過成文法進行規定,是因為目前大數據產品交易中存在較高的制度風險與制度成本。這種風險主要體現在商事私人談判中違約收益過高,商業交易缺乏穩定性。比如甲公司購買乙公司挖掘并清洗的數據,或租賃了確定時間的區塊鏈數據訪問權限,在此過程中該如何解決復制了對方的數據后即違約或解約并轉賣其數據庫內容或算法的問題。由于數據摩擦微弱的技術特點,大數據復制的邊際成本可以忽略不計。在現有區塊鏈數據與清潔數據權屬不明的情況下,合同違約存在行為激勵。為此,大數據出賃方為規避合同違約風險就不得不選擇加大投入開發保密技術或者提高出賃價格,這將使得生產者剩余與消費者剩余雙雙下降,進而妨礙社會福利的實現[4]24。以上事實說明靠契約解決大數據確權制度成本過高。應該依照規范的霍布斯定理,通過立法明晰大數據產權以促進合作。
大數據應用階段*應用階段主要是將大數據分析后的具體模型實際應用,最典型的是CCM也就是個性化廣告推送。目前大數據應用的核心在于商業應用,商業應用利潤的主要來源是精準營銷收入,精準營銷收入的主要方法是個性化廣告推送和經營策略優化。這當然還比較初級,但是現實也很本質——大數據的核心目的是精確。前述大數據挖掘、存儲和分析本質上就是個統計學的技術表現。一定意義上,大數據應用就是無數組個性化統計學報告的可視化——我經常去吃什么菜,最后在APP上呈現給我的就是什么飯店。所以這個問題的實質是問可視化的統計報告歸誰所有。那按照一般的財產法思維,作為知識產權中的著作權自然歸制作人所有。而制作人基本是公司雇傭的,和公司之間有協議,這也同樣根據知識產權規則,委托制作開發則有約定按約定,所以歸委托方所有,也就是大數據服務的提供者所有。主要包括LBS數據、CRM數據等*LBS(location based services)基于位置的服務,比如手機定位、百度地圖、微信位置分享、搖一搖等。CRM(customer relation management)是客戶管理系統,比如根據顧客消費金額及區間決定折扣力度等。。如前文對“大數據”的定義,大數據興起的根本動因是精準預測,而LBS、CRM以及在可視化(VR)、人工智能等方面的大數據本質也都服務于這一目標。但諸如用戶將自己的位置信息通過微信轉發給朋友,接受京東商城等電商的個性化推送,抑或是醫療機構針對患者病史提出的轉向醫療服務和意見,這些轉發、推送、獲取的大數據應用權屬皆不明確。從法律經濟學的角度分析這一方面導致逆向選擇問題,用戶相對于大數據應用運營者而言屬于無信息乙方,無法觀察到特征組合的不合意傾向,進而承擔物品價高或質量低的風險,損害消費者剩余與社會福利。比如滴滴打車會在交通閑時推薦忙時路線(擁堵少但繞遠),導致用戶打車費用的增加,而用戶卻無法起訴滴滴損害了自己何種權益,若是根據合同主張滴滴沒有履行誠實信用義務將自己按照最合適路程安全送達目的地,則一方面舉證難度過高,另一方面又面臨訴訟成本高于訴訟受益的“正義不及于一元錢”法律經濟學困局,故而也需要法律明文規定權屬。
如前所述,在大數據定性的制度選擇中,將大數據定性為一種物權更具有效率。在物權路徑下更為具體的制度選擇中,物權由占有、使用、轉讓、收益、處分等權能構成,故而在大數據各流程中又面臨著哪些主體對大數據享有完整物權權能抑或不完整權能這兩種路徑之間的制度競爭問題,需要進一步分析。
大數據挖掘階段選擇完整物權權能路徑更有效率,應將Cookies輔助數據、網站爬行數據和旁路采集數據等大數據的物權歸屬于大數據挖掘者所有。
從占有權能的角度說,此階段數據挖掘者占有大數據交易成本更低。對此,目前學界和社會公眾中比較流行的看法是“大數據時代個人信息應歸個人所有,用戶對自己不愿意公開的信息享有被遺忘權”。這種“被遺忘權”雖然一般被認為屬于知識產權法的范疇,但是從物權法與知識產權法的一般關系來看,“被遺忘權”本質上是默認用戶對個人信息享有占有權的前提下產生的一種返還占有請求權,是典型的物上請求權。前文已經駁斥過大數據語境下主流觀點所認為的“個人用戶是數據產生者,網絡經營者是數據應用者”。用戶確實是個人信息的產生者和所有者,但是并不是被數字化、匿名化以及其他大數據技術處理后的個人信息的產生者與所有者。將挖掘階段大數據的占有權歸屬于個人用戶的制度設計是明顯無效率性的。一方面是因為這增加了締約成本,也即大數據挖掘有賴于與數據挖掘企業與用戶訂立契約并按照現行的合同法對格式條款要盡到充分的提示義務。數據挖掘經常是在幾毫秒之間即完成的,但是由于占有權不明,部分企業考慮到用戶對大數據具有占有權而用強制的“五秒倒計時”*比如安卓客戶端百度的數據應用提示如下“您確定已知曉并同意下述服務改進計劃條款(5)”,括號中的“5”是五秒倒數計時的第一個數字。提示隱私條款和數據挖掘許可條款,大大降低了數據挖掘效率。另一方面是增加了履約成本。如果占有權歸屬于用戶,則用戶依據返還占有請求權行使個人信息的“被遺忘權”。以全球大數據企業領頭羊的Google在歐洲的遭遇為例,每年要收到數萬份個人信息刪除的請求。為此Google等公司成立了專家組和刪除組去審核這些申請并予以回復、查詢、刪除。這種契約轉讓大數據占有權的法律邏輯極大推高了企業的履約成本,進而妨礙了生產者剩余和社會總剩余最大化的實現。
從使用、處分權能的角度說,由于信息成本過高,挖掘階段的使用權人應該是大數據挖掘者而不是用戶。“信息”是大數據產業的主要原材料,大數據挖掘的過程即信息獲取的過程或生產大數據的過程,而這一過程目前成果過高。具體包括固定成本和可變成本等經濟學基本邏輯內容。相較于企業而言,單個自然人用戶進行數據挖掘的平均可變成本過高,既沒有效率也缺乏可能。而目前由于租賃云服務(存儲)和超級計算機的成本仍舊過高,規模經濟以下的中小企業仍然無法充分利用大數據工具服務于生產。大數據目前的主要用戶仍然是規模經濟的大型企業或政府。相較于將挖掘階段的大數據確權給自然人,確權給有挖掘能力及有效率的企業與政府則更有利于這一技術正外部性的拓展與實現。
從轉讓與收益的角度說,相對于用戶而言,大數據挖掘者享有轉讓與收益權更有利于降低交易成本和促成私人談判。大數據挖掘市場正處于非完全競爭狀態,不同于新古典經濟學基本假設中的“完全競爭”即無壟斷、無摩擦、信息對稱的自動均衡市場,大數據挖掘市場目前摩擦成本高起,信息不對稱情況嚴重。由于“數據豎井”(數據壁壘)*Data Silo(DS),狹義上代指各公司數據庫由不同軟件公司開發所以很難將其整合。但是隨著技術的發展,技術障礙已不再是主要矛盾。故而數據豎井向廣義發展,近似于數據壁壘,指的是各企業、國家之間各自為戰拒絕共享數據以促進社會和人類福利的最大化。的存在,非相關專業的元數據占有者(即用戶)想要通過私人談判實現元數據交易的成本過高,且削減這種成本促使個體用戶直接交易緩存也無必要。反之,大數據最為流行的Hadoop平臺核心步驟HDFS(分布式計算)極類似法律經濟學中的私人談判,由各節點依據協議分散運算并以最低的成本完成數據挖掘。進而企業或政府能夠以更低的成本實現私人談判與合作,最大限度加速大數據有效挖掘,進而形成全社會范圍內有效的大數據流動和社會福利的增加。
該階段權利應歸委托人所有或依據契約進行產權確認。大數據存儲、分析階段也即“云計算”階段,此時由于個人信息已被清潔和數字化,從而不再涉及用戶所有權問題。故而制度選擇方案即是在“云計算委托人”和“云計算受托人”之間進行確權,具體包括四種路徑,即全部分配給委托人、全部分配給受托人、法定折中分配權利和契約意思自治。在進行制度選擇之前首先有必要審視下“云計算”市場的真實狀況,如果現行制度交易費用低下、制度運轉高效、負外部性可控,那么現行制度并不存在制度改進空間。
“云計算”的核心資產是大型、超級計算機,核心競爭力是“4V”標準項下的“大量、多樣、快速、準確”地運算。國內外提供云服務的企業主要包括Google、IBM、阿里、騰訊以及華為等互聯網寡頭,這些企業大都本身擁有10億級別的大數據運算需求,所以本身都擁有自己的云服務軟、硬件,比如阿里巴巴集團的“阿里云”,騰訊公司的“騰訊云”,都有自己的超級計算機中心。云服務是在滿足自身大數據運算的過程中發現的對主營產品的替代商品,將“剩余運算能力”出售給其他公司實現企業資產配置效率的最大化。總而言之,現在“云市場”中云服務的主要生產者與消費者高度統一。
在這一過程中制度經濟學的預言已然實現。科斯的觀點,企業機制對市場機制發生替代作用的關鍵是市場交易成本高于企業內部交易成本,以及威廉姆森發展的交易費用理論“當資產具有高強度專用性或者高頻率交易的情況下,由企業內部交易更有效率”[5]149-151完美地描述了現在的云服務市場現狀。在占市場主導地位的互聯網寡頭中,基本都采取了企業內部云服務替代市場云交易。而由于近五年來國內云服務市場還在以每年30%左右的增速*參見《2015—2020年中國云計算行業前景調查及投資策略分析報告》。拓展,目前云市場競爭較為充分,使用成本低廉,信息獲取便利,沒有明顯阻礙私人談判和抬高交易成本以阻礙社會福利的情況。另外,大數據的存儲方式和分析技術隨著產業革新而處于動態調整狀態,通過描述性立法對該階段的各項具體大數據權利內容的主體進行明晰,則面臨頻發的法律修訂和高昂的立法成本[6]1331-1334。所以目前立法應該在云服務市場中保持“謙抑”,交由合同法與契約自治去解決存儲、計算階段的大數據確權問題。
應用階段的大數據應被界定為公有產權,屬于全體社會成員所有,但需要法律對其邊界加以具體限制。
前文已述,大數據的法律屬性是一種物權,包括占有、使用、轉讓與收益、處分四種權能。其確權面臨的制度選擇是在公有產權路徑與私有產權路徑之間(包括運營商所有和用戶所有)進行比較,將完整權能或部分權能賦予何者交易成本更低、制度效率更高。
從占有的角度來說,LBS數據、CRM數據等應用階段的大數據事實上已歸屬于政府和運營商占有,而這種占用基于法律行為而產生,且目前并未產生足以降低社會福利的負外部性影響,故而暫時不需要調整。
從使用的角度來說,應用階段的大數據不應私有化。主要原因在于這將抑制正外部性溢出并催生壟斷。從供給側改革的角度來看,應用階段大數據若歸屬于少數大型互聯網公司則意味著法律為價格歧視和無謂損失提供溫床。其他企業在無力承擔高昂運維成本時必須購買其大數據產權,否則將失去精確供給能力和市場競爭力。若購買則提升商品的邊際成本,造成部分消費需求沒有得到滿足進而降低社會福利;若不購買則使得商品生存的過剩或不足[7]91-93,而無論是哪種結果都與供給側改革相悖。從“大眾創業,萬眾創新”的角度來講,應用階段的大數據確權將對無償公開大數據成果產生負面激勵,抬高企業創新與科學研究的成本,阻礙正外部性的產生與技術溢出。
從轉讓、收益和處分的角度來說,將應用階段大數據界定為私有產權將導致交易成本陡然增加。這主要是通過增加合同履行成本以及削減社會有效需求而產生的。大數據根本追求是共享和開放,確權意味著應用階段的大數據本身可以定價,即乘坐一次網約車要給運營商、導航、語音、搜索等多種企業支付對價,而非當下通過替代支付手段即通過使消費者接受廣告而由廣告主支付相關服務費用。比如規定LBS大數據應用歸運營商所有,則百度地圖、谷歌地圖將有理由收費使用。關于企業選址、市政規劃、個人出行的整體社會成本都會受到影響。
總而言之,應用階段的大數據從社會總體福利的角度來講應該參考土地制度,界定為公共所有并交由政府管理。對于應用階段的大數據,與其說“凱恩斯主義”比起“奧地利學派”更有效率,不如說應該在宏觀管制的框架下盡可能實施大數據的零交易成本流動。具體方式可以通過成立“中央大數據銀行”[8]711-714對大數據市場實施“統而少治”[9]2。一方面限縮大數據的流動規模以保護國家信息安全和防治大數據的“新型國有資產流失”,另一方面限制大數據發展中的市場失靈,比如大型互聯網企業大數據托拉斯的形成[10]1451。
[1] [美]埃里克·西格爾.大數據預測[M].周昕,譯.北京:中信出版社,2014.
[2] 周林彬,董淳鍔.中國商會立法芻議:從契約的視角[J].南開學報(哲學社會科學版),2007(02).
[3] [德]托馬斯·舒爾茨.Google:未來之鏡[M].嚴孟然,陳琴,譯.北京:當代中國出版社,2016.
[4] 周林彬.市場經濟法立法的成本效益分析[J].中國法學,1995(1).
[5] 周林彬.法律經濟學:中國的理論與實踐[M].北京:北京大學出版社,2008.
[6] Krotoszynski,Ronald J.Jr.Reconciling Privacy and Speech in the Era of Big Data:A Comparative Legal Analysis[J].William&MaryLawReview,2015,56(4).
[7] 魏建,周林彬.法經濟學[M].北京:中國人民大學出版社,2008.
[8] Data Bank.Ownership of Demand Deposits[J].Federal Reserve Bulletin,1954,40(7).
[9] Sieben,Katie Clark.Labor Markets in 2040:Big Data Could Be a Big Deal for Jobseekers[J].Monthly Labor Review,2016,139(2).
[10] Price,W.Nicholson II,Big Data,Patents,and the Future of Medicine[J].Cardozo Law Review,2016,3(4).