趙澤君,蔣麗華
(西南政法大學 法學院,重慶 401120)
現代社會的不斷信息化和計算機硬件的不斷升級,人類擁有了大量的數據,而隨著數據庫技術的成熟和普及,人類積累的數據正以指數方式增長。在1982年,趨勢大師John Naisbitt就在其著作《大趨勢》(Megatrends)中提到:“人類正被信息淹沒,卻饑渴于知識。”[1](P16~17)面對浩如煙海的信息,從這些信息中獲取真正有用的知識已越來越難,數據挖掘技術(Data mining technology)在此背景下興起并獲得快速發展。數據挖掘技術可以幫助人們從海量信息中提取知識,但這些信息可能涉及到公民的隱私,由此可能引發一系列法律問題,但當前涉及這一交叉領域的研究仍較為匱乏。本文在對數據挖掘技術理論和應用進行梳理的基礎上,對數據挖掘技術應用過程中產生的法律問題進行分析與討論,以期為我國數據挖掘技術的發展與應用提供一定的理論與實踐參考。
電子科技的迅速發展產生了大量的數據,這些數據具有廣泛的利用價值。在浩瀚如煙的數據面前需要一種完成將其轉換為有用信息和知識的技術,數據挖掘技術由此興起。數據挖掘是從海量數據中提取有意義的新的關系、趨勢和模式的過程。總體來說,數據挖掘技術是一門新興的跨領域交叉性學科,從技術層面看,其涉及統計學、數據庫系統、模式識別和高性能計算等多個領域。作為一種知識發現的手段,數據挖掘使用數據庫技術進行數據存儲,使用機器學習技術進行數據分析。但數據挖掘技術的應用并不僅囿于自然科學領域的范疇,從社會學層面講,其在應用過程中涉及一系列的法律問題。由數據挖掘技術獲取的信息和知識應用廣泛,在商業、智慧校園、醫療及司法領域發揮著重要作用。
在進行數據挖掘之前需要進行數據集成、清洗、簡約和轉換等數據處理,為進行精準的數據挖掘服務。數據輸入錯誤、用戶掩蓋信息、技術或保密導致數據不完整都會影響用于數據挖掘的數據質量。和普通信息檢索相比,數據挖掘獲取的信息具有間接性和抽象性。常用的數據挖掘技術包括決策樹、遺傳算法、神網絡、機器學習、數據倉庫、關聯規則、貝葉斯網絡、可視化技術等。樸素貝葉斯算法、邏輯回歸算法、K-最近鄰算法、支持向量機算法和決策樹算法等是數據挖掘技術常用的算法。數據挖掘主要通過對數據的總結、分類、聚類、關聯等方式進行分析。
由于數據挖掘發現隱藏的模式,是數據庫中知識發現(knowledge discovery in database, KDD)的關鍵步驟,因此很多人認為二者是等同的。[2](P4)此外,數據倉庫(data warehouse)是整個數據挖掘技術的基礎。在20世紀80年代,數據倉庫的概念由W.H.Inmon在《建立數據倉庫》(Building the Data Warehouse)[3](P31~145)一書中給出,隨后又有了更為精確的定義。一般認為數據倉庫是在企業管理和決策中面向主題的、集成的、時變的以及非易失的數據集合。數據倉庫對企業內部的業務數據進行整合、加工和分析,因而異于其他數據庫應用。傳統的數據庫管理系統(database management system, DBMS)的主要任務是聯機事務處理(on-line transaction processing, OLTP),而數據倉庫則是稱為聯機分析處理(on-line analytical processing, OLAP),主要在數據分析和決策方面提供服務。關系數據庫之父E. F.Codd最早在1993年提出OLAP概念。[4](P87~89)Codd認為,傳統的OLTP已不能滿足終端用戶對數據庫查詢分析的需要,結構化查詢語言(structured query language, SQL)也同樣無法勝任,為了得出可供決策參考的統計分析數據, Codd提出了多維數據庫和多維分析的概念,進行聯機分析處理(OLAP)。
事實上,總的來說,通過聯機分析處理(OLAP)得到供決策參考的統計分析數據正是數據挖掘技術在較淺層次上的應用;而在深層次上,數據挖掘技術則是要從數據庫中發現和提取前所未有的、隱含的知識。

圖1 數據挖掘——數據庫中知識發現的核心步驟
數據挖掘技術的興起,源于實際中的強烈需求。(cross-industry standard process for data mining, CRISP-DM),由SPSS、NCR和Daimler Chrysler三家公司在1996年制定的數據挖掘的交叉產業標準過程是數據挖掘業界流行的通用標準之一,此標準不是把數據挖掘僅僅局限在研究領域,它強調的是數據挖掘在商業中的應用、解決商業中存在的問題。事實上,數據挖掘技術在電子商務、保險、銀行、交通、零售等商業領域都有著重要應用,例如客戶群體劃分、交叉銷售、客戶流失性分析、客戶生命周期管理、客戶關系管理、欺詐發現等等。[5](P94~95)
美國Firstar銀行使用Marksman這一數據挖掘工具,通過客戶的消費模式來預測何時應為客戶提供何種產品;Bass Export作為世界最大的啤酒進出口商之一,通過使用IBM的Intelligent Miner,基于海外市場的交易過程中產生的眾多訂單,很好的解決了如何了解客戶的消費習慣機器對品牌的愛好問題。除此之外,對用戶信息的數據進行挖掘是當前研究得較多、應用也十分廣泛的領域。通過對用戶的個人信息進行數據分析與挖掘,可以得出關于用戶興趣的挖掘報告。在電子商務網站,對于每天產生的上百萬次的游覽與在線交易記錄,可將此生成大量的記錄文件和登記表,進而對這些數據進行分析和挖掘。根據由此得出的用戶興趣的挖掘報告可以全面了解客戶的喜好、購買模式、購買習慣等,這將對企業的盈利產生重要影響。
從商家的角度,數據分析有助于建構適合的模型,便于商家在此模型的基礎上展開商業活動達到利益的最大化。除此之外,數據挖掘技術在其他領域也逐漸得到應用。如數據挖掘技術在智慧校園中可為學生的學習評價提供支持,更好的運用云平臺共享學習資源。通過對教學資源和學生學習信息等大量數據進行整理,也有助于改進教師的課堂授課模式。在圖書館管理過程中,數據分析平臺可以清晰的展現進館人數和時間、借閱圖書種類和數量等內容,對此進行的數據分析有助于各大圖書館進行管理上的優化。在數字化圖書館中應用數據挖掘技術,有利于為用戶提供個性化的服務。[6](P84~86)在醫療健康領域,數據挖掘技術在輔助完成醫療任務、對醫療資源進行合理的管理等方面發揮了重要作用,已成為醫療大數據產業發展的核心需求之一。[7](P114)在司法領域,數據挖掘技術日益廣泛應用于公安機關情報研判工作。一方面用于收集犯罪證據偵破案件,另一方面通過對未來犯罪的預測進行提前預防和打擊。
數據挖掘技術雖然優點眾多,但就此技術應用來講,仍存在一些實踐難題。在進行數據挖掘之前需要進行變量的選擇和分析,在海量的數據中如何考量隱含的變化趨勢,如何進行互聯網中的數據挖掘以及對建構的模型采取何種標準進行評價等問題。[8](P124)需意識到,數據挖掘只是一種建構模型的方式,作為一種強大的分析工具,仍舊需要管理人員進行操作并通過現實生活對建構的模型進行驗證。這也說明對數據挖掘理論與算法的研究任務繁重且無止境。
然而,通過利用大量的諸如網頁游覽記錄、購物記錄、病史、信用記錄等私人信息進行數據分析和挖掘,可以得到許多有用的模式和知識,但卻可能對個人的隱私和信息安全構成威脅,從而使得數據挖掘這一行為面臨一些法律問題。
數據挖掘技術的精準適用建立在對數據進行完整收集的基礎之上。此技術的普及加大了個人信息保護的難度,由數據挖掘所得的數據在司法實踐中也面臨能否作為證據使用及應歸為何種證據種類的爭議。針對數據挖掘技術面臨的上述挑戰,應完善司法救濟措施增強對個人信息權的保護,在證據層面將由數據挖掘所得的數據定性為電子數據證據并完善其審查規則。
數據挖掘技術的廣泛使用加劇了個人信息保護的難度。自媒體時代個人信息保護面臨更加嚴峻的挑戰,個人信息泄露事件頻發也促使《民法總則》第111條的出臺。雖然“個人信息”是一種法益或是民事權利仍存有爭議,但對其應受法律保護已達成共識。[9](P34~45)數據挖掘技術以個人信息收集為基礎,如何平衡收集信息完整性與合法性是這一技術面臨的難題。
精準的數據分析建立在完整的數據收集基礎之上。然而,現有立法對于信息安全的規定并不能有效約束數據挖掘技術的規范性。一方面,數據收集者并不完全確定信息的使用途徑,即使提前向被采集者進行聲明,被采集者也難以了解信息的利用的模式和可能產生的后果。[10](P772~774)另一方面,雖然采用數據分割和加密等技術手段可以有效預測和防止隱私泄露的風險,[11](P154~160)但在商業利益的驅動下仍無法避免數據加工者和其他主體侵犯個人信息權的行為。
數據挖掘技術以人們看不見的方式進行,即使當事人懷疑個人信息被侵犯也難以證明侵權行為的存在并獲得賠償。面對數據挖掘技術對個人信息保護形成的沖擊,除完善數據挖掘技術之外,筆者認為在立法層面應改變我國現有的個人信息侵權案件的證明要件。根據《侵權責任法》對一般侵權責任構成要件的規定,需證明加害行為、損害后果、因果關系和過錯四個要件。對于任何一個要件證明不能原告將承擔不利的后果。要加大個人信息的保護力度,筆者認為有必要對個人信息侵權案件設置不同于一般侵權行為的獨立的法律構成要件,原告僅需證明加害行為、損害后果以及兩者之間存在因果關系三個要件,即對于個人信息侵權案件責任的認定采取無過錯責任原則。
通過數據挖掘技術獲得的數據在訴訟中存在是否與案件存在關聯性進而能夠作為證據使用的爭議。通過挖掘技術所得數據存儲于特定電子系統中,根據三大訴訟法對于證據種類的劃分,此種數據作為證據使用時應為電子數據證據。但嚴格來說,仍面臨與電子數據客觀屬性相沖突的難題。對此,應通過完善電子數據的審查規則予以解決。
1.能否作為事實認定中的證據之爭議
證據,一般而言是指用于法官確定判決之基礎的依據。[12](P370)對于通過數據挖掘所得的數據能否作為認定案件事實的證據,學術界對此存在爭議。有觀點認為大數據分析預測能為案件事實認定過程提供背景知識,但不能獨立作為證據使用。[13](P64)數據挖掘作為量化分析的手段,無法挖掘出普適規律解釋所有個體行為。也有觀點認為大數據可以作為證據使用,納入電子數據這一既有的法定證據種類范疇。[14](P56)
筆者認為大數據可以對已經發生的事實進行證明。也就是說,大數據的另一個發展方向是作為事實認定的證據。[15](P63~64)但通過數據挖掘所得的數據不同于一般的在案件發生過程中形成的證據,與電子數據證據的客觀性存在一定的沖突。
2.與電子數據客觀性(真實性)的沖突及解決
電子數據是指借助現代信息技術或電子設備形成的一切證據,或者以電子形式表現出來的能夠證明案件事實的一切證據。[16](P162)對于保存在特定系統中的電子數據,使用時直接從系統中調出即可。通過數據挖掘獲得的電子數據往往脫離其上下文情境,從而導致電子數據線索被錯誤的解讀。運用數據挖掘技術分析得到的“預測”在某種程度上也具有主觀性。且數據挖掘中的電子數據往往以數據流的形式存在,對數據的利用以對數據流的有效掌控為前提,所得數據往往隨著時空變化發生改變。[17] (P111~119)
對于電子數據進行評價,與傳統證據一樣應做客觀性、合法性和關聯性方面的審查。證據的客觀性要求作為證據方法的載體未經加工、變造或呈現證據的過程不受扭曲、干擾,[18](P70)對于電子數據的審查和適用應遵循此客觀性標準。然而,通過數據挖掘技術獲得的電子數據建立在對基礎數據的加工分析之上,與電子數據證據予以采納的客觀性要求存在一定的非調和性。
針對挖掘所得數據作為證據使用時與電子數據客觀性的沖突,筆者認為可通過完善電子數據的審查方式予以解決。對于電子數據客觀性的審查主要涉及真實性的審查,可從電子數據載體的真實性、電子數據的真實性以及電子數據內容的真實性三個層面展開。[19](P121)對于電子數據載體的真實性著重審查保存挖掘數據的載體的同一性和完整性;對于電子數據真實性著重審查數據挖掘基礎數據是否與原始數據保持一致,是否存在被刪改的情況;對于電子數據內容的真實性著重審查挖掘數據與其他證據所包含的信息能否相互印證。
數據挖掘技術作為一種新興的信息技術,目前已成為計算機和情報學研究的熱點之一。因可提供個性化的服務并對整體趨勢進行預測,數據挖掘技術無論是在經濟領域還是司法領域均具有廣闊的適用空間。然而,此技術在法律層面也面臨一些挑戰,但并未得到研究人員的廣泛關注。從技術和法律兩個層面對數據挖掘技術進行整體性的探討和分析任重而道遠。