◆孫躍元
數據安全與云計算
《通用數據保護條例》框架內的自動化決策與數據保護
◆孫躍元
(中國政法大學研究生院 北京 100088)
大數據時代下的自動化決策已經在社會各領域朝著縱深發展,但目前關于自動化決策的法律規制仍處于滯后的狀態。因此,本文旨在分析《通用數據保護條例》中有關自動決策的規則,包括自動化決策的本質及核心概念的分類;立法所授權的自動化決策及法律規定的保護措施。對相關制度進行梳理,發現其立法中主要存在的問題,包括算法解釋權和算法透明度的理論和實踐困境。并以此探討其對我國如何對解決自動化決策帶來問題的借鑒意義。
通用數據保護條例;自動化決策;算法解釋權;算法透明度
隨著現代信息科學技術的高速發展,人工智能有望成為“第四次工業革命”的主要導火索。這場深刻的革命將改變目前社會的運作方式和人與人的相互關系,甚至改變就業市場和就業需求,以及即將走上數字化道路的各個行業。近年來,機器人技術和娛樂軟件領域的技術發展出現了前所未有的進步,從仿人機器人、自主和護理機器人、自主車輛、機器人保姆和玩具,到用于預測警務或醫療診斷的人工智能等[1]。人工智能飛速發展的同時,算法自動化決策也帶來了嚴重的新生風險。縱觀全球,歐盟在數據保護立法領域遙遙領先,并且隨著科技水平的迭代更新而完善。因此,通過分析研判歐盟《通用數據保護條例》相關規定,以其對我國的自動化決策立法領域提供借鑒思路。
在《通用數據保護條例》(以下簡稱GDPR)中,自動化決策定義為在沒有人為干預的情況下做出決策,自動個人決策是完全基于自動處理的決策。通常情況下可以向系統自動提供數據,系統自動輸出決定。如果自動化決策對數據主體沒有任何約束力,也不存在剝奪數據主體的合法權利的可能性,那么這種類型的決策的影響就很小。如果某種決策對主體有約束力并且影響權利,法律必須提供足夠的安全保護來保護個人的權益不受侵害。此類對個體產生重大影響的例子不勝枚舉,例如通過自動化決策決定客戶是否應獲得信貸、納稅申報表或被雇傭等等。自動化決策包括多種決策類型,例如高頻交易,銀行發放貸款的決定、行政決定和一定范圍內的司法決定。隨著技術的進步和社會的發展,自動化決策的概念并不是一個統一的概念,它是廣泛、多面的。根據其性質不同可以將其分為三大類:程序性和實質性自動決策、算法性和非算法性自動決策,基于規則和基于法律的決策。
程序性和實質性決策的區分并不是指作出程序性或實質性決定,而是指自動決定的通過方式必須保證程序性和實質性的公平性和準確性。程序公正要求相同或可比事實有關的所有決定都是根據同一自動程序作出的。然而,程序性決定也必須在實質上是公正的。這是任何自動化決策都必須遵循的底層邏輯,即通過算法做出的決定不應具有任何歧視性。
算法決策是在算法支持下的自動化決策。算法的概念沒有一個共同的定義。但是,在自動決策中,正在處理的計算機算法是指為完成一項任務的一系列步驟,這項任務被描述得足夠精確,計算機可以運行它。隨著大數據的日益使用和復雜決策的日益增多,算法干預已成為必不可少的手段。非算法決策主要是指不通過計算機算法而做出的,其涉及范圍較小,因此不在主要討論范圍。
“基于規則”和“基于法律”的決策都是在規則的基礎上做出的,但其規則來源是不同的。對于基于規則的決策,這種規則主要是某種商業目的的結果。此類決策已經在商業領域得到廣泛應用。例如,為了精準的廣告投放而分析得出的決策結果等。而基于法律的自動化決策,其規則來源于對每個人都有約束力的法律規則。生活最常見的例子如凡超過限速的人都將被罰款。自動化決策的前提是所適用的規則不易解釋,決策者在作出決策時沒有任何自由裁量權。但由于法律規則的特殊性質,此類決策同樣帶來難題。除非基于法律的規則非常清晰和精確,否則它必須面對法律開放性和解釋性的挑戰。
GDPR授權的第一類自動決策是在數據主體與數據控制者之間訂立或履行合同的“必要”決策(第1款中的禁止“不適用于以下決定:(a)對于數據主體與數據控制者之間的合同訂立或履行是必要的;(b)由控制者所遵循的聯盟或成員國法律授權...;或(c)基于數據主體的明確同意)。根據必要性標準所指的內容,該規定可以有不同的解釋,因此,關于“必要”的解讀是模糊不清的,這種情況下做出的決定值得懷疑。例如,訂立保險合同或貸款合同肯定需要對風險進行評估,但是這種風險是否一定需要通過自動化決策的方式進行評估,值得考慮。再比如,航班價格通常是通過動態定價來確定的,同時考慮到了潛在買家的用戶畫像的結果。用戶畫像是GDPR著重強調的自動化決策模型的一種。但是,這種通過分析用戶的個體特征,以便自動確定價格,對于締結或履行此購買合同是否必要也同樣需要懷疑。
GDPR授權的另一種自動化決策是根據數據主體的明確同意進行自動決策。根據法律規定,“同意”的作出必須通過積極行為達到明示同意的效果。“明確同意”是指數據主體必須明確聲明同意,例如簽名的書面聲明,填寫電子表格或使用電子簽名。目前各種的互聯網產品的同意制度都或多或少打些擦邊球。比較常見的問題是不明確的同意制度泛濫。例如許多App普遍存在預先勾選同意,或者要求用戶針對不同的數據處理活動給出一攬子同意等,已經實質性的影響到了用戶對其數據的控制力度,有極大的侵犯用戶隱私的風險。因此,將數據處理活動作為用戶使用其服務的前提條件、隱私政策冗長晦澀、網站上隱私政策極不明顯、隱私相關內容過于分散、默認設置同意收集用戶個人數據等種種情形下所做出的“同意”通常都被認定無效。GDPR為了真正使數據主體行使同意的權利,增強數據主體對個人數據控制力的效果,采取了非常嚴格的“同意”解釋制度。但不得不承認,這種嚴格的同意制度同也在一定程度上造成了企業合規成本加大和生產成本加重的問題,勢必會影響中小企業技術創新和變革
在信息量爆炸的大數據時代,自動化決策無疑是一種極為高效的數據處理手段,不僅能使我們的日常生活便捷有序,還有利于企業的精準投放和量化生產,這大大節約了社會的整體資源。但是由于算法黑箱等技術壁壘的存在,自動化決策不可能是完全公正、正確的。假如算法在運行中被人為地加入了歧視和偏見的因素,其運算結果也一定是不公正的,極有可能加劇社會不穩定[2]。因此,法律確有必要提供有效保護措施,包括提供拒絕自動化處理的權利和其他救濟手段。
歐洲的數據保護立法已經走在了世界的前沿,并且不斷地更新完善。關于反自動化決策權的立法保護在諸多法律文件上均有體現。歐洲議會和理事會于2016年4月27日發布的《刑事事項數據保護指令》第11條對自動化個人決策采取了類似的立場(《刑事事項數據保護指令》旨在規定有關主管機關出于預防,調查,偵查或起訴等目的處理個人數據的問題。內容涉及犯罪或執行刑事處罰等此類數據的自由流通問題),規定成員國有義務禁止“完全基于自動化處理的決策,包括對數據主體產生不利法律影響或對其產生重大影響的分析”。1995年的英國《數據保護指令》第15條規定,數據主體同樣有權不受完全是基于數據的自動化處理的決策所產生的對其重大影響。《數據保護指令》的還列舉了一些自動化決策的例子,即“評估與數據主體有關的某些個人方面的決策,如其工作表現、信譽、可靠性、行為等”。這些例子表明,《數據保護指令》的規定主要集中在基于數據自動處理的分析實例上,而不包括其他類型的自動決策。《通用數據保護條例》第22條延續了這種保護個人數據不受自動化處理的傳統(GDPR第22條第一款規定:“數據對象有權不受僅基于自動處理的決定的約束,對他或她產生法律效力,或對他或她產生同樣重大的影響),并且提供了一些自動決策的例子,即“在沒有任何人為干預的情況下自動拒絕在線信貸申請或電子招聘實踐”,這使GDPR在該條款的基礎上增加了一些內容程序。
根據GDPR,數據主體有不受完全基于“自動處理”的決策的權利,而數據分析(profiling)是一種主要導致此類決策的處理類型。數據分析意味著對個人數據的處理,用以評估與自然人有關的某些特征,例如“分析或預測與自然人在工作中的表現、經濟狀況、健康、個人偏好、興趣、可靠性有關的方面”。通常情況下,一個人的數據很難不經過分析直接導致決策。但有些自動化決策和預測并不直接來源于數據分析,例如高頻交易或對司法判決結果的預測,它們不涉及對個人數據的處理,因此不屬于GDPR的保護范圍。
值得注意是GDPR第22條是被放在數據主體權利的章節中的,這說明權利的行使將取決于數據主體的自由意志和選擇。如果數據主體選擇行使此權利,并且要求決策不完全基于自動化處理,則數據控制者將具有三種選擇:首先,它在人為干預下做出決策,即不基于完全依靠自動化處理的決策;第二,如果不適用第22條第2款的例外情況,則不得以自動方式做出最終決定;第三,在適用第22條第2款中的例外的情況下,它仍然可以做出自動決定。但為了使決定不完全基于自動處理,控制者將需要利用有能力更改自動決策的人工干預,即對“有權并有能力更改該決定的人”所行使的決定的監督。但是,如果不選擇行使這項權利,則會導致可以合法地做出自動化決策。如果簽訂或執行合同時有必要做出自動化決策或基于數據主體的明確同意,則數據控制者有義務向數據主體提供保護措施。但是,如果沒有適用例外情況,并且數據主體沒有行使其反對自動決策的權利,就可以做出完全自動化的決策,對數據主體產生相應的法律后果。
根據GDPR,只要允許自動決策,就必須為數據主體提供適當的保障措施。此類保護措施的目的是防止錯誤、歧視性決定或不尊重數據主體權益的決定。GDPR明確規定了應提供最低限度的措施:(1)數據主體至少應有權申請具有人為干預權力的控制者;(2)數據主體有表達觀點的權利;(3)數據主體有反對該自動化決定的權利。
數據主體始終具有權利獲得人工干預,這意味著可以請求通過人工干預使全自動決策變為非自動化。例如,如果通過自動化方式評估保險風險,則數據主體可以要求對這種決策的結果進行人工評估。但是人為干預的權利可能給數據主體行使其權利和修改決策的人造成實際困難。這種方法在法律上是適當的,在社會上是可取的,但它可能在實踐中存在巨大的困難。由于自動化系統可能不僅考慮了與決策相關的數據,還有許多其他復雜的數據集。并且,數據分析能力有限的人在實際操作中很難證明,最終決策需要與算法決策有所不同。如果自動化決策是與特定數據主體相關的簡單數據總和,那么對自動化決策進行人工審核或許可行。但是,如果決策是基于大數據中數據之間的復雜關系,在審查此類決策時將面臨更加艱巨的任務[3] 。最后,數據控制者是否愿意重新評估和修改該決定,很大程度上取決于其對最終決定的責任。并且不容忽視的是,責任制應始終考慮決策錯誤的原因,如果故意設計算法以區分特定種族,則責任歸因于算法的開發者。而不是僅靠人工干預進行結果糾偏。
GDPR賦予了數據表達觀點的權利。筆者認為,對此權利恰當的解釋是,控制者在評估自動決策時應考慮數據主體的意見,并有義務對數據主體的觀點做出回應。現實中,數據控制者可能通過不回答數據主體的意見,而將使該權利在實踐中無效。因此,必須在這項權利與通過該決定的必要性之間取得權利的平衡。數據主體有權對決定提出異議,該權利與表達她的觀點的權利并駕齊驅。在實踐中,這意味著決策程序將變成對抗性的。這引出了無法回避的問題,誰應該對這種自動決策的結果負責。例如,如果某個數據主體明確同意對其信用等級進行自動評估,之后對這一決定結果提出異議,那么是否需要由處理該文件的銀行官員或者該組織內的另一名獨立監督員處理此異議?由于GDPR模糊的規定,很多實際操作中可能遇到的壁壘目前尚未有行之有效的解決方案。
數據主體獲得解釋自動決策的權利的問題一直是學術界爭論的熱點[4]。一些學者認為GDPR只需要對系統的運作方式進行事前解釋,而無需對決定背后的原因進行事后解釋。而另一部分學者認為自動決策的算法解釋權具有實施的可能性,但在實踐中可能會遇到巨大的困難。這引起了幾個問題:到底需要向數據主體顯示什么?這項權利的確切含義是什么,解釋必須有多詳細。
要注意的是,GDPR關于通知義務和獲取的權利均未明確提及命名為“解釋權”的權利。GDPR要求不論是從數據主體還是從其他來源收集個人數據,數據控制者向數據主體提供有關所涉及背后邏輯的“有意義”的信息,以及對數據進行自動化決策的意義和預期后果。在法院判例法中,為了解釋數據主體的某些權利而對不同的數據保護條款進行結合并不少見。例如,在西班牙的Google案中,法院依靠95數據保護指令的訪問權和反對權相結合來創建刪除權(通常稱為“被遺忘權”)[5]。鑒于此,筆者認為,可以通過對法律條文進行解釋,確定解釋權的核心要義是有權告知數據主體有關自動決策對其產生法律或重大影響的原因。
GDPR并沒有明確給出算法解釋的內容和范圍。控制者告知數據主體“有關所涉及的邏輯的有意義的信息,以及這種處理對數據主體的意義和預期的后果”,即數據控制器需要向數據主體告知作出決定的原因。僅當數據主體可以理解決策所基于的因素和考慮因素時,自動決策所涉及的邏輯才是“有意義的”。對系統或算法功能的抽象理解對數據主體沒有太大用處。如果僅僅披露算法整體運行的程序性規則,并不能回答為什么算法以特定數據集作為輸入才能達到特定決策的問題。因此數據主體必須了解該決定背后的原因。
隨著技術的進步以及算法在決策中的使用呈指數增長,法律法規和學術工作都要求更加透明的算法決策。算法的透明性是揭示采用特定決策的算法背后的邏輯。簡單的自動化決策背后的邏輯解釋不會產生特殊問題。例如,如果檢測到駕駛員速度超過了速度限制,則自動發出超速罰單。決策背后的邏輯以及決策所依據的規則可以很容易地向數據主體解釋:如果超出了速度限制,則發出超速罰單。與之不同的是,基于復雜算法的自動決策在解釋決策基礎的原因時會面臨許多麻煩。在實踐操作中,幾乎不可能解釋算法,因為即使算法開發人員也無法準確指出做出特定決策的原因。提高算法透明度的技術解決問題,例如顯示源代碼等等。但這必然會涉及商業秘密和技術保密的問題。算法開發者如果公開其核心技術,則會面臨核心機密泄露等一系列損害公司利益的行為。
敏感數據的范圍和類型目前并沒有統一的標準。當涉及種族或民族血統的敏感數據參與決策時,決策可能具有歧視性,因為決策所基于的數據本身就是歧視性的。有偏見的數據集反而會導致算法結果歧視受保護的群體[6]。作為與決策相關的輸入變量,敏感數據如宗教種族等,極有可能導致決策結果的歧視性。因此,原則上,自動決策不應基于個人敏感數據,除非數據主體明確同意出于特定目的進行處理或為維護重要的公共利益而必須進行此類處理。盡管在現有技術下,自動化決策往往都是從多個復雜數據集中獲取數據,而非單一的數據集。經過大數據的分析比對,極有可能形成新的敏感數據集。因此,我國應建立并完善敏感數據收集制度,從源頭對其進行監管。
盡管我們認為數據主體應有權了解自動化決策的背后邏輯和原因,但仍不清楚是否以及如何使用此權利。在實踐中,為數據主體提供算法決策背后的邏輯的有意義的解釋方面,存在技術障礙和知識產權障礙[7]。其中最難克服的是技術障礙。用來解釋基于算法的自主決策的技術障礙的數量取決于算法的復雜性。基于簡單算法運算做出決策的原因或許解釋難度并不大。但是,如果決策所使用的算法是神經網絡算法,使用非常快速的機器學習,必須開發進一步的技術以澄清具體的考慮因素以及權重是多少。因此,在AI領域和法律領域都需要進一步的研究,以找到理解自動化決策的最佳解決方案[8]。AI的研究人員需要設法找到技術解決方案來簡化此類決策的解釋,但是法律研究人員應該嘗試在自動化決策涉及的不同利益之間找到適當的平衡。與此同時,數據控制者應了解其數據保護法規下的義務以及在未能向數據主體提供該法規要求的信息的情況下的責任制。
本文研究了《通用數據保護條例》關于自動化決策的法律規制問題,并在其原有的法律框架內,找出其立法缺憾及空白。在對比分析國內自動化決策現狀后,提出了我國特有的解決路徑思考,以期為我國未來在相關領域的立法研究提供借鑒和思考。
[1]張吉豫.人工智能良性創新發展的法制構建思考[J].中國法律評論, 2018.
[2]周文揚, 張天榮.生成、影響與反思:聚合類新聞客戶端的信息繭房效應研究——以“今日頭條”為例[N].傳媒,2018.
[3]林洹民.自動決策算法的法律規制:以數據活動顧問為核心的二元監管路徑[J].法律科學(西北政法大學學報), 2019.
[4]張建文,李錦華.歐盟個人數據保護法上的反自動化決策權研究[J].重慶郵電大學學報(社會科學版),2019.
[5]National Bureau of Economic Research, The Short-Run Effects of GDPR on Technology Venture Investment, https://www. nber.org/papers/w25248.pdf.
[6]歐姆瑞·本·沙哈爾、卡爾·E. 施奈德.過猶不及——強制披露的失敗[M].法律出版社, 2015.
[7]楊芳.個人信息自決權理論及其檢討[J].比較法研究, 2015.
[8]許可.數字經濟視野中的歐盟<一般數據保護條例>[J].財經法學, 2018.