劉澤剛
(西南政法大學行政法學院,重慶 401120)
讓?鮑德里亞嘗言:“人通過對事物的想象、命名和概念化而令事物存在,同時也加速了它們的消亡,在不知不覺中令它們脫離原初的真實狀態。”〔1〕[法]讓?鮑德里亞:《為何一切尚未消失?》,張曉明譯,南京大學出版社2017年版,第64頁。“算法”已從內涵清晰的技術概念變成含義模糊且極具情緒煽動力的流行語匯。法學文獻中層見疊出的“算法”表述往往脫離技術事實,在規范上也無準確所指,有些甚至是明顯的張冠李戴。“算法”更像是對人工智能時代各種負面情緒的想象和命名,折射了普通人在信息時代無助的精神狀態。實際上,算法并非是引起當前人工智能各種缺陷的主要原因。企業和平臺等主體的“算計”,以及數據中蘊含的對現實世界的既有“看法”,才是人工智能各種問題的根源。正所謂“匹夫無罪,懷璧其罪”。準確認知是有效法律規制的重要前提。算法認知偏差不僅扭曲了技術事實,還可能影響法律對人工智能的有效規范。
實定法秩序是法學研究的重要依據。在法律規范沒有明確界定的情況下,學者可以對研究對象采取靈活定義。總體來說,法學研究者對算法采取了比較寬泛的界定:鮮有學者采用嚴格的技術性算法概念;大部分學者采用了將一切相關現象統統納入的模糊表述;也有學者采用中義,將算法界定為“人類和機器交互的決策,即人類通過代碼設置、數據運算與機器自動化判斷進行決策的一套機制”。〔2〕丁曉東:《論算法的法律規制》,載《中國社會科學》2020年第12期。基于特定的研究主題與目的,這些界定都有其合理性。但2020年以來,國際組織、歐盟和美國推出的人工智能規范中都采用了尊重技術性算法定義的立場。在此情況下,以實定法為導向的研究應充分尊重現實,不宜過度擴展算法概念外延,否則易在認知偏差的作用下,形成對人工智能法律規制問題的誤識。
認知偏差是指那些扭曲現實理解,干擾清晰、精確、客觀思考能力的心理因素。近年來,信念偏差、消極偏見、可得性啟發、從眾心理等認知偏差嚴重扭曲了人們對算法的客觀認識。〔3〕信念偏差是指通過結論的可信度來判斷一個推論的正確與否。消極偏見是指人們相信消極信息多于積極信息的傾向。可得性啟發是指人們會無意識地依據被提及的事件的頻率來判斷事件發生的可能性。從眾效應是指人在下意識讓自己的想法向大多數人的想法靠攏的傾向。參見[美]布魯克?諾埃爾?摩爾、理查德?帕克:《批判性思維》(第12版),朱素梅譯,機械工業出版社2021年版,第12-19頁。人們依據人工智能應用的負面效果判定算法應承擔主要責任。關于算法的負面信息已經被廣泛擴散并廣受認同。接受到這些消極信息的人們對自己隨時都在遭受算法的迫害和算計感到不安與焦慮。大量以算法規制、算法治理為主題的論文缺乏技術知識與實踐反思。出版社將其他主題的作品改頭換面為“算法”書籍出版。〔4〕例如原名Future Politics : Living Together in a World Transformed by Tech的書籍在國內出版時被改名為《算法的力量:人類如何共同生存?》。原書很明顯不是以算法為主題的書籍,但中文版書名卻很容易令人誤解。同樣原名Classic Computer Science Problems in Python的技術書籍被改名為《算法精粹:經典計算機科學問題的Python實現》;原名Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy被改名為《算法霸權:數學殺傷性武器的威脅》。參見[英]杰米?薩斯坎德:《算法的力量:人類如何共同生存?》,李大白譯,北京日報出版社2022年版;[美]大衛?科帕克:《算法精粹:經典計算機科學問題的Python實現》,戴旭譯,人民郵電出版社2020年版;[美]凱西?奧尼爾:《算法霸權:數學殺傷性武器的威脅》,馬青玲譯,中信出版社2018年版。媒體和市場陷入“技術炒作的怪圈”。〔5〕[美]羅莉安?普拉特:《決策智能:鏈接數據、行為和結果的新智能》,禾搖譯,電子工業出版社2021年版,第13-14頁。在這種紛亂的背景下,不愿信任算法也不能容忍算法犯錯的“算法厭惡”盛行。〔6〕參見 [美]保羅?多爾蒂、詹姆斯?威爾遜:《機器與人:埃森哲論新人工智能》,趙亞男譯,中信出版社2018年版,第150頁。與此同時,“算法依賴”日益嚴重:“我們把大部分決策權交給了復雜的機器。資格自動認證系統、排名算法和風險預測模型決定了哪些社區會受到治安巡查,哪些家庭能獲得所需資源,誰會被列入工作候選名單,誰又要接受欺詐調查。”〔7〕[美]弗吉尼亞?尤班克斯:《自動不平等:高科技如何鎖定、管制和懲罰窮人》,李明倩譯,商務印書館2021年版,第3頁。
“算法厭惡”和“算法依賴”都采用了“提喻”手法,用“算法”這個局部存在指代整體性的“人工智能系統”。〔8〕提喻也稱舉隅法,舉隅指舉一反三,即在提到某人或某物時,不直接用其正規全名,而用與其密不可分的事物或者局部特征來代替。算法廣泛存在于生產、生活中,甚至打開電腦的過程都是由一系列算法支撐的。但人們并不關心底層的基礎算法以及與個體權益無直接關聯的算法。法學文獻中存在大量“提喻”性的“算法”,其真實所指是對自然人權益有直接影響的人工智能系統。然而,這種對算法的過分關注包含著嚴重的認知偏差。只有排除干擾,回歸理性才能認清人工智能算法的本質并據此進行有效的法律規制。具體來說,當前亟需從以下幾個方面對算法認知偏差進行糾偏。
算法無疑是人工智能的核心要素。但本輪人工智能發展的契機是大數據和強算力。在大數據環境下,數據、算力、AI框架和模型框架對人工智能的重要性有明顯提升。算法不僅不是唯一重要的因素,其在某些領域的重要性甚至有明顯的降低趨勢。
1.數據
當前人工智能系統中數據的作用更加根本,甚至決定了算法發揮作用的方式。以機器學習為例,湯姆米?切爾曾做過經典界定:“對于某類任務T和性能度量P,如果一個計算機程序在T上以P衡量的性能隨著經驗E而自我完善,那么我們稱這個計算機程序在從經驗E中學習。”〔9〕[美] Tom M.Mitchell:《機器學習》,曾華軍、張銀奎等譯,機械工業出版社2003年版,第3頁。機器學習適于處理那些可能存在潛在規律,但用傳統編程難以解決且有大量數據的問題。〔10〕可以簡單地將機器學習視為實現人工智能的一種技術路徑,而深度學習、強化學習則是機器學習的子集。考慮到當前機器學習廣泛適用的情況,只要沒有特別說明,本文所說的人工智能主要是指以機器學習為技術路徑的人工智能系統。“學習”是計算機從數據學得最優模型的過程,因此機器學習算法也被稱為“學習算法”。現實的機器學習系統構建通常會選擇幾種不同的算法來訓練模型,比較其性能并從中選擇最優的算法。〔11〕參見[美]塞巴斯蒂安?拉施卡:《Python機器學習》,高明、徐瑩、陶虎成譯,機械工業出版社2017年版,第7頁。而且,模型往往需要多次重新訓練。算法選擇的主要依據是需要解決問題的性質以及數據的情況。數據的規模和特征對機器學習的性能往往具有決定作用。例如在訓練集樣本量較小的年代通行的經典梯度下降法和牛頓法在處理大數據問題時的效率非常低下。正因為如此,隨機梯度下降法這種在大數據條件下效率巨高的方法得到廣泛運用和發展。〔12〕參見史春奇、卜晶祎、施智平:《機器學習:算法背后的理論與優化》,清華大學出版社2019年版,第135頁。訓練數據對模型性能影響更大。即便獲得算法的原始代碼也不足以真正理解特定人工智能系統的工作原理,因為它實際上取決于輸入其中的數據。由于數據無可取代的重要性,當前的技術趨勢常被稱為數據驅動的人工智能。
2.算力
很多前沿性大規模深度學習人工智能項目的算法框架并不神秘,但訓練卻需要超大的數據集與驚人的計算量。例如2020年Open AI公司推出的GPT-3模型的高性能以規模為代價,使用的最大數據集在處理前容量達到了45TB,參數多達1750億個,計算需求高達3640pfs-day。〔13〕petaflop/s-day(pfs-day)是Open AI提出的算力的單位,其度量方法是:把一次加法或者乘法運算當作一次操作,如果每秒執行10的15次方(peta)次運算并持續一天時間,這樣的算力消耗相當于1pfs-day。GPT-3在一定程度上證明了超大數據加上超大算力確實能導致人工智能性能的極大躍升。〔14〕關于GPT-3的詳細情況可參考該項目論文:Language Models are Few-Shot Learners, https://arxiv.org/abs/2005.14165, 2022年8月17日訪問。該論文作者多達31人,而且文末介紹了每個人的具體貢獻。僅從作者陣容也不難推知項目的復雜程度。強化學習的奠基人理查德?薩頓指出,人工智能70年發展的教訓之一是所有試圖簡化人類思維無可比擬的復雜性的嘗試都失敗了。人工智能的未來在于通用的搜索和學習方法,而非依賴人類知識。在薩頓看來,算力的杠桿作用是對人工智能發展唯一重要的因素。〔15〕See Rich Sutton, The Bitter Lesson, http://www.incompleteideas.net/IncIdeas/BitterLesson.html, last visited on Aug.17, 2022.盡管很多學者并不同意薩頓這種看似極端的看法,但人工智能近來迅猛的發展確實主要仰賴搜索和學習這些看似并不高明的“蠻力”,而搜索和學習性能的提升都是以算力的增長為前提。特別是在深度學習大模型的競爭性發展中,由于模型的總體框架基本定型,算力顯得比算法更具決定性。例如,由于Transformer這類大模型的訓練需要在短時間內投入巨大算力,近年來前沿性大模型項目都是由在算力方面準備充分的美國公司和機構主導研發。
3.AI框架
普通主體沒有實力從零開始搭建人工智能開發所需的軟硬件系統。實踐中,大部分人工智能項目并不單獨設計算法并圍繞算法搭建軟硬件環境,而是高度依賴既有AI框架進行開發。AI框架是AI算法模型設計、訓練和驗證的一套標準接口、特性庫和工具包,集成了算法的封裝、數據的調用以及計算資源的使用,同時面向開發者提供開發界面和高效的執行平臺。AI框架是人工智能開發環節中的基礎工具,發揮著AI技術生態操作系統的功能。〔16〕中國信息通信研究院:《AI框架發展白皮書(2022 年)》,http://www.caict.ac.cn/kxyj/qwfb/bps/202202/t20220225_397170.html,2022 年8月19日訪問。目前最流行的AI框架是TensorFlow和PyTorch。TensorFlow更傾向于工業應用領域,具有強大的移植性,利于工業部署。PyTorch語法簡便,開發周期短,已逐步成為科研領域主流平臺。在絕大部分情況下,工程師在AI框架中部署算法時只需依據任務目標選擇調用恰當算法,算法在屏蔽了底層硬件和操作系統細節的前提下發揮作用。
4.模型框架
人工智能項目的模型框架影響了算法的選擇和使用。2017年以來在自然語言處理(NLP)領域出現了一系列以Transformer為基礎架構的性能優異的大模型。〔17〕國內一些文獻在描述Transformer時往往將其不恰當地稱為一種算法。但從技術角度看,Transformer是一種整合了許多算法的自注意力(Self-attention)模型架構。2022年,Deepmind的研究人員發表論文,用偽代碼(介于自然語言和計算機語言之間的文字和符號,是簡要表達算法的方法)簡要梳理了Transformer模型中的算法。從中可以看出,Transformer至少使用了15種算法。詳見Mary Phuong & Marcus Hutter, Formal Algorithms for Transformers, arXiv:2207.09238v1 [cs.LG].這種新范式導致大型NLP項目在框架和模型方面有統一的趨勢。開發者可以用預訓練良好的模型,針對不同任務目標進行微調,使其同時適用于不同的下游任務。目前這種模式已經超越NLP,在計算機視覺、多模態任務等領域也表現優異。算法在特定任務領域的專門性和特異性已有所削弱。此外,在近年來興起的聯邦學習領域,各種經典學習算法都需要依據聯邦學習框架進行有針對性的修改。〔18〕聯邦學習是一種帶有隱私保護、安全加密技術的分布式機器學習框架,旨在利用分散在各用戶的本地數據集協同訓練模型,為保證參與方隱私,訓練過程中,訓練數據不會離開本地,取而代之的是模型相關的信息(例如模型架構,參數梯度)會被共享至服務器端,從而降低了數據泄露的風險。參見王健宗、李澤遠、何安珣:《深入淺出聯邦學習:原理與實踐》,機械工業出版社2021年版,第11頁、第23頁。這些都充分說明了模型框架對算法的深刻影響。
以上論述并不是否定算法的重要性,而是指出用“算法”籠統指代包含數據、算力、AI框架、模型框架以及人工干預等要素的人工智能系統是不恰當的。以偏概全的描述不僅扭曲了技術事實,而且混淆了不同層次和不同特性的對象。
算法往往被想象為針對無辜人群的精巧算計,而人們對自身利益受損的風險容易反應過度。這無疑加深了算法概念的消極色彩,但算法本身并不能賦予人工智能精巧算計的特征。
計算機處理特定問題時既可采取規范設計的方法,也可采取從數據中學習的方法。〔19〕See Yaser S.Abu-Mostafa, Malik Magdon-Ismail & Hsuan-Tien Lin, Learning From Data: A Short Course, AML Book, 2012, p.9.在傳統編程中,人類將經驗歸納為嚴謹的邏輯公式并用編程語言將其描述出來,編譯成機器代碼后由計算機精確執行。而作為從數據中學習的模式,機器學習則具有先天的不精確性和不確定性。機器學習的基本原理是“概率近似正確”(PAC)理論。在PAC原理下,只能希望計算機基于某種學習算法學得的模型所對應的假設盡可能接近目標概念。〔20〕參見周志華、王魏、高尉、張利軍:《機器學習理論導引》,機械工業出版社2021年版,第26頁。PAC也可直譯為“可能近似正確”,其中有兩個不確定的表述:“近似”指的是在取值上只要與真實值的偏差小于預設就是“近似正確”;“可能”則指只要“近似正確”的概率足夠大就可認為“可能近似正確”。即便不能深入理解PAC的數學內涵,我們也能體會到學習算法需要處理大量的不確定性問題。以機器學習為原理的人工智能在算法選擇和實現層面并沒有多少進行精巧算計和利益分配的空間,反而充斥著大量依靠直覺和經驗的調整參數的粗重工作。正是在這種看似很不智能的調整參數操作中,機器學習算法才能不斷優化,最后學習到逼近目標的模型。真正賦予人工智能系統算計特征的往往是算法之外的因素,例如數據質量,尤其是數據本身蘊含的模式和偏見。此外,在主流的監督學習模式中,人類主體設定的預期輸出往往是各種問題的根本來源。算法只是根據預期的輸出在數據上找到最優模型。
算法實際上是人工智能系統內較為清晰透明的部分。所謂“黑箱”并不是算法不夠透明,更不是人為故意隱瞞真相,而是主動采取的認知方法或客觀存在的認知難題。科學界把關注內部結構和原理的認知方式稱為“白箱(白盒)”,與其相反的認知方式被稱為“黑箱(黑盒)”。在初步研究某種事物或需簡化研究對象時往往主動采取這種暫時忽略其內部結構和機理,只關注其輸入輸出以及與周圍環境關系的黑箱方法。另一種黑箱則是被動的。在機器學習領域就存在暫時無法逃避的“黑箱”。例如,目前被廣泛采用的人工神經網絡(ANN)的輸入層和輸出層之間就是一個黑箱,科學界至今仍不完全了解神經網絡輸出某種結果的確切原因。〔21〕參見[美]杰弗瑞?希頓:《人工智能算法(卷3):深度學習和神經網絡》,王海鵬譯,人民郵電出版社2021年版,第8頁。基于ANN的深度學習更像是“實驗科學”而非“嚴格科學”,其實用效果良好的原理并沒有得到徹底揭示。“人工智能黑箱”可定義為無法完全理解的人工智能決策過程以及無法預測的人工智能決策或輸出。〔22〕See Yavar Bathaee, The Artificial Intelligence Black Box and The Failure of Intent and Causation, 31 Harvard Journal of Law &Technology 889, 905 (2018).人工智能的可驗證性與可解釋性雖可通過一些技術手段進行,但這類黑箱問題暫時無法得到根本解決。然而,這是人工智能原理的黑箱而非算法的黑箱。畢竟算法是指可操作清晰的步驟。算法黑箱本來就是矛盾的概念。如果一種算法存在模糊和黑箱,它就是客觀上不可操作的,就不是算法。
另外,不能把因認知能力不足產生的心理狀態稱為“黑箱”。否則黑箱將無處不在。醫學界對很多有效的治療方法和藥物的原理依然沒有完全認知,在這種性命攸關的領域也幾乎沒有“醫療黑箱”“藥物黑箱”的說法。實際上,人類運用了很多基本原理不明的技術。例如科學界對超導基本原理的認知仍不夠完整,很多常溫和高溫超導現象至今缺乏完備理論解釋,但這并不影響人類將其廣泛應用于磁懸浮列車等領域。現代社會是高度分工和專業化的,每個人都有大量知識盲區,如果沒有對相關領域規范和技術起碼的信任,社會將難以正常運行。
“算法黑箱”這類表達的流行與媒體的過度炒作有明顯關聯。媒體報道、普及性讀物以及社會科學研究文獻中的“黑箱”“算法黑箱”等“熱詞”在人工智能專業書籍中很少出現。〔23〕例如旨在對現有研究成果進行全面介紹的《人工智能:一種現代的方法》(第3版)中沒有任何章節或小節討論黑箱問題。參見[美]羅素、諾維格:《人工智能:一種現代的方法》(第3版),殷建平、祝恩、劉越、陳躍新譯,清華大學出版社2013年版。而在公認存在“黑箱”的深度學習領域,非常流行的《深度學習》也根本沒有討論過黑箱問題,術語索引中也沒有“黑箱”一詞。參見[美]伊恩?古德費洛、[加]約書亞?本吉奧、[加]亞倫?庫維爾:《深度學習》,趙申劍、黎彧君、符天凡、李凱譯,人民郵電出版社2017年版,第486-500頁。研究者和規范制訂者應當深知這并不是準確的表達,更不能據此進行推理和行動。
公眾對算法的惡感還源自一種誤解:算法是大公司打造出來用于謀利的財產。但單純數學意義上的算法并沒有直接的財產價值,原則上也不受法律的排他性保護。《中華人民共和國專利法》第25條規定對“智力活動的規則和方法”不授予專利權,而算法就屬于解決特定問題的智力活動的規則和方法。當然,如果一個“解決技術問題、產生技術效果的技術方案”符合新穎性、創造性和實用性的要求,即便里面包含了算法,也可以被授予專利權。但被授權的是“技術方案”而非算法。實際上,基礎和經典的算法從性質上看大部分屬于排除授予專利權的“科學發現”。基礎算法相當于數學的定律或公理,普通算法工程師沒有能力發明獨特算法,只是根據問題類型選擇合適算法,并根據需要進行局部優化和改進,大部分情況下也會受到基礎AI框架的限制。然而,很多人都錯誤地認為某些公司掌握了一些不為人知、擁有專利壁壘的算法,并據此賺取超額利潤。例如,不少人認為Google的成功在很大程度上是因為其兩位創始人在公司成立前發明了高效的PageRank算法。實際上,在Google成立之前,利用鏈接關系對網頁排序已是比較成熟的技術領域。PageRank只是當時效果較好的多種鏈接分析排序算法之一,并非Google“獨門絕活”。
當然,各國對算法作為專利的態度有所不同。總體而言,美國在算法專利審查和批準方面比較寬松。大公司經常申請單純算法專利且屢獲成功。面對業界和社會的批評,這些公司都承諾獲取專利后不會禁止他人免費使用相關算法,申請專利只是一種防御性措施。例如,盡管PageRank算法于2001年獲得美國專利,但專利所有者并未禁止其他主體免費使用該算法。隨著技術和觀念的發展,一些前沿性人工智能項目(甚至包括一些大公司的項目)還有開源算法的趨勢。
規制是一種基于問題的活動,而問題的識別、分析、解決受制于我們對世界的認識和理解。〔24〕See Julia Black, Learning from Regulatory Disasters, 10 Policy Quarterly 3, 3-11 (2014).準確認知是有效法律規制的重要前提。如果放任算法認知偏差泛濫,會造成人工智能法律規制在對象、依據、目的、程度等層面出現嚴重問題。
問題識別的錯誤會導致規制的失敗。算法僅僅是人工智能系統的一個組成部分。過分強調算法概念,勢必會造成法律規制偏離焦點,并造成后續立法和實踐方面的諸多困難。盡管目前學界和媒體偏愛“算法規制”這類術語,但現實中卻極少有將“算法”作為專門規范對象的立法。已生效和擬議中的人工智能法律規制的文件中都沒有將算法作為其主要的規制對象。
從全球范圍來看,2021年11月25日聯合國教科文組織發布的《人工智能倫理建議書》是首個針對人工智能倫理制定的全球規范框架。盡管該建議書不是嚴格意義上的法律,但表達了共識,勢必對各國人工智能立法形成重大影響。在這部文件中“算法”(algorithms)出現了8次,“人工智能”(AI)出現了358次,“人工智能系統”(AI systems)出現了131次。〔25〕See UNESCO, Recommendation on the Ethics of Artificial Intelligence, https://en.unesco.org/artificial-intelligence/ethics, last visited on Aug.19, 2022.
從區域范圍來看,歐盟目前已生效和擬議中的法律并沒有將算法作為其主要規制對象。由于人工智能極度依賴數據驅動,《歐盟通用數據保護條例》(以下簡稱:GDPR)實際上對人工智能有著極強的約束作用。GDPR中與算法直接相關的規范對象是“自動化決策和用戶畫像”。只要人工智能系統使用歐盟公民的個人數據就必須受到GDPR的規范。因此,GDPR雖不是人工智能規制的專門立法,卻是當之無愧的人工智能重要規范。GDPR中沒有出現一次“算法”的表述。2021年4月歐盟公布了新的框架《人工智能法案》(以下簡稱:AIA),以規范歐盟27個成員國對人工智能的使用。該提案可能仍需數年調整和修訂才能成為正式法律,但它仍然是迄今為止全球范圍內最雄心勃勃的人工智能立法,代表了未來法律規制的趨勢。在這部法案的解釋性備忘錄中,“算法的”(algorithmic)出現了1次,在正文中“算法”出現了2次,而“人工智能”出現了737次,“人工智能系統”則出現了 361次。〔26〕See Artificial Intelligence Act, https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52021PC0206, last visited on Aug.19, 2022.以下引用AIA文本內容不再逐一標注出處。
2022年,歐盟公布了《數字市場法案》(以下簡稱:DMA)和《數字服務法》(以下簡稱:DSA)。〔27〕基于歐盟獨特復雜的立法制度,這兩項立法真正的適用還需時日,最后適用的具體文本也可能有所調整。但由于這兩部立法經過了長期醞釀和充分討論,主要架構和重要內容不會有太大變化。本文引述條文反映的是文章寫作時的情況。特此說明。關于DMA和DSA通過、生效和適用的信息可參見Digital Services: Landmark Rules Adopted for a Safer, Open Online Environment,https://www.europarl.europa.eu/news/en/press-room/20220701IPR34364/digital-services-landmark-rules-adopted-for-a-safer-open-onlineenvironment, last visited on Aug.20, 2022.DMA的主要目標是規制超級公司和平臺在歐洲的商業行為和市場主導地位。DSA旨在迫使科技公司對其平臺上的內容承擔更大的責任。DSA的解釋性備忘錄雖有幾次提及“算法”,但措辭謹慎,并沒有過分拔高算法地位。其正文出現了3次“算法”表述:第12條要求中介服務提供者向用戶提供“用于內容審核的任何政策、程序、措施和工具的信息,包括算法決策和人工審查”;第54條規定歐盟委員會及其指定的審計員或專家在現場檢查期間可以要求超大型在線平臺和有關主體“就其組織、運作、信息技術系統、算法、數據處理和業務行為提供解釋”;第57條規定歐盟委員會可以命令相關超大型在線平臺“提供對其數據庫和算法的訪問和相關解釋”。不難看出,普通用戶與算法的關聯僅僅在于內容審核的算法決策信息。關于算法解釋,則屬于監管方與平臺企業之間的關系范疇,而且屬于可選項目而非強制項目。另外,普通用戶非常關心的推薦系統算法問題,DSA也選擇了規制產品和服務而非算法的路徑。DSA第29條規定超大型在線平臺應以清晰、易于獲取和理解的方式,公開其推薦系統中使用的主要參數,還應提供易于操作的選擇和修改推薦系統在線界面首選項功能,這些選項決定了向用戶呈現的信息排序。〔28〕Digital Services Act, https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:52020PC0825&from=en, last visited on Aug.20, 2022.很明顯,這些規定采取的是一種事后的整體規制立場,針對的是最后呈現給用戶的系統界面,而非推薦系統的算法。
從國別范圍看,立法制度和政治體制的差異是造成國內誤解“算法”在歐美國家具有正式法律地位的重要原因。歐美國家議會提出法案(bill)相對容易,所以有不少以“算法”為名的法案。例如美國幾位眾議員于2022年初向眾議院提起了一份《2022年算法責任法案》。但“算法責任法案”并非該法案的正式名稱,其正式全稱為《用以指導聯邦貿易委員會對自動化決策系統和有人工智能參與的關鍵決策進行影響評估以及其他相關目的的法案》。這只是一份尚未生效的法案。2019年已有議員在116屆眾議院提出過簡稱為《2019年算法責任法案》的提案。2022年的這份提案針對的對象是美國聯邦貿易委員會,即便順利通過也不是普遍適用性立法。從議案全稱不難看出其擬定的規范對象是自動決策和有人工智能參與的關鍵決策,只是出于迎合大眾、吸引關注的目的才將其簡稱為“算法責任法案”。整個法案除了簡稱的標題中出現過一次“算法的”之外,通篇再無任何“算法”表述。〔29〕Algorithmic Accountability Act of 2022, https://www.congress.gov/bill/117th-congress/house-bill/6580/text, last visited on Aug.20, 2022.歐美國家的政府機構也樂于迎合民眾心理出臺一些以“算法”為名的文件。但這些文件基本都是以指南(Guidance)或標準(Standard)形式出現,僅具有指導意義但并無法律強制力。其調整對象也多是人工智能系統而非算法。
法律規制不僅應合理界定對象,還應建立在堅實的規范依據之上。目前對人工智能有幾條主要的規范路徑。一是專門立法路徑。這條道路起步較晚,以歐盟AIA為代表的相關立法仍處于探索階段,尚未形成生效立法。但專門立法必成主流趨勢。二是美國式的靈活運用現有法律應對人工智能挑戰的路徑。美國聯邦政府認為現行法律框架能夠應對人工智能的挑戰,而且傾向于減少監管以保證美國人工智能產業保持領先地位。三是數據法路徑。歐盟在AIA這類專門立法生效前,對人工智能進行法律規制主要還是依據GDPR這類數據法規范。例如基于個人數據保護的立場對涉及高風險數據處理的人工智能進行嚴格規范,對自動決策和用戶畫像這類依托人工智能的活動的效力和范圍進行合理限制。這條路徑看似間接,實則具有穩固的基礎。可以預見,今后大部分國家都將采取專門立法加數據法的模式規范人工智能。可見,最可靠的規制路徑是數據而非算法。這也是因為算法的法律性質仍然存在很大爭議。〔30〕參見陳景輝:《算法的法律性質:言論、商業秘密還是正當程序?》,載《比較法研究》2020年第2期。通過算法規制人工智能缺乏現實的規范基礎。即便強行將算法作為規制進路,也很難逃避數據的基礎地位,主要表現為以下幾個方面。
第一,機器學習是算法向數據學習,數據決定了人工智能系統的質量。2020年6月杜克大學的人工智能圖像修復項目PULSE因涉嫌種族歧視引發爭議。有網友將美國前總統奧巴馬的模糊照片用PULSE處理后生成了一張男性白人照片。深度學習先驅、圖靈獎得主楊立昆認為這種系統偏差是由于數據集主要由白人照片構成導致。PULSE項目基于StyleGAN算法開發。StyleGAN的開發者撰文承認:“這種偏見很可能是從StyleGAN接受訓練的數據集繼承而來的……盡管可能還有我們不知道的其他因素。”〔31〕James Vincent, What a Machine Learning Tool That Turns Obama White Can (and Can’t) Tell Us about AI Bias, https://www.theverge.com/21298762/face-depixelizer-ai-machine-learning-tool-pulse-stylegan-obama-bias, last visited on Aug.20, 2022.PULSE項目的問題說明數據集的質量和特征在特定情形下甚至可能成為主導人工智能項目成敗的因素。
第二,關于數據和問題的先驗知識是影響算法的重要因素。“沒有免費的午餐定理”(NFL)指出:“如果一個算法在某類問題上表現得更好,那么它會以在其他類別的問題上性能下降的形式付出代價。”〔32〕[美]阿米特?V.喬希:《機器學習與人工智能:從理論到實踐》,李征、袁科譯,機械工業出版社2021年版,第14頁。NFL定理對“算法崇拜”有警示作用:在缺乏對問題的認知、數據分布完全隨機且平等的情況下,任何算法的預期性能都是相似的,但如果具備關于問題和數據生成的先驗知識,就可以利用它們設計出更好的算法。因此,即便要對算法進行監管,也應結合更具決定性的數據要素一并監管。
第三,數據處理不當是人工智能領域很多問題產生的根源。實踐中,算法工程師有約70%以上的時間都用于數據準備工作。〔33〕參見大威編著:《從零開始:機器學習的數學原理和算法實踐》,人民郵電出版社2021年版,第230頁。人工智能不少規范層面的問題都是由數據預處理(Data Preprocessing)導致。作為最常見的數據預處理工作,特征工程通常包括特征建構、特征提取、特征選擇等方法。其中特征選擇是最常用的技術。實施特征選擇有兩個主要原因:一是現實數據的屬性過多,容易造成“維數災難”;二是去除與學習任務不相關的特征可以有效降低學習難度。〔34〕參見周志華:《機器學習》,清華大學出版社2016年版,第247頁。實踐中,特征選擇往往蘊含了特定的價值偏向和利益算計。對數據特征的取舍在很大程度上決定了模型的取向。另外,考慮到現實中大部分人工智能系統都采取監督學習的方案,必須依靠大量的標注數據。獲取大批量高質量的標注數據需要花費大量的人力和時間。在金融、法律、醫學等領域,數據標注還需要行業專家或業務人員參與才能滿足需求。這在提高了數據標注成本的同時也將現實世界的偏見和錯誤植入系統。
第四,數據在可信人工智能(Trustworthy AI)的發展中很可能會占據比算法更為重要的位置。近年來,越來越多的學者認為人工智能的主導方向應從以模型為中心轉變為以數據為中心。例如,吳恩達認為過去人工智能的主流范式是下載數據集并專注于改進代碼。得益于這種范式,深度學習網絡有了顯著的改善。大數據與大模型作為深度學習引擎已經成功運行多年且仍具有活力。但在某些場景下大數據并不適用,高質量的小規模數據才是更好的解決方案。〔35〕See Andrew Ng Predicts the Next 10 Years in AI, https://venturebeat.com/2022/03/21/andrew-ng-predicts-the-next-10-years-in-ai/, last visited on Aug.25, 2022.以數據為中心的人工智能基于給定的標準模型開發平臺,側重于可通過數據清洗、篩選、標注、增強等過程來系統地改進數據,進而提升人工智能系統的性能和可信性。〔36〕See Weixin Liang, Girmaw Abebe Tadesse & Daniel Ho et al., Advances, Challenges and Opportunities in Creating Data for Trustworthy AI, 4 Nature Machine Intelligence 669, 670 (2022).可信人工智能的發展當然離不開算法和模型的可靠性、透明性的提升。然而,在模型架構已基本固定、改善空間有限的情況下,數據改善的價值就更加凸顯。雖然關于未來人工智能到底是繼續延續大數據加大模型的范式,還是轉向以數據為中心的范式仍有爭議,但數據在可信人工智能建設中發揮更大作用的可能性很大。規制對象的發展趨勢是規制政策制訂的重要依據。法律界有必要緊密關注以數據為中心的人工智能發展走向。
基于以上考慮,數據的收集、儲存和處理應是人工智能法律規制的關鍵問題。個人數據保護以及數據法制經過多年發展已經形成了相對成熟的規范體系和規制架構。只要抓住數據這個關鍵,人工智能法律規制可收到事半功倍的效果。相反,緊盯中性的算法,不僅缺乏規范依據,規制效果也很難得到提升。
成功的法律規制以目標的清晰和現實為前提。當前對人工智能進行法律規制必須兼顧權利、產業、科技三個方面的目標。三類目標很難進行價值排序,也不存在先天互斥的關系。只要規制路徑設置得當,完全可以兼顧。但若將算法作為人工智能規制的重點,對三種目標來說都是不利的。
首先,過度強調算法不利于準確把握人工智能系統對人的尊嚴和權利的影響,還可能給相關主體卸責帶來可乘之機。人工智能系統充斥著大量來自人類的決策、干預和管理。讓人負起責任是人工智能規制的恰當途徑。過度強調算法,容易走入“見物不見人”的盲區,忽視相關主體的法律責任,不利于權利的切實保護。以專家系統(Expert System)這類被廣泛應用的傳統人工智能為例,我們不難看出人類因素的重要性。專家系統適合處理那些依靠傳統編程無法有效解決、偏重于運用不確定和不精確的啟發式知識且需要人類專家有效參與的領域。〔37〕參見[美]史蒂芬?盧奇、丹尼?科佩克:《人工智能》(第2版),林賜譯,人民郵電出版社2018年版,第249頁。算法在專家系統中并不是那么重要。專家系統并不按特定的步驟序列執行,且允許不精確的推理,也能處理不完整和不確定的模糊數據。〔38〕參見 [澳]尼格尼維斯基:《人工智能:智能系統指南》(原書第3版),陳薇等譯,機械工業出版社2012年版,第21頁。專家系統的偏差主要是因為人類設定的目標和參與專家的判斷失誤導致。機器學習類的人工智能項目同樣需要從目標設定、數據預處理到訓練中的超參數調整以及系統維護等全過程的人為參與。基于這種認識,歐盟GDPR第13條至第15條基于個人數據保護權對自動決策進行限制,文本中完全沒有提及算法,而是著重強調了數據控制者應向數據主體提供相關信息,尤其是數據處理的相關邏輯、包括相關處理對于數據主體的預期后果的有效信息。此處的相關邏輯絕不僅指算法,而是與自動決策處理數據相關的一切信息。此外,GDPR第22條規定數據主體有反對單純自動化決策的權利,也是在強調機器之外人的責任。只有在以人的責任為基礎的人工智能系統中,算法才能得到真正有效地規制。
其次,過度強調算法監管不利于人工智能產業發展。如前文所述,人工智能項目的實際研發往往需要嘗試多種算法以尋求最佳模型,實際部署后仍有可能進行多次算法調整。算法備案、算法審計、算法解釋等合規義務對處于探索期的產業級人工智能項目是非常沉重的成本。這不僅可能延長研發周期,還存在一定商業秘密泄露風險。大型企業或超大型平臺具有成熟的合規部門還可應對自如,中小企業和初創企業面對這類監管門檻則會步履維艱。如果不區分企業規模,一味強調算法監管,不利于人工智能產業的自由競爭和良性發展。
最后,過度強調算法監管不利于科技發展。科技并非獨立的現象,而是與眾多因素息息相關。當前人工智能的發展高度依賴大數據和強算力。前沿性大型人工智能項目往往由大企業聯合高校和研究機構進行開發。過度干預算法這類技術細節,容易造成連鎖反應,最終影響科學研究。
規制方式和強度的選擇與對現實的判斷緊密相關。過度監管往往是由于判斷錯誤導致。從遠景來看,“隨著算法社會的來臨,人類正將決策權逐漸讓渡給算法接管”的情況有可能發生。〔39〕參見張凌寒:《算法規制的迭代與革新》,載《法學論壇》2019年第2期。但迄今為止,大部分國家僅是部分進入“信息社會”,“算法社會”仍然只是比喻性說法。作為人工智能的組件,算法本身并沒有決策能力,人類也不可能將決策權全面交給人工智能。社會對算法和人工智能的功能和形態存在模糊認知和夸張誤讀。這造成了對人工智能的過度心理防御,加上對算法的認知偏差,可能導致對算法的過度監管。實際上,“人工智能的能力被過分夸大了。現階段,大多數深度學習系統都部署在一個非常受控的環境中,并給出了有限的決策邊界”。〔40〕[印]毗濕奴?布拉馬尼亞:《PyTorch深度學習》,王海玲、劉江峰譯,人民郵電出版社2020年版,第6頁。人工智能并不是一種新技術,包括專家系統的各類人工智能系統早已廣泛運用,且一直處于受控狀態。由于大數據和算力提升,人工智能技術在近年得到井噴式發展,在成為重要產業的同時對人們的影響也不斷增強。傳統規制模式需要調整,但規制升級不應該是簡單地加大力度,而應綜合實際情況和對未來趨勢的判斷,謹慎選擇規制路徑和監管力度。
從客觀層面看,將算法作為核心,容易過早介入,過深干預。在機器學習中,算法并不是人工智能的最終形態。對算法進行全面監管,就要對人工智能研發、調試、運行過程中所有的算法都進行調控。這明顯是過深介入了本屬技術層次的活動。另外,用戶接觸的是被產品化和優化的模型,而不是用以求解模型的算法。從可能投入的規制資源以及規制效率的角度出發,即便要對過程監管,也應基于結果對過程的回溯式調控,而不應過分關注某種過程要素。畢竟算法也僅僅是人工智能系統研發和部署過程中諸多要素之一。過分夸大算法風險,過度強調事前規制,無疑會給人工智能產業發展帶來更大的研發、部署、合規成本。
從主觀層面看,過分強調算法,過早介入調控也不利于打消對算法的疑慮。有研究表明,如果存在影響算法輸出的可能性,普通用戶會更樂于接受在他們眼里并不完美的算法結果。修改算法輸出的機會比影響算法輸入更能有效地減少算法厭惡。〔41〕See Berkeley J.Dietvorst, Joseph P.Simmons, Cade Massey, Overcoming Algorithm Aversion: People Will Use Imperfect Algorithms If They Can (Even Slightly) Modify Them, 64 Management Science 1155, 1155-1170 (2016).普通人對人工智能系統的技術細節沒有能力也沒有興趣深入了解。只要能對人工智能系統的輸出產生影響,自主調整人工智能服務的相關參數和選項,人們對算法和人工智能的厭惡就會得到很大程度的緩解。可信人工智能的建設在增強人們信任的同時也應注意調控力度,以期創造利于人工智能健康發展的環境。
2021年我國相繼出臺了《關于加強互聯網信息服務算法綜合治理的指導意見》(以下簡稱:《意見》)和《互聯網信息服務算法推薦管理規定》(以下簡稱:《規定》)。這兩份文件提出的算法治理思路具有明顯的創新性。有學者敏銳地指出:“在世界范圍內,這都是從未有過的嘗試。在未知領域的探索,往往‘道以多歧亡羊’。”〔42〕許可:《算法規制體系的中國建構與理論反思》,載《法律科學》2022年第1期。我國算法治理可謂敢為天下先,但其中也存在一定風險。有三個方面的關系尤需妥善處理。
按照《意見》計劃,我國將“利用三年左右時間,逐步建立治理機制健全、監管體系完善、算法生態規范的算法安全綜合治理格局”。發展眼光在人工智能規制領域特別重要。例如,在2019年根據當時情況認定“并不存在關于人工智能的一般化的法律規制”是沒有問題的。〔43〕汪慶華:《人工智能的法律規制路徑:一個框架性討論》,載《現代法學》2019年第2期。但2021年4月歐盟推出AIA后,人工智能法律規制的格局發生了重大變化。我國未來應該也會走向專門人工智能立法的道路。這不僅是全球人工智能治理大勢所趨,也符合系統治理的規律。因此,有必要認真思考當前算法治理框架與未來人工智能法律規制架構的關系。
從立法的一般規律來看,當前正在開展的算法治理作為一種有益探索,其很大一部分內容和經驗會被吸收到將來的人工智能立法之中。但既然是探索,就不宜過分突進,否則容易走入“過擬合”(over fitting)的尷尬境地。“過擬合”是指模型在訓練數據集上表現很好,但在測試數據集和真實數據上表現不好。出現過擬合的主要原因在于模型把樣本數據的個別特點當成了一般規律。當法律把人工智能的問題過度歸因于算法,循此路徑形成的法律規制模式可能在與算法緊密相關的問題上表現不錯,但對人工智能這個真實的問題域卻沒有很好的規范能力。因此,算法治理應留有余地,為人工智能法律規制留出充足的制度建構空間。
一方面,從術語使用角度看,出于習慣和方便,當前仍然可以相對模糊地使用“算法”術語。甚至可以借鑒美國《算法責任法案》的做法,在使用正式和準確法律描述的同時,將“算法”作為文件的簡稱或代稱。這樣不僅有利于吸引公眾注意力,也能夠更好地兼顧法律術語的嚴謹性。但另一方面,在描述歐盟和美國人工智能治理現象時應尊重客觀事實,尤其是歐盟人工智能立法實際上采取狹義算法立場的事實,不宜進行過分寬泛模糊的描述。這樣不利于我們分析和借鑒域外經驗。出于路徑依賴的考慮,我國人工智能立法的關鍵術語可能會保持自身特色,但算法治理的相關表述和機制設計可以更有預見性地考慮與未來立法的協調問題。
《規定》中提出的算法治理模式的名義與實質需要進一步厘清。從文件名稱看,《規定》規制的似乎是“算法推薦管理”或“算法”,但其真正的對象應是“算法推薦服務”。《規定》中設置的大部分義務都針對“服務”而非“算法”。此外,《規定》的調整類型范圍包括“生成合成類、個性化推送類、排序精選類、檢索過濾類、調度決策類等”,幾乎覆蓋了用戶日常接觸的主流的互聯網服務類型。看似我國已經通過算法治理全面調控人工智能。
然而,《規定》在實質層面并沒有提供全面的算法治理和人工智能規制框架。目前我國人工智能規制主要由幾個部委共同推進。國家互聯網信息辦公室主導信息內容領域人工智能監管,規制各種信息內容風險;工業和信息化部主導人工智能國家戰略和行動方案,以促進和培育壯大產業發展,平衡創新與治理安全;科學技術部側重于倫理準則層面的人工智能治理,推動科技企業建立內部審查機制。此外,中國人民銀行、國家衛生健康委員會、人力資源和社會保障部在各自領域出臺相關文件,重點解決本領域算法的可解釋性和透明性問題。很明顯,《規定》的性質仍然是基于內容的治理,其目的在于引導算法推薦活動“向上向善”,防止算法推薦活動不合理應用帶來的各種問題,尤其是防止相關服務影響正常的傳播、市場和社會秩序,危害意識形態安全和社會公平公正,避免損害公民合法權益等。《規定》設定的治理框架具有明顯的階段和范圍限定。因此,不宜將《規定》理解為全面的算法治理框架,更不能將其視為完整的人工智能規制架構。
經過一段缺乏規范的“野蠻生長”后,互聯網服務和人工智能產業滋生了各種弊端,亟需規制。但合理的規制應注意平衡規范與發展的目標,尤其應當注意保護相關產業健康發展。目前我國人工智能產業規制已有比歐美更加嚴格的發展趨勢。
以算法備案義務為例,國內有研究者認為歐盟AIA對高風險人工智能規定了算法備案義務。〔44〕參見許可、劉暢:《論算法備案制度》,載《人工智能》2022年第1期。但僅從文本來看,這種義務似乎并不存在。AIA第51條規定高風險人工智能應用在投放市場或投入使用之前,其提供者或授權代表應在歐盟數據庫中登記附件八要求的信息,且登記信息需向公眾開放。附件八規定的登記信息共包括12類,全是諸如“提供商的名稱地址和聯系方式、人工智能系統預期目的描述、人工智能系統狀態(是否處于服務狀態)”等一般信息。如果不把“人工智能系統”等同于“算法”,那么AIA確實沒有規定強制性的算法備案義務。然而,《規定》第24條要求具有輿論屬性或者社會動員能力的算法推薦服務提供者應當在提供服務之日起10個工作日內,通過互聯網信息服務算法備案系統填報服務提供者的名稱、服務形式、應用領域、算法類型、算法自評估報告、擬公示內容等信息,履行備案手續。很明顯,這是一種沒有區分項目風險等級的強制性算法備案義務。
2019年美國政府發布名為《保持美國在人工智能領域的領導地位》的行政令,〔45〕See Executive Order on Maintaining American Leadership in Artificial Intelligence, Whitehouse (Feb.11, 2019), https://trumpwhitehouse.archives.gov/presidential-actions/executive-order-maintaining-american-leadership-artificial-intelligence/, last visited on Aug.29, 2022.2020年公布《人工智能應用規范指南》。〔46〕See Russell T.Vought, Memorandum for the Heads of Executive Departments and Agencies on Guidance for Regulation of Artificial Intelligence Applications, https://www.whitehouse.gov/wp-content/uploads/2020/01/Draft-OMB-Memo-on-Regulation-of-AI-1-7-19.pdf,last visited on Aug.29, 2022.這兩份文件奠定了弱化監管以加強美國全球領導地位的總基調。美國人工智能產業領先優勢有擴大趨勢,這與其寬松的規制政策關系緊密。當前國際競爭加劇,如果我們在規制領域作繭自縛,很可能將在未來競爭中處于劣勢。在人工智能法律規制框架方面,我國可以多借鑒歐盟,尤其是AIA的規范內容。但這種借鑒必須伴隨清醒的產業發展意識,尤其應當避免不自覺地照搬歐盟針對美國巨頭企業的嚴厲規制手段。由于過分細致的規制對象會對產業進程造成實質介入與干擾,歐美目前都未對算法技術進行專門規范。這一現象值得我國各界深思。面對嚴峻的國際競爭環境和復雜的國內經濟態勢,我們確實需要警惕過度監管的負面影響。
隨著《意見》和《規定》的頒布,我國在2022年進行了算法備案公示工作并已取得初步成效。但30份算法公示報告也反映出《規定》及備案實踐仍然存在一些明顯的不足。〔47〕備案清單和30份公示文本可通過“互聯網信息服務算法備案系統”(https://beian.cac.gov.cn)進行查詢和下載。以下引用清單和公示文本內容不再逐一標注出處。不同的算法認知會對這些不足形成不同的解釋和解決方案。以下將對備案和公示的主要問題進行簡要分析,并指出對算法的恰當認知是理解和妥善解決這些問題的重要前提。
2022年8月,國家互聯網信息辦公室發布了《關于發布互聯網信息服務算法備案信息的公告》及其附件《境內互聯網信息服務算法備案清單》(2022年8月)。首批備案的共有24家企業的30種算法,涵蓋阿里巴巴、騰訊、百度、網易、美團、快手、微博、字節跳動、小米等多家大型互聯網企業,應用類型涉及APP、網站和小程序。從算法類型上看,有17種個性化推送類,4種檢索過濾類,4種排序精選類、3種調度決策類和2種生成合成類。首批算法備案在監管范圍、應用場景和算法類型方面都有較好的覆蓋度。
1.公示信息質量
算法公示不可能呈現所有算法技術和部署實施細節。正如有學者指出:“算法透明并不要求算法源代碼的公開,僅要求對算法基本原理、主要運行機制的公示。通過算法透明,可有效發揮公眾監督、行業監督和政府監管的效力。”〔48〕胡堅波:《多措并舉推進我國算法治理》,載《人民論壇?學術前沿》2022年第10期。現行公示內容分為算法基本原理、算法運行機制、算法應用場景、算法目的意圖和算法公示情況五個版塊。其中最重要的無疑是基本原理和運行機制。但30份公示文檔公示的信息質量堪憂。例如鳳凰網公示的算法原理是:“鳳凰網個性化推薦算法使用深度神經網絡,根據用戶的行為歷史數據加以訓練和計算,發掘出用戶可能的興趣并推薦感興趣的內容,提高用戶體驗。”60余字的常識敘述包含的有效信息很少。新浪網公示的算法原理則是:“使用基于snvd日志、apache日志、畫像團隊offline特征日志、nlp/cv內容理解特征日志和推薦引擎snapshot日志數據生產的特征樣本,利用畫像召回模型、協同召回模型、雙塔召回模型和deepfm模型等多種模型,根據ctr、時長、互動等多個目標進行模型訓練,通過tf-serving服務進行部署,實現針對app用戶的實時新聞個性化推薦功能。”通篇使用抽象技術語言,完全脫離普通人的知識和認知,實際上也沒有提供任何有效信息。用戶和公眾很難根據公示信息加深對相關算法推薦服務的理解,遑論進行監督和保護權益。
2.算法分類框架
《規定》將算法推薦技術分為生成合成類、個性化推送類、排序精選類、檢索過濾類、調度決策類五個類別。百度對其備案的三種算法的描述分別為“百度信息檢索算法”“百度熱搜榜排序精選算法”“百度內容安全算法”。在官方公告中將百度備案的內容安全和信息檢索算法都歸為“檢索過濾類”。但從目標、性質和信息流向來看,這兩類算法其實有很大區別。內容安全算法的目標在于“防范和抵制違法信息及不良信息的發布及傳播”;其應用性質是一種內容審核機制;信息流向是從用戶到互聯網。這些特征明顯不同于用戶從互聯網獲取信息的檢索類算法。企業基于現實沒有嚴格依據現有分類體系對其算法進行描述。《規定》“削足適履式”的強行歸類反而揭示了依據剛性分類對算法進行監管存在困難。
3.風險描述方法
《規定》中依據服務類型的分類體系明顯不同于歐盟基于風險分級的體系。歐盟強調系統性地進行風險評估,對高風險應用重點監管,對中低風險應用則采取寬松規制。綜合AIA第6條、第7條以及附件三文本可知,歐盟主要依據兩個標準識別高風險。一是應用領域,包括如下8個領域:自然人的生物識別和分類,關鍵基礎設施的管理和運營,教育和職業培訓,就業、用工管理和自營職業機會,獲得和享受基本的私人服務和公共服務及福利,執法,移民、庇護和邊境管制管理,司法和民主進程。二是存在危害健康和安全的風險,或對基本權利造成不利影響的風險,而且其嚴重性和可能性等于或大于附件三中提到的8個領域的高風險人工智能系統所構成的危害或不利影響風險。不難看出,歐盟對高風險人工智能系統的界定兼顧了公共利益與個體權益。《規定》中“具有輿論屬性或者社會動員能力”這個分類在功能上大致等同于歐盟的高風險標準。只有具備這種能力的算法推薦服務才需要進行包括備案公示在內的重點監管。但這種高風險是從特定公共利益角度進行描述,淡化了對用戶權益的風險描述,而且也沒有覆蓋常見的高風險領域。
4.規制對象設定
《規定》第17條要求:“算法推薦服務提供者應當向用戶提供不針對其個人特征的選項,或者向用戶提供便捷的關閉算法推薦服務的選項。用戶選擇關閉算法推薦服務的,算法推薦服務提供者應當立即停止提供相關服務。”但在以算法為規制對象的情況下,這種要求很難做到。例如,美團僅備案公示了配送調度決策類算法。但普通用戶使用美團APP首先涉及個性化推送類、排序精選類算法。如果進行商品和服務查詢,還涉及檢索過濾類算法。這些算法無疑與個人特征緊密相關,但在APP界面上并無便捷的關閉算法推薦服務的選項。這可能是因為相關要求還需時間逐步落實。但更重要的原因是對美團提供的服務而言,這幾類算法是緊密關聯和互相支撐的,很難單獨剝離并關閉某項服務而不影響整體服務。這種狀況凸顯了以算法而不以人工智能系統為規制對象的缺陷。
當前算法治理的不足很難通過局部和短期調整得到根治,只有在準確的算法認知指導下,綜合考慮當下與未來、名義與實質、規范與發展這幾對關系,通過穩妥規劃和謹慎實施方可得到妥善解決。
首先,從提高公示信息質量角度出發,可基于不同的算法認知采用不同的解釋和改善方案。一種方案是制訂一個更具剛性的公示內容和質量要求。但算法推薦服務的情況千差萬別,技術和市場瞬息萬變,過于細致和具體的算法原理和機制展示會對企業施加過重義務。然而,即便在新浪網那樣的技術性描述基礎上,使用了普及性、符合大眾知識背景的描述性說明,用戶和公眾仍然可能無法真正理解算法的原理和機制。目前算法公示信息的性質大致相當于前文所述的歐盟AIA規定的高風險人工智能系統登記信息。這類登記內容只能提供一些基礎性和背景性的信息。如果采取嚴格的算法概念,現有公示內容并不是真正的算法原理和機制。真正的算法原理和運行機制對普通大眾的意義不大。我們宜回歸現實,正視名義與實質的偏離,采取另一種方案,即將公示內容定性或更名為人工智能系統或服務(產品)系統的一般信息。而對高風險服務(產品)和巨頭企業服務(產品)信息,則可由監管部門根據需要向相關企業和主體進行索取并要求相應解釋。這也是目前歐盟在DSA和DMA中采取的策略。
其次,為減少因算法分類和分級的不足帶來的隱患,應防止過深介入治理對象。人工智能的研究和產業仍處于高速發展之中。對這類規制對象,最好不要過分干預技術細節,而應該采取更具彈性的規制方法。《規定》關于算法的分類雖然可以覆蓋大部分應用和產品的情況,但也有明顯的不足。對此,可以采取靈活介入的方式進行解決。主管部門完全可以利用規定中五類算法后的“等”字,更具彈性地適時更新分類體系。不過,更明智的解決方案是正視規范與發展的關系,不必過細規定算法類型,而是將服務(產品)的風險等級作為主要考量因素。對中低風險的服務(產品)寬松規制,將治理重點集中于對公共利益和個人權利影響較大的高風險服務(產品)。此外,完全可以借鑒歐盟通過應用領域確定風險程度的做法,對人工智能服務(產品)進行更為細致的風險分級描述。這種做法更符合風險治理和系統治理的理念,也更有益于保護公共利益和個人權利。
最后,為妥善解決規制對象缺乏系統性的問題,可從當下與未來的角度加以思考。實際上,這種問題是將作為組件的算法等同于人工智能系統所致。盡管當前重點治理算法有一定的合理性,但從長遠來看,還是應該將人工智能系統作為規制對象。算法治理應具備未來視角,在未來人工智能專門立法的格局下審視和調整當前措施。否則算法治理的局限性很難破解,相關治理措施很難收到實效,用戶和大眾的權益也很難得到切實保障。
從1956年達特茅斯會議至今,人工智能經歷了幾起幾落,每一次衰落都是源于高峰期的承諾無法兌現。〔49〕參見尼克:《人工智能簡史》(第2版),人民郵電出版社2021年版,第260頁。機器學習是本輪人工智能高潮的主力,圍繞其產生的各種浮夸宣傳甚囂塵上。與此同時,在復雜系統中,法律的真實含義與字面含義之間的差異也難以辨識。法律在技術性的、復雜的、非線性的環境中更容易受人操控。〔50〕參見 [美]納西姆?尼古拉斯?塔勒布:《反脆弱:從不確定性中獲益》,雨珂譯,中信出版社2014年版,第359頁。法律界應充分認識到未來的不確定性與復雜性,冷靜觀察人工智能的發展動向,盡量不要倉促做出簡單結論。尤其需要認真思考法律與人工智能之間多維多變的復雜關系。不宜采用還原論的思維方式,將人工智能問題化約為算法問題。相反,應該擴大視野,考慮到復雜現實,從產業、經濟、社會發展等角度綜合分析、謹慎處理人工智能的法律規制問題。人工智能已經成為深度影響人類生活的要素。不僅普通人不知所措,法學界也有才短思澀之感,于是才會出現對算法的認知偏差。但法律是社會變革的穩定舵。面對人工智能帶來的規范層面的挑戰,法律界應主動排除認知偏差干擾,客觀理性分析相關現象,找出穩健有效的法律規制路徑。