陳嘉鑫,董紫來
(西南政法大學(xué),重慶 401120)
隨著第四次科技革命的蓬勃發(fā)展,以深度學(xué)習(xí)、大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)等技術(shù)為基礎(chǔ)的人工智能技術(shù)正日益深刻地嵌入人類社會之中,推動社會生活的發(fā)展與進步。在促進社會生活的樣態(tài)不斷更迭的同時,人工智能技術(shù)本身也在不斷地進行升級。在二十一世紀(jì)的前二十年,決策式人工智能尚局限于自動駕駛、醫(yī)療健康、安全監(jiān)控、游戲娛樂等特定領(lǐng)域,僅在特定事項中起輔助作用。而在2018 年6 月美國科技巨頭Open AI 公布人工智能語言模型GPT(Generative Pre-Training)后,生成式人工智能便開啟了快速迭代的歷程:2022 年11 月30 日發(fā)布的ChatGPT 是生成式人工智能出現(xiàn)在公眾視野的起點,但遠非生成式人工智能發(fā)展的起點。
生成式人工智能憑借其訓(xùn)練機制與底層模型算法的創(chuàng)新,具備了決策式人工智能所不具備的強知識遷移能力與人格化表象,實現(xiàn)了人工智能技術(shù)發(fā)展史上難得一見的顛覆性創(chuàng)新;而技術(shù)進步帶來的算法黑箱、市場壟斷與技術(shù)壁壘造就的數(shù)據(jù)寡頭,無不預(yù)示著多元安全風(fēng)險正在醞釀。人工智能技術(shù)的迭代不可避免地伴隨著風(fēng)險的迭代,風(fēng)險的迭代要求規(guī)制手段與治理框架的迭代。立足于決策式人工智能技術(shù)環(huán)境的規(guī)制手段與治理體系,難以應(yīng)對生成式人工智能帶來的獨特安全風(fēng)險;不斷更新的規(guī)制手段與治理體系同樣滯后于生成式人工智能技術(shù)與風(fēng)險迭代的步伐[1]。總結(jié)生成式人工智能的主要安全風(fēng)險類型,檢視安全風(fēng)險背后的技術(shù)與社會根源,并提出相應(yīng)的綜合治理路徑,是生成式人工智能發(fā)展與治理的迫切需求。
生成式人工智能具有完全不同于決策式人工智能的訓(xùn)練機制與底層模型算法,上述技術(shù)環(huán)境決定了前者與后者在主客體關(guān)系、多模態(tài)任務(wù)能力、研發(fā)運營成本等方面存在顯著區(qū)別。把握生成式人工智能與決策式人工智能的區(qū)別,梳理生成式人工智能的鮮明特征,需要從生成式人工智能的人格化表象、數(shù)據(jù)挖掘能力、算法黑箱、數(shù)據(jù)壟斷四個維度開展深入分析。隨著技術(shù)環(huán)境的持續(xù)迭代,生成式人工智能的各類特征也在不斷深化;生成式人工智能的鮮明特征是新風(fēng)險挑戰(zhàn)的技術(shù)與社會根源,特征的變化發(fā)展構(gòu)成了生成式人工智能風(fēng)險迭代的內(nèi)在動力。
正如理性構(gòu)成了人類與生活環(huán)境的重要區(qū)分標(biāo)準(zhǔn),智能性是人工智能區(qū)別于傳統(tǒng)機械的數(shù)字時代“理性”:智能性成為了人工智能與傳統(tǒng)機械的分野[2]。而以決策式人工智能為代表的人工智能技術(shù)局限于特定細分領(lǐng)域,在嚴(yán)格的設(shè)定條件下承擔(dān)輔助決策等有限的職能,作為技術(shù)客體與工具的非人化特征突出:當(dāng)時的研究者普遍將“情緒的感知與表達”視為區(qū)別人類與人工智能的核心。而在生成式人工智能愈發(fā)成為主流的今天,立足“情感”的人機界限在新技術(shù)特征的沖擊下變得模糊。以ChatGPT生成信息的過程為例:不同于直接從信息網(wǎng)絡(luò)中尋找答案的搜索引擎與依照預(yù)設(shè)程序輸出模版的語音人工智能,ChatGPT 能夠利用深度學(xué)習(xí)模型,憑借接受的預(yù)訓(xùn)練,理解提問的上下文場景與觀點態(tài)度;可以將網(wǎng)絡(luò)數(shù)據(jù)信息轉(zhuǎn)化為文本,并依據(jù)使用者的提示以擬人化的自然語言重新組織輸出的內(nèi)容。此外,隨著網(wǎng)絡(luò)數(shù)據(jù)信息的不斷更迭,ChatGPT 能不斷開展自我學(xué)習(xí),調(diào)整完善輸出的答案;面對用戶的反對質(zhì)疑、贊同欣賞等不同態(tài)度,ChatGPT 能對用戶情緒表現(xiàn)出一定程度上的關(guān)切,并有針對性地調(diào)整輸出的內(nèi)容與表述形式。生成式人工智能的自我學(xué)習(xí)、自我創(chuàng)造、自我進化讓“人工智能更加像人”,但這并非其人格化表象日益凸顯的唯一原因[3]。人工智能發(fā)展到生成式人工智能階段,具備了以理解、記憶、設(shè)計等為代表的人腦機能與特征,交互的內(nèi)容與形式更加擬人化,適用范圍也更加廣泛。生成式人工智能在諸多領(lǐng)域指導(dǎo)人的具體行為,其機敏的反饋與全面的情感關(guān)切也在不斷模糊用戶對人工智能的技術(shù)客體認(rèn)知,影響人的主客體認(rèn)知與行為習(xí)性,使得人與人工智能在一定程度上趨同。
大型語言模型、微調(diào)模型、深度神經(jīng)網(wǎng)絡(luò)等前沿技術(shù)是生成式人工智能的技術(shù)基礎(chǔ),賦予了Chat-GPT 極強的數(shù)據(jù)挖掘能力。ChatGPT 的預(yù)訓(xùn)練過程是大型語言模型與微調(diào)語言模型應(yīng)用的巧妙結(jié)合:開發(fā)者首先運用大型語料庫對ChatGPT進行無監(jiān)督多任務(wù)訓(xùn)練,然后運用針對具體任務(wù)進行特化的小型數(shù)據(jù)集對ChatGPT 進行監(jiān)督調(diào)整[4]。從GPT-1 到最新的GPT-4,開發(fā)者的技術(shù)策略并沒有根本性轉(zhuǎn)變;開發(fā)者主要通過提升訓(xùn)練數(shù)據(jù)體量與質(zhì)量、引入強化學(xué)習(xí)與人工標(biāo)注功能等方式,實現(xiàn)提升ChatGPT 任務(wù)遷移能力的目的。ChatGPT 出色的理解交互能力以及在編程等領(lǐng)域強大的處理能力,都來源于不斷加強的數(shù)據(jù)挖掘能力。從GPT-1 語言模型的1.17 億個訓(xùn)練參數(shù),到GPT-2 的15 億個,再到GPT-3 的1750 億個:語言模型迭代伴隨的訓(xùn)練數(shù)據(jù)增長分別達到了近13 倍、近117倍。GPT-4 的技術(shù)突破主要集中在多模態(tài)任務(wù)能力與長內(nèi)容生成兩個方面,即理解文字、圖片等多種形式內(nèi)容的能力和生成規(guī)模較大的內(nèi)容,并不追求極大的訓(xùn)練參數(shù)量,但其訓(xùn)練參數(shù)量仍然達到了千億規(guī)模。大型語言模型“悟道2.0”和“Switch Transformer”訓(xùn)練參數(shù)量則分別達到了1.75 萬億與1.6 萬億[5]。在大型語言模型的支持下,生成式人工智能具備了強大的數(shù)據(jù)挖掘與記憶能力,能夠在挖掘海量數(shù)據(jù)資源的基礎(chǔ)上,將網(wǎng)絡(luò)空間碎片化、樣態(tài)繁多的信息梳理為邏輯縝密的自然語言表述[6]。高效挖掘數(shù)字空間的信息數(shù)據(jù)是生成式人工智能數(shù)據(jù)挖掘能力強的重要體現(xiàn),但并非唯一維度:ChatGPT 力圖構(gòu)建的與用戶持續(xù)交流的使用樣態(tài),同時也是生成式人工智能大規(guī)模挖掘并記憶數(shù)據(jù)的體現(xiàn)[7]。ChatGPT 提供的答案往往不是一次性的,它會根據(jù)對用戶需求的判斷刪減、修正或補充輸出的內(nèi)容,而在這個過程中,不論是用戶為得到精準(zhǔn)服務(wù)給予的內(nèi)容提示,還是有意或無意暴露出的表述邏輯與表達方式,乃至更深層次的內(nèi)心意圖,都將成為生成式人工智能挖掘的對象。
算法、算力、大數(shù)據(jù)共同組成了人工智能三大核心要素,算法則是上述三大要素之首。算法黑箱則是人工智能研發(fā)管理者與用戶在算法上形成的關(guān)系不平衡、權(quán)力不對等、知識不平等、信息不對稱狀況[8]。生成式人工智能相較決策式人工智能算法黑箱更為明顯,其原因主要有兩個方面:生成式人工智能算法更龐大復(fù)雜,有效披露的難度更大;算法涉及研發(fā)管理者的核心商業(yè)秘密,披露主體往往抵制算法披露。以ChatGPT 為例,其使用了當(dāng)前人工智能乃至計算機領(lǐng)域最頂尖的大數(shù)據(jù)技術(shù),需要處理人工智能領(lǐng)域前所未有的千億、萬億級參數(shù)規(guī)模的數(shù)據(jù),算法的復(fù)雜程度必然遠遠超過決策式人工智能;此外,ChatGPT 屬于通用型人工智能,適用的范圍遠比僅活躍于細分領(lǐng)域界限內(nèi)的決策式人工智能廣泛,巨大的適用范圍進一步加大了算法解釋乃至有效披露的難度。生成式人工智能算法黑箱的存在與發(fā)展不僅取決于程序語言向自然語言轉(zhuǎn)化的客觀難度,還取決于算法程序語言的掌控者,即生成式人工智能研發(fā)管理者的披露意愿。初代ChatGPT 依托的大型語言模型GPT-3的單次訓(xùn)練費用便超過460 萬美元,Open AI 在ChatGPT 首發(fā)之年2022 年便在技術(shù)開發(fā)上投入了約5.44 億美元[9],其中相當(dāng)可觀的部分被投入到算法開發(fā)中,算法保密也同樣是保守商業(yè)秘密、保證收回成本的關(guān)鍵。因此研發(fā)管理者往往只傾向于披露在基礎(chǔ)研究環(huán)節(jié)應(yīng)用的基礎(chǔ)算法,而將具體任務(wù)環(huán)節(jié)應(yīng)用的算法視為商業(yè)秘密并三緘其口。算法披露的主客觀兩方面“梗阻”,使得生成式人工智能的算法黑箱程度空前加劇,且在多元主體間形成了階梯式的算法黑箱狀況。
生成式人工智能是蓬勃發(fā)展的人工智能市場的產(chǎn)物,也正在深刻重塑人工智能市場的基本格局與競爭秩序。從ChatGPT 研發(fā)運營的過程來看,大型語言模型的搭建、使用大型語言模型進行訓(xùn)練都需要消耗極高的算力成本,而人工標(biāo)注與加強學(xué)習(xí)也需要不菲的技術(shù)與人力資源投入:這些因素共同決定了生成式人工智能的研發(fā)運營是個門檻極高的過程,高昂資金技術(shù)成本的另一面往往是嚴(yán)密的技術(shù)壁壘和數(shù)據(jù)壟斷。生成式人工智能的研發(fā)運營需要數(shù)據(jù)與算力的高度集中,搭建大型語言模型需要的數(shù)據(jù)遠遠超過訓(xùn)練決策式人工智能所需要的數(shù)據(jù),搭建與訓(xùn)練所需要的算力同樣遠遠超過決策式人工智能。同時,生成式人工智能屬于通用人工智能,其研發(fā)運營需要融合多領(lǐng)域的技術(shù),OpenAI 在研發(fā)ChatGPT 的過程中便以其雄厚財力并購了大量專門技術(shù)企業(yè)。換言之,在決策式人工智能時代,由于決策式人工智能傾向于專精細分領(lǐng)域,單個人工智能占用的數(shù)據(jù)與算力較為有限,需要的技術(shù)也往往來源于個別領(lǐng)域,天然地形成了一種“去中心化”或者“多中心化”的人工智能市場格局。而在生成式人工智能成為主流的當(dāng)下,人工智能企業(yè)內(nèi)部已經(jīng)具備了數(shù)據(jù)與算力高度集中的特征,生成式人工智能的推廣則將逐步奠定資源空前集中的人工智能市場格局。
在通用人工智能的最廣泛使用場景下,生成式人工智能的運行過程主要是從數(shù)字空間檢索數(shù)據(jù)集并將之由程序語言轉(zhuǎn)化為邏輯嚴(yán)密的自然語言的過程,輸出的結(jié)果是用戶提問的答案。就輸出的結(jié)果而言,不論是“一本正經(jīng)的胡說八道”,還是條理清晰的真實信息,都可能產(chǎn)生致人損害或侵犯知識產(chǎn)權(quán)的安全風(fēng)險。而從生成式人工智能的研發(fā)運營角度來看,生成式人工智能迭代的高昂技術(shù)成本與自身極高的技術(shù)壁壘,使得人工智能誕生之初便面臨的算法黑箱問題愈發(fā)難以解決;數(shù)據(jù)資源的管理與支配不斷向少數(shù)主體集中,增加了威脅個人信息、網(wǎng)絡(luò)安全等公私法益的重大風(fēng)險發(fā)生的可能性。現(xiàn)目前,應(yīng)當(dāng)遵循由后端應(yīng)用到前端研發(fā)運營的思路,系統(tǒng)梳理生成式人工智能在后端應(yīng)用的一般使用場景與特殊濫用場景的相應(yīng)侵權(quán)風(fēng)險,以及在前端研發(fā)、運營過程中潛藏的系統(tǒng)性數(shù)據(jù)安全風(fēng)險。
生成式人工智能經(jīng)過無監(jiān)管大型語言模型與有監(jiān)管微調(diào)模型的反復(fù)預(yù)訓(xùn)練,獲得了較強的自然語言組織與人機交互能力,但這只賦予了生成式人工智能的人格化表象,并沒有使其具備人腦擁有的全部機能,更不能保證輸出內(nèi)容的質(zhì)量與真實性。以ChatGPT 為例,其輸出自然語言文本的質(zhì)量一方面取決于訓(xùn)練模型的規(guī)模與質(zhì)量,其中包括大型語言模型與針對細分領(lǐng)域特化的微調(diào)模型的全面程度與內(nèi)容質(zhì)量;另一方面取決于人工標(biāo)注、強化學(xué)習(xí)的質(zhì)量。從大型語言模型的角度看,無論是初代GPT 模型的億級規(guī)模數(shù)據(jù),還是GPT-2 的十億級數(shù)據(jù)規(guī)模,都已經(jīng)遠遠超出了篩選和過濾能力的極限,遑論GPT-3、GPT-4、悟道2.0、Switch Transformer 等模型涉及的千億級、萬億級數(shù)據(jù)規(guī)模。鑒于篩選和過濾大型語言模型中的不良信息在技術(shù)上幾無可能,當(dāng)前在設(shè)計大型語言模型時也并未過多考慮信息的篩選與過濾問題,而是將不良信息影響的排除問題與具體問題如何進行優(yōu)化一并交給了有監(jiān)督微調(diào)模型。從微調(diào)模型的角度看,其數(shù)據(jù)規(guī)模只是明顯小于大型語言模型,就研發(fā)管理者進行篩選、過濾而言,規(guī)模仍然是較為龐大的。一方面,生成式人工智能研發(fā)管理者囿于技術(shù)與成本上的困境,難以對微調(diào)過程中的不良信息進行有效篩查與徹底排除;另一方面,研發(fā)管理者囿于自身的特殊經(jīng)歷、片面認(rèn)知與固有偏見,難以對涉及種族歧視、色情暴力、文化傳統(tǒng)、政治觀點等領(lǐng)域的不良信息作出立場正確、尺度合理的判斷,甚至有意縱容上述不良信息在語言模型中存在,并發(fā)揮不利影響。
生成式人工智能不僅潛藏著提供虛假誤導(dǎo)與無意義信息的風(fēng)險,其人格化表象還將助長用戶陷入虛假信息陷阱而遭受損害。簡而言之,用戶在面對決策式人工智能時,具有清晰的主客認(rèn)知,兩者之間是明確的“主體——客體”二元關(guān)系;而生成式人工智能在設(shè)計上淡化技術(shù)客體與工具表征,極力表現(xiàn)人工智能“善解人意”“自主能動”的一面,可能模糊用戶的主客認(rèn)知,干擾用戶對輸出結(jié)果的判斷。進而言之,決策式人工智能輸出的結(jié)果尚需用戶的分析、篩選與判斷,或者說本就秉持輔助決策的目的而有意為之;生成式人工智能直接以邏輯嚴(yán)密的文本提供問題的答案,事實上擠壓了用戶分析、判斷等思維活動存在的空間,自然語言的表達形式更易被理解,邏輯嚴(yán)密、旁征博引更顯權(quán)威準(zhǔn)確,容易喚醒用戶不加獨立思考徑直采納權(quán)威意見的主觀傾向。鑒于ChatGPT 已然出現(xiàn)種族歧視、意識形態(tài)、倫理道德等方面的問題,正在面臨多國執(zhí)法機構(gòu)的審查、限制甚至禁止,用戶若盲目采信生成式人工智能提供的答案,極有可能作出錯誤決斷、造成自身損害。
隨著語言模型與訓(xùn)練機制的不斷優(yōu)化升級,生成式人工智能運行過程與結(jié)果的質(zhì)量也隨之穩(wěn)步提升;然而在生成式人工智能創(chuàng)作物的形式與內(nèi)容不斷完善的同時,創(chuàng)作物的知識產(chǎn)權(quán)瑕疵尚未得到有效的解決,甚至隨著語言模型數(shù)據(jù)規(guī)模的不斷擴大有愈演愈烈之勢。正如前文所述,生成式人工智能具有極強的數(shù)據(jù)挖掘能力,GPT-4 涉及的大型語言模型參數(shù)規(guī)模早已突破千億級,識別與篩查其中特征明顯、危害性強的不良信息尚且面臨極大的困難,需要微調(diào)模型在此方面進行補充:生成式人工智能強大數(shù)據(jù)挖掘能力的背后缺乏對于數(shù)據(jù)內(nèi)容合法與違法邊界的探知,缺乏對語料數(shù)據(jù)知識產(chǎn)權(quán)邊界的清晰感知也是不言自明的;碎片化語料信息涉及的知識產(chǎn)權(quán)關(guān)系相較有害內(nèi)容更為隱蔽、更加難以被識別,而規(guī)模如此龐大的信息所涉知識產(chǎn)權(quán)關(guān)系即便被一一識別,建立合法的許可使用關(guān)系也將是個困難的過程。生成式人工智能的研發(fā)管理者囿于技術(shù)手段的限制與市場主體的損益比較邏輯,并不盡力也無法做到“先理順語料信息的知識產(chǎn)權(quán)關(guān)系,再構(gòu)建大型語言模型”。而微調(diào)模型訓(xùn)練階段的人工標(biāo)注與加強學(xué)習(xí)受限于同樣的原因與邏輯,無法完全排除人工智能創(chuàng)作物侵犯他人知識產(chǎn)權(quán)的風(fēng)險。
預(yù)訓(xùn)練階段無法篩查與排除知識產(chǎn)權(quán)風(fēng)險,生成式人工智能的運行邏輯進一步加大了知識產(chǎn)權(quán)風(fēng)險的可能性與監(jiān)管難度。有學(xué)者曾就“ChatGPT 的文本生成過程是否會侵犯他人著作權(quán)”提問ChatGPT:ChatGPT明確表示不會侵犯,其文本生成是在概率模型的基礎(chǔ)上,依據(jù)預(yù)設(shè)的文本規(guī)則進行的知識重組[10]。ChatGPT 不會也不被允許直接抄襲涉及知識產(chǎn)權(quán)的文本,但這并不意味著其不會侵犯他人的知識產(chǎn)權(quán);ChatGPT 坦陳未經(jīng)許可利用他人文本進行知識重組可能侵犯知識產(chǎn)權(quán),知識重組的運行方式也加大了知識產(chǎn)權(quán)風(fēng)險的監(jiān)管難度。盡管ChatGPT 具有很強的數(shù)據(jù)挖掘能力與知識遷移能力,但這并不意味著ChatGPT 革新了知識產(chǎn)生的途徑,相反,其真正從事的是知識的抽象凝練、碎片化知識的梳理重組。因此,工具定位的ChatGPT 是否會侵犯知識產(chǎn)權(quán)并沒有定論,侵權(quán)與否最后往往取決于用戶取得信息后的后續(xù)用途。而隨著生成式人工智能進一步向通用人工智能的定位轉(zhuǎn)變,以ChatGPT為代表的生成式人工智能將被愈發(fā)廣泛地用于各種場景與目的,其中既有擴大公共利益的目的,又有牟取商業(yè)利益的目的:當(dāng)生成式知識重組的運行邏輯愈發(fā)深刻地嵌入商業(yè)營利的活動,極有可能誘發(fā)系統(tǒng)性的知識產(chǎn)權(quán)危機。
以ChatGPT為代表的生成式人工智能被濫用已經(jīng)成為一種現(xiàn)實威脅:據(jù)德新社的報道,歐洲刑警組織認(rèn)為ChatGPT可能被犯罪分子用于制造虛假信息、冒充組織或個人實施欺詐、獲取網(wǎng)絡(luò)犯罪工具。ChatGPT 擅于“一本正經(jīng)的胡說八道”,易被犯罪分子用于制造逼真度極高的虛假消息;而上述屬性又便于犯罪分子濫用ChatGPT 仿冒特定組織或個人的語言風(fēng)格,已經(jīng)被犯罪分子用于實施詐騙。ChatGPT 被濫用的最大風(fēng)險在于極大地降低了犯罪分子獲取網(wǎng)絡(luò)犯罪工具的門檻。在ChatGPT 出現(xiàn)之前,犯罪分子需要具備一定的信息技術(shù)知識與能力,才能制作惡意程序代碼、搭建非法平臺、獲取用于隱藏IP的輔助工具:申言之,網(wǎng)絡(luò)犯罪在本質(zhì)上仍然屬于網(wǎng)絡(luò)活動,需要經(jīng)歷一切網(wǎng)絡(luò)活動必經(jīng)的“用戶的自然語言向計算機的程序語言轉(zhuǎn)化”的過程;將自然語言轉(zhuǎn)化為程序語言的能力門檻,客觀上限制了犯罪分子開展網(wǎng)絡(luò)犯罪活動;犯罪分子需要掌握一定的信息技術(shù)知識與能力,才能開展網(wǎng)絡(luò)犯罪活動,只有不斷強化專業(yè)知識和技能,才能實施更為復(fù)雜的網(wǎng)絡(luò)犯罪活動。以ChatGPT 為代表的生成式人工智能構(gòu)建起了自然語言與程序語言之間的橋梁,不具備專業(yè)知識與技術(shù)的犯罪分子仍然可以在人工智能的輔助下輕松地進行編程與搭建平臺,將自然語言表述的犯罪意圖向程序語言反映的犯罪行為進行轉(zhuǎn)化。以網(wǎng)絡(luò)犯罪為代表的非接觸式犯罪的興起,正是由于網(wǎng)絡(luò)突破了犯罪構(gòu)成要素耦合所需要的接觸條件[11],然而自然語言與程序語言之間的壁壘仍然存在;生成式人工智能對自然語言與程序語言間壁壘的突破,將導(dǎo)致非接觸式犯罪的門檻進一步降低。
如果說人格化特征與數(shù)據(jù)挖掘能力等人工智能要素的變遷使得安全風(fēng)險形態(tài)更迭超出了既有人工智能治理體系的規(guī)制能力,算法黑箱的加劇則從根本上削弱了治理體系的監(jiān)管能力,加劇了生成式人工智能被濫用的風(fēng)險。非接觸式犯罪相較傳統(tǒng)犯罪更難以監(jiān)管,生成式人工智能被濫用將促使非接觸式犯罪取代傳統(tǒng)犯罪的主流犯罪形態(tài)地位,從外部挑戰(zhàn)網(wǎng)絡(luò)犯罪監(jiān)管體系;而生成式人工智能本身的算法黑箱,則從內(nèi)部降低了現(xiàn)行監(jiān)管體系的效能。在算法黑箱的影響下,監(jiān)管者難以將知識產(chǎn)權(quán)被侵犯、人工智能被濫用、數(shù)據(jù)泄露等具體風(fēng)險定位于生成式人工智能運用的具體過程,也難以由虛假信息、欺詐線索追溯到具體的犯罪人。更進一步來說,算法黑箱使得監(jiān)管規(guī)范制定需要依據(jù)的現(xiàn)實狀況變得更為模糊,立法者難以針對人工智能運用中的具體問題及其根源制定相應(yīng)的規(guī)范,導(dǎo)致監(jiān)管規(guī)范失之于寬泛。
生成式人工智能推廣應(yīng)用的核心問題之一便是數(shù)據(jù)來源問題:生成式人工智能需要訓(xùn)練的問題范圍極為廣泛,每個具體問題都需要大量樣本用于學(xué)習(xí)。有學(xué)者認(rèn)為,ChatGPT 在國內(nèi)的廣泛應(yīng)用同時也是在為Open AI 擴充中文語料庫服務(wù),每個國內(nèi)用戶都可能被視為語言模型的采集樣本。使用碎片化的數(shù)字空間語料并不構(gòu)成威脅,而系統(tǒng)搜集互聯(lián)網(wǎng)語料并搭建一個國家、一種語言的數(shù)字空間語料庫則可能引發(fā)市場經(jīng)濟領(lǐng)域甚至國家安全領(lǐng)域的重大問題。從個體的角度看,使用ChatGPT的過程極有可能暴露日程安排、身份學(xué)歷、社會關(guān)系等隱私與個人信息,ChatGPT 打著精準(zhǔn)服務(wù)、持續(xù)服務(wù)的旗號采集與存儲關(guān)于用戶的數(shù)據(jù)信息,卻并不公布對用戶隱私與個人信息的安全保障措施與后續(xù)處理狀況。生成式人工智能的發(fā)展暗藏著過程與結(jié)果皆不透明的個人信息采集狂潮,由此導(dǎo)致了個人信息在若干互聯(lián)網(wǎng)巨頭的空前集中,一旦安全保障不力,可能導(dǎo)致用戶個人信息的大規(guī)模泄露。從國家與社會的角度看,語言、文字、圖片等多模態(tài)載體承載著十億多中國網(wǎng)民在數(shù)字空間活動的全部信息,如果僅僅將其用于產(chǎn)品的設(shè)計與推介等正常市場活動,都可能極大地影響市場的公平競爭秩序;倘若其他國家、地區(qū)或組織將上述數(shù)據(jù)用于情報搜集與意識形態(tài)競爭,將對我國的國家安全構(gòu)成嚴(yán)重威脅[12]。
生成式人工智能作為當(dāng)前最符合通用人工智能定義的人工智能樣態(tài),被要求和已經(jīng)實現(xiàn)的任務(wù)遷移能力是相當(dāng)高的;而其研發(fā)運營所需要的技術(shù)種類、涉及領(lǐng)域之多也刷新了人工智能發(fā)展歷程的記錄。以ChatGPT 為代表的生成式人工智能在研發(fā)運營中主要使用了五類核心技術(shù)與架構(gòu):思維鏈技術(shù)、指示微調(diào)技術(shù)、強化學(xué)習(xí)技術(shù)、Transformer模型與基于Transformer的基本架構(gòu)[13],涉及了軟件工程、網(wǎng)絡(luò)工程、空間信息與數(shù)字技術(shù)、大數(shù)據(jù)、數(shù)字媒體技術(shù)等多個領(lǐng)域。生成式人工智能在技術(shù)與領(lǐng)域的高度復(fù)合性帶來了監(jiān)管的困難,其核心技術(shù)在一定程度上領(lǐng)先于信息安全、網(wǎng)絡(luò)安全技術(shù)的發(fā)展,先進技術(shù)的集中更進一步加大了安全監(jiān)管的難度,技術(shù)壟斷則限制了技術(shù)監(jiān)管本身的發(fā)展——為了把握市場的先機和隔絕政府的干預(yù),互聯(lián)網(wǎng)寡頭總是傾向于保持先進技術(shù)對外界的不透明狀態(tài),監(jiān)管技術(shù)也因此被擠出信息網(wǎng)絡(luò)技術(shù)的第一梯隊。而生成式人工智能涉及的領(lǐng)域之多也讓本用于規(guī)制單一領(lǐng)域的規(guī)范難以適用,加之立法者因畏懼壓抑科技發(fā)展而瞻前顧后:當(dāng)前的監(jiān)管規(guī)范實效正在不斷下降。綜上,數(shù)據(jù)集中在前端加劇泄露的風(fēng)險與危害,而技術(shù)壟斷則讓數(shù)據(jù)安全、網(wǎng)絡(luò)安全等后端監(jiān)管變得格外困難,共同構(gòu)成了生成式人工智能的運營失序風(fēng)險。
在技術(shù)層面,從內(nèi)容模型的訓(xùn)練到內(nèi)容的生成,生成式人工智能具有內(nèi)容謬誤與運行侵權(quán)兩重風(fēng)險;穿透技術(shù)的表象直視科技發(fā)展態(tài)勢,算法黑箱帶來的使用失當(dāng)與數(shù)據(jù)技術(shù)壟斷帶來的運營失序?qū)⒊蔀榇髷?shù)據(jù)智能時代的深層次隱憂。在大數(shù)據(jù)智能的時代背景下,生成式人工智能將推動人工智能技術(shù)的應(yīng)用普及,人工智能逐漸從專業(yè)研究等少數(shù)領(lǐng)域向社會大眾的日常生活延伸,在多方面引發(fā)社會的深層次變革;在技術(shù)驅(qū)動社會形態(tài)更迭的過程中,技術(shù)發(fā)展引發(fā)的安全風(fēng)險與社會進步的陣痛都需要規(guī)范的制度化回應(yīng)[14]:科技、社會與法律儼然成為大數(shù)據(jù)智能時代三個相互影響又緊密聯(lián)系的主體,立足三者整體構(gòu)建“科技—社會—法律”三元綜合治理模式正是生成式人工智能安全風(fēng)險綜合治理的題中之義。在逐步構(gòu)建“科技—社會—法律”三元綜合治理模式的過程中,“科技”作為三元主體變化發(fā)展的源動力,是治理路徑劃分的主要依據(jù):在宏觀上,“科技”可被分為技術(shù)本身與科技發(fā)展態(tài)勢兩個維度;技術(shù)層面,生成式人工智能的技術(shù)基礎(chǔ)主要包含大型語言模型、微調(diào)模型的內(nèi)容模型,以及知識重組的運行邏輯;而在科技發(fā)展態(tài)勢方面,算法黑箱的愈發(fā)普遍與數(shù)據(jù)技術(shù)的集中化趨勢,將深刻重塑社會的形態(tài)與格局。遵循先技術(shù)后科技發(fā)展態(tài)勢、先科技后社會與法律的思路,依次設(shè)計“建設(shè)內(nèi)容模型訓(xùn)練管理體系”“厘清程序運行的知識產(chǎn)權(quán)邊界”兩舉措克服技術(shù)層面的治理難題,再由“構(gòu)建第三方算法披露效力評估機制”到“深化綜合治理模式”,實現(xiàn)由技術(shù)規(guī)制向社會治理、法律制度化回應(yīng)的跨越。
內(nèi)容模型本身的缺陷是生成式人工智能生成虛假誤導(dǎo)、無意義信息的根源[15],而模型訓(xùn)練的缺乏監(jiān)督則是“催化劑”。在識別了內(nèi)容謬誤的風(fēng)險根源后,應(yīng)當(dāng)從事前提高內(nèi)容模型質(zhì)量、優(yōu)化深度學(xué)習(xí)模式,事后加強內(nèi)容糾偏兩個維度出發(fā)建設(shè)內(nèi)容模型訓(xùn)練管理體系。ChatGPT 的數(shù)據(jù)來源較為龐雜,從書籍、期刊、維基百科到網(wǎng)絡(luò)數(shù)據(jù)爬取、社交媒體網(wǎng)站,內(nèi)容質(zhì)量良莠不齊[16]。無論是處于提高內(nèi)容模型質(zhì)量還是加強對內(nèi)容模型的管理,公安機關(guān)乃至其他監(jiān)管部門都應(yīng)當(dāng)介入內(nèi)容模型的構(gòu)建:公安機關(guān)、網(wǎng)信部門可與類ChatGPT開發(fā)企事業(yè)單位合作,建立內(nèi)容模型定期檢查機制,由監(jiān)管部門與研發(fā)運營者共同對大型語言模型、微調(diào)模型等一系列內(nèi)容模型實施抽查,檢查模型中是否存留有虛假、違法信息,同時關(guān)注構(gòu)建內(nèi)容模型的過程中是否使用了數(shù)據(jù)爬蟲等可能涉及違法的手段。政府可協(xié)調(diào)多部門定期對內(nèi)容模型的合法數(shù)據(jù)進行評估,考察其中的觀點是否符合社會主義核心價值觀與公序良俗,以及數(shù)據(jù)來源中發(fā)布者的性別、年齡、民族、受教育程度等特征與比例是否合理。而在優(yōu)化深度學(xué)習(xí)模式方面,生成式人工智能研發(fā)運營者應(yīng)當(dāng)加強對于優(yōu)化訓(xùn)練的監(jiān)督,制定具體、清晰、可操作性較強的內(nèi)部標(biāo)注規(guī)范,并依據(jù)該規(guī)范對標(biāo)注人員進行培訓(xùn);監(jiān)管部門與企業(yè)應(yīng)當(dāng)定期檢查核驗標(biāo)注內(nèi)容的正確性,在涉及國計民生的重要領(lǐng)域,監(jiān)管部門也應(yīng)當(dāng)組織專業(yè)力量對上文所述的內(nèi)部標(biāo)注規(guī)范進行評估并備案;研發(fā)運營者也應(yīng)當(dāng)在實踐中根據(jù)具體情況及時更新標(biāo)注規(guī)則。
實現(xiàn)對內(nèi)容模型訓(xùn)練的有效管理,保證生成式人工智能輸出內(nèi)容的真實性,既需要在生成前對技術(shù)與數(shù)據(jù)基礎(chǔ)進行優(yōu)化,同樣需要健全生成后的內(nèi)容糾錯機制。面向公眾的發(fā)布并非生成式人工智能開發(fā)的重點,研發(fā)運營者往往傾向于利用公眾的反饋與語料對人工智能進行進一步的調(diào)優(yōu)。當(dāng)前適宜采取逐層次發(fā)布的做法,即首先向較小范圍的公眾發(fā)布生成式人工智能的早期版本,并加強對人工智能運行的監(jiān)控,人工與算法雙管齊下全方位發(fā)現(xiàn)生成虛假誤導(dǎo)、無意義信息的情形;利用內(nèi)容謬誤的情形訓(xùn)練算法糾偏模型,將內(nèi)容糾錯的重心由人工逐步轉(zhuǎn)向算法,并逐步提升算法糾錯的準(zhǔn)確性與時效性。內(nèi)容糾偏除了需要及時對謬誤結(jié)果進行修正,還需要總結(jié)并反饋內(nèi)容謬誤的原因,即分析內(nèi)容模型質(zhì)量、深度學(xué)習(xí)模式對內(nèi)容謬誤的影響,有針對性地對內(nèi)容模型質(zhì)量、深度學(xué)習(xí)模式進行優(yōu)化。
人工智能生成內(nèi)容的過程是否屬于“創(chuàng)作”、“創(chuàng)作”作為法律概念的內(nèi)涵與外延是什么,各國立法尚未有明確的規(guī)定,理論研究也缺乏統(tǒng)一的結(jié)論[17]。從人工智能創(chuàng)作物的知識產(chǎn)權(quán)保護與生成式人工智能運行侵犯知識產(chǎn)權(quán)兩個角度看,生成式人工智能程序運行的知識產(chǎn)權(quán)邊界都很不明確:在科技與社會相互影響的格局中,社會利益所受的損害更為急迫,內(nèi)容界定上更為明確,因此適宜從防范生成式人工智能侵犯知識產(chǎn)權(quán)的角度出發(fā),厘清人工智能程序運行的知識產(chǎn)權(quán)邊界。防范侵權(quán)風(fēng)險、厘清權(quán)利邊界有兩個層次:理順內(nèi)容模型中語料數(shù)據(jù)的知識產(chǎn)權(quán)關(guān)系與規(guī)范人工智能用途。當(dāng)前急需優(yōu)化人工智能企業(yè)、高等院校、研究機構(gòu)間的產(chǎn)學(xué)研合作模式,多元主體合作開發(fā)數(shù)字空間語料數(shù)據(jù)的知識產(chǎn)權(quán)識別體系。通過在抓取語料數(shù)據(jù)的同時分析語料數(shù)據(jù)的來源、完整程度、轉(zhuǎn)化狀況、原始發(fā)布者等情況,將上述語料數(shù)據(jù)分為附帶知識產(chǎn)權(quán)與不附帶知識產(chǎn)權(quán)兩類,在將附帶知識產(chǎn)權(quán)的數(shù)據(jù)納入內(nèi)容模型前,先進行取得知識產(chǎn)權(quán)人部分或完整授權(quán)的嘗試。鑒于取得所有知識產(chǎn)權(quán)人授權(quán)在現(xiàn)實中是一件不可能完成的事情,而僅僅因權(quán)利狀態(tài)的瑕疵就將語料數(shù)據(jù)排除在外,將會導(dǎo)致內(nèi)容模型的不完整與構(gòu)建的極大困難:完整程度較低、經(jīng)過轉(zhuǎn)化的碎片化數(shù)據(jù)占數(shù)字空間語料數(shù)據(jù)的多數(shù),即使未取得完整授權(quán),也不應(yīng)將其排除在內(nèi)容模型之外。而針對他人較為完整、原始的創(chuàng)作物及創(chuàng)作物片段,納入內(nèi)容模型的權(quán)利狀態(tài)標(biāo)準(zhǔn)則要適當(dāng)提高。
生成式人工智能所依賴的內(nèi)容模型,尤其是大型語言模型,其中部分語料數(shù)據(jù)知識產(chǎn)權(quán)關(guān)系的模糊狀態(tài)不可避免,由此,應(yīng)當(dāng)在強化知識產(chǎn)權(quán)狀態(tài)分級標(biāo)注的基礎(chǔ)上規(guī)范生成式人工智能及其創(chuàng)作物的用途。應(yīng)當(dāng)在內(nèi)容模型內(nèi)部對已過知識產(chǎn)權(quán)保護期限、取得知識產(chǎn)權(quán)授權(quán)的語料數(shù)據(jù)與知識產(chǎn)權(quán)關(guān)系不明、未取得授權(quán)的語料數(shù)據(jù)進行分類并標(biāo)注。在進入任務(wù)環(huán)節(jié)后,如若使用的數(shù)據(jù)并不涉及知識產(chǎn)權(quán)爭議,則生成內(nèi)容可用于任何用途;如果知識重組依據(jù)的數(shù)據(jù)存在較為明顯的知識產(chǎn)權(quán)爭議,人工智能應(yīng)當(dāng)提示用戶,建議用戶僅在為公共利益的目的使用該生成內(nèi)容,避免將其用于商業(yè)用途。生成式人工智能研發(fā)運營者應(yīng)當(dāng)不斷完善上述標(biāo)注并使人工智能具備提示用戶的功能。同時,由于生成式人工智能正逐步由依賴閉源數(shù)據(jù)集進行知識重組轉(zhuǎn)向在每一次任務(wù)進程中直接獲取開源數(shù)據(jù),而未經(jīng)篩選的數(shù)字空間開源數(shù)據(jù)知識產(chǎn)權(quán)狀況更為復(fù)雜,宜提示用戶相關(guān)知識產(chǎn)權(quán)風(fēng)險并建議用戶審慎將人工智能創(chuàng)作物用于公共利益以外的用途。
算法黑箱以及由此加劇的對人工智能工具的濫用并非與生成式人工智能相伴相生的問題,在人工智能技術(shù)發(fā)展的早期便有算法黑箱隱患以及規(guī)制嘗試,后者集中體現(xiàn)為算法透明原則[18]。在算法治理領(lǐng)域,追求算法透明有時不利于維護國家安全、社會秩序以及私主體權(quán)利,即算法透明并非在所有技術(shù)環(huán)境下皆可行;而隨著算法的復(fù)雜化,算法透明原則距離算法可知的預(yù)期效果越來越遠,并且愈發(fā)難以起到有效規(guī)制的作用[19];而在生成式人工智能導(dǎo)致算法黑箱情況加劇的當(dāng)下,屬于單向度事前預(yù)防的算法透明原則難以應(yīng)對生成式人工智能技術(shù)環(huán)境下的算法黑箱與惡意濫用:當(dāng)前急需從事前預(yù)防與事后規(guī)制兩個維度強化算法黑箱與惡意濫用綜合治理能力。在事前預(yù)防方面,合理的治理手段要求治理成本顯著低于損害成本,而算法的復(fù)雜化、披露能力的相對弱化等都提高了算法有效披露的成本。當(dāng)前需要制定算法分級分類披露標(biāo)準(zhǔn)并構(gòu)建算法披露效力第三方評估機制:適宜由公安部門、網(wǎng)信部門聯(lián)合大數(shù)據(jù)企事業(yè)單位對算法進行分類,在分類的基礎(chǔ)上為每個類型的算法制定面向不同披露對象的披露標(biāo)準(zhǔn),例如用于國安領(lǐng)域的算法便不應(yīng)當(dāng)披露,而適宜披露的算法在向公眾披露時與向公安機關(guān)披露時的標(biāo)準(zhǔn)也是不一樣的;此外,針對有必要予以披露的生成式人工智能算法,需要在披露主體與披露對象之外尋找第三方,構(gòu)建算法披露效力第三方評估機制,對算法披露是否符合標(biāo)準(zhǔn)進行監(jiān)督與評估。在上述兩類舉措的作用下,橫亙于披露主體與披露對象之間,尤其是大數(shù)據(jù)企業(yè)與監(jiān)管部門之間的算法黑箱將得到削弱,有利于監(jiān)管部門在算法相對透明的環(huán)境下發(fā)現(xiàn)惡意濫用行為,并且在熟知算法特征的情況下更為高效地識別惡意濫用行為。
事后規(guī)制在治理算法黑箱與惡意濫用方面不可或缺,并且由于已經(jīng)知曉風(fēng)險點位,治理所需的信息成本顯著降低。當(dāng)前,鑒于第一批濫用生成式人工智能進行網(wǎng)絡(luò)犯罪的案件已經(jīng)出現(xiàn),公安機關(guān)、網(wǎng)信部門、檢察機關(guān)、審判機關(guān)等監(jiān)管主體應(yīng)當(dāng)優(yōu)化信息交流與協(xié)作機制,聯(lián)合開展針對濫用生成式人工智能違法犯罪行為的類型化梳理;理論界與實務(wù)界應(yīng)當(dāng)加強治理研究合作,在梳理濫用行為類型的基礎(chǔ)上深入把握生成式人工智能對犯罪態(tài)勢、行為方式、時間空間特征等情況的影響,進一步深化對算法透明層次的研究與探討,用治理研究成果推動治理實踐進步。工具無法避免被濫用,但其易于被濫用的屬性則可被淡化,在規(guī)制濫用行為的過程中,也應(yīng)當(dāng)進一步回溯算法黑箱的風(fēng)險點位,完善針對生成式人工智能算法治理的格局。
人工智能的通用性需求與發(fā)展態(tài)勢,催生了以ChatGPT為代表的生成式人工智能的快速發(fā)展,也在推動人工智能市場走向數(shù)據(jù)集中與技術(shù)壟斷:技術(shù)進步是社會演進的直接動力,科技發(fā)展整體態(tài)勢則在更深層次重塑社會的樣態(tài),法律固然需要對ChatGPT的橫空出世快速作出響應(yīng),但更需要立足科技、社會、法律間的相互關(guān)系與格局,深化針對生成式人工智能乃至通用人工智能的綜合治理模式[20]。面對數(shù)據(jù)集中與技術(shù)壟斷導(dǎo)致的市場失序與數(shù)據(jù)安全隱憂,需要由加強數(shù)據(jù)安全監(jiān)管到優(yōu)化開發(fā)格局逐步深化“科技—社會—法律”三元綜合治理模式。當(dāng)前,適宜通過立法要求生成式人工智能企業(yè)設(shè)置專門的數(shù)據(jù)安全部門,監(jiān)督《網(wǎng)絡(luò)安全法》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》以及未來的《生成式人工智能服務(wù)管理辦法》等法律法規(guī)在企業(yè)內(nèi)部的執(zhí)行,幫助企業(yè)內(nèi)部風(fēng)險防控標(biāo)準(zhǔn)、管理規(guī)范的制定與實施;此外,還需在進一步完善數(shù)據(jù)安全部門職責(zé)、定位的基礎(chǔ)上構(gòu)建企業(yè)內(nèi)部安全監(jiān)管部門與公共規(guī)制機關(guān)的聯(lián)系機制。鑒于生成式人工智能的研發(fā)運營難以由個別企業(yè)獨立承擔(dān),企業(yè)間已經(jīng)具備了廣泛而深入的合作關(guān)系,可以通過對關(guān)聯(lián)企業(yè)施加人工智能安全義務(wù),從而加強數(shù)據(jù)安全監(jiān)管:關(guān)聯(lián)企業(yè)都需要對潛在的數(shù)據(jù)安全問題承擔(dān)責(zé)任,并且負有對本企業(yè)及合作企業(yè)的數(shù)據(jù)安全風(fēng)險的報告義務(wù)。生成式人工智能正全方位融入普通公眾的日常生活,監(jiān)管機關(guān)可向社會開放更多的公眾監(jiān)督途徑,鼓勵公眾報告存在的人工智能風(fēng)險。
法律無法也不應(yīng)嘗試對科技與社會的所有關(guān)系作出回應(yīng),而在立法尚在探索的情況下,監(jiān)管部門也不應(yīng)只顧防范現(xiàn)實風(fēng)險,而應(yīng)該綜合科技發(fā)展、社會形態(tài)更迭等因素探索綜合治理模式。申言之,監(jiān)管部門不宜將有限的監(jiān)管資源分配到人工智能企業(yè)的所有事項,而應(yīng)該集中有限的精力針對企業(yè)內(nèi)部的安全部門開展再監(jiān)督,定期對上述安全部門的風(fēng)險控制行為進行評估、反饋與指導(dǎo)。進而言之,政府可以通過投資重要信息網(wǎng)絡(luò)基礎(chǔ)設(shè)施、參與構(gòu)建大型語言模型等方式,降低中小企業(yè)研發(fā)生成式人工智能的數(shù)據(jù)、算力等成本,既優(yōu)化了生成式人工智能的研發(fā)格局,又加強了公共規(guī)制機關(guān)對研發(fā)運營全過程的把握。在更宏觀的層面,政府、企業(yè)、高等院校、科研院所等應(yīng)當(dāng)共同探索敏捷治理路徑,建立多方實時聯(lián)動的治理體系[21],幫助公共規(guī)制機關(guān)及時調(diào)整規(guī)制手段,在有效防范風(fēng)險的同時促進我國生成式人工智能的發(fā)展。
生成式人工智能的綜合治理,既關(guān)乎國家安全、社會秩序與人民群眾合法權(quán)益,又是決定我國能否把握人工智能技術(shù)革命的重要契機。生成式人工智能安全風(fēng)險治理與其他安全風(fēng)險治理的最大不同在于需要考量治理手段對未來科技發(fā)展、社會變革可能產(chǎn)生的重大影響,既不可規(guī)制過嚴(yán),又不可瞻前顧后。在梳理生成式人工智能不同于決策式人工智能的鮮明特征的基礎(chǔ)上,歸納多元安全風(fēng)險,探索并深化“科技—社會—法律”三元綜合治理模式,是生成式人工智能乃至通用型人工智能治理的題中應(yīng)有之義。而在人工智能立法不斷發(fā)展的未來,可基于立法實踐開展元規(guī)制模式研究[22],探索分層治理、敏捷治理理論與方法,完善人工智能綜合治理模式。