999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

合規實踐:探尋類ChatGPT大模型產品風險化解之道

2023-06-16 10:09:52陳心宇
互聯網天地 2023年5期
關鍵詞:內容用戶信息

□文 | 陳心宇

0 引言

ChatGPT炙手可熱,各大互聯網公司擦拳磨掌,急于搶占市場并欲在生成式人工智能領域分一杯羹,且隨著技術的不斷發展,類ChatGPT產品會應用于多種領域,將會影響我們生活工作的方方面面,相應的風險也隨之產生。為此,各國都積極出臺政策以應對新技術帶來的風險,我國近日出臺了《生成式人工智能服務管理辦法(征求意見稿)》(以下簡稱“《AIGC管理辦法》”),便是對此的回應。同時,互聯網公司需遵循人工智能的相關規定,綜合考慮在訓練數據來源與質量的合法合規的基礎上,保證自己的生成式人工智能產品輸出合法合規,利用技術等手段進行合規工作。

1 類ChatGPT產品技術特點與應用

ChatGPT橫空出世,開啟了強人工智能時代新篇章,其獨特的技術特點、便利的服務模式給人們的生活帶來了翻天覆地的變化。國內科技巨頭也在積極布局類ChatGPT應用,商湯商量、百度文心一言、華為盤古、智譜華章ChatGLM等紛紛亮相。在此背景下,為了更好地對其進行合規監管,首先需要了解大模型的原理特點及應用場景,從而應對可能出現的風險,做出符合實際并具備長效保護模式的監管決策。

1.1 類ChatGPT原理與實現方式

由OpenAI開發的ChatGPT掀起了多模態通用生成模型研究開發的熱潮,ChatGPT是自然語言處理(NLP)中一項令人矚目的進展,經過多類技術積累與迭代,融合機器學習、神經網絡以及Transformer(直譯為轉換器)等多種技術模型,Transformer被運用在大型語言模型(LLM)上,以“預訓練+微調”的工作模式,成為深度學習多領域處理目標任務新范式。

簡而言之,ChatGPT是以GPT為基礎,通過學習大量的語料,構建模型,處理用戶輸入,生成回答并最終實現人機對話的應用。其實現機制具體包括如下三個方面,首先,為了保證數據的質與量并顯著提升大模型訓練技術生產效率,需要通過開放API帶來更多數據,如使用公開的數據集和第三方供應商許可的數據,另需通過技術手段過濾掉無用數據來提高模型基線、保證數據質量;其次,模型從大規模的語料庫等數據中捕捉規律進行預訓練以預測文檔中下一個令牌,并在高維抽象空間形成有條理的“數據庫”,之后納入人類反饋的強化學習(RLHF)進行指令微調從而優化語言模型,提升自我糾錯能力,之后再通過人類標記過的答案學習人類的偏好;最后,設計團隊又采用標注對齊策略,給模型提供標注數據,提高模型回應提問的準確性。因此ChatGPT可以捕捉語言的語法、語義和慣用法,并根據給定的上下文理解和分析人們可能期望寫下什么并模擬專家給出回答,或對用戶輸入的文本進行合理續寫或做出決策并生成自然語言回復,同時為了提高審查文本質量與流暢度進行不斷的迭代優化,來更好地滿足人類對話的需求。

1.2 AI要素與應用場景

AIGC主要依賴精心設計的算法與規模化的算力從而訓練生成內容,隨著技術的進步迭代,對于高質量大數據的需求量也與日俱增。如今,算料、算力和算法影響著時下經濟的運行,構成了大模型產品的主要要素,流行的說法是:數據洞察用戶需求,算法改變商業本質,算力重塑經濟未來,三者缺一不可,相互支撐。

隨著GPT技術在更廣泛的任務應用、更精準的預測、更高的智能水平、更好的可解釋性方面的突破,3月15日,GPT-4面世,相較于之前的版本它實現了以下幾個方面的飛躍式提升:增加了圖像理解能力、能夠處理的文本長度增加了并且文本的記憶能力也增強了。根據微軟研究院發布的《人工通用智能的火花:GPT-4的早期實驗》報告分析:“除了對語言的掌握,GPT-4還能解決跨越數學、編碼、視覺、醫學、法律、心理學等領域的新穎而困難的任務,而不需要任何特殊的提示。”未來的大模型將會相互融合發展,并逐步提供語音、視頻類的生成合成技術應用,也向不同應用領域進軍,如延伸至專業的醫療、法律領域,或者與傳統的搜索引擎、小程序、辦公軟件接入結合,提供更加人性化的服務。在這個基礎上,為了對齊人類倫理、滿足用戶需求,就需要相關部門優化監管模式與配套制度,科技企業提升技術水平做到更加開放與透明,同時也應當注重相應的合規工作,以確保自己的產品能夠符合要求順利上線并提供優質的服務。

2 類ChatGPT產品帶來的風險挑戰

由于大模型獨特的技術特征使得它能夠不斷迭代升級的同時也會產生相應的風險與威脅。大模型產品的合規工作首先應當識別風險源,為了分析大模型產品全生命周期可能存在面臨的威脅及其大小,筆者梳理了如下風險。

2.1 數據風險:數據泄露威脅安全

首先,在算法相關業務開發過程中使用的第三方數據集和自有數據集來源不合法或算法開發和運營的數據質量不足的風險。ChatGPT模型需要預先對既有文本和數據學習訓練,但OpenAI并未公開其學習語料的來源,且預先學習模式無需人工介入、標注和監督的特征決定了ChatGPT在獲取數據方面不受人類干預和控制,不可避免會獲取非法來源的數據。

其次,算法上線后,算法相關業務的數據遭到泄露、被竊取或被破壞的風險。近年來,數據泄露日益成為網絡安全的主要威脅,數據泄露事件頻發,呈現出泄露規模大、行業多、持續長等特點。由于大模型需要大量的數據進行訓練,會廣泛的收集用戶輸入輸出的數據進行訓練以優化改進模型,這些數據可能包含用戶的個人信息、敏感、私密信息甚至是企業的商業秘密,相關風險表現在以下兩個方面:一是未經自然人同意,不當利用算法技術私自監控獲取用戶個人信息與上網數據,或泄露用戶個人信息,侵害自然人個人信息權益、隱私權等,這會架空“知情同意”規則,剝奪個人信息的自決權;二是用戶可能不加防范的鍵入商業機密,這些信息會被瞬間捕捉并納入開發者數據庫,泄露商業秘密或違反保密義務引發不正當競爭和侵權問題。實踐中,風險程度隨著大模型技術在各國普及和深度開發不斷升級,ChatGPT發生了數據泄露、未就收集處理用戶信息履行告知義務、無法保護未成年人等種種問題。

數據洞察用戶需求,算法改變商業本質,算力重塑經濟未來,三者缺一不可,相互支撐。

2.2 信息風險:難以控制

首先,由于模型無法對數據來源及用戶輸入進行事實核查,獲取的信息難以經過實質性篩選和過濾,訓練數據在源頭存在內容不合法不合規、內容虛假甚至完全錯誤的風險。倘若ChatGPT未經許可擅自使用特定信息,其行為的合法性將受到質疑,例如,可能涉嫌侵犯公民個人信息、非法侵入計算機信息系統、破壞計算機信息系統、非法獲取計算機信息系統數據等。

其次,算法存在生成違法違規信息、推薦違法不良信息或以其他方式幫助違法違規信息傳播的風險。大模型存在通過思維鏈“誘導”或者被“投毒”生成不良信息風險,如生成詐騙信息或惡意腳本。“古德哈特定律”表明,大模型的獎勵機制是圍繞人類監督而設計出來的,因此可能導致過度優化從而影響模型性能。OpenAI曾表示ChatGPT“有時會寫出看似合理但不正確或荒謬的答案”,稱作“人工智能幻覺”,故而大模型“越獄”在所難免,盡管模型開發者已采取技術手段避免輸出違法不良信息,但是由于訓練數據質量較低、算法黑箱難以解釋、用戶惡意誘導等種種原因,模型會輸出不良、虛假、誤導或違法有害信息,突破道德倫理及法律底線,異化為不法分子的作案工具。

3 路徑探索:跨越風險雷區的合規保護

《生成式人工智能服務管理辦法(征求意見稿)》的出臺,在《網絡安全法》《數據安全法》《個人信息保護法》“三駕馬車”的基礎上,共同構筑了我國人工智能領域的合規依據及監管指向。基于此,筆者對上述規定進行簡要梳理,根據上文相關數據與內容風險,提取監管重點并提出合規建議。

3.1 訓練數據合規

訓練數據是指用于訓練AI模型,使其做出正確判斷的已標注數據/基準數據集。實踐中,訓練數據的處理流程包括數據采集、數據清洗、數據標注、模型訓練、模型驗證、實現目標。而訓練數據風險主要集中于數據收集階段,需要關注處理者的處前合規義務的履行,《互聯網信息服務深度合成管理規定》首次明確了深度合成服務提供者和技術支持者需采取必要措施對訓練數據進行管理的義務。《AIGC管理辦法》明確要求提供者對數據及數據來源的合法性負責并進行描述,包括但不限于知識產權、個人信息等。企業還需關注是否采取技術手段清洗標注數據,保障數據的安全可靠。一般大模型企業獲取數據主要從公開數據集、自行采集數據或以交易的方式購買數據。

首先,利用爬蟲等技術手段爬取數據用于大模型訓練的情形需注意以下三方面。第一,爬取開放的公共數據集的情形,政府部門和公共部門面向自然人、法人和非法人組織提供公共數據處于公共領域,原則上可以不經授權使用。第二,若爬取內容涉及商業秘密,需注意根據《中華人民共和國反不正當競爭法》相關規定,經營者應避免利用爬蟲技術爬取其他經營者的商業數據,如違反約定或者合理、正當的數據抓取協議,獲取和使用他人的商業數據,從諸如具有禁止第三方爬取數據條款的網站收集海量數據,可能被認定為侵犯他人競爭性財產權益,或者構成搭便車、混同等不正當競爭行為,面臨侵權風險。第三,收集公開數據涉及個人信息的,根據《中華人民共和國個人信息保護法》第十三條在合理的范圍內具備相應的合法性基礎,即可處理個人自行公開或者已經合法公開的個人信息。根據《民法典》第一千零三十六條的規定,雖然可能滿足《中華人民共和國個人信息保護法》規定的合法性基礎的前置性條件,但也賦予了自然人相應的拒絕權,并且明示一旦處理行為侵害信息主體利益造成損害,處理者需要承擔侵權的民事責任。

訓練數據是指用于訓練AI模型,使其做出正確判斷的已標注數據/基準數據集。

其次,若通過數據交易的方式向數據提供商或數據交易所購買數據,此時為防范相關法律風險,需要對原始權利主體、授權鏈條的完整性及授權范圍進行檢視。由于實踐中為實現商業利益最大化,若要求企業越過第三方數據供應商觸及每一個權利主體遵循“三重授權原則”進行告知同意是不現實的,故而大模型廠商在購買第三方數據集前可通過查看開源數據集提供方的公開信息披露,重點核查其中是否包含敏感信息或隱私。此外,還可以通過與數據提供方簽訂協議等方式規避風險,協議中要求供應商采取技術手段對數據進行清洗,但是第三方清洗數據會存在較大的法律風險,涉及買方是否要對清洗后的訓練數據負責?若訓練數據清洗后依然留存違法違規內容或可能侵權的內容,買方是否需要承擔相應的責任?也就是說買方是否有義務去對清洗后的訓練數據進行逐一核查,履行注意義務,則當發生法律侵害事實后有義務承擔相應的責任及責任大小,這就需要在數據清洗服務協議中明確買賣雙方的權利義務。對于數據內容方面,尤其是清洗掉含有意識形態等政治方面及違法違規不良信息等,買方須要求賣方對數據質量問題進行擔保,從而轉嫁法律風險。

最后,類ChatGPT模型部署后,通過人機交互模式產生的業務數據,可能會被用于未來的模型迭代訓練。此時,公司應采用技術手段避免使用個人信息進行算法業務開發與業務數據的再訓練,若無法避免涉及個人信息的,服務提供者應當進行事前告知并取得同意。利用業務數據進行算法業務開發的,應同時采用數據清洗、人工標注等方式,對訓練數據、業務數據中包含的個人信息進行匿名化處理,防范算法生成結果泄露用戶個人信息。

3.2 內容安全合規

相關法律法規對大模型的內容方面做出較為嚴格的規定,因為內容安全不僅涉及科技倫理方面,對意識形態的傳播提供支撐,還在社會穩定、國家安全等方面具有重要意義。《AIGC管理辦法》要求利用人工智能生成的內容需體現社會主義核心價值觀,并且應當真實準確,提供者應采取措施防止生成虛假信息,還需承擔內容生產者責任。對于大模型企業來說,需設置內容分級審核機制,且對新聞、時政類內容加強審核,禁止出現涉政涉黃、虛假新聞、違背公序良俗、惡意貶損他人名譽或商譽等內容,且非持牌不得傳播非國家規定范圍內的單位發布的新聞,同時要求大模型企業建立違法不良信息審核與管理機制及虛假信息防范與辟謠機制,可組建相關審核團隊進行內容審核與技術過濾,從而降低相關風險。

《網絡信息內容生態治理規定》第六條和第七條對違法和不良信息進行了不完全列舉,主要特征是危害國家安全與社會公共利益的信息,但是對于虛假信息,尚未有規范進行明確定義或例舉,由于人工智能生成信息本身就帶有“非真實性”,其內涵與外延邊界較為模糊,若依據《AIGC管理辦法》強行要求其內容必須真實,似乎又違背了技術初衷,為提供者施加較高的義務,給相關合規工作帶來挑戰。筆者認為,對此需要結合場景進行個案分析,不能一概而論,如生成虛假新聞存在給公共安全或他人合法權益造成威脅的可能,就必須進行及時的防范或補救。《AIGC管理辦法》對于內容的安全要求涵蓋技術提供者與內容提供者,考慮到在責任承擔方面,若要求大模型產品提供者承擔內容生產者責任,不考慮使用者和終端用戶等的內容生產責任,是否會給提供者施加過重的義務?此外,應從侵權范圍、損害程度及平臺止損能力入手,判斷模型運營公司是否需要承擔相應的補充責任。在司法實踐中,由于特定業務場景與服務內容不同,不同角色承擔的權責義務亦不相同,且個案中開發者與使用者之間的協議安排也是審查重點。如果大模型產品涉及提供內容包含違法不良要素,使用者可以向監管部門投訴,要求監管介入處理從而維護自己的權利。

通常大模型會輸出不安全的內容是由于訓練數據來源魚龍混雜,以及因地域數字化發展不平衡或社會價值的傾向偏見,使得數據所承載的信息帶有難以用技術手段消除的偏差,所謂“garbage-in,garbageout”,從而導致模型的輸出帶有歧視性。所以企業在訓練數據清洗階段進行內容的審核與過濾的同時,重點評估涉政有害類、色情低俗類、暴恐違禁類文本識別召回率、準確率、精確率,加強對輸入信息與生成信息進行違法和不良信息審核,防止模型生成違法和不良信息并呈現給用戶,對于不可控的創作內容,采取及時刪除降低社會危害。另外,《AIGC管理辦法》第八條對訓練數據的標注提出要求,企業需對標注人員進行培訓,從而使算法模型具備更高的準確性。歐盟《數字服務法》也要求平臺進行深度合成標注,因此,虛假不良信息的治理是世界深度合成模型監管的重中之重,在數據出境方面,各類ChatGPT產品企業也需注意相關方面的合規工作。

假使人工智能生成了不安全信息,《互聯網信息服務深度合成管理規定》對違法和不良信息及虛假信息提出了處置要求,包括但不限于記錄和報告的義務。上述法律法規為避免不安全信息傳播或被惡意使用,還要求服務提供者需對生成內容添加不影響用戶使用的標識。一般的內容,需要在以不影響用戶使用的情況下添加AI標識,可能對用戶公眾造成混淆,影響社會公共秩序的,需要在顯著的位置、以顯著的方式,提示內容是AI生成的,對于深度合成服務提供者,不得刪除、篡改、隱匿深度合成標識。實踐中,公司可在大模型系統中設置每次對話中都會顯示深度合成內容顯示標記,告知用戶生成合成內容不代表開發者立場,并要求用戶不得刪改。立法還特別要求提供者發現用戶違法使用服務的,應當立即暫停提供服務,同時賦予用戶舉報的權利。對于生成違法不良信息的用戶,提供者可以對違法違規用戶賬號進行限制,如禁言等方式限制賬號功能。

4 結束語

智能技術飛速發展的今天,對人工智能的規制不應限制技術,而是防止其野蠻生長,在尊重客觀規律的基礎上,探尋合理的監管與合規之策。對于提供類ChatGPT產品的企業來說,要正確識別風險源,綜合考量風險將會給國家、社會、個人的權益帶來何種威脅,在確保技術發展的前提下正確引導科技向善,從來源與輸出方面控制信息內容真實、準確、完整,不帶有偏見、歧視、暴力、違法違規等不安全內容,在掌握先進技術的同時,避免核心技術“卡脖子”的風險。各企業也需及時關注相關合規法律動態,積極與監管部門溝通,并尋求專業的合規機構幫助,讓自己的產品能夠安全合法上線。另外,監管部門可適當借鑒其他國家的經驗,兼顧“橫向”與“縱向”治理,形成符合中國國情的AI監管模式。■

猜你喜歡
內容用戶信息
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 天天综合网亚洲网站| 又黄又爽视频好爽视频| 日韩午夜伦| 米奇精品一区二区三区| 国产嫖妓91东北老熟女久久一| 国内精品视频| 欧美日韩国产系列在线观看| 手机在线免费毛片| 免费在线观看av| 国产无码在线调教| 91亚洲精选| 中文字幕资源站| 一区二区三区在线不卡免费 | 亚洲午夜福利精品无码| 国产永久无码观看在线| 日韩欧美色综合| 国产九九精品视频| 亚洲AⅤ无码日韩AV无码网站| 亚洲欧美日韩视频一区| 香蕉久人久人青草青草| 国模在线视频一区二区三区| 亚洲婷婷在线视频| 国产精品永久不卡免费视频| 美女无遮挡免费视频网站| 综合色在线| 国产精品视频999| 国产成人精品优优av| 高清码无在线看| 亚洲国产成人久久77| 国产欧美日韩资源在线观看| 国产精品女主播| 国产91蝌蚪窝| 亚洲一区毛片| 国产超碰一区二区三区| 2020精品极品国产色在线观看 | 国产免费a级片| 国产成人精品一区二区三在线观看| 中文字幕免费视频| 亚洲清纯自偷自拍另类专区| 九色在线观看视频| 在线看片国产| 青草视频久久| 国产又黄又硬又粗| 亚洲国产精品一区二区高清无码久久| 国产精品视频猛进猛出| 成人免费午夜视频| 国产一区二区视频在线| 国产日韩av在线播放| 国产在线视频欧美亚综合| 亚洲一欧洲中文字幕在线| 日韩国产黄色网站| 国产三级视频网站| 麻豆精品视频在线原创| 国产AV无码专区亚洲A∨毛片| 一级做a爰片久久免费| 欧美激情视频一区二区三区免费| 在线精品欧美日韩| 真实国产乱子伦视频| 一本大道香蕉久中文在线播放| 精品国产电影久久九九| 国产麻豆永久视频| 99精品福利视频| 国产AV无码专区亚洲精品网站| 少妇极品熟妇人妻专区视频| 日本欧美成人免费| 国产毛片一区| 在线国产91| 成人免费一级片| 午夜三级在线| 亚洲精品第一在线观看视频| 伊人国产无码高清视频| 久久伊人色| 丁香婷婷激情综合激情| 欧美区日韩区| 国产精品欧美亚洲韩国日本不卡| 亚洲无码视频喷水| 无码日韩精品91超碰| 中文字幕在线视频免费| 免费aa毛片| 国产乱人视频免费观看| 国产97视频在线| 青青操视频在线|