郭全中 張金熠
【摘要】2022年,AI繪畫工具MidJourney、Stable Diffusion、DALL-E2等與生成式對話模型ChatGPT成功引爆AIGC,千萬級用戶的參與使AI模型快速迭代,同時也加速了潛在問題的出現。從發展進程來看,AIGC正處于高速發展期,其演進路徑可以劃分為輔助階段、協助階段與自主階段。從產業應用來看,AIGC在傳媒、影視、游戲、電商、音樂等場景的應用已較為成熟。從發展趨勢看,AIGC將成為元宇宙時代的內容生產基礎設施,“AI+人文”則是AIGC的主要發展趨勢,而AIGC的發展關鍵點在于技術要素與商業要素的共同進步。
【關鍵詞】AIGC;生成式AI;元宇宙;“AI+人文”
一、引語
2022年,文本與圖像交互內容生成平臺DALL-E2、新一代對話式NLP模型ChatGPT等生成式AI面向廣大網絡用戶開放并獲得強烈反響,使得生成式AI成為當前人工智能領域的熱點話題,2022年也被稱為“生成式AI元年”。其中細分領域AIGC在技術升級過程中也迎來了新的突破。在不到兩個月時間內,ChatGPT日活躍用戶已突破千萬,由此產生的內容數量則更為龐大。此次AIGC的技術突破不僅有賴于生成式AI的初步成熟,還得益于廣大網絡用戶的參與和反饋,可以說,“AI+人文”是AIGC的關鍵驅動力。因此,在這場“全民狂歡”中,既需要向前看,把握AIGC的應用場景、發展趨勢與關鍵點,又要向后看,梳理AIGC的演進路徑,厘清AI技術與內容生成的關系變遷,從而把握AIGC的來龍去脈,更好地思考AIGC在未來的位置與作用。
二、AIGC的發展演進
(一)何為AIGC?
AIGC全稱為AI Generated Content(人工智能生成內容),指基于生成對抗網絡GAN、大型預訓練模型等人工智能技術,通過已有數據尋找規律,并通過適當的泛化能力生成相關內容的技術。[1]從廣義上看,一切運用AI技術生成的內容都可視為AIGC。而從概念源流來說,根據監督學習的方法差異,機器學習領域具有判別式和生成式兩種典型模型[2]:判別式模型是對條件概率進行建模,根據已有數據進行分析、判斷、預測,從而完成任務;生成式模型則對聯合概率進行建模,學習歸納已有數據后基于歷史進行內容生成。在GAN模型出現后,傳統機器學習算法轉向深度神經網絡,同時,生成式機器學習模型被用于文本、圖像、語音等內容的智能生成,學術界將其定義為“生成式AI”[3],判別式機器學習模型則被稱為“決策式AI”。隨著生成式AI的快速發展,AIGC以其高通量、低門檻、高自由度的生成能力在內容市場中占據一席之地,并促使內容生成領域大步邁進人工智能時代。
相較于其他學者提出的操作性概念,上述定義從技術角度對AIGC進行界定,一定程度上忽視了其內容特征。中國信通院和京東探索研究院于2022年9月發布的《人工智能生成內容(AIGC)白皮書》中,將AIGC定義為“既是從內容生產者視角進行分類的一類內容,又是一種內容生產方式,還是用于內容自動化生成的一類技術集合”[4],體現出AIGC兼具技術屬性與內容屬性的特點。此外,AI模型開發者承認,由于訓練數據與模型架構的差異,AIGC目前可能存在暴力、性別歧視、種族主義等偏見,這意味著在大規模數據預訓練之后,仍需引入人工標記數據對模型進行調整。目前慣用的開源模式正是技術開發者借助廣大用戶的互動與反饋數據進行模型訓練與調整。因此,AIGC不僅僅是技術集合與技術生成內容,還需要依靠人文力量來促進技術向善,減少倫理隱患。
綜上,本文將AIGC界定為基于人工智能技術生產數字信息內容,具有AI能力強、內容生產效率高、內容生成質量穩定、成本相對低等特點。
(二)AI能力擴展:AIGC的演進路徑
AIGC的出現最早可追溯到1950年艾倫·圖靈提出的著名實驗“圖靈實驗”,即判定機器是否具有“智能”的實驗方法。但在GAN模型提出之前,AIGC乃至整個AI領域都處在沉淀積累階段,尚未實現大規模商業化應用。而2014年,Goodfellow等人[5]提出的GAN模型突破了傳統機器學習的數據局限,以博弈論中二人零和博弈為思想基石,搭建起由生成器和判別器不斷互動迭代優化并最終達到納什均衡狀態的生成模型。這一突破使得機器學習中大規模無監督學習成為可能,推動學習范式與網絡結構的技術迭代以及AIGC技術大模型與多模態發展,也使得AIGC進入高速發展時期。因此,本文重點梳理2014年GAN模型提出后的AIGC演進路徑,以AI技術與內容生成的關系變遷為線索,將AIGC的演進路徑劃分為輔助階段、協助階段與自主階段。
1.輔助階段:AI輔助內容創作
早期AIGC技術主要依據事先指定的模板或者規則,進行簡單的內容制作與輸出,與靈活且真實的內容生成具有較大差距。[6]該階段AI技術在內容生成過程中處于輔助位置,屬于工具性存在,AIGC往往是基于現實世界信息的物理屬性與社會屬性的數字化呈現,可視作數字孿生內容。以文本生成領域為例,AIGC技術能夠很好地完成具有規范模板的內容生成,例如結構性報道、智能客服等。早在2014年美聯社就推出了智能寫作平臺Wordsmith,用于生產財報類新聞;2016年3月阿里巴巴推出人工智能服務產品“阿里小蜜”,為消費者提供體驗服務、導購、咨詢和智能助手等功能。
在AI技術的輔助下,AIGC實現了內容的高速量產,自然語言生成公司Automated Insights僅在2014年就產生了10億篇新聞文章,每秒可撰寫多達2000篇新聞報道。然而該階段AI模型數據規模較小、架構層級較少,數據學習能力有限,盡管可解釋性較強,內容生成的自主性與生成內容的真實性都有不足,AIGC普遍存在內容空洞、刻板、題文不符等問題,尚不具備自主數據學習與內容創作能力。例如在與智能客服對話過程中,智能客服無法回應程序設置外的提問表述,回復內容也經常出現文不對題的情況。因此,該階段AIGC中AI技術與內容生成的關系維持在AI技術輔助專業人士進行內容生成的狀態,AI技術并不能取代人工獨立完成多樣化的內容生成任務。
2.協助階段:AI協助內容創作
隨著深度學習算法的不斷迭代,Transformer模型、基于流的生成模型、擴散模型、CLIP模型等學習范式的進一步發展為AI模型提供了更豐富前沿的算法技術,全球互聯網數據的激增為AI模型的深度學習提供了更大規模數據,計算機、芯片等技術的升級迭代為AI模型提供了更強大的算力,算法、算據、算力三要素的共同突破催生了AIGC的爆發。該階段AIGC技術不再止步于輔助性工具,而是能夠在大規模數據深度學習模型訓練的基礎上,根據輸入指令生成內容并不斷強化學習,從而實現初級的自主內容輸出,協助人類完成各項任務。2022年底驚艷全球的ChatGPT正是這一階段AIGC技術的典型案例。正如Meta首席人工智能科學家Lann LeCun所說,“它很好地(把各項技術)放在一起,做得很棒”,ChatGPT將Transformer架構、大型語言模型、RLHF技術等有機結合,實現“1+1>2”的最終效果,并推動NLP領域進一步發展。在這一階段,AIGC擁有了更流暢、更仿真的內容生成能力以及人機互動能力,從簡單輔助轉為智能協助,在內容生成中的工具性地位得到提升,呈現出大數據訓練、跨模態生成、高效率生產等技術特征。自2017年谷歌推出Transformer模型,人工智能進入大規模數據預訓練模型時代。在AIGC領域,預訓練模型在多任務、多模態、多語言方面表現出極強適應性,在內容生成中扮演重要角色。目前生成式AI模型中,大規模數據預訓練成為常態,主流預訓練模型的參數量均破億,而在NLP領域千億級的參數量也不足為奇,OpenAI公司的GPT-3參數量達1750億,谷歌公司的PaLM模型與英偉達公司的MT-NLG模型參數量甚至突破5000億。
除此之外,AIGC在跨模態生成上也表現不俗。模態是指每一種信息的來源或形式,以信息媒介類型劃分,包括文本、音頻、圖像、視頻、3D等。跨模態生成是指用戶輸入某一模態的指令,AI模型能夠生成另一種模態的內容。2021年OpenAI公司推出跨模態深度學習模型CLIP,該模型實現了文本與圖像的跨模態關聯與匹配,是MidJourney、Stable Diffusion、DALL-E2等一眾文生圖AI繪畫工具的重要基石。而毫無繪畫基礎的內容創作者使用MidJourney創作的AIGC繪畫作品《太空歌劇院》獲得美國新興數字藝術家競賽“數字藝術/數字修飾照片”類別一等獎,則充分體現出當前AIGC技術在跨模態生成所取得的突破性成果,也意味著AI技術已突破輔助工具的限制,成為協助人類進行內容創作的技術力量。
AIGC技術的升級,不僅改變了生產關系中技術要素與生產者的互動關系,也帶來了更高效的內容生產力。據中信建投預測,2025年,生成式AI產生的數據將占到所有數據的10%,而2021年生成式AI產生的數據不到所有數據的1%。AIGC技術目前正處于該階段,AI的內容生成能力有了驚人進展,協助編輯能力逐漸穩定、準確且合乎邏輯,但仍未實現自主性突破,也時常出現在某些領域生成看似合理但并不正確甚至荒謬的內容,同時AIGC技術在倫理方面暴露出的弊端與隱患仍需社會各界持續探討。
3.自主階段:AI自主內容創作
基于實時自主創作的AIGC位于演進路徑的更高階段,目前仍在探索。在該階段,AIGC能夠實現實時感知、精準認知以及自主創作,AI技術與內容生成的關系從工具性的輔助或協助,上升為以虛擬個體進行內容創作與交互,從而再次提升內容生產力。目前AIGC技術在算法、算據與算力上都尚不能達到這一水平,需要在超大規模、超多參數量的多模態大模型以及軟硬件算力方面進一步突破。
視覺與語言是日常生活中最常見的兩種模態,通過視覺大模型能夠提升AIGC的環境感知能力,通過語言大模型能夠增強AIGC的抽象概念理解與認知能力,而單一模態不能滿足多樣化場景下的內容生成需求,因此需要借助多模態大模型拓展AIGC的實時創作能力。當前,基于視覺Transformer完成多種感知任務的聯合學習、高效綠色節能的自然語言處理模型訓練框架以及多模態數據的對齊、轉換與生成是未來AIGC的重要突破點。
伴隨著AIGC技術的不斷迭代升級,作為技術—社會體系的元宇宙也將逐漸成為觸手可及的AIGC應用場景,因此該階段AIGC將不僅服務于現實世界中的多樣化場景,如通用式與定制化人形機器人,還能夠在元宇宙場景中以虛擬形象提供更真實可感的實時內容生成與交互服務,在“虛實共生”的應用場景下發揮更大作用。
三、AIGC的場景應用
現階段AIGC技術的發展已經呈現出在生產方式上的變革性力量,AI技術將從根本上改變各行各業的內容生成與關系連接,尤其是需要大規模高質量內容的元宇宙時代,“技術+專家”有機融合將成為新主流。正如云游戲是元宇宙演進的初級形態,游戲是數字化生活的典型場景,且游戲玩家被視為元宇宙的種子用戶[7],數字化程度高、內容需求旺盛的產業也正是AIGC的典型應用場景。目前,AIGC在傳媒、影視、游戲、音樂、電商等場景的應用已較為成熟,技術突破也將在這些領域率先取得創新性應用。此外,AIGC技術在醫療、金融、工業等領域的商業化應用也在快速發展中。
(一)AIGC+傳媒:人機協同推動媒體融合提質增效
基于NLP技術的文本生成在AIGC領域發展較早,其在結構性報道中的出色表現也受到普遍認可并實現全球廣泛應用。而ChatGPT的出現,進一步提升了NLP技術前沿,其表現出的文本續寫、文學創作、多輪對話能力都將使AIGC在新聞報道領域進行更為深入的應用探索。Narrative Science創始人曾預測,到2030年,90%以上的新聞將由機器人完成。除此之外,AIGC在音頻、視頻模態的技術升級,也促使傳媒產業走向人機協同的媒體深度融合道路,并依賴于AIGC的高產高效,為媒體融合發展提質增效。
在內容生產流程中,AIGC技術在信息采編、內容制播、產品創新等多個環節發揮了出色的協助作用。在采編環節,借助語音識別技術對語音內容進行文字轉寫,能夠有效壓縮稿件撰寫前的錄音整理工作,提升新聞時效性。例如2022年冬奧會期間,科大訊飛的智能錄音筆通過跨語種的語音轉寫助力記者2分鐘快速出稿。在制播環節,自動生成字幕、視頻拆條、任務追蹤等智能化剪輯工具不僅節約了時間與人力成本,還能夠最大限度挖掘內容版權價值,在中華人民共和國成立七十周年國慶閱兵活動報道中,央視頻使用智能剪輯平臺對關鍵事件視頻進行處理、剪輯與推送,其生成的短視頻內容快速火爆網絡。在產品創新環節,近年來傳媒業大量使用的虛擬主播,也離不開AIGC技術的支持。虛擬主播本質上是基于AI合成技術的虛擬數字人,通過底層算法、實時語音與人物動畫的技術合成,最終交付的虛擬主播能夠對輸入的文本進行自動播報,并且語音、表情與唇動始終保持同步,在新聞播報、節目主持等方面都表現不俗。
AIGC技術對傳媒業的影響不僅體現于對傳媒機構的內容生產流程進行智能升級,推動媒體融合進程,還進一步釋放了傳媒工作者的內容生產力,使其轉向更具深度、廣度與人文關懷的內容創作,同時為傳媒用戶提供了更豐富多元、更快速便捷的內容服務以及參與到內容生產中來的機會。
在上述AIGC應用中,AI技術更多作為輔助性工具發揮作用,部分AI協作內容生產時并不涉及內容創作本身,而是對現有內容的簡單拆分或有序整合。這受制于早期AI算法水平,隨著NLP技術前沿的提升,AI模型將具有更強的認知能力,更強大的AIGC技術將投入行業應用。數字媒體公司BuzzFeed在2023年1月27日表示,該公司將依靠ChatGPT背后的OpenAI公司來加強部分內容創作,為觀眾提供個性化內容,并計劃今年讓人工智能在公司的編輯和業務運營中發揮更大的作用,是推進傳媒業人機協同進一步發展的新開始。
(二)AIGC+影視:技術加持拓展影視作品創作空間
影視業的產業鏈條與制作周期都較長,這使得資本投入后,需要較長資金周轉周期,也滋生出從劇本創作、現場拍攝到后期制作的過程性問題,如高質量劇本欠缺、制作成本較高、作品質量一般等。而AIGC技術的應用,一定程度上能夠激發劇本創作活力,降低拍攝成本,提升后期制作質量,從而拓展影視作品的創作空間。
在劇本創作上,AIGC技術能夠通過對海量劇本數據的分析歸納,快速生成完整故事劇本,協助編劇進行內容創作。早在2020年,一位美國學生就利用GPT-3創作劇本并制成短片《律師》,目前OpenAI的ChatGPT、百度文心的ERNIE3.0等模型在文學創作領域也都獲得較好反饋。此外,AIGC技術還能使其他文本類型轉為劇本形式,從而減輕劇本改寫的工作壓力,如海馬輕帆在2021年對外推出“小說轉劇本”智能寫作功能,業內超80%的影視劇本通過海馬輕帆的系統進行評測和修改,包括熱門影視劇《你好,李煥英》《流浪地球》等。
在場景創作上,AIGC技術通過合成虛擬場景,節約場景搭建成本,同時能夠通過實時渲染等技術在拍攝現場實現后期成果預覽,縮短后期制作時間。例如待播電視劇《狐妖小紅娘月紅篇》中部分內容采用虛擬拍攝技術,通過實時追蹤、實時摳像、實時渲染技術,將實景拍攝與CG元素實時合成,并把空間、透視、光影等多種場景要素以及真實人物在拍攝現場進行數字合成,為導演提供實時的畫面預覽。基于現實增強技術,AIGC虛擬人物能夠與真人同臺互動,如湖南衛視《你好星期六》節目中主持人與嘉賓同虛擬主播小漾的實時互動以及北京臺2023年春晚中虛擬鄧麗君與王心凌、韓雪同臺合唱,為觀眾帶來耳目一新的視聽體驗。
在后期制作上,AIGC技術應用不僅包括圖像的修復與還原,還能夠合成人臉從而對特定人物進行替換。前者重點應用于歷史影像的修復與還原,如通過智能分析檢測噪音、編碼失真、運動以及畫面復雜度等情況,運用AI修復算法去除破壞性因素并進行多維度畫質增強,使得張國榮《熱·情》演唱會最終以高清品質呈現在觀眾面前;后者則可用于“數字復活”已故演員、替換劣跡演員等,如演員保羅·沃克在拍攝《速度與激情7》期間去世,劇組采用AI換臉的方式使其“完成了”劇情拍攝,而近年來國內多位藝人失德乃至違法,為保證影視作品能夠成功播出,部分劇組也會選擇對劣跡演員進行AI換臉。
AIGC技術在影視業的應用較為廣泛且常見,但并未觸及內容創作核心,工具屬性更強,同時AI換臉、摳圖技術的濫用也在業內存在一定爭議。但毫無疑問,AIGC技術為影像作品提供了更多創作空間與創作靈感,核心創意的產出仍由專業影視從業者完成。
(三)AIGC+游戲:AI技術提升產業生產力,解放游戲創造力
游戲業存在一個經典的“不可能三角”論斷,即“你只能在時間、成本與質量之間三選二”。但AIGC技術的成熟有望打破這一“不可能三角”,提升游戲產業生產力。首先,AIGC具有高效率生產的技術特征,在重復性、機械化內容生產上具有絕對優勢;其次,AIGC的大模型趨勢使其前期成本較高,但AIGC技術發展依舊符合摩爾定律,隨著技術的成熟迭代與軟硬件設備的價格下降,最終能夠實現降本增效的目標;最后,AIGC在內容生成,尤其是在圖像生成領域的表現已經達到人類平均水平,能夠滿足游戲業大量重復且瑣碎的美術需求。
AIGC在游戲領域的價值還體現在場景、角色制作方面的效能提升,從而解放游戲創造力。目前,許多游戲開發者已在使用AIGC技術進行游戲場景開發,例如美國戲劇動畫《瑞克和莫蒂》的創作者Justin
Roiland在2022年底發布了一款內含Midjourney生成的藝術作品的游戲,為玩家探索外星世界增添風味。但主流的游戲內容生產方式仍是由AI驅動的游戲開發生態系統進行程序生成,其效能與可控性介于純手工與AIGC之間,例如2022年推出的交互內容游戲《黑客帝國:覺醒》采用該技術,在最新引擎加持下創建了包含700萬實例化資產的虛擬城市。此外,NPC角色作為游戲的另一重要組成部分,不僅需要特定語音,還需具備差異化的行為特征,傳統制作方式耗時費力,如2018年發售的游戲《荒野大鏢客2》為打造約60平方公里的虛擬場景,先后由600余名美術師歷時8年完成。但與之相比,生成式AI能夠在角色開發過程中承擔大量低價值工作且生產效率較高,從而節省更多資源,使游戲美術師們投入到內容創作當中,當前元宇宙虛擬化身創建公司Inworld AI正嘗試在虛擬NPC創建過程中引入生成式AI技術。
除此之外,借助生成式AI,游戲本身也能夠獲得更具創意的交互方式。如游戲公司Cyber Manufacture Co.近日發布的最新AIGC技術預覽Quantum Engine,用戶可使用自然語言與NPC隨意互動,AI會根據用戶表達,實時生成劇情互動。這一應用突破了AI技術服務于游戲開發的生產關系,將生成式AI作為游戲核心,向用戶提供真正私人化、個性化的游戲體驗。
(四)AIGC+音樂:智能生成促進音樂產業智能升級
音頻生成作為早期AIGC領域,目前的商業化應用已較為成熟,主要包括語音識別與歌曲生成兩大應用場景。在音樂領域,AIGC技術在作詞、作曲、編曲等方面的應用較為廣泛,已經支持基于開頭旋律、圖片或文字描述、音樂類型、情緒類型等生成特定樂曲,可應用于音樂欣賞、游戲音效、實體場景配樂等多個領域。2022年,昆侖萬維推出商業級作曲AI模型天工樂府SkyMusic,該模型支持31種語種的歌詞生成、多曲風旋律生成、多軌道編曲、VOCAL生成和智能縮混等,已在全球多個音視頻平臺發行近20首AI生成歌曲。
此外,“技術+專家”模式在音樂產業表現突出,AI與專家合作能夠基于現有樂譜進行智能生成,續寫著名音樂家作品,如PlayformAI與音樂專家合作使用AI續寫貝多芬《第十交響樂》、中國音樂學院“AI釋譜”項目利用人工智能生成古琴曲《燭》。而且AIGC技術還能夠降低普通用戶的音樂創作門檻,快速生成歌曲,如網易2022年推出AI音樂創作平臺天音,能夠10秒搞定詞曲編唱,為用戶定制拜年曲。
AI技術的引入不僅為音樂產業提供了音樂創作的智能工具,而且以技術賦能用戶,豐富了用戶的音樂消費行為,實現產業的智能升級。但AIGC技術帶來的歌曲生成低成本,一定程度上也會使得大量從事低水平編曲的音樂創作者受到沖擊,從而改變音樂產業的人員結構。
(五)AIGC+電商:虛擬人貨場營造沉浸式消費體驗
隨著各項數字技術的成熟與商業化應用,沉浸式消費成為電子商務的主流發展趨勢,虛擬主播、在線3D預覽、數字展覽等形式也極大豐富了消費者的消費體驗。而在AIGC技術的加持下,虛擬人貨場將迎來更加真實、沉浸式的數字再現,從而為消費者營造沉浸式的消費體驗。
首先是虛擬主播的打造填補了人力空白,能夠實現24小時不間斷地商品展示與介紹,隨著NLP技術的進步,虛擬主播或將為消費者提供更加生動的互動體驗。其次是商品3D模型的在線展示,為用戶提供全方位的商品呈現,甚至能夠提供虛擬的使用場景搭建,如宜家2022年推出虛擬設計工具,讓用戶能夠掃描自家房間或使用其虛擬展廳進行家具擺放,為消費者提供更為沉浸式的購物體驗。最后是購物場景數字化再現,通過在二維空間構建三維場景,AIGC技術能夠實現虛擬購物場景的低成本、大批量構建,從而降低商家搭建3D場景的成本,并為消費者提供線上線下融合的消費體驗。但目前智能購物場景搭建呈現兩種極端趨勢:一端是技術水平有限、仿真度較低的常態化場景,另一端是技術水平較高、仿真度較好但持續性欠佳的秀場式場景。未來隨著生成式AI以及AI技術的感知與認知能力提升,AIGC在電商領域的應用將更為真實持久。
四、AIGC的發展趨勢與關鍵點
以2022年為節點,AIGC領域發展勢如破竹,AIGC技術帶來的生產力升級將會為各行各業提供新的發展契機,但從商業化進程來看,AIGC實現多產業大規模應用仍需一定時間。未來,AIGC的發展需要把握以下三個方面。
(一)AIGC將成為元宇宙時代的內容生產基礎設施
目前內容生產方式主要包括PGC(專業生成內容)、UGC(用戶生成內容)與AIGC(人工智能生成內容),其中AIGC正處于AI輔助生成內容階段,尚未達到AI自主生成內容階段,AI生產力還有待釋放。在元宇宙時代,元宇宙信息生態有賴于高效的內容生產機制,而AIGC能夠通過算法訓練做到根據用戶行為與反饋進行實時生產信息內容,極大提升內容生產效率,且通過大量優質信息的生產維護元宇宙的信息生態。[8]與此同時,由于元宇宙時代內容需求的增大,PGC與UGC生產效率不足以滿足這一需求,能夠低成本、高效率進行多樣化內容生產的AIGC將會成為主流生產方式,而AIGC技術與數字孿生的高度適配也會使得AIGC成為元宇宙信息生態的主要組成。因此,AIGC將會成為元宇宙時代內容生產的關鍵底層技術。
從用戶角度看,基于元宇宙內容生態的數量高飽和、信息低密度特征,用戶更加追求多樣化、定制化的信息服務,并且出于對數字身份認同的高度需要,更希望獲得自由表達的空間與能力。AIGC技術不僅能作為底層技術為元宇宙生態提供自動化內容生成,豐富元宇宙內容生態,而且能賦權用戶對AIGC進行個性化微調,從而提供定制化信息服務,還能輔助用戶進行內容創作,降低內容創作門檻,幫助更多普通用戶進行自我表達,擴大內容規模的同時促進用戶身份轉型。
不論面向元宇宙生態需求還是用戶需求,AIGC都將是元宇宙場景下內容生產的主流,核心在于AI技術對生產力的大幅提升與創造,而元宇宙時代正是AIGC作為內容生產基礎設施的時代。
(二)“AI+人文”將成為AIGC的主要發展趨勢
AIGC的演進路徑是從輔助、協助再到自主,但社會信息內容完全依賴AI自主生成將會導致人的主體性缺失。德國社會學家馬克斯·韋伯將人類的理性分為工具理性與價值理性,前者追求工具的效能與技術的先進,后者關懷人的命運與尊嚴。如果將AI技術、人文精神與之對應起來,那么AI技術可以納入工具理性范疇,人文精神可以納入價值理性范疇,二者是對立又統一的關系。因此“AI+人文”將成為AIGC的主要發展趨勢。
“AI+人文”是將人文精神貫穿于技術應用當中,在AI生成內容的前、中、后始終保持人文關懷與人文主義思考。技術本身是中立的,但在技術的發展與應用過程中,政治、經濟因素不可避免地會影響技術應用的走向,甚至隱身于技術之中形成看似公平公正、自然合理的內容生態。與此同時,英國媒介學者戴維·莫利也提醒人們不要夸大新媒體對于人文傳統的沖擊力和影響力,不要迷失在技術的神話中,他認為“最新的技術也可被用于最傳統的目的”。[9]人文精神是走出技術神話的燈塔,在AIGC領域,人文精神也將是引領技術向善的關鍵力量。
在AIGC的應用過程中,內容安全與倫理問題是技術應用無法避免的現實問題,例如ChatGPT被用戶用來進行課程考試與論文寫作、Podcast.ai“復活”已故的史蒂夫·喬布斯并用AI生成對話等。除此之外,AIGC技術模型本身由于訓練數據的不可控,存在內生性的算法歧視。盡管有人認為預訓練模型使用更多、更多元全面的數據量與參數進行模型訓練,能夠避免算法歧視,但即便是使用了1750億參數、45TB預訓練數據的GPT-3仍存在明顯的基于宗教的偏見與性別歧視。因此,人文精神與人工力量的介入是AIGC避免算法歧視的必然路徑。例如OpenAI 2021年通過向外包公司購買人工數據標記服務來提升模型對有關暴力、仇恨言論以及性別歧視的認識,ChatGPT中也采用了RLHF技術來提高模型回答的質量。
未來,AIGC技術的發展將更加驚人,在不斷提升技術水平以為人類提供更智能內容生成服務的同時,保持人文精神與人文關懷將是AIGC技術向善的關鍵,“AI+人文”正契合了這一趨勢。
(三)AIGC的發展關鍵點在于技術要素與商業要素的共同進步
AIGC未來發展關鍵點在于兩個要素,即由數據、技術、資本構成的技術要素和由用戶與應用場景組成的商業要素,二者共同進步才能形成AIGC領域的繁榮生態。
在技術要素中,數據是AIGC發展的“燃料”。目前多模態大模型是AI模型發展的主要趨勢,多模態與大模型都需要巨量數據用以模型訓練,ChatGPT模型參數已達萬億級,AI繪畫工具Midjourney收集和訓練了數百萬個互聯網文本、圖像數據。由此可見,大數據語料與訓練集是AIGC技術發展的數據保障。技術是AIGC發展的核心動力,GAN模型對小規模數據的高效運用緩解了數據不足的窘境,Transformer預訓練模型對大規模數據的有效處理為AI大模型提供了可行路徑,多模態認知計算提升了AIGC的感知力與交互性。因此,算法技術的進步推動著AIGC的不斷升級。資本是AIGC發展的堅實后盾。巨量數據、多種模態帶來的是AIGC對軟硬件設備的更大需求,GPT-3的總訓練費用約1200萬美元,此外,AIGC的實時生成也離不開本地與云端算力的支持,這都需要殷實的資本加以保障。
在商業要素中,用戶正在成為模型發展與應用的主力。開源模式正在成為AIGC發展的“催化劑”,深度學習模型CLIP、對話式NLP模型ChatGPT、AI繪畫工具DALL-E2都采取了開源模式,從而加速其廣泛應用。而開源模式的核心在于撬動用戶力量,通過與真實用戶的交互為AI模型提供訓練數據,并借助用戶反饋對模型進行優化與微調,同時也滿足了用戶的信息交流與內容創作需求,實現研發與應用的雙贏。根據用戶需求的差異性與應用市場的細分化,未來AIGC的應用場景將會更加分眾化,基于特定群體提供定制化的AIGC服務,同時也為部分群體開放模型微調功能,以激發廣大用戶的想象力與創造力,進一步豐富現有應用場景。此外,更多元的應用場景也能夠提升AIGC的商業價值,從而形成完整的“研發-變現-研發”商業閉環。
技術要素決定了技術水平,而商業要素關系著技術變現。當前AIGC領域基礎技術層已獲得突破性成果,未來幾年在應用場景上的技術落地則為AIGC增添了更大的市場價值,從而形成可持續的產研互促,推動AIGC發展蒸蒸日上。
五、結語
可以預見,未來AIGC將會更為火爆,甚至成為全社會的熱點話題。在AIGC掀起的技術變革風暴中,AIGC在內容生產力的提升與創造上發揮了巨大作用,但知識產權、內容安全、使用倫理等領域正處于風暴眼中,需要人們始終保持警惕,堅守原則,保持思考,拉緊底線,始終明確AIGC技術從來都不是目的,更美好的生活才是核心。
[本文為北京市社會科學基金規劃重點項目“首都互聯網平臺企業社會責任與協同治理體系研究”的階段性成果,項目批準號(22XCA002)]
參考文獻:
[1]量子位.Diffusion的火,只是AIGC的縮影|量子位智庫報告(附下載)[EB/OL].(2022-09-22)[2023-01-05].https://www.qbitai.com/2022/09/38066.html.
[2]李白楊,白云,詹希旎,李綱.人工智能生成內容(AIGC)的技術特征與形態演進[J/OL].圖書情報知識:1-9[2023-01-31].
[3]Wang Y H, Herron L, Tiwary P. From Data to Noise to Data for Mixing Physics across Temperatures with Generative Artificial Intelligence[J].Proceedings of the National Academy of Sciencesof the United States of America,2022,119(32):e2203656119.
[4]人工智能生成內容(AIGC)白皮書(2022年)[EB/OL].(2022-09-04)[2023-01-31].http://www.cbdio.com/BigData/2022-09/04/content_6170457.htm.
[5]Goodfellow I J, Pouget-Abadie J,Mirza M,et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems,Montreal,Dec 8-13,2014.Cambridge:MIT Press,2014:2672-2680.
[6]人工智能生成內容(AIGC)白皮書(2022年)[EB/OL].(2022-09-04)[2023-01-31].http://www.cbdio.com/BigData/2022-09/04/content_6170457.htm.
[7]郭全中.元宇宙的緣起、現狀與未來[J].新聞愛好者,2022(1):26-31.
[8]吳江,曹喆,陳佩,賀超城,柯丹.元宇宙視域下的用戶信息行為:框架與展望[J].信息資源管理學報,2022,12(01):4-20.
[9]戴維·莫利.媒介理論、文化消費與技術變化[J].張道建,譯.文藝研究,2011(4).
(郭全中為中央民族大學新聞與傳播學院教授,江蘇紫金傳媒智庫高級研究員;張金熠為中央民族大學新聞與傳播學院碩士生)
編校:鄭 艷