摘要:人工智能技術的發展速度超乎了很多人的想象,而人工智能在短劇生產模式中的應用也成了未來短劇行業發展的大趨勢。本文首先介紹了近幾年生成式人工智能模型的發展脈絡,詳細介紹了目前人工智能在短劇生產模式中的具體應用方式,并提出了人工智能在短劇行業應用之中所面臨的問題與挑戰以及未來發展方向。
關鍵詞:人工智能;發展脈絡;短劇生產模式;問題與挑戰
作者簡介:雋浩罡 浙江傳媒學院華策電影學院戲劇與影視專業 2023級碩士研究生
李晉林 浙江傳媒學院浙江省影視與戲劇研究中心、浙江傳媒學院華策電影學院 教授
引言
隨著人工智能技術范式的演變,短劇的生產模式正經歷一次系統性的重構。自2022年生成式人工智能——以ChatGPT為代表——取得關鍵突破以來,圍繞多模態大型語言模型的技術集群呈現出了指數級的增長勢頭。在劇本創作的早期階段,基于GPT-4架構并融合長短期記憶網絡(LSTM)的智能系統在優化敘事結構方面取得了顯著進展。在中期拍攝以及后期剪輯階段,通過應用如Sora的文本生成視頻AI模型以及如Pixelverse的圖片生成視頻AI模型,內容創作者得以提高短劇的制作效率。預計在不遠的將來,AI技術將在很大程度上改變短劇的生產模式,提升生產效率,壓縮制作周期,并顯著降低制作門檻。這些轉變對于那些受制于資金和技術資源的題材如科幻短劇(圖1)尤為有利。這樣的進步將有助于解放創作者的想象力,并為短劇智能化生產引領新范式。

一、人工智能在微短劇中的現實應用
如今,我們可以把人工智能的發展大致分為三個階段:弱人工智能(Weak AI)、強人工智能(Strong AI)以及超人工智能(Super AI)。弱人工智能也稱為應用型人工智能,指的是可以通過機器學習(ML)尤其是深度學習(DL)對海量的大數據進行學習訓練,能夠實現對于數據的分類、識別、融合以及再合成。從而完成和解決特定領域問題的人工智能。這是目前較為常見和較為成熟的人工智能模式。強人工智能,亦稱通用人工智能(Artificial General Intelligence,AGI),是指一種具備類人智能、意識及自我意識的人工智能系統。此類系統不僅能夠模擬人類的認知能力,還能夠在廣泛的任務領域內表現出與人類智能相媲美的靈活性與適應性,從而實現對人類智能的全面模擬。超人工智能是指在所有認知領域均超越人類智能的人工智能系統,其不僅具備通用人工智能的廣泛適應性,更在智能水平上達到或超越人類最高認知能力的極限。此類系統能夠自主學習、創新并解決超越人類當前認知范圍的復雜問題,預示著人工智能發展的一個潛在飛躍階段。
1.1 生成式AI視頻模型技術路線
在文本生成視頻、圖片生成視頻及視頻生成視頻的早期階段,研究主要依賴于生成式對抗網絡(GAN)和變分自編碼器(VAE)這兩類模型。然而,這些模型所生成的視頻通常表現出較為單一和靜態的特性,缺乏上下幀或上下片段之間的連貫性,且分辨率較低,難以滿足商業應用的需求。隨著人工智能技術的不斷進步,針對視頻生成領域的新興模型逐漸涌現,其中包括擴散模型(Diffusion Model)及大語言模型(LLM)。例如,Runway于2023年6月發布的Gen-2模型,基于擴散模型原理(Diffusion Model),允許用戶通過輸入文本提示詞來改變原有視頻的視覺風格。然而,這些先進模型在一致性、連貫性、物理合理性以及邏輯合理性等方面仍存在較大誤差,與現實世界的應用需求尚有不小的差距。
谷歌在2023年12月底推出了基于大語言模型(LLM)的生成式AI視頻模型VideoPoet,這是在當時相對于擴散模型另外的算法,這種大語言生成視頻模型是通過理解視頻內容的時間和空間關系來實現。VideoPoet模型的主要優勢在于其強大的語義理解能力,能夠精準將復雜文本描述轉化為高分辨率、細膩的視覺視頻,但是VideoPoet的劣勢也十分突出,這種模型需要虛耗巨量的算力來完成模型的訓練。同時,生成視頻的速度相較于擴散模型來說要慢很多,目前來說并不具有商業應用價值。
在2024年2月16日,Open-AI公司發布了具有跨時代意義的文生視頻大模型Sora,Sora將擴散模型和ChatGPT所應用的大語言模型相融合,既發揮了擴散模型生成速度快、生成質量高的優點,又結合了ChatGPT大語言模型對于文本強大的語義理解能力,Sora可以輸出60s的具有高度連貫性的長視頻,打破了以往生成式AI視頻模型只能產出10s內視頻的限制。Sora的另一個優勢是對真實世界的模擬程度更高。在Sora官網上演示的生成片段中可以看出(見圖2),在這連續的59s的視頻中,視頻中的人物和街景在不斷變化,但是后景廣告牌中的信息可以一直保持一致,并且在物體運動過程中,運動物體后方的物體不會因為物體運動造成的遮擋而改變,同時Sora也解決了主體暫時消失而造成前后畫面連貫性缺失的問題。
2024年6月6日,由快手公司自研的生成式視頻大模型“可靈”讓視頻生成大模型領域的黑馬Sora黯然失色,可靈AI可以生成分辨率高達1080p、時長最高可達2分鐘(幀率30fps)的視頻,且支持自由寬高比。可靈AI相較于國外的生成式視頻模型具有更高的中文語義理解能力,可以讓短劇工作者創作出的劇本、人物形象、畫面風格更符合國內觀眾的觀看需求。
1.2 AI生成短劇的應用模式
迄今為止,國內外人工智能在短劇制作領域的應用主要呈現以弱人工智能為主導、強人工智能為輔助的生產模式。弱人工智能通過大規模數據訓練,使計算機能夠完成特定任務,從而輔助或部分替代短劇制作流程中重復性強的工作環節,以顯著提升生產效率。近年來,隨著技術的不斷突破,強人工智能逐漸在短劇制作領域中嶄露頭角。特別是在擴散模型、大規模語言模型以及多模態人工智能技術的協同發展下,人工智能的應用范圍已不再局限于單一任務的執行,而是逐步擴展到劇本創作、角色設計、場景構建、后期剪輯以及基于視頻內容的智能音頻生成等多個環節。這種發展態勢表明,人工智能在短劇制作中的應用正在從碎片化任務處理向全流程自動化制作模式演進,涵蓋了從前期策劃到后期制作的完整鏈條。

(1)弱人工智能的制作模式
弱人工智能在短劇制作中的應用,主要體現為針對單一且復雜繁瑣的環節進行技術優化,通過深度學習算法和大規模數據集訓練,實現特定任務的高效執行,從而顯著提升制作效率并縮短生產周期。具體來說,弱人工智能系統通過對海量歷史數據的分析與學習,能夠自動化完成如劇本分詞、場景分類、鏡頭標記等基礎工作,減少人工干預與重復勞動。這種針對單一環節的智能化解決方案,有效降低了短劇制作的人力成本,為創作者釋放了更多精力來專注于藝術構思與內容創新。
例如近些年在外國流媒體平臺較為火爆的一種弱人工智能制作模式是AI換臉短劇。深度偽造(Deepfake)是用無監督學習的方式訓練一個神經網絡[1],其核心原理是通過訓練兩個神經網絡模型——生成器和判別器——實現圖像或視頻的逼真合成。生成器負責生成偽造內容,而判別器則用于區分生成內容與真實內容的差異。通過反復博弈,生成器逐漸提升偽造內容的真實性,最終使判別器難以分辨。此外,深度偽造技術通常結合自動編碼器(Autoencoder),通過編碼與解碼過程提取并重構目標對象的特征,以實現高精度的面部替換或表情遷移。
在短劇制作領域,深度偽造技術通過分析目標人物(如明星)的靜態圖像或視頻數據,提取其面部特征、表情動態以及神態細節,并將其精準映射到由替身演員出演的實景拍攝視頻中,從而實現目標人物“出演”的效果。具體而言,短劇制作者首先需獲取明星的電子肖像權,即其臉部特征的高精度數字化數據,作為深度偽造技術的基礎輸入。隨后,通過深度學習算法,系統對明星的面部特征進行多維度分析,構建出高保真的面部模型。在此基礎上,深度偽造技術將這一模型與替身演員的實拍素材進行實時合成,確保面部動作與身體動作的自然銜接,最終生成逼真的視頻內容。這種技術的應用不僅能夠解決傳統短劇制作中因明星檔期沖突或高昂出演費用而面臨的困境,還為明星經濟帶來了新的商業模式。明星可以通過授權其臉部特征的電子肖像權,實現“分身出演”,從而在無需親自參與拍攝的情況下,擴大其商業價值與影響力。除此之外,深度偽造技術的引入也為短劇制作提供了更高的靈活性與創新空間,制作者可以根據劇情需求,靈活調整演員陣容,甚至實現跨時空的“虛擬同臺”。
(2)強人工智能的制作模式
2024年以來,隨著人工智能技術的快速發展,短劇制作領域逐步從弱人工智能的應用向以多模態為特征的強人工智能創意工具轉型。強人工智能基于多模態學習框架,整合文本、圖像、音頻及視頻等多維度數據,實現了創意生成與決策的深度融合。在短劇制作中,強人工智能不僅能夠通過自然語言處理技術生成符合敘事邏輯的劇本,還能結合計算機視覺技術自動設計場景與角色形象,甚至根據劇情需求生成匹配的配樂與音效。除此之外,通過深度學習與生成對抗網絡,強人工智能能夠模擬人類導演的創作思維,在鏡頭語言、剪輯節奏等方面提供智能化建議,顯著提升制作效率與藝術表現力。這種制作模式革新推動了短劇制作從傳統勞動密集型向智能化、自動化的轉變,為內容創作提供了新的范式。

例如昆侖萬維推出了全球首個集成視頻和3D大模型的AI短劇平臺SkyReels,該平臺能夠實現劇本生成、角色定制、分鏡制作,以及影片合成的全流程自動化生產模式。SkyReels利用劇本大模型SkyScript、分鏡大模型StoryboardGen、3D生成大模型Sky3DGen以及創新平臺WorldEngine,支持創作者輸入創意后,一鍵生成劇情和對白,自動轉換為1080p(60fps)的高清視頻,最長可達180s。昆侖萬維的SkyReels(圖3)模型確實在一定程度上解決了創作者在進行AI創作時需要在多個模型之間切換的問題,但是經過用戶長時間的評測所獲得的反饋,SkyReels所生成的視頻缺乏真實感,模型還需要迭代更新才能達到較為可用的狀態。
二、人工智能在微短劇中的應用困境
每一次的科技革命都會引發各個行業發生深刻變革。短劇行業也不例外,既為其帶來了前所未有的機遇,同時也帶來了多維度的巨大挑戰。AI通過深度學習與大數據分析等工具,顯著提升了短劇的生產效率與創意表達,但其廣泛應用也引發了一系列嶄新的問題。
2.1技術問題
(1)人工智能在短劇制作應用中的“外傷”
在人工智能技術發展的進程中,計算機圖形處理器(GPU)的算力作為關鍵因素,在深度學習和神經網絡訓練中扮演著不可或缺的角色。然而,GPU算力的局限性在生成式視頻大模型的應用中表現得尤為顯著。以當前較為先進的生成式視頻大模型“可靈AI”為例,其生成能力受限于GPU的運算效能,僅能實現分辨率1080p(30fps)、時長為2分鐘的視頻輸出,難以滿足現代觀眾對高畫質與長時內容的期待。這一技術瓶頸揭示了GPU算力對生成式人工智能模型的制約作用以及硬件性能與算法需求之間的差距,亟待通過硬件優化與算法創新實現突破。
(2)人工智能在短劇制作應用中的“內傷”
首先,到目前為止,AI系統普遍缺乏透明性和可解釋性,可調試能力差,特定研究對應的應用效果也缺乏可預見性。由于深度學習(DL)等技術的復雜性,生成式對抗網絡(GAN)等AI模型參數的意義不明,AI的訓練和決策往往是黑箱操作,沒有可表述的邏輯和明確的原因,這使得人們難以理解AI系統輸出,也不易進行調試。[2]其次,AI所生大的短劇在真實世界物理模擬、多段視頻連貫性、人物表現力、情感表現力等方面還存在著較大的不足與偏差。
2.2版權問題
人工智能在短劇制作中的應用,雖然顯著提升了創作效率與視覺表現力,但也引發了一系列復雜的版權問題。一方面, 人工智能生成視頻難以規避侵權問題, 主要是由于其在發展和應用過程中除了需要足夠的算力支撐外, 還需要大量原始視頻作為訓練素材,才能夠確保人工智能生成視頻的速度和質量。[3]人工智能模型在訓練過程中依賴于大規模數據集,這些數據多來源于互聯網或已有的影視作品,可能涉及未經授權的內容使用。如果訓練數據中包含受版權保護的素材,人工智能生成的內容則可能構成對原作品版權的間接侵犯。二是人工智能生成內容的版權歸屬問題尚不明確,如何界定人工智能作品的原創性成為難題。傳統版權法以人類創作者為權利主體,而人工智能生成的作品是否享有版權保護,以及其版權應歸屬于模型開發者、使用者還是公共領域,仍存在法律空白與爭議。
2.3倫理道德問題
人工智能技術催生的虛擬角色在現實場域引發的道德責任歸屬問題日益成為亟待解決的重大倫理挑戰。如果虛擬角色的行為在現實中造成負面影響或傷害,那么該如何界定責任主體是技術開發者、內容創作者還是分發平臺?在既有法律框架下,技術開發者常援引“技術中立性原則”進行責任規避,主張其僅承擔技術基礎設施框架搭建的有限義務;內容創作者則強調其創作意圖與虛擬角色實際行為之間存在誤差,將不可預測性歸咎于神經網絡的黑箱特性;而平臺運營方往往援引《避風港原則》將自身定位為信息管道角色。這些問題不僅關聯著法律問題,更觸及人的尊嚴、個人隱私、自主權以及藝術自由等一系列深層次的倫理道德議題,將隨著虛擬制片技術的發展而愈發凸顯,也必須得到妥善的討論與解決。
針對人工智能技術在短劇行業應用所引發的眾多道德倫理問題,制定綜合的倫理準則和監管政策成為行業發展的迫切需求。
三、人工智能時代下短劇行業的發展方向
在當前人工智能迅猛發展的時代,如何運用人工智能這種新質生產力來賦能短劇行業的發展是一個重要的命題。可以從以下幾個方面來促進短劇行業與人工智能的高質量融合發展。
3.1制定行業規范,完善AI制作體系
人工智能技術的深度應用正在重構短劇行業的生產邏輯,但技術創新與行業規范需同步推進,以確保行業可持續發展。從規范視角看,行業需在新質生產力賦能與價值約束之間建立動態平衡機制。第一是要構建AI內容生產的標準化體系,雖然現在AI可以幫助從業者提升生產效率,但是可能會出現內容同質化、價值觀偏離的問題。這便需要建立關于AI生成內容的質量評估標準,包括但不限于內容的創意性、社會價值觀導向、文化適配性等方面。例如在2024年3月21日,中央廣播電視總臺出臺了《中央廣播電視總臺人工智能使用規范(試行)》,明確了AIGC的創作方向和使用應符合社會主義核心價值觀導向。二是完善版權體系,需要解決人工智能所使用的訓練數據邊界模糊、生成內容版權歸屬不清的問題。可以搭建短劇行業數據共享池,明確訓練數據的授權規則,同時也可以探索基于區塊鏈的版權溯源系統。只有構建起適配人工智能特性的規范體系,才能推動行業在技術浪潮中行穩致遠。

3.2發展多模態大模型應用,打造“全AI制片”時代
多模態大模型作為人工智能技術演進的核心方向,其范式轉型正在重塑短劇產業的內容生產體系。筆者認為,短劇行業需構建具備“短劇語言”的專用多模態大模型,通過深度解構其特有的“短劇語言”范式,實現生成內容與行業需求的結構性適配,從而達到從前期劇本創作到后期視頻制作的全流程應用。短劇作品在劇本層面上具有短小精悍、強沖突、碎片化的特點,在分鏡層面上具有切換速度快、節奏感強的特點,而在后期制作層面有高效緊湊、節奏快的特點,這些特征共同構成短劇區別于傳統影視的獨特創作語法體系。而短劇行業多模態大模型在文本生成訓練、分鏡生成訓練、視頻生成訓練中要結合以上的特點選擇訓練數據,從而讓多模態大模型生成的作品符合短劇作品的風格,打造“全AI制片”模式,助力想象力消費和生產效率的提升。在2025年初,由快手星芒短劇打造的全球首部AI單元劇集《新世界加載中》先導片發布,《新世界加載中》的7個單元劇全部由快手公司的自研視頻大模型“可靈AI”創作生成,這是一次“全AI制片”模式的嘗試,其中AI敘事可以在短期內構建復雜龐大的世界觀,同時可以保證世界觀邏輯和細節的合理性。同時可靈AI也實現了生成視頻質量上的突破。以往AI視頻模型生成的視頻存在同一場景在進行多次的景別切換后,鏡頭場景難以保持一致的問題,而《新世界加載中》同一時空不同場景經過景別切換后仍然保持一致,有效提升了鏡頭之間的連貫性(圖4,圖5)。這種從劇本生成到分鏡生成再到視頻生成的全流程應用無疑將會成為主流應用形式。
四、結語
人工智能技術的發展速度之迅猛讓人驚嘆,人工智能技術不僅極大地提高了創作者的效率,甚至在很多方面超出了我們的預期,從而改變了短劇行業的生產模式。在這個技術迅猛發展的時代,有的人選擇固守己見,沿用傳統的制作模式;有的人不斷擁抱新興技術,提升自己的創作能力和技術素養。2024年,中國短劇市場規模攀升至504.4億元,同比增長34.9%,在如此巨大的市場之下,人工智能技術賦能短劇將會為短劇行業注入強勁動力,為短劇行業的發展提供更多可能性,但同時也帶來了更多的問題與挑戰。技術的終極目標并非替代人類創作,而是通過人機協同構建更具包容性的創作生態。

參考文獻
[1]王怡,楊洪臣.一種AI換臉方法生成的偽造視頻分析[J].刑事技術, 2021,46(01):16-22.DOI:10.16467/j.1008-3650.2021.0003.
[2]陳軍,趙建軍,魯夢河.AI與電影智能制作研究與展望[J].現代電影技術,2023,(10):16-26.
[3]徐增鎏.從Sora熱潮看人工智能時代電影行業的困境與進路[J].電影文學,2024,(10):43-46.