谷青
中央廣播電視總臺 北京 100038
在新時期背景下,人工智能技術可以說是在不斷完善與迭代,在深度學習技術的快速發展下,關于自然語言以及圖像處理等方面的人工智能技術也在進一步深入研究,這也為該技術的全面應用奠定了良好基礎。在視頻制作中應用人工智能技術,不僅能夠大大降低視頻制作的難度與強度,滿足當前規模不斷壯大的短視頻制作需求,還能夠進一步將視頻制作提升到新的層面,有利于提高視頻制作行業的高質量可持續發展。
人工智能技術又稱AI,也是當前21世紀三大尖端技術之一。作為計算機科學的重要分支,人工智能技術能夠對人類的智能理論、方法、技術以及應用系統進行深度的研究、開發、模擬以及拓展。在計算機領域中,人工智能技術已經有了較為深入的研究與應用,例如機器人、控制系統以及仿真系統等。隨著當前信息技術的不斷發展,越來越多的高新技術開始進入人民群眾的日常生活當中,人工智能技術也不例外,小到智能音箱、停車場車牌自動設備以及智能家居,大到汽車自動駕駛、AlphaGo(阿爾法圍棋)以及醫用機器人等,都對日常生活與生產帶來了諸多利好,充分發揮著該技術的實際應用價值。由于當前應用的人工智能技術仍歸屬于弱人工智能,無法完全脫離人工自主運行,因此還需要進一步深入研究。盡管如此,人工智能技術的應用還是在很大程度上緩解了當前工作中的強度與難度,為工作質量與效率的提升提供了重要手段。
隨著近些年來人工智能技術的滲透,以自然語言與圖像處理等方面為代表的技術手段開始進入視頻制作中。傳統人工視頻制作與剪輯更多的是通過軟件程序來進行處理,而在人工智能技術的幫助下,視頻制作開始向批量化加工轉變,從平臺系統中來加以處理,并保證了視頻內容的完整性與可靠性,從而有效降低了人工視頻制作的復雜程度,減輕了視頻制作人員的壓力。同時,借助人工智能技術,能夠進一步降低視頻制作的門檻。人們通過先進的軟件程序就能夠實現視頻全流程制作,包括了剪輯、加工、字幕等,視頻制作質量與效率也得以提高。
在傳統的視頻制作流程來看,主要包括了視頻采集、制作、播出、用戶體驗這四個方面。而隨著技術的不斷進步,在視頻采集方面,除了專業的攝像機設備采集視頻,還可以利用當前的手機等智能移動設備來實現視頻素材的拍攝,人人都可以是視頻的生產者。而在視頻的生產制作上,大多數的手機設備都已經具備了相當便捷的編輯程序,包括專場、濾鏡、特效等多個功能。在播出環節中,從以往的電視播出,到如今只需要借助互聯網就能觀看。最后在用戶體驗上,以往的視頻在播出時更多的就是用戶單向接收,而如今各類視頻軟件都已經加入了彈幕、評論以及點贊等交互功能,極大地改善了用戶的體驗[1]。從中能夠看出,“視頻+AI”的形式已經深入視頻制作的每一個環節當中,進一步促進了行業的發展與轉型。
3.1.1 美顏濾鏡功能
在視頻制作當中,大多數的影像對于畫質都有一定的要求,這也是視頻整體質量中最為關鍵的一點。從視頻制作誕生以來,對于畫質提升的追求與研究一直都在不斷推進與深入,類似Photoshop以及DR等軟件在畫質提升方面都有其自身優勢。隨著近些年來人工智能技術的進步,不僅專業人士能夠制作出畫質較高的視頻,越來越多的視頻制作愛好者也能借助該技術來實現視頻制作,同時畫質也能有所保證,而其中美顏濾鏡就是對畫質提升最重要的一項功能。從當前大多數具備美顏功能的軟件算法來看,主要就包括了瘦臉、磨皮、美白等功能。就拿某視頻平臺美顏技術來說,其主要是一套基于“深度學習+圖像處理+圖像學”的技術,其中關鍵技術在于人臉檢測、關鍵點定位、瘦臉、磨皮以及美白等,在完成對用戶人臉的檢測后,使用OpenGL以及Metal來實現人臉渲染,最終實現即時美顏。通過美顏技術,能夠有針對性地向用戶提供更加精細化的視頻制作服務,在很大程度上提高了視頻的質量。
在視頻的畫質提升與圖像美化當中,濾鏡也是較為常見的制作流程。濾鏡從其最初的概念來看,就是指在相機鏡頭外部安裝的附加鏡頭,主要功能就是將自然光進行過濾,實現圖像的風格化調色。在當前人工智能技術當中,濾鏡從其本身的物理功能開始轉化為虛擬功能,在濾鏡算法的加持下,通過軟件程序的調色就能夠對各種風格的濾鏡進行模擬,實現視頻制作者想要的效果[2]。隨著人工智能技術的深入,越來越多的濾鏡風格被應用在視頻制作當中,其效果已經遠超于傳統的物理濾鏡。
3.1.2 畫質修復功能
在視頻制作當中,傳統的畫質修復技術十分復雜,不僅會耗費大量的時間成本與人力成本,其最終修復效果往往也不盡如人意。在人工智能技術的應用下,通過深度學習能夠實現對畫質失真、失色的舊視頻與舊照片的修復、翻新等目的。
在當前的互聯網平臺中,經常能夠見到對上個世紀視頻錄像的修復,例如2021年,一位博主就在其社交平臺上發布了其視頻修復的項目,在AI技術深度學習的應用下,該博主將一段由加拿大攝影師在一百年前拍攝的北京視頻進行了修復,原本畫質模糊、黑白且有些許卡頓的畫面被重新還原,同時還能更加流暢,使人們能夠更加貼近歷史,深受年輕用戶的喜愛與好評。此外,在2020年國慶前,中央廣播電視總臺也使用了AI修復技術,將1956年拍攝的黑白電影《上甘嶺》中《我的祖國》這一片段進行了修復,在社會上引起了良好的反響。從相關報道來看,這次修復是采用了傳統修復與人工智能上色技術結合的手段,通過4K數字化修復技術將電影膠片中存在的物理損傷消除,并使用AI上色實現了畫面的彩色化[3]。具體到畫質修復的實際操作上,主要包括了畫面修復、著色以及擴分辨率這三個步驟。
首先,從畫面修復上來看,對于老視頻的修復主要是需要補幀。由于修復的視頻大部分是20世紀早期的影像資料,當時視頻制作與拍攝設備等條件有限,如今來看會發現其畫面存在卡頓、閃爍等情況,通過AI修復技術能夠將幀率補足,使得畫面看上去幀率提升而更加流暢,特別是將視頻修復成4K畫質,補幀是其中最關鍵的流程。在補幀技術當中,目前較為成熟的是DAIN模型,該模型是以深度感知為基礎,通過對畫面進行深度檢測來劃分遮擋層,并以深度感知的光流投影層開發來合成為中間流,最終實現對視頻畫面的插幀,進而提高視頻的FPS值。從DAIN模型的環節架構中看,給定兩個節點的輸入幀,借助對光流以及深度圖的估測,并以深度感知的流投影層來合成中間流,最終將光流與局部差值內核在DAIN模型中與輸入幀、上下特征等進行扭曲,最終導出輸出幀,達到補幀的最終目的。
其次,從畫面著色來看,在黑白視頻影視資料中,畫面上色也是修復當中最為顯著的一項特征。在以往的人工著色技術當中,不僅費時費力,其最終效果也僅僅差強人意,著色的準確率也一直不高。通過對AI修復技術的應用,可以更加便捷地實現對視頻的著色修復,并在上色算法中進行深度學習,通過相關的影片歷史資料來確保修復后的視頻更加還原當時的時代環境。當前對于AI著色模型,使用較多的是基于深度學習的DeOldify。該模型在具體使用中對于視頻與圖片進行了劃分,制作者能夠根據自身需求來進行選擇,在視頻修復中,主要是應用了其中的NoGAN方法來進行模型訓練,將視頻渲染上色[4]。
最后,從擴分辨率上來看,通過將過往視頻資料的分辨率進行提升,能夠修復視頻中模糊不清的情況,以此來滿足當前用戶的觀看需求以及平臺播出標準。近些年來,上海美術電影制片廠出品的《葫蘆兄弟》《小蝌蚪找媽媽》等經典動畫都通過4K修復被重新搬到大銀幕上,2021年底,《天書奇譚》也以4K形式進行了重映,喚醒了多數80后、90后的童年回憶。隨著深度學習與AI算法的進步,從2006年到2022年,中國電影資料館就完成了超過550部電影的2K修復,4K修復的影片數量也在不斷增長。在當前擴分辨率的AI修復方案中,主要是采用了ESRGAN模型,其修復效果也較其他產品更佳。
3.2.1 字幕配音功能
在視頻制作當中,配音播報也是較為普遍的環節,通過事先編輯好的解說詞,采取人工錄制的方式來進行配音,滿足部分解說類視頻的需求。在傳統的字幕配音中,需要在配音完成后,對字幕時間加以修改,確保字幕與時間節點能夠匹配,以此來保證視頻中字幕與配音的同步,提高視頻質量。不過在這一環節中,會花費大量的時間去制作與匹配,同時,如果配音員存在口音或專業水平不足,會導致整體視頻的觀感大大降低。因此,在人工智能技術的應用中,基于深度學習的語音算法能夠將字幕進行一鍵配音,字幕與視頻的時間節點也能夠完美匹配[5]。當前,各大視頻平臺都提供了相應的字幕配音功能,極大地縮短了視頻制作的周期,同時在技術應用中也更為精細化,不少軟件都提供了包括中文、英文等多個國家的字幕配音,另外在年齡段、性別以及語速方面都能夠根據需求供制作者選擇。
3.2.2 字幕提取功能
在人工智能技術下,視頻字幕也可根據人聲自動提取。在部分訪談類或會議類的視頻字幕制作中,傳統的制作方式需要根據視頻人聲來一字一句手動輸入,并根據時間節點調整字幕,整個流程較為煩瑣。在語音識別技術的加持下,能夠一鍵識別視頻資料中的人聲,同時字幕也能與語音節點完美匹配。從當前技術應用現狀來看,針對環境干擾較少、發音良好的視頻語音,字幕提取的效果都能夠有所保證,準確率也在98%以上。
3.2.3 虛擬主播功能
在視頻字幕的人工智能技術應用下,不僅能夠實現上述提到的字幕配音與提取功能,如今虛擬主播功能也逐步在行業中有所成果。在新聞視頻的制作中,通過將事先編輯的文案添加到軟件當中,就能夠即時合成虛擬主播。同時,虛擬主播的口型也能夠與文字進行匹配,極大地提高了用戶的觀感。不僅如此,虛擬主播的形象以及視頻背景都實現一鍵替換,大大降低了新聞播報中的人工工作量。2018年,全球首個AI虛擬主播在我國問世,2022年北京冬奧會上,雙語虛擬主播、手語主播等都相繼亮相,這也標志著虛擬主播行業逐步進入快速發展的階段[6]。在人工智能技術不斷迭代升級的背景下,虛擬主播技術也愈發成熟,從二維到三維,從粗糙化到如今細化到頭發絲,虛擬主播慢慢在向現實靠近。
3.3.1 智能編目與檢索功能
在視頻制作當中,通常會需要大量的視頻素材,而在選擇素材時由于素材庫數量龐大,往往會讓制作者花費較多的時間精力去查找,對視頻制作工作造成了一定的困擾。特別是在素材庫的編目中如果不加以細化,也會進一步增加片段查找的難度。在人工智能技術與視頻制作的融合中,智能識別技術的應用也愈發成熟,不僅能夠自動識別視頻中的語音、文字等重要因素,還能夠自動完成編目,最終實現素材庫快速檢索的目的。通過智能編目與檢索功能,能夠大大降低視頻制作中素材查找的時間投入,縮短視頻制作周期,并進一步降低視頻制作者的工作強度。
3.3.2 AI換臉功能
在人工智能技術的應用下,還有一項較為熱門的技術功能,就是AI換臉。AI換臉技術也是基于深度學習等方法來實現深度偽造,當前應用較多的就是生成式對抗網絡(GAN)技術,其中主要包括了重現、替換、編輯以及合成這四種類型。當前的技術模型通過采集3~5張個人的表情信息,就能夠實現即時換臉的效果,在視頻制作中,通過AI換臉也能夠大大減少重復性的片段拍攝,并且進行表情修復[7]。不過當前AI換臉技術在其應用上仍有許多不足,同時還會涉及隱私權、肖像權等法律問題,因此在功能的使用中還需確保合法合規性。
綜上所述,在人工智能技術不斷深入優化的時代背景下,視頻制作工作也變得更加便捷與高效。在人工智能技術與視頻制作行業的不斷磨合過程中,通過智能處理系統,能夠實現多項突破性的應用。在視頻影像自主處理編排修復的過程中,有效減少了人工投入,在很大程度上提高了視頻制作的質量與效率,為視頻行業的發展也帶來了諸多利好。不過在其融合過程中,也要正視人工智能技術本身的局限性,并通過更加合理的使用來確保該技術應用的價值最大化,為視頻制作行業的進步提供更多活力。