孟繁亭
(中國互聯網新聞中心 北京市 100089)
隨著社會的發展和技術的進步,人類的生活節奏也加快了,相應地帶動著簡潔高效的短視頻領域的快速發展,與傳統的較長時長的視頻相比,短視頻更能滿足當代人的零散閱讀習慣,因而發展迅速,且未來發展前景廣闊。正是由于這樣的良好前景,視頻與人工智能技術的融合也逐漸成為了業內研究者的研究重點和方向。目前視頻創作者在制作視頻的過程中已經用到了相關的AI 技術,比如視頻創意腳本創作、視頻編碼解碼過程、視頻智能推薦等等,通過結構化的形成視頻來促進視頻領域的發展,解放人類編輯剪輯視頻的大量重復操作,同時凈化短視頻市場的抄襲重復等不良現象,不僅帶來了視頻質量的提高,而且也降低了低質量視頻帶來的流量消耗,替代了傳統的人工技術,使得視頻結構分析越來越準確。
本文提出人工智能助力視頻生產的實踐,主要根據其視頻生產的不同階段,各個階段涉及到的主要技術概括為四個部分:自然語義分析處理、語音合成、圖像濾鏡渲染、視頻編碼合成。以下將從這四個角度進行技術介紹。
自然語義分析處理的應用場景有很多,在我們的方法中,首先需要通過對文章進行摘要讀取,然后根據讀取的結果進行語義理解,以摘要為基礎選擇視頻所需的素材。為了從文章中捕獲結構化信息,有必要在語義上有意義的標簽上標注自由文本。在這項工作中,我們選擇了一種稱為“淺層語義解析”的方法,該方法能夠將句子分解為簡單的內容,從而結構化的概述文章描述的事件:何時,何地,為什么和如何發生這樣的事件,從而為視頻生成提供基礎的腳本。通過自然語義分析處理獲得視頻創作的腳本信息,通過對這些腳本信息進行分析得到視頻的整體結構,對整體結構拆解和研究能夠得出在視頻創作過程中,可能出現的角色、以及角色出現的時間、位置、視頻的字幕圖像、甚至視頻的核心關鍵詞等等,幫助我們在不觀看視頻的情況下就能夠了解視頻講述的大概內容,得到視頻的整體概述信息。
通過將字幕文件轉換成帶語音播報的音頻文件,并合成到視頻中,從而形成帶有配音的視頻。在這一階段我們采用了語音合成技術,根據字幕文件,采用了一種新穎的方法來合成逼真的語音。使用字幕文件作為輸入,我們的方法按照閱讀流程為每個視頻中的人物合成語音。采用級聯策略在兩個階段合成語音:視頻視覺分析和視頻語音合成。在第一階段,分析輸入的字幕文件以識別角色的性別和年齡,以及每個角色講話的文本和相應的情感。在第二階段的分析指導下,我們的方法為每個角色合成了逼真的語音,與視覺觀察結果保持一致。通過幾次的測試結果,我們發現,所提出語音合成方法可以針對不同類型的字幕文件合成逼真的語音,從而作用于視頻的生成過程中。對多個字幕文件的合成結果進行的感知研究證實了我們方法的有效性和準確性。
通過圖像濾鏡渲染技術來進行視頻生成的階段,這一階段通常需要將濾鏡與通道和圖層結合使用,以實現最佳的藝術效果。如果要在最合適的時間將濾鏡應用于最合適的位置,除了通常的藝術技巧外,還需要用戶對濾鏡的熟悉和操縱,甚至是豐富的想象力。這樣,給我們手工操作帶來了很大的難題,基于人工智能的方式可以實現自動化的圖像渲染技術,從而解決了人工操作模式下很大的難題,為短視頻快速自動的智能化生成掃清了障礙,促進了短視頻自動化生成的發展。
所謂視頻編碼就是將處理好的視頻素材、剪輯好的視頻文件等通過固定的壓縮格式,形成統一的文件,從而便于視頻的傳輸。視頻編碼目前有很多的標準,比如國際電聯的H.264、M-JPEG、MPEG 系列標準等等。本文針對視頻編碼合成階段,提出了一種新的視頻編碼方法,其中將視頻場景分類為具有主觀相關和不相關細節的紋理。通過使用紋理分析器和紋理合成器將這一思想應用于改善視頻編碼。分析器識別沒有重要主觀細節的紋理區域,并在解碼器側為合成器生成粗糙的蒙版以及輔助信息。合成器通過將合成紋理插入到已識別的區域中來替換與細節無關的紋理。紋理分析器和合成器基于MPEG-7 描述符。該方法已集成到H.264/AVC 編解碼器中。對于半自動紋理分析儀,在沒有提出方法的情況下,主觀質量與H.264/AVC 編解碼器相似,顯示出高達19.4%的比特率節省。
本文提出的AI 視頻生成過程簡單,形成的AI 視頻在很多測試后被證明這一結構化的短視頻生成過程的高效性。生成過程主要分為以下幾個階段:通過語義識別提取文章摘要以及文章標簽,對原有的文章進行語義的提取和整合;然后通過標簽從素材庫提取圖片、視頻等相關素材,通過上一階段提取出的關鍵詞來進行素材的篩選,根據獲得的摘要選擇合適的視頻、音頻、圖片等媒體素材,最后把素材拼接成一個短視頻。在人工智能短視頻生成過程中所用到的技術如上文所述,主要有:自然語義分析處理、語音合成、圖像濾鏡渲染、視頻編碼合成等。
AI 視頻生成過程具體流程主要可以概括為以下幾個方面:
(1)預設一些圖片動畫效果,如:放大、縮小、平移、旋轉等等。由于素材庫中存在部分圖片需要調整,所以可以通過預設圖片效果來對素材進行初步的調整,方便后期的直接應用。
(2)基于預設動效設置視頻模板,模板內容包括:①背景圖設置:就是圖片動畫運行的背景,用戶可以基于自身情況上傳背景圖,并進行設定,從而確定自己生成的短視頻使用的背景圖片。這一設置功能可以滿足不同用戶的需求。②動效設置:用戶上傳樣例圖片,然后可以針對每張樣例圖片進行動畫效果設定,同時可以對圖片與圖片之間的過度狀態(轉場)進行設定,通過設置動效實現靜態圖片的整合,形成短視頻的基礎部分,而且滿足了用戶的個性化需求,增加了AI 短視頻的多樣性。③文字效果設定:用戶可以對一個視頻的標題和正文(語音字幕)文字效果進行設定,包括是否有標題、是否有語音字幕、以及文字樣式、大小等。可以結合對文章的語義摘要分析結果,以及視頻最終生成的內容來設置視頻的語音和字幕文件,借助語音合成技術,智能化的生成視頻配音。④語音播報設定:內設多種語音播報風格,用戶可以根據情況選擇合適的風格,然后自動將字幕文件轉換成帶語音播報的音頻文件,并合成到視頻中去。⑤背景音樂設置:用戶可以自行上傳背景音樂,并可將音樂設置為視頻的背景音樂,為用戶帶來方便。⑥片頭/片尾設置:用戶可以上傳片頭片尾,并可以選擇合適的片頭片尾合成到視頻模板中去。
(3)基于視頻模板生成視頻:用戶可以根據實際情況選擇合適的模板風格,然后輸入文章鏈接解析素材內容。通過語義識別技術,將文字素材體現成文章摘要,同時提取文章的標簽,并基于標簽內容到素材庫提取相關圖片和視頻素材,然后把素材內容以及對應的模板中的參數設置傳到視頻生產引擎進行編碼合成。針對視頻創作過程中的不同素材內容,可能會存在很多類似的圖片,音頻等素材,我們需要使用有監督的學習來對這些圖像、音頻等進行分類和回歸任務。通過這些技術來得到圖像,音頻等不同素材的標簽。比如一個人物圖像的標簽有可能是人體或者角色;一本書的標簽可能就是一個實體,通過這些分類任務對素材進行識別,這些任務之間都是相關的,利用卷積層實現這些任務。在卷積層之后加上Mask 層進行主干網絡的剪枝操作,且這些任務之間是共享神經元的,但每個任務都擁有獨立的卷積通道層。
(4)審核發布:生產出的短視頻經審核后可以一鍵發布到短視頻平臺。目前快手抖音等短視頻平臺大火,通過簡單的操作用戶便可以實現視頻的上傳。這就帶來短視頻資源的泛濫問題,上傳到各個社交媒體的短視頻就可能會存在一些質量問題,對于短視頻平臺就加大了審核和監管的難度。AI 識別技術在這一方面大有所為,通過AI 技術來識別視頻圖像中的敏感標志、或者違規圖像,進而幫助我們審核、篩選出違規的視頻。同時由于短視頻平臺缺乏嚴格的監管力度,有很多人為了獲取流量而盜竊他人的視頻拍攝創意,導致視頻原創者的利益受到損害,為了保護視頻產權,凈化媒體產業環境,可以運用視頻DNA 做相似性溯源,對視頻內容關聯關系進行挖掘,對視頻內容制作路徑溯源,強制刪除盜版視頻,保護創作者產權。
視頻智能化自動生成是未來媒體行業發展的趨勢和研究方向,不僅涉及到的領域較為廣泛,應用范圍也十分寬泛。本文提出的針對視頻自動化生成的方式還僅僅停留在簡單的實現部分,部分階段依然存在可以改進的可能,這同時也是未來AI 應用在視頻生產領域的發展前景和巨大潛力。
首先針對自然語義分析處理這一階段,本文僅僅通過語義識別提取文章摘要以及文章標簽,從而實現對文章的大意理解,并根據提取的文章摘要和標簽選擇相應的視頻或者素材,盡管這些方法在部分文章的摘要提取過程中取得了很好的效果,但是對于開放領域的文章摘要提取以及噪聲相對較大的文章中進行語義分析還是存在著很多的現實問題,依然望塵莫及。如何能夠實現計算機真正的看懂我們的視頻,從而正確的理解語義,這一目標在短期內依然無法實現。所以,未來通過使用深度學習視頻自動描述方法的去噪和時序信息壓縮等技術,對于視頻自動化描述仍然有著廣闊的研究空間,值得進一步探討。
其次,在視頻生成的過程中,存在著關于視頻中人物動作識別的問題,對于短期的時序信息,如光流,密集軌跡和三維卷積神經網絡特征(C3D)等,已經有研究者提出了更優秀的解決方案。但是,建模長達數十秒甚至數百秒的長期時序信息仍然面對著很大的問題。從現有的基于深度學習的視頻自動描述方法來看,有效的視頻信息特征表達將大大提高系統性能,同時大大提升人工智能視頻生成的準確率和高效性。
本文基于的AI 視頻生成都是單事件視頻的描述,針對多事件和多事件視頻的描述還處于起步階段,沒有足夠的經驗,還缺乏相應的視頻數據集和理論方法。基于語義的事件分離,目前只針對每個事件的描述以及事件之前和之后的依存關系和關聯的考慮,尚未開始對整個視頻進行描述的探索。所以,未來對于整個視頻的完整描述也是研究的熱點和方向。
最后,本文提出的AI 視頻主要試圖通過自動化質量控制來改善視頻制作過程。這是為了減少執行相同任務所需的人工干預。從字面上講,經過訓練的AI 軟件可以在觀看者會發現令人反感的圖像中尋找事物。“就像是正在訓練一臺機器,以發現原來沒有被發現的事物,這就是AI 啟用視頻編碼的局限性所在。專家試圖用軟件最好地表現人類視覺系統幾乎是不可能的。”原愛立信媒體解決方案投資組合管理副總裁卡爾·弗格森說,人們針對這個問題的研究,一直在嘗試,二三十年都沒有成功,而且他認為沒有人會永遠獲得人類視覺系統的精確映射。出現這一問題的主要原因是,與基于度量的AI 觀看模型相比,人類觀看的主觀性質比較強烈,在人們認為現實中更好的圖像質量以及測量工具沒有一個統一的標準之前,研究只會始終得到不同的結果。但是,AI 視頻生產即使有其局限性,AI 也將成為未來壓縮引擎不可或缺的一部分。直到該技術能夠真正匹配人類視覺系統的復雜性和細微差別,人類干預仍將是高質量視頻壓縮的必要要素。充其量來說,當人類不得不介入以固定圖像質量時,人工智能將不斷降低實例的百分比。
本文提出了基于人工智能的視頻輔助生產系統應用和實踐嘗試,盡管在實際應用中還存在著很多需要改進的地方,但是從整體上看,基本上實現了預期的效果,提出了一種結構化的視頻生成操作,從視頻語義理解、視頻智能化創作、視頻編碼處理等不同方面分別提出了具體的方法,為之后的研究提供了思路和方向,之后的研究也將圍繞這些問題展開,不斷在原有算法和功能的基礎上進行算法的迭代和優化操作,同時在縱向領域不斷探索不同行業及領域的最佳實踐,以期在人工智能視頻+5G 時代全面來臨之際,為傳統媒體產業升級換代底層技術提供了業內領先的生產力工具和穩定高效的服務能力。