視頻編輯中人工智能技術(shù)的應(yīng)用分析

2022-02-09 00:23:52張博

新聞傳播 2022年3期

關(guān)鍵詞：人工智能

張博

（天津廣播電視臺天津300000）

近幾年，人工智能技術(shù)越來越完善，自然語言以及圖像領(lǐng)域等人工智能技術(shù)的不斷進(jìn)步，促進(jìn)了人工智能技術(shù)不斷運(yùn)用到實(shí)際工作中。在視頻編輯過程中科學(xué)地使用人工智能技術(shù)，可以極大地減少視頻制作的難度以及工作任務(wù)，這促使越來越多的人加入到了短視頻的制作中來，從而有效提高了短視頻的質(zhì)量和數(shù)量，進(jìn)而不斷地提高了文稿的品質(zhì)。

一、人工智能視頻編輯工具的設(shè)計

（一）視頻編輯能力

對于非線性視頻編輯而言，可以提供一系列的編輯功能，比如剪切、貼圖以及摳像等。另外，還可以提供多種模板，比如特效與字幕條模板。手機(jī)豎屏的比例為9:16，橫屏有16:9以及4:3兩種，前者是高清的，后者是標(biāo)清的。無論是分辨率的輸出，還是尾角標(biāo)的預(yù)設(shè)，都是能夠支持的，便于使用者進(jìn)行使用。

（二）智能化能力

人工智能視頻編輯中具有多種智能化的輔助編輯功能，其中有對字幕進(jìn)行配音，對視頻中的字幕進(jìn)行提取，對多種語言的字幕形式進(jìn)行翻譯，將圖片和文字視頻化以及虛擬主播等功能。另外，還能夠?qū)⒁徽淖謨?nèi)容或者一組圖片自動合成視頻。

（三）資源整合

人工智能視頻編輯可以對其內(nèi)部的資源進(jìn)行整合和優(yōu)化，能夠?qū)?nèi)部的稿件、視頻、圖片以及音頻等素材加入到視頻編輯器中進(jìn)行再次使用，這極大地增強(qiáng)了資源的使用效率。

（四）無縫對接采編流程

利用人工智能視頻編輯器可以與發(fā)稿系統(tǒng)進(jìn)行無縫連接，能夠?qū)崿F(xiàn)成品視頻一鍵建稿，還可以對稿件中的視頻進(jìn)行修改和編輯，可以全面完成稿件編輯修改時的多人以及異地共享的形式。

二、人工智能技術(shù)的應(yīng)用

基于視頻編輯，對于人工智能技術(shù)的運(yùn)用，本文主要從字幕自動配音、視頻字幕提取、虛擬主播、智能編目和檢索、圖片視頻化、文字視頻化等方面進(jìn)行探究，僅供參考。

（一）字幕自動配音

對視頻進(jìn)行編輯時，通常會對編輯好的解說詞實(shí)行配音播報，大多數(shù)都是采用人工錄制的形式對其配音，當(dāng)配音工作完成之后，還應(yīng)該對字幕上的時間實(shí)行修改，從而將字幕和配音的時間完美結(jié)合，這項(xiàng)工作的任務(wù)量是非常大的。而且，如果不是專業(yè)的配音人員，可能會存在其發(fā)音不標(biāo)準(zhǔn)的情況。對此，可以采用語音合成的智能化手段，將字幕一鍵編程配音，并且還能將字幕以及時間變成一致。人工智能視頻可以提供中、英、日、韓等九種語言的字幕配音，并且還有男聲和女聲多個模板可以選取，對配音的語速也可以進(jìn)行調(diào)整。

（二）視頻字幕提取

其另一種功能是能夠?qū)σ曨l中的同期聲進(jìn)行字幕匹配，通常情況下是在會議發(fā)言以及采訪訪談等過程中使用。在傳統(tǒng)編輯過程中，是需要對同期聲上的字幕進(jìn)行逐句聽打的，對于字幕上的時間還是需要人工實(shí)行調(diào)整的，這是一件比較復(fù)雜的事情。當(dāng)運(yùn)用語音識別技術(shù)后，可以對視頻中的語音進(jìn)行一鍵識別，同時形成唱詞字幕，并且還能將字幕以及語音進(jìn)行自動匹配，對此只要稍加改正就能夠完成。現(xiàn)如今，在環(huán)境因素以及發(fā)音狀況都比較好的情況下，對于中英文語言的轉(zhuǎn)換可以保證有98%以上的準(zhǔn)確率，因此其可行性很高。

（三）虛擬主播

人工智能不但能夠?qū)崿F(xiàn)字幕與配音，新聞主播也可以利用人工智能技術(shù)進(jìn)行自動合成，在需要加入新聞主播的場景中，加入主播的解說詞，就能夠一鍵合成虛擬主播。同時，主播的口型以及語音播報的內(nèi)容能夠達(dá)到完全一致。另外，主播還能夠選取多種形象以及背景，并且還能對語速進(jìn)行調(diào)整，將合成后的虛擬主播插入到需要的地方就可以。對于以綠幕為背景的主播，還可以采用人工智能視頻編輯中的摳圖功能，將綠幕背景一鍵消除，從而完美融入到視頻中去。

（四）智能編目和檢索

在視頻制作中，對于素材的選擇，屬于一項(xiàng)較為困難的工作。尤其是素材庫編目缺乏細(xì)致，從而不得不針對大量的歷史素材，從中尋找需要的片段，這進(jìn)一步增加了難度。對于以往的人工編目而言，會耗用較多的時間與精力，而且對于編目的標(biāo)準(zhǔn)，并不很適合當(dāng)作內(nèi)容檢索。在有效應(yīng)用智能識別技術(shù)的基礎(chǔ)上，針對視頻素材，能夠自動識別其中的重要要素，包含很多種識別，比如語音識別，由此達(dá)到片段級檢索的目的，在較短時間內(nèi)找出所需片段，并且加到項(xiàng)目中，從而能夠極大地節(jié)約時間。

（五）圖片視頻化

對于想要將圖片轉(zhuǎn)化成視頻的想法，也可以采用人工智能視頻編輯手段，將稿庫中需要的圖片變換成視頻內(nèi)容，同時，還能夠自動加入轉(zhuǎn)場特效以及字幕說明和配樂等，使用者只要將自動合成后的視頻實(shí)行微調(diào)就能夠完成制作了。一般情況下，圖片稿都是采用組圖的形式，一組圖片述說一個事情，一般都為十幾或二十幾張，而且還要求圖片之間要有較高的關(guān)聯(lián)性，要對此加入圖片進(jìn)行說明，包括總說明以及分說明，因此是非常適合用來制作短視頻的。從稿庫中選擇出需要的圖片后，再對圖片的播放時間、轉(zhuǎn)場特效以及背景音樂等進(jìn)行選擇，就可以一鍵合成視頻。然后可以依照具體的音樂節(jié)拍以及播放時間對圖片的時長作出適當(dāng)調(diào)整。同時，可依照畫面中的具體內(nèi)容對圖片進(jìn)行適當(dāng)?shù)恼{(diào)整，可以對其大小、方位以及背景等進(jìn)行調(diào)整，接著對字幕上的內(nèi)容實(shí)行修改，讓它和視頻內(nèi)容相一致，最后對其添加包裝，就將短視頻制作好了。接下來，可以依照節(jié)目的實(shí)際需要，將圖片優(yōu)化，圖片視頻的效果以及模板的細(xì)節(jié)之處，可以將一個模板設(shè)置為一檔節(jié)目，同時可結(jié)合音樂效果，將素材的拼接效果進(jìn)行完善，從而增加自動化技術(shù)的成片度，有效降低使用者的工作任務(wù)量。

（六）文字視頻化

人工智能視頻編輯還能夠?qū)⑽淖指遛D(zhuǎn)變成文字腳本的視頻，選取一篇文字稿后，可以將文字中的關(guān)鍵詞進(jìn)行提取，從資源庫中搜索出視頻以及圖片等素材，從而選取出和它匹配度較高的素材自動銜接，合成視頻項(xiàng)目，同時，還能將文字腳本合成字幕以及配音。對于合成效果而言，除了和關(guān)鍵詞提取有關(guān)，也和檢索的準(zhǔn)確度有著聯(lián)系。如果素材相對較長，則內(nèi)容也是較為復(fù)雜的，尤其是成品素材，往往由一系列新聞構(gòu)成，在實(shí)際應(yīng)用過程中，要定位到實(shí)際片段開展切割。在提取關(guān)鍵詞之后，應(yīng)當(dāng)注重其時效性。另外，還有邏輯關(guān)系，針對相同的事件，在處于不同角度的情況下，所報道的內(nèi)容有著一定的區(qū)別。對于所含段落較多的文章，段落講述的內(nèi)容存在一定的區(qū)別，可以采取兩種方式，一是對素材的篩選，二是文章關(guān)鍵詞的提取，從而獲取更為理想的效果，

三、人工智能視頻編輯技術(shù)實(shí)現(xiàn)

對人工智能視頻編輯而言，其工具使用B/S架構(gòu)，系統(tǒng)由多層組合而成，比如分布層以及服務(wù)層。以前端發(fā)布層來看，其包含兩項(xiàng)服務(wù)，一是Web頁面，二是流媒體播放。通過多項(xiàng)技術(shù)，比如webgl技術(shù)，從而實(shí)現(xiàn)web頁面服務(wù)，用不著安裝軟件，在頁面上就可以進(jìn)行訪問操作，全部編輯操作都是可以看見的。而對于流媒體服務(wù)而言，就是根據(jù)nginx建立，主要負(fù)責(zé)一系列文件的預(yù)覽以及下載，比如視頻文件。對于后端業(yè)務(wù)層而言，主要負(fù)責(zé)兩方面內(nèi)容，一是數(shù)據(jù)的管理，二是業(yè)務(wù)邏輯處理，提供一系列功能。比如素材與模板管理、素材檢索等。以后端業(yè)務(wù)層來看，其屬于底層以及前端的橋梁，使用者編輯操作，在借助業(yè)務(wù)層的基礎(chǔ)上，實(shí)現(xiàn)對底層渲染的轉(zhuǎn)換，以便能夠形成可識別的指令。通過業(yè)務(wù)層，可以向頁面通知渲染的進(jìn)度以及情況。底層服務(wù)層由渲染服務(wù)以及智能服務(wù)構(gòu)成，渲染服務(wù)是對素材的預(yù)處理以及成品的合成進(jìn)行服務(wù)，智能服務(wù)是對全部的人工智能處理進(jìn)行管理，其內(nèi)容主要有全文檢索、語音合成以及智能翻譯等。數(shù)據(jù)存儲層是采用NAS技術(shù)對用戶的素材、編輯文件以及成品文件等進(jìn)行存儲，同時采用mysql技術(shù)對業(yè)務(wù)數(shù)據(jù)進(jìn)行保存。

結(jié)語

人工智能視頻編輯器是一種新形式的智能化在線編輯器，是對傳統(tǒng)編輯軟件的補(bǔ)充和完善。在視頻制作中采用人工智能技術(shù)，在很大程度上降低了制作的要求，極大地增強(qiáng)了資源的利用率，促使傳統(tǒng)的文字以及圖片編輯也加入到短視頻制作中，增加了視頻制作的效率以及數(shù)量，促進(jìn)了短視頻的全面發(fā)展。■