傅高強
(浙江省磐安縣融媒體中心,浙江 金華 322300)
傳統融媒體平臺的媒資處理方式深刻影響著廣播電視平臺的工作效率,尤其是隨著媒介傳輸能力增強,媒資數量呈幾何式增長,媒資系統的存儲、檢索和媒資處理方式都難以滿足新媒體的需求。因此,磐安縣融媒體中心在既有的融媒體技術平臺基礎上,引入人工智能(Artificial Intelligence,AI)技術,設計、開發新媒體智能項目技術方案,對現有的媒資系統進行了深度優化。本文就AI 智能技術在融媒體平臺中的應用進行詳細闡述。
智能媒資處理系統的核心功能包括語音識別(Automatic Speech Recognition,ASR)、語義理解、動態人臉識別、人流量統計、人臉核身、文字識別(Optical Character Recognition,OCR)以及自然語言處理(Natural Language Processing,NLP)等重要功能,在傳統媒資系統上開放接口,接入AI 數據平臺,以實現媒資的智能化管理。技術框架如圖1 所示。

圖1 智能媒資處理系統的AI 中臺技術框架
這一平臺框架采取分布式多線程,任務調度精度可達到秒級以內,配置水平擴展的大量能力節點,極端情況下能力節點上限達到500 個,是傳統媒資系統信息任務處理能力的30 倍。分布式處理、多點多線程能夠最大限度地發揮AI 的技術潛力,提高技術效率。通過統一接口,AI 大數據平臺整合底層的智能分析技術,能夠對接AI 智能中臺,使上層應用隨時得到技術支撐。
在第三方應用技術上,該方案也提供了由彈性調度框架和智能中臺作為媒介方的開放插件式思路。第三方應用、AI 智能分析引擎以及新的自研技術可以隨時通過平臺的軟件更新開放新接口,像安裝應用一樣集成到AI 平臺。
該方案以技術合作方自研的目標檢測網絡為主,對視頻中的目標進行結構化分析。視頻是融媒體平臺的主要媒資和處理對象。近年來,視頻結構化已成為AI 智能視頻處理的主流思路。視頻結構化處理部分采用嵌入式方式,使用深度壓縮(Deep Compression)方案[1],旨在減輕帶寬壓力;在采集端輔以自動智能語音識別(ASR)、自然語言處理(NLP)以及文字識別(OCR)等基礎網絡可承載的識別技術,能夠對視頻進行初步分析、裁剪及有效畫面篩選,并將有意義的畫面回傳至服務器,等待服務器端的進一步智能處理。
針對融媒體平臺的主要媒體資源即新聞節目,視頻結構化的初步思路是將其拆分為三個基礎層級,即項目(Program)層、報道(Story)層和場景(Scene)層,其關系如圖2 所示。

圖2 視頻結構化后3 個層級的關系
完整的Program 層在一般情況下指一段錄制完成的新聞節目,須包含基礎的有效信息,如節目名稱(項目名稱)、項目時間、主持人及內容提要等。
經過智能識別后,視頻被分為數個不同的報道段落,即Story 層。不同的Story 層必須包含獨立的主題和獨立的內容,由完整的音、視頻單元組成。
Story 層的各單元包括了大量的Scene。這些Scene 包括實鏡頭(Shot)如主持人鏡頭、拍攝場景、主題講述、采訪鏡頭及一些空鏡頭等。視頻結構化后,這些鏡頭將被采集端的初步AI 智能分析和回傳至服務端的精準AI 智能分析進行整理,形成具有明顯標簽、明顯類目的素材堆放,作為智能媒資管理和媒資復用的基礎。
針對音頻部分,AI 平臺服務端的主要功能是ASR,即智能語音識別,將視頻中的人聲輸出為文字。采集端獲取視頻源素材后,通過視頻結構化拆分出音頻流,去除無聲紋部分后,將有效音頻回傳至服務端,由AI 連續音頻流識別引擎進行分析。
識別過程中,引擎將音頻流分為每幀25 ms的多幀音頻,濾去背景噪聲、非人聲、無效人聲,再利用聲道長度歸一化(Vocal Tract Length Normalization,VTLN)技術[2],逐句提取語言特征部分。語言特征提取完成后,將特征段落上傳至加權有限狀態轉換器解碼系統(Weighted Finite-State Transducers,WFST)。該系統根據大量數據訓練后的AI 聲學模型和語義模型,采用靜態搜索空間算法,將一些明顯的拼音搭配在語義通順的基礎上確定下來,并為語音的識別按照場景分配權重,最終輸出多達10 條的識別結果,供人工比對和選擇。經過測試,在現場實時收音識別過程中,該系統的準確率在85%以上;針對主持人獨白、朗讀和大型節目的錄制聲源識別,該系統的準確率識別達到95%以上。系統所提供的識別建議均能覆蓋源音頻的人工識別結果。
將采集端接入AI 平臺后,對純視頻部分的文字識讀改為結合算法的OCR 文字識別。OCR 技術主要應用于兩部分:其一是視頻的前處理階段,即視頻中的區域性文字識別;其二是視頻的后處理階段,即已經制作成節目后的字幕識別。二者的技術原理相同。人臉識別則利用人臉建立統一的五官坐標,并采集視頻中的數值特征進行人物庫的智能匹配,給出人臉相似的可能程度。
2.2.1 基于智能OCR 技術的視頻文字處理和字幕識別
智能OCR 技術框架分布于采集端和服務端。采集端負責文本的檢測與文字區域的抓取,服務端則負責需要大量GPU 算力的文字識別。
在采集端,基于圖像的分割算法,視頻被逐幀檢測是否存在文字區域。每一幀圖像中的符合特征的像素點被進行算法檢測,識別其是否屬于背景中的文字或獨立文字,再通過連通域算法,逐層擴張,抓取文字所在的矩形區域(有時是不規則多邊形)。當一個項目的區域抓取完成后,采集端對抓取區域中的文字像素點進行裁剪,將裁剪后的結果回傳至服務端。
在服務端,利用集成的經過中文數據集、合成字庫集等訓練成熟的循環卷積神經網絡(Convolutional Recurrent Neural Network,CRNN)算法模型[3],排除文字模糊、扭曲、形變等干擾,分析得出準確的文字。在視頻前處理應用場景下,得出的文字可以用來規避敏感詞、排除無效幀和定位Program 中各Story 的出入節點。在視頻的后處理應用場景下,采集端整合多條字幕,將各字幕幀去重,組合并識別出段落文字,生成對文字內容的分析結果。
2.2.2 基于坐標算法、特征提取和人物庫比對的智能人臉識別
人臉識別主要用于識別新聞視頻素材包含的大量人臉信息,根據人臉信息準確判斷人物身份、人物信息。在智能媒資系統的設計思路中,引入AI的作用是利用算法找出人物五官的關鍵點,并對提取出的特征數值串進行智能比對,并實時擴充人物比對庫。
這一過程的主要邏輯如下。首先,在算法模型中設立一個對人臉五官坐標的判定基準,即不同的人臉在統一模型中的五官數值計算坐標系。人的面部不同,識別出的五官數據是不同的。這些數據在統一的計算體系內就有了提取特征的依據。其次,采集端在識別出的人臉幀中應用這一算法,給出一組代表人臉五官特征的獨一數值串。這一數值串中的數值可能代表人物五官相對于基準人臉的偏斜、縮放、移位等參數。最后,這些參數回傳至服務端后,服務端將這些特征數值串與已經組建好的人物庫進行比對,依照相似度給出與其最相似的人物信息。
該系統所提供的融媒體類人物庫,目前已有2 000 多名重要人物,包括政治敏感人物、落馬官員、失德藝人等。在允許算法結合大數據實時補充人物對比庫的同時,開放對使用者的權限,管理員后期可以通過媒資系統對該庫的人物資料進行管理、刪改及豐富條目等操作。
在媒資智能入庫部分,除了調用前文2.1、2.2章節所述的語音識別和視頻內容識別外,在使用這些AI 技術識別出的文本、語音資源的基礎上,媒資管理系統中預置的自然語言處理(Natural Language Processing,NLP)引擎,能夠快速轉譯文本,對文本中的語言性質進行識讀、提取關鍵詞,將這些關鍵詞按照新聞常用的特征標簽(包括時間、場景、人物、地點等)進行分類。對于不同的標簽,還可以依據提取轉譯出的文本內容智能地生成摘要,供檢索者預覽。當標簽達到一定數量時,NLP 引擎進一步細分素材內容[4],對碎片資料進行深度清洗,結合算法吸收的互聯網新內容,生成新的關鍵詞和標簽,保證標簽檢索的精準程度。與傳統的入庫方式相比,智能媒資管理系統對數據的整理方式,為最大化實現素材的檢索、傳輸和復用提供了先決條件。
在標簽多元化的基礎上,媒資管理系統提供媒資百科和知識圖譜,進一步優化媒資檢索的工作效率。本地檢索媒資后,將以標簽和文本檢索快捷生成檢索結果,引入AI 大數據分析后,檢索結果更加人性化。在用戶檢索本地媒資的同時,系統將檢索內容和結果上傳至服務端交由AI 分析[5],根據大數據所展示的標簽關聯性,實時提供更多可選的搜索標簽建議,或提供在線版權媒資以供使用。
回顧磐安縣的融媒體智能媒資系統建設方案,其引入了AI 技術平臺,憑借本地采集端和云上服務端的雙端優化,完成了在音頻、視頻、文字識讀功能上的AI 智能化,同時在媒資管理上發力,引入NLP 技術,對既有的媒資管理方式進行了革新。在看到AI 智能技術在融媒體平臺的建設和發展中所扮演的突出角色的同時,融媒體平臺的建設者也應注意甄別技術的可行性和適配性,規避技術風險,合理控制成本,做到有的放矢,不斷深化AI 智能技術與融媒體工作的結合程度,積極推進大數據時代的融媒體數字化轉型。