蔣曉宋
(湖南廣播電視網絡傳輸中心,湖南 長沙 410003)
隨著廣播電視技術的發展,傳統電視正在向媒體融合、終端移動、質量高清等方向轉變,播出平臺、傳播路徑和接收方式已越來越多樣化。作為行業監管部門,如何把控各個環節廣播電視的安全播出,確保正確的政治方向和輿論導向,堅決守好新聞宣傳主陣地,已成為行業都在思考和探索的問題。目前,廣播電視行業各級別的監管系統都收錄了大量的節目數據,但對電視節目內容的監聽監看主要還是依靠人工進行,由于圖像數據量大(一個省級監管平臺節目數據的大小都是PB級別以上),人工處理不僅效率低,有些任務還根本無法完成;有的監管平臺雖然也利用了計算機輔助處理,但在海量、毫無規則的數據面前,根本沒有發揮太大的優勢。而作為宣傳管理部門重點關注的電視新聞類節目,一般普通話質量好,內容精煉,圖像畫面特征明顯,有一定的規律可循,如能利用大數據、人工智能(Artificial Intelligence,AI)等技術,將給計算機的自動處理提供可行性,從而大大提高廣播電視節目監聽監看的效率。
人工智能電視新聞節目監管系統由節目存儲系統、業務支撐服務系統和業務應用系統組成[1]。其處理的節目既可以是實時節目,也可以是錄制節目,還可以使用其他已建好的監管平臺中的節目。系統功能組成如圖1所示。

圖1 人工智能電視新聞節目監管系統功能框圖
存儲系統主要用來存儲節目信息、關鍵詞庫和應用數據信息等,其中大部分用于系統處理后需長時間保存的節目信息[2]。業務支撐服務系統包括視頻拆條、圖像識別、文字識別、關鍵詞提取等功能,其主要作用是對節目存儲系統中需處理的新聞節目進行分段,基于電視節目的視頻特征、音頻特征、文本特征、壓縮域特征等,采用新聞標題板檢測、關鍵人物畫面檢測、節目場景變換檢測、語音識別、新聞標題板字幕識別等AI處理技術,對新聞節目進行結構化分析,有效識別新聞節目的轉場時間點,然后采用節目分割技術將連續的節目流分割為具有特定語義的多個小視頻,并自動將節目語音識別為文本,自動識別新聞標題板中的字幕等,實現新聞節目的碎片化處理,以便于后續的數據檢索與分析[3]。業務應用系統由任務管理、系統管理、節目管理、專題管理、統計報表及人工檢驗等模塊組成,主要完成人機對話功能,實現人工對系統的規則設置。系統完成任務后輸出展示監管結果,同時還可對監管系統中產生的錯誤進行人工修正和關鍵詞增減等。
湖南省廣播電視監管系統利用已有的監管平臺的實時節目流作為信號源,系統按人工設定的監測時間段,每天自動對35套節目中的當地新聞內容進行數據分析。用戶通過客戶端/服務器(Client/Server,C/S)端和瀏覽器/服務器(Browser/Server,B/S)端靈活操作,可以實現節目內容快速定位、快捷監看、智能識別提示、內容標注、剪輯合成、內容下載及錄像編目等功能[4]。具體應用場景如圖2所示。

圖2 應用場景案例
節目通過系統處理后,新聞節目將自動從片段層進行分段,自動提取新聞標題、自動將所有語音識別成文字,并根據識別的文字生成該段新聞的關鍵詞,同時還對該段新聞的進出點進行標識,以便于用戶快速定位監看。系統提供人工審核功能,可以對機器自動生成的信息進行人工核對修正,如對關鍵詞、生成的文字錯誤的校正,分段錯誤時進行剪輯合成等。用戶使用系統時,可按時間、關鍵詞等搜索新聞條目進行內容的監聽監看,可下載每條新聞識別出的文字信息,以便節目評議時使用[5]。系統具有多維度的統計功能,可按頻道統計一個時間周期里所有新聞的播放條數,按關鍵詞統計播放次數,按新聞類型(如領導動態、鄉村振興、疫情防控等)進行統計等,以便為監評簡報的快速生成提供數據服務。系統還有重點人物識別功能,利用人臉識別技術,可自動識別節目畫面中的重點人物,將該人物姓名作為新聞片段的關鍵詞之一,并對重點人物出現的時間、持續時長自動進行標注[6]。
人工智能電視新聞節目監管系統要實現節目的檢索和統計功能,直接在音視頻流上處理顯然無法完成,這需要將音視頻流變成與文字關聯的信息,然后通過處理文字信息來實現目標。因此,就需要對新聞節目進行拆條,對語音進行文字轉換,對文字進行關鍵詞提取,然后將這些信息按對應的關系分門別類保存,并與關鍵詞建立索引,以便統計查詢,所用到的關鍵技術主要有視頻拆條、新聞標題提取和關鍵詞生成技術。
視頻拆條技術主要是基于動態特征識別,如對視頻關鍵幀、場景、字幕、人臉等元素的分析,通過鏡頭變換檢測技術、字幕提取技術等進行自動拆分。在視頻中用同一攝像機進行連續不間斷拍攝的一段視頻內容稱為一個境頭,同一鏡頭中的兩相鄰幀的運動、顏色和灰度級不會有太大變化[7]。鏡頭變換檢測技術就是通過對視頻境頭切換情況的分析,依據鏡頭組織和特征索引,采用視頻聚類等方法研究鏡頭邊界之間的關系。該技術的主要研究內容包括關鍵幀的提取、圖像特征的描述、相似度計算、聚類算法的設計以及自適應閾值的確定等。利用字幕提取技術拆條主要是根據字幕或標題的自動識別,當字幕和標題內容出現變化時,判斷節目內容變化,同樣利用人臉、場景等元素進行綜合分析判斷,從而實現精準視頻拆條。
新聞標題提取就是通過圖像和文字自動識別技術,從新聞視頻流中提取新聞標題內容,并支持對主標題和副標題進行區分。在電視新聞類節目中,標題字幕基本都有一些相似的特點,如標題字幕在畫面中顯示的位置、大小限定的范圍、排列方式、顯示時長、使用的字體、字幕背景等。利用這些特征進行分析,可有效地降低新聞標題提取的難度,提高識別的準確性。在新聞標題提取過程中,首先從動態的視頻流中提取關鍵幀確定為需要處理的靜態圖片,然后對靜態圖片進行邊緣檢測、字幕區域檢測等,確定只含有新聞標題字幕的圖片,最后將圖片進行OCR識別,從而得到可編輯的新聞標題文字。
關鍵詞的生成包括從新聞標題中生成和從該段新聞播報的內容中生成,利用它可方便快速地檢索到目標數據。在實現過程中,首先要利用語音識別技術,將新聞播報的內容自動轉換成文字。目前該技術相對成熟,特別是對新聞節目而言,因播音質量高,市場上主流產品的識別準確率基本都能達到90%以上。之后,從識別出來的文字中自動提取關鍵詞。
廣播電視監管系統中數據量龐大,利用大數據和人工智能技術進行信息處理,既提高了監管效能,又緊跟了科技時代的發展步伐,還符合智慧廣電、智慧監管體系的行業政策要求,具有很強的現實意義。但在一些實際應用中,由于涉及到數據挖掘、圖文處理、信息檢索等很多計算機前沿領域技術,所以有些實現方法、算法還有待進一步優化,監測的準確性也有待進一步提高。行業在新業態和新應用中,應注意充分利用廣播電視產業鏈中不同環節功能特長的優勢,以及互聯網中大數據處理的優勢,取長補短,合理整合資源,真正形成智能、共享、可復制的廣播電視監管體系。