鄭 曄,歐智堅,楊 艇
(1.福建省廣播電視監(jiān)測中心,福州 福建 350001;2.清華大學電子工程系,北京 100086)
福建省廣播電視監(jiān)測中心在福建省廣播電視局的帶領下,結合福建地緣特色和智慧廣電監(jiān)管工作實際,開展了閩南語語音識別在福建智慧廣電監(jiān)管中的應用場景及關鍵技術研究。在前期的研究基礎上,本次將語音識別技術、語音合成技術與自然語言處理技術和目前監(jiān)測中心的廣播電視監(jiān)聽監(jiān)看系統(tǒng)等業(yè)務系統(tǒng)進行了對接,極大地提高監(jiān)測監(jiān)管的效率。
福建省智慧廣電監(jiān)管平臺建設的技術路線,是根據福建省廣播電視監(jiān)測監(jiān)管開展現狀及發(fā)展規(guī)劃,采取由基礎到全面、由部分到整體、由簡單到復雜、由自動到智能的方式,逐步完善監(jiān)管平臺。
福建省智慧廣電監(jiān)管平臺通過統(tǒng)一數據接口,獲取到黑廣播監(jiān)測設備、廣播電視監(jiān)測設備、 IPTV 監(jiān)測設備等各個監(jiān)測監(jiān)管設備采集的音頻文件以及視頻文件。由于閩南語廣播電視節(jié)目中普通存在閩南語和普通話夾雜的情況,利用單一的語音識別技術,無法有效地針對該情況進行識別和分析。本文創(chuàng)新性的使用 VAD、LID 等技術針對閩南語和普通話新聞內容進行識別分析,過程如下:
(1)首先通過接口程序與現有的各個業(yè)務系統(tǒng)進行數據對接。
(2)通過統(tǒng)一的音視頻處理程序將音視頻文件處理為標準的語音識別格式, 16 kHz 16 bit 單聲道的 WAV 文件。由于語音文件中包含大量的靜音、音樂、噪聲等內容,通過利用語音端點檢測( VAD 是Voice Activity Detection 的縮寫)技術,從帶有噪聲的語音中準確的定位出語音的開始和結束點,將整段的音頻文件劃分為多個音頻片段。選用特征 MLER (Modified Low Energy Rate)[1],[2]的分類方法,把音頻信號分成純語音、非純語音、音樂、環(huán)境音和靜音 5類。
(3)將語音類型的音頻片段利用語種識別程序,給定一個待聚類的語音,對其以句子為單位進行切分并轉化為梅爾倒譜,通過x-vector 提取器來提取每個句子的語種特征矢量。使用 Joint Bayesian 算法來對語種特征矢量兩兩進行評分,來計算句子之間的相似度;最終使用層次聚類得到最終的語種識別結果。
(4)通過使用 websocket 協議根據語種信息將音頻片段發(fā)送至對應的語音識別引擎[3],[4]。語音識別引擎通過加載聲學模型、語言模型以及詞典對音頻進行解碼,輸出每個音頻片段對應的文本結果,并結合VAD 分段信息,將各個音頻片段的信息進行匯總整合,形成整段音頻文件的文本結果。
(5)通過關鍵詞文本檢索技術,針對音頻文本結果進行全文檢索,匹配出所有的關鍵詞信息以及開始時間、結束時間;通過中文分詞、詞性標注、專名識別等功能,統(tǒng)計出指定詞性關鍵詞出現的頻率,形成關鍵詞詞云;通過采用基于情感語義的輿情分析技術,針對文本內容進行整理、跟蹤、分析,利用智能標簽、智能聚類、自動垃圾過濾,準確把握網絡熱點事件的脈絡。
(6)通過統(tǒng)一數據接口將音頻內容以及對應的文本結果上傳至黑廣播監(jiān)測系統(tǒng)、廣播電視監(jiān)測系統(tǒng)、 IPTV監(jiān)管系統(tǒng)、網絡視聽新媒體監(jiān)管系統(tǒng)、廣播電視收測系統(tǒng)等各類監(jiān)測監(jiān)管系統(tǒng)。

圖1 智能語音識別技術在福建省智慧廣電監(jiān)管平臺的應用
根據系統(tǒng)建設內容,為使廣播電視監(jiān)測監(jiān)管平臺業(yè)務全面化、數據分析深度化、數據安全保障化,更好地利用各子系統(tǒng)的相關數據,避免資源浪費,實現數據的橫向共享。本系統(tǒng)將廣播電視監(jiān)測監(jiān)管數據流的各層次融合到一起,包括數據源、研判層、應用層、服務層。同時,通過智能語音識別等人工智能技術,實現事件預警、輿情分析、內容違規(guī)報警等功能,總體架構如圖 2所示。

圖2 福建省廣播電視節(jié)目智能語音分析系統(tǒng)框架
(1)數據源。廣播電視監(jiān)聽監(jiān)看的數據源主要包括廣播和電視兩種,通過接口協議獲取廣播電視原始音視頻文件,通過 EPG 分析獲取新聞、訪談類節(jié)目,對原始的音視頻文件進行切割合并形成新聞、訪談類媒資庫。
(2)研判層。基于智能語音識別、語種識別技術、中文分詞、命名實體分析、情感分析等多維輿情分析引擎,并結合輿情知識庫針對媒資庫的音視頻內容的進行聚類分析,形成對應的新聞、人物以及事件分析結果。
(3)應用層。在本層實現數據的處理與展現以及廣播電視內容效果監(jiān)控工作,以完成對廣播電視的監(jiān)測,完成節(jié)目內容的實時監(jiān)測、熱點事件分析統(tǒng)計,實時統(tǒng)計分析。
(4)服務層。用戶交互層主要是將通過研判層的數據結果展現給監(jiān)測人員,輔助業(yè)務人員完成廣播電視監(jiān)測監(jiān)管工作,其主要功能包括:系統(tǒng)預警發(fā)布、人工值班監(jiān)測、大屏數據展示、定制報告。
系統(tǒng)包括電視欄目、廣播欄目、綜合輿情、技術審核、專家評議、綜合檢索、統(tǒng)計報表、系統(tǒng)管理等模塊。以電視欄目為例,左側顯示福建省所有廣播電視頻道以及監(jiān)測的欄目,通過點擊欄目名稱,中間的音視頻播放區(qū)采用 HLS 流媒體技術播放指定的欄目,頁面右側顯示出該欄目的語音識別結果,包含普通話及閩南語。頁面下方左側采用關鍵幀形式能夠快速的針對視頻進行瀏覽,右面下方右側通過自然語言理解獲取該欄目的高頻詞并及詞云的形式進行展現。系統(tǒng)界面如圖3所示。
通過將智能語音識別引擎與廣播電視監(jiān)測監(jiān)管系統(tǒng)對接,在半年的系統(tǒng)試運行期內,系統(tǒng)共針對**個廣播頻道、**個電視頻道進行監(jiān)聽監(jiān)看,通過聲學模型及語言模型的不斷自學習,閩南語識別準確率超過 85%,普通話識別準確率超過 95%。

圖3 福建省廣播電視節(jié)目智能語音分析系統(tǒng)示意圖
系統(tǒng)充分利用了多語種語音識別、知識圖譜等人工智能先進技術,提高了廣播電視監(jiān)聽監(jiān)看審核人員的工作效率,已經成為維護國家安全和社會穩(wěn)定、推進文化改革發(fā)展和提高文化軟實力的重要一環(huán),更是廣播影視深化改革、加快發(fā)展,確保廣播電視內容導向正確和文化安全的重要保障。同時閩南語的智能識別研究也為后續(xù)福州話、閩北方言建甌話等語種的識別研究提供了方向,也可推廣應用至其他小語種識別。