李雨柯
(作者單位:貴州省廣播電視監測中心)
語音識別技術可以轉換輸入系統中的聲音信號,使其轉換為文字形式或預設的命令,語音識別技術使人們不用借助鼠標、鍵盤等設備而通過語音進行命令輸出,可以更加便捷高效地開展各項工作。語音識別技術自20世紀開始研發,目前發展應用已經非常成熟,再加上計算機技術的發展,語音識別技術的應用更加普及。語音識別技術中的核心內容是針對語音信號利用動態規劃技術和線性預測分析技術進行模型問題解決。
語音識別技術的主要識別方法包括4個方面。第一是基于聲學和語言學的識別方法,目前這一方法的普及程度仍然有限。第二是隨機模型法,其相關技術的發展已經較為成熟,因而實踐應用也比較廣泛。隨機模型法在語音識別過程中的主要流程包括特征提取、模塊訓練和分類、模塊判斷等,涉及矢量量化技術、動態時間規整技術等。其中,馬爾可夫模型算法具有顯著的優質性和簡便性,語音識別效果更加理想,在語音識別系統中具有極為廣泛的應用。第三是神經網絡識別方法,是一種新興技術,可以模擬人類神經活動,且具有一定的人類特性,包括自動適應、自主學習等,在映射能力和歸類能力方面具有優異的表現。實踐應用過程中,通過對傳統方法和神經網絡識別方法的靈活融合,能夠有效彌補兩種方法的不足,令語音識別功能具有更高的效率。第四是概率語音分析識別方法,通過應用這一技術,可以對較長的語音內容進行識別,具有語言特征區分能力,也可以對多層次問題加以解決。但是,在運用這一識別方法時,必須建立具有有效性和適應性的知識系統,如圖1所示。

圖1 語音識別系統整體架構
第一,語音識別主要包括命令和識別兩種工作模式。根據工作模式的不同,要使用針對性的程序,進而有效實現語音識別功能。命令模式的實現需要程序員先進行詞典編寫,然后再編程,還要基于語音詞典進行修訂處理。識別模式的原理是在后臺中由引擎系統創造詞庫及識別模塊庫,實踐應用過程中不用再對識別語法進行任何改動,只要改寫識別引擎的主程序源代碼就能夠實現語音識別功能。相較而言,命令模式和識別模式最大的差異在于命令模式中程序員要基于詞典內容對代碼進行修改核對。第二,設置語音識別環境。語音識別程序環境設置內容具體包括采集并設定計算機電信集成(Computer Telecommunication Integration,CTI)服務器硬件的默認參數、初始化硬件采集卡、設置引擎端口等內容[1]。CTI技術是識別環境設置過程中的核心技術環節,對語音采集系統進行初始化操作時,是否有語音錄入系統中可以作為判斷工作是否啟動的重要標準,在對語音內容進行采集和輸出時,主要是利用語音卡進行相關工作。語音卡的操作使用非常簡便,只需要將其中的板卡打開并將參數輸入其中,就可以正常運行作業。引擎端口的設置過程中,因為語音開發平臺中已經設置有應用程序編程接口函數,因此只要對其進行調用和復制即可。第三,對語音詞典進行編譯,具體內容包括語音模板、語音識別規則、語法等內容的制定,實際工作開展中要先設置語音識別核心包,然后根據個人編譯語言標準進行字典設置。第四,主程序編制識別。通過編寫主程序交互界面,令使用者和電腦之間能夠實現交互操作。
通過分析語音的生理與物理屬性,語音識別技術能夠對語音內容完成判斷識別。但是,由于說話人在表達習慣、發音及方言等方面均具有較大的差異性,內容識別的難度較高,為有效克服這一不足,逐漸發展出了聲紋識別技術。在應用聲紋識別時,需要利用詞語區分、詞性標記及語境理解等,令聲紋和語義模型、語法模型具有較高的相符性,實現對語音內容的精準判斷,處理過程也具有一定的煩瑣性[2]。
聲紋識別技術能夠對說話人的具體身份進行明確判斷,識別過程對語音波形進行結合分析,匹配說話人行為特點和語音狀態。聲紋識別技術的應用基礎是語音信號,然后根據每個人發音的特征對其個性進行判斷,并進行身份對應識別。從生物學角度來看,聲紋識別和指紋識別具有一定的相通性,均屬于生物因子的認證范圍。兩者不同之處在于聲紋識別是基于說話人的特征進行準確判斷,而指紋識別則是基于指紋的獨特性進行身份判斷。
語種識別是對語音材料中的語種特征進行分析判斷,具體應用過程是將電腦中的語音材料提取錄入語種識別系統,然后進行識別判斷。智能翻譯技術和語音內容識別技術是從語種識別技術發展而來的,通過對比語音標準模型,就能夠對某個人的語音材料完成語音狀態分析,并對語音中的不標準發音進行抓取標識[3]。
借助電視、手機等諸多載體,語音識別技術已經在社會生活中實現了非常廣泛的運用,例如,使用手機及內部相關軟件程序,就能夠對語音內容進行識別并轉換成文字內容,或者對手機用戶的語音指令進行有效執行。在多路自動語音識別方面,應用監測服務器集群和資源處理技術就能夠令實時監聽多路電視節目內容的能力實現指數級增長。實時監測過程中,各路電視節目都會轉換成相應的文本內容單獨輸出。對于當下十分火爆的網絡視聽節目,相關部門可以要求其必須在接入語音識別功能后才能入網發布,在此基礎上,實時向監測監管機構發送針對視聽節目的監聽文本內容。智能語義分析系統僅需要通過對各路節目傳輸的文本內容做監測分析,即可實現預期監控監測目標。其應用優勢在于相較視頻流處理分析,不會造成過大的硬件資源壓力,僅需要消耗極少的資源,就能夠將網絡平臺上的所有視聽節目資源納入實時監控監測范圍[4](見圖2)。

圖2 語音識別分析監管流程圖
廣播電視與網絡視聽節目大多都是在專業錄像或錄音間進行錄音和配音工作,且均配置有專業的主持人或主播,其普通話非常標準。語音資源中的環境噪聲非常小,且說話人的發音大都非常標準,語音識別系統可以獲取更高質量的語音資源。使用專業設備就可以將聲音軌道分離,從而令處于監控監測范圍內的電視節目與網絡視聽節目源在語音識別和文字轉化方面具有更高的準確率,使后續分析工作和監測工作的開展更加科學、可靠[5]。
電視節目中的內容非常多樣化,且隨著全球化發展進度的不斷推進,電視節目中經常會播放世界各地的音視頻內容,其中包含多種類型的語言。針對這一電視節目的發展現狀,語音特征值提取與圖像識別很難發揮應有的作用,監測監管過程中,不管是應用監測技術或人工識別,均很難對電視節目中的有害信息實現高效辨別。但是,通過利用多語言混合識別技術,在系統中加入其他語種聲學模型,就可以在監測電視節目時實現有效的文本輸出與語義智能分析,大大降低了廣播電視監測工作中的人力投入和成本。
作為傳播意識形態的重要載體,相比其他傳播載體,語言占據著不可撼動的重要地位。在針對視頻內容或圖片內容進行監測分析時,語音識別和畫面監測技術的單獨應用,在識別違規違法事件及輿論導向方面仍具有較為明顯的局限性。但是,通過應用智能文本語義分析技術,能夠開展同形、同音及同義等多方面變形分析,并自動檢索網絡新詞,識別新興網絡用語,對各類潛在危險信息和變形信息進行有效識別與預警。智能文本語義分析系統通過對神經網絡算法的運用,持續性進行違規案例學習訓練,不斷更新案例資源庫,計算機系統在理解越來越多樣化的語言表述形式方面的能力也在持續提高,能夠對文本信息中的主要思想內容與內在邏輯進行精準分析,從而更加高效精確地對違規信息進行識別。
首先是信號解調設備,主要由調幅廣播解調器、調頻廣播解調器及有線電視解調器構成。對檢測信號源中的特定頻率調幅或調頻廣播信號進行解調,使其轉變為普通音頻的信號,并傳輸到信號收集站中進行音頻錄音。其次是信號預處理設備,為進一步提高信號判斷水平,采用信號預處理設備分析音頻信號,基于分析結果,利用信號處理器進行音頻信號的失真修正、噪聲消除等處理,使其成為可用于后續環節的信號源文件。再次是多路信號收集站。針對特定頻道傳輸而來的視頻信號,有線電視解調器能夠將其中的伴音和視頻解調為模擬音頻與視頻信號,然后將其傳輸到信號收集站中進行統一記錄。一方面,根據檢測頻道的具體數量,可以靈活調整有線電視解調器的數量,另一方面,信號收集站可以同時進行廣播音頻和電視信號的接收,并對信號進行搜集、壓縮和儲存。信號搜集站主要分為電視信號搜集站和廣播信號搜集站兩種。以廣播信號搜集站為例,可以同時采錄多路廣播信號,各路信號音量光柱也可以實時呈現在采錄頁面上,工作人員還可以根據各路信號的具體情況,使用軟調音臺對信號大小進行控制。廣播信號搜集站中裝有監聽按鈕,可以對各路輸入信號進行實時監控。廣播信號收集站能夠對獲取的廣播音頻信號進行實時壓縮和實時監聽,一旦出現信號異常問題,系統就會自動報警,避免發生錄音內容丟失等問題。最后是視頻信號采集站。電視信號收集站可以采錄8路電視內容信號,而視頻信號采集站可以實時復合電視節目音頻信號碼流,使用動態圖像壓縮算法國際標準壓縮格式進行采錄。根據不同頻道節目的播出時間,可以獨立設計其采錄的時間。
語音識別技術在各行業中的應用范圍日益擴大,且識別準確性也顯著提高,隨著廣播電視監管行業要求日益嚴格,內容監管中語音識別技術的應用有利于節目搜索速度的大大提升,減輕相關人員工作壓力。在不斷深入有效應用語音識別技術的過程中,要加強校正工作,避免出現偏差問題,從而令廣播電視監控監測工作切實發揮預期作用。