彭長嶺
摘要:伴隨人類社會步入信息化時代,多媒體技術在網絡教學當中應用范圍愈加廣泛,并且,在新冠疫情時期,網絡教學自身優勢得到充分發揮,但是,現階段市面上的線上視頻編輯平臺功能單一,且效率不高。基于此,本文將主要以深度學習為基礎,針對視頻語音提取文本系統的設計與實現展開探討。
關鍵詞:深度學習;音頻語音;文本提取
引言:語音識別技術在過去的幾十年中取得了一定的發展,目前,大部分語音識別是基于在線云服務平臺和電子計算機,嵌入式終端設備采用的離線語音識別技術并不完善,不能滿足移動機器人、聲控機械設備等在離線終端設備語音識別要求。
1研究背景
在線遠程教育市場持續發展,該領域的教育平臺百花齊放,但大多缺乏競爭優勢,傳統視頻解決方案服務平臺功能單一,效率較低,用戶實際操作復雜,在激烈的市場競爭中,視頻語音采集和語音識別功能的開發設計,完成快速的文字轉換,提高課堂教學視頻的質量,無疑將占據有利的地位[1]。功能齊全、操作簡單的視頻、視頻、語音采集,不僅能以高視頻質量吸引學生,也能以優秀的用戶體驗吸引教師,本系統的開發設計,必將推動互聯網科技教育云平臺的快速發展。音視頻語音采集文字系統軟件的首要目標是準確編輯教師教學課堂視頻、視頻和語音。系統軟件智能分為網頁和網站后臺管理。智能管理系統,網頁向教師展示視頻倉庫控制模塊、視頻剪輯控制模塊、視頻編輯控制模塊、語音識別技術控制模塊、審理控制模塊、個人中心控制模塊的功能。
2系統總體架構
系統主要由麥克風、音頻編解碼集成ic、嵌入式CPU、PC四部分組成,麥克風采用MP34DTO1TR規格的MEMS數據麥克風,完成視頻和語音信號的記錄和采集,輸出PDM文件格式的視頻信號數據信號;音頻編解碼集成ic采用WM8994EC超功耗低質保碼解碼集成ic,用于接收麥克風輸出的視頻信號數據信號,解壓后將數據信號編號輸出到嵌入式CPU;嵌入式CPU采用STM32F746NGH6規格的嵌入式MCU,根據集成ic的SAI插座與音頻解碼集成ic連接完成對輸入的音頻數據信息的識別,并將識別結果輸出到串口端口通訊;由于嵌入式服務平臺資源相對有限,無法滿足基于深度神經網絡的聲學材料模型練習的要求,因此使用PC來完成聲學材料模型的練習[2]。
3語音功能實現及算法分析
3.1語音識別實現
在語音識別方面,從動態時間整潔模型,到混合高斯函數-隱馬爾可夫模型,再到使用機器學習的端到端語音識別模型,最終百度搜索開源系統的PaddlePaddle架構被選中,在DeepSpeech2的基礎上開發,選用端到端語音識別技術,應用CTC損失函數,采用雙層CNN、RNN深度神經元網絡模型進行訓練。與傳統的DNN/HMM語音識別相比,有很大的命中率和效率提升[3]。一、svm算法:將視頻和語音數據庫查詢中的音頻特征提取為電子計算機可以識別的空間矢量數據信息,是進行驗尸神經元網絡練習的基礎,在獲取特征時,有兩個常用的狀態參數作為獲取模板的關鍵,即線性預測分析指數(LPCC)和梅爾倒譜指數(MFCC),LPCC的主要概念是通過多個歷史時間和時間信號的線性組合,可以使當前時間數據信號成為可能。MFCC是源自人類聽覺系統研究擴聲功能,它采用同態求解的方法得到音頻數據信號的離散變量傅立葉變換的對數,然后逆變換得到倒譜指數,與MFCC相比,LPCC的完成更容易,響應速度也快,同時,也會對特征解析的信息進行指標值歸一化、預處理等實際操作。其次,聲學材料模型:一個好的優化算法模型可以逼近基礎理論的極限,團隊對語音識別的技術性進行了調研,選取了學術界時尚的識別框架和新穎的工藝,并結合具體的業務流程,改變了訓練集,完成了課堂教學視頻的語音識別系統。
3.2聲學模型訓練與移植
聲學材料模型練習使用Google語音命令數據集作為訓練集,應用Tensorflow架構中標準化的交叉熵損失和adam優化器進行練習。大batch size為100,模型更新20000次迭代,原始學習率為5×10-,前10000次迭代后降為10-4。運動數據信息改善環境噪聲和任意時移可達100ms,以模擬復雜的環境,提高操作系統的可擴展性[4]。使用ARM開發設計的深度神經網絡庫amnn創建DS-CNN神經網絡架構,將聲學材料模型練習得到的各種模型的主要參數鍵入結構的相應部分。之后創建新的嵌入式項目時,可以移植已經進入聲學材料模型主要參數的DS-CNN神經元網絡,就可以移植聲學材料模型。
4系統設計與實現
4.1后臺管理系統
(1)登錄模塊:后臺管理人員輸入賬號和登錄密碼完成信息的實際操作。(2)首頁模塊:在該模塊中,還可以對網站系統日志進行查詢和管理,并根據瀏覽量、用戶總數、用戶在線時間、收入、信息、訂單信息等信息進行查詢和管理等根據比率圖、直方圖、折線統計圖進行數據可視化,簡單明了,提高了管理員對信息的理解。(3)管理信息系統模塊:管理信息系統分為用戶管理方式和人員角色管理方式,審批用戶資料,維護服務平臺一般用戶和VIP會員用戶的資料信息內容。(4)視頻存儲管理模塊:該模塊分為三個模塊:視頻文檔管理、用戶視頻個人收藏、用戶變更歷史時間管理。能夠管理用戶的各種類型的視頻。(5)語音識別管理模塊:網站管理員對用戶的聲音模型進行管理,保證用戶可以在網絡平臺上選擇聲音模型完成語音識別。最后,課程內容視頻基本不變,提高了學生的課堂體驗。(7)審理管理:用戶審理信息的管理。
4.2用戶Web端
(1) 新增用戶注冊控制模塊:門戶服務于教師和客戶。簡單的大數據可視化方式,可以輕松喚起最復雜的操作流程,為用戶帶來簡單合理的管理員賬戶操作流程管理方法。(2)視頻庫控制模塊:視頻庫控制模塊給出了視頻文件格式管理方法功能。客戶還可以進行提交、一鍵下載、刪除視頻文件格式等操作。此外,控制模塊還產生采集、訪問、分類等功能。其他省時省力的功能。(3)進一步提升客戶體驗和工作效率。同時客戶可以返回列表頁面對所有切片進行監管操作流程,實現簡單的xml分析和檢查。(4) 視頻加載控制模塊:視頻加載控制模塊是該方向的重要控制模塊,可以將視頻分片,獲取文字提示和錯誤的音頻集錦。不正確的音頻更改包括兩種方法:文本智能語音系統系統生成和音頻替換。(5)語音識別技術控制模塊:一般的文字轉語音都有非常明顯的機器設備視頻和視頻語音情況。為了更好更快地滿足消費者的感受,新的語音識別技術的使用帶來了多種智能語音系統軟件實物模型供客戶選擇,從而達到更細致、更具體的更換實際效果[5]。(6) 個人中控模塊:客戶還可以在個人中控模塊中查看個人隱私信息的內容。如果遇到問題,可以通過幫助中心綜合服務平臺的助手了解問題。
結語:
本文明確提出了當今視頻編輯服務平臺、整體項目設計、實際語音識別建立方案中存在的一些難點問題,集成k8s和服務網格,完成云端省時省力部署,真正保證語音識別的準確性和效率,實時音文本轉換,多種視頻傳輸文件格式,一鍵切片省時省力,審理信息多元化呈現,用戶數據信息形象可視化、服務平臺助手正確引導提醒,用戶應用方便高效等特點,最終將提升在線教學視頻的質量,推動文教行業大數據、智能化、智能化系統的轉型發展,以全步驟的數據信息聚合和整合,完成高效的數據共享。
參考文獻
[1]姚錦江, 程允權. 基于深度學習的視頻檢索系統設計與實現[J]. 計算機測量與控制, 2019, v.27;No.249(06):237-241.
[2]許業寬, 黃魯. 基于深度學習的嵌入式離線語音識別系統設計[J]. 信息技術與網絡安全, 2019, 38(04):67-70.
[3]張千, 王慶瑋, 張悅,等. 基于深度學習的文本特征提取研究綜述[J]. 計算機技術與發展, 2019(12):61-65.
[4]梁建勝, 溫賀平. 基于深度學習的視頻關鍵幀提取與視頻檢索[J]. 控制工程, 2019, 026(005):965-970.
[5]胡婕, 陶宏才. 基于深度學習的領域問答系統的設計與實現[J]. 成都信息工程大學學報, 2019, 034(003):232-237.