語音識別技術(shù)在慕課學習平臺的應用探究

2022-05-30 12:21:50季莉

電腦知識與技術(shù) 2022年22期

關(guān)鍵詞：人工智能

季莉

摘要：慕課學習平臺的建設與應用正蓬勃發(fā)展，目前海量的視頻學習資源只能按照學校名稱或課程名稱去搜索，學習者很難精準快速定位到具體知識技能點的講課視頻。基于語音識別技術(shù)來解決慕課學習中的痛點問題，幫助學習者快速精準搜索到目標視頻，從而獲得更好的學習體驗，進一步提升教育資源的價值，是人工智能技術(shù)在慕課平臺的創(chuàng)新應用。

關(guān)鍵詞：語音識別;慕課平臺;人工智能

中圖分類號：G43? ? ? 文獻標識碼：A

文章編號：1009-3044（2022）22-0058-02

人工智能的熱潮席卷全球，也正深度影響著教育行業(yè)。2018年，教育部發(fā)布了《高等學校人工智能創(chuàng)新行動計劃》，從高等教育領域推動落實人工智能發(fā)展;2019年2月，《中國教育現(xiàn)代化2035》發(fā)布，提出新一代智能技術(shù)要融合傳統(tǒng)教學，統(tǒng)籌建設一體化智能化教學、管理與服務平臺，打造智能化校園，推動和促進人才培養(yǎng)模式改革。

同時期，我國的在線課程建設與應用正蓬勃發(fā)展，學習平臺不斷涌現(xiàn)、課程數(shù)量不斷增加、學習者規(guī)模越來越大。截至2020年3月，我國共2.3萬余門慕課上線，學習人次達3.8億，超過1億人次獲得慕課學分[1]。學術(shù)上關(guān)于慕課的研究成果豐富、熱點多元，研究多集中在混合教學模式、高等教育影響、信息素養(yǎng)教育、商業(yè)模式、困境與對策、可視化分析等角度[2]，而關(guān)于人工智能技術(shù)在慕課應用的論文，卻明顯數(shù)量較少，研究不足。本文從語音識別技術(shù)的角度，探索提升慕課深度應用的新途徑。

1 慕課學習資源精準搜索的困境

慕課突破傳統(tǒng)教育的時空界限，聚集海量名師名課，共享優(yōu)質(zhì)教學資源，極大地豐富了學習者的選擇性。目前慕課的學習平臺資源的搜索方式，基本按照學校名稱、專業(yè)名稱或者具體課程名稱，則能得到精準的回應，這種搜索方式適合學習者系統(tǒng)地學習一門課程;但是如果學習者想從海量視頻資源中迅速找到某個具體知識技能點，則往往無法得到精準的回應，甚至沒有返回結(jié)果，而現(xiàn)實中，無論是復習考試或者是求職工作，確實存在著大量的學習者急需要快速搜索到精準講解視頻的需求。

如何從繁雜的視頻數(shù)據(jù)庫中檢索出人們感興趣的視頻，一直是信息時代的難題。傳統(tǒng)的依靠手工標注的基于文本的視頻檢索，已經(jīng)無力應對如今海量的數(shù)據(jù);近年來，基于內(nèi)容的視頻檢索也應運而生，但該技術(shù)依據(jù)的是顏色、大小、形狀、紋理等視頻的底層特征[3];隨著深度學習技術(shù)的發(fā)展，視頻檢索往高層特征的深度學習發(fā)展，可以解決依據(jù)一段視頻在海量數(shù)據(jù)庫中檢索出相似視頻的需求[4]。然而，上述解決方案都無法解決本文提到的問題。

2 語音識別技術(shù)在慕課學習平臺的應用方案

語音識別是利用機器設備接收和理解人類語言的交叉學科應用技術(shù)，涉及語言學、計算機科學、心理學和信號處理等眾多領域，是實現(xiàn)人機交互的關(guān)鍵性技術(shù)[5]。近年來由于人工智能方向上的進步，語音識別取得了突破性的發(fā)展，在智能家居、聲控語音撥號系統(tǒng)、醫(yī)藥衛(wèi)生、教育培訓等各個領域進入實用化階段[6-7]。本文研究和關(guān)注基于語音識別技術(shù)來解決慕課學習中的痛點問題，幫助學習者既能快速精準搜索到目標視頻，而背后又無須耗費大量人力做支持，從而獲得更好的用戶體驗，進一步提升平臺的價值。

在慕課學習平臺中增加語音識別功能，不更改原慕課平臺的主體，以節(jié)省開發(fā)成本、降低風險。應用方案架構(gòu)圖如圖1所示，具體流程包括：

首先，進行語音識別的語音來自慕課平臺上現(xiàn)存的講課視頻以及智慧教室形成的上課實錄語音流，其中視頻文件需要抽取語音流，形成語音庫;

然后，語音識別前需要對語音做一定的處理，包括降噪、設置比如采樣率及聲道等參數(shù)、轉(zhuǎn)換文件壓縮格式等，否則會影響語音識別率。語音識別引擎有兩大模塊：聲學模型和語言模型。聲學模型就是用語音訓練集來進行訓練學習語音;語言模型就是通過對文本訓練集的反復訓練和迭加優(yōu)化，來刻畫文本和文本之間的概率權(quán)重。這兩個模塊合起來執(zhí)行就能得到識別結(jié)果。

最后，識別的授課語音形成文檔返回。而關(guān)于文檔的搜索技術(shù)則已經(jīng)非常成熟，這樣，學習者就解決了如何從浩如煙海的慕課視頻，快速搜索定位到具體知識技能點課件的難題。

3 關(guān)鍵問題及擬采取的解決措施

3.1 抽取慕課視頻中的語音流數(shù)據(jù)

慕課平臺的老師講課視頻多采用MP4（mp4，m4a，m4v，f4v，f4a，m4b，m4r，f4b，mov）或者WMV （wmv， wma， asf*）等格式，常用的音頻格式則有MP3、WMA、AAC等格式，具體要講視頻抽取轉(zhuǎn)換成哪種音頻格式取決于下一步語音識別模塊中支持的格式。

MoviePy是一個用于視頻編輯的Python庫，可以實現(xiàn)切割、拼接、標題插入、視頻合成、視頻處理和自定義效果的創(chuàng)造。安裝Moviepy庫，運用VideoFileClip函數(shù)讀取MP4視頻，然后提取音頻并輸出，即可以實現(xiàn)從教師的講課視頻中抽取語音流數(shù)據(jù)的功能。

3.2 使用語音識別模型識別語音流數(shù)據(jù)

使用語音模型識別語音流數(shù)據(jù)，該系統(tǒng)通常由語音信號預處理、語音特征提取、聲學模型、語言模型和語音搜索解碼算法構(gòu)成[8]，最終目標是將一段語音信號轉(zhuǎn)換為輸出的文本文字。語音識別模塊技術(shù)要求較高，可以借助第三方云AI。目前公開的云AI有微軟的Azure Machine Learning或IBM的IBM Bluemix、亞馬遜網(wǎng)站服務的Amazon Machine Learing等海外公司產(chǎn)品，以及百度AI、騰訊AI等國內(nèi)產(chǎn)品。比如在百度AI注冊后建立應用并記錄對應的API_KEY和SECRET_KEY，作為調(diào)用API（Application Programming Interface，簡稱API）的身份憑識。根據(jù)音頻url、音頻格式、語言id以及采樣率等參數(shù)創(chuàng)建音頻轉(zhuǎn)寫任務。創(chuàng)建成功后，音頻會開始進行語音轉(zhuǎn)寫任務，再通過查詢結(jié)果接口進行結(jié)果查詢，獲得識別結(jié)果。

首先是創(chuàng)建賬號及應用，獲取AppID、API Key、Secret Key，并通過請求鑒權(quán)接口換取 token，主要代碼如下。

grant_type = "client_credentials"

client_id = "API Key"

client_secret = "Secret Key"? ? ? ? ? ? ? ? ? ? ? ? ? ?# 創(chuàng)建應用所獲取的API Key、Secret Key

url='https：//openapi.baidu.com/oauth/2.0/token？grant_type=client_credentials&client_id={}&client_secret={}'.format（client_id， client_secret）

res = requests.post（url）

token = json.loads（res.text）["access_token"]

print（token）? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? # 獲取token

然后是音頻文件轉(zhuǎn)碼，需要將抽取到的音頻轉(zhuǎn)成符合語音識別模塊輸入要求格式的音頻。百度語音支持pcm、wav、amr、m4a格式，音頻參數(shù)為單聲道、16000的采樣率以及16bits編碼。最后是創(chuàng)建識別請求，通過POST方式提交音頻，返回識別結(jié)果。

headers = {'Content-Type'： 'application/json'}? ?# 固定頭部

url = "https：//vop.baidu.com/server_api"

data = {

"format"："pcm"，

"rate"： 16000，

"dev_pid"： 1537，

"speech"： speech，

"cuid"： CUID，

"len"： size，

"channel"： 1，

"token"： token，

}? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?# 語音數(shù)據(jù)JSON格式參數(shù)

req = requests.post（url， json.dumps（data）， headers）? ? ? ? ? ?# 通過post方式提交音頻

result = json.loads（req.text）

return result["result"][0][：-1]? ? ? ? ? # 返回識別結(jié)果

4 測試與結(jié)論

邀請14位老師，其中男性7位，女性7位，年齡為26～60歲，口齒清晰，發(fā)音流利。通過佩戴收音耳麥在授課環(huán)境下錄音，語音信號以16bit量化的16KHZ采樣，形成語音文件。

為簡化測試，將每堂課的授課錄音選取約5分鐘作為測試語音。授課老師整理各自的授課實錄形成人工文本文件。語音文件和人工文本文件一一對應，以便后續(xù)作比對處理。創(chuàng)建應用，將測試語音文件上傳，調(diào)用接口進行測試。譬如選擇某段中國文化課堂測試語音，時長為5分10秒，大小為54M，字數(shù)為1188個，測試的識別結(jié)果與人工文本比對后發(fā)現(xiàn)75個錯字，錯字率為6.31%。同樣的方法，將所有學科的授課測試語音做識別比對，得出以下結(jié)論：首先，授課語音識別錯字率在6.21%～8.13%區(qū)間內(nèi)，識別效果可以滿足后續(xù)對某個具體知識技能點的文本搜索;其次，專業(yè)領域的課程語音識別效果略低于通識課程語音，原因主要是核心詞匯的識別率，某些生冷的專業(yè)詞匯不收錄在語音模型詞庫中;最后，授課老師的一些發(fā)音習慣，如吞音、音量過小或過大都會影響識別效果。

后續(xù)進一步提高慕課課堂語音識別正確率的有效途徑是對專業(yè)領域的語言模型實施迭代優(yōu)化，獲得對應領域的訓練文本，動態(tài)更新詞典，反復改進初始語言模型，直到達到滿意的閾值為止。

參考文獻：

[1] 韓筠.在線課程推動高等教育教學創(chuàng)新[J].教育研究，2020，41（8）：22-26.

[2] 黃斌，吳成龍.MOOC的研究現(xiàn)狀、熱點領域與發(fā)展建議——基于CNKI期刊論文的可視化分析[J].成人教育，2021，41（7）：20-26.

[3] Megrhi S，Souidene W，Beghdadi A.Spatio-temporal salient feature extraction for perceptual content based video retrieval[C]//2013 Colour and Visual Computing Symposium （CVCS）.Gjovik，Norway.IEEE，2013：1-7.

[4] 胡志軍，徐勇.基于內(nèi)容的視頻檢索綜述[J].計算機科學，2020，47（1）：117-123.

[5] 程風，翟超，呂志，等.基于語音識別技術(shù)的智能家居主控設計[J].工業(yè)控制計算機，2018，31（5）：29-31.

[6] 戴禮榮，張仕良，黃智穎.基于深度學習的語音識別技術(shù)現(xiàn)狀與展望[J].數(shù)據(jù)采集與處理，2017，32（2）：221-231.

[7] Xiong W，Wu L，Alleva F，et al.The microsoft 2017 conversational speech recognition system[C]//2018 IEEE International Conference on Acoustics，Speech and Signal Processing.Calgary，AB，Canada.IEEE，2018：5934-5938.

[8] 梁靜.基于深度學習的語音識別研究[D].北京：北京郵電大學，2014.

【通聯(lián)編輯：唐一東】