季莉

摘要:慕課學習平臺的建設與應用正蓬勃發(fā)展,目前海量的視頻學習資源只能按照學校名稱或課程名稱去搜索,學習者很難精準快速定位到具體知識技能點的講課視頻。基于語音識別技術(shù)來解決慕課學習中的痛點問題,幫助學習者快速精準搜索到目標視頻,從而獲得更好的學習體驗,進一步提升教育資源的價值,是人工智能技術(shù)在慕課平臺的創(chuàng)新應用。
關(guān)鍵詞:語音識別;慕課平臺;人工智能
中圖分類號:G43? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)22-0058-02
人工智能的熱潮席卷全球,也正深度影響著教育行業(yè)。2018年,教育部發(fā)布了《高等學校人工智能創(chuàng)新行動計劃》,從高等教育領域推動落實人工智能發(fā)展;2019年2月,《中國教育現(xiàn)代化2035》發(fā)布,提出新一代智能技術(shù)要融合傳統(tǒng)教學,統(tǒng)籌建設一體化智能化教學、管理與服務平臺,打造智能化校園,推動和促進人才培養(yǎng)模式改革。
同時期,我國的在線課程建設與應用正蓬勃發(fā)展,學習平臺不斷涌現(xiàn)、課程數(shù)量不斷增加、學習者規(guī)模越來越大。截至2020年3月,我國共2.3萬余門慕課上線,學習人次達3.8億,超過1億人次獲得慕課學分[1]。學術(shù)上關(guān)于慕課的研究成果豐富、熱點多元,研究多集中在混合教學模式、高等教育影響、信息素養(yǎng)教育、商業(yè)模式、困境與對策、可視化分析等角度[2],而關(guān)于人工智能技術(shù)在慕課應用的論文,卻明顯數(shù)量較少,研究不足。本文從語音識別技術(shù)的角度,探索提升慕課深度應用的新途徑。
1 慕課學習資源精準搜索的困境
慕課突破傳統(tǒng)教育的時空界限,聚集海量名師名課,共享優(yōu)質(zhì)教學資源,極大地豐富了學習者的選擇性。目前慕課的學習平臺資源的搜索方式,基本按照學校名稱、專業(yè)名稱或者具體課程名稱,則能得到精準的回應,這種搜索方式適合學習者系統(tǒng)地學習一門課程;但是如果學習者想從海量視頻資源中迅速找到某個具體知識技能點,則往往無法得到精準的回應,甚至沒有返回結(jié)果,而現(xiàn)實中,無論是復習考試或者是求職工作,確實存在著大量的學習者急需要快速搜索到精準講解視頻的需求。
如何從繁雜的視頻數(shù)據(jù)庫中檢索出人們感興趣的視頻,一直是信息時代的難題。傳統(tǒng)的依靠手工標注的基于文本的視頻檢索,已經(jīng)無力應對如今海量的數(shù)據(jù);近年來,基于內(nèi)容的視頻檢索也應運而生,但該技術(shù)依據(jù)的是顏色、大小、形狀、紋理等視頻的底層特征[3];隨著深度學習技術(shù)的發(fā)展,視頻檢索往高層特征的深度學習發(fā)展,可以解決依據(jù)一段視頻在海量數(shù)據(jù)庫中檢索出相似視頻的需求[4]。然而,上述解決方案都無法解決本文提到的問題。
2 語音識別技術(shù)在慕課學習平臺的應用方案
語音識別是利用機器設備接收和理解人類語言的交叉學科應用技術(shù),涉及語言學、計算機科學、心理學和信號處理等眾多領域,是實現(xiàn)人機交互的關(guān)鍵性技術(shù)[5]。近年來由于人工智能方向上的進步,語音識別取得了突破性的發(fā)展,在智能家居、聲控語音撥號系統(tǒng)、醫(yī)藥衛(wèi)生、教育培訓等各個領域進入實用化階段[6-7]。本文研究和關(guān)注基于語音識別技術(shù)來解決慕課學習中的痛點問題,幫助學習者既能快速精準搜索到目標視頻,而背后又無須耗費大量人力做支持,從而獲得更好的用戶體驗,進一步提升平臺的價值。
在慕課學習平臺中增加語音識別功能,不更改原慕課平臺的主體,以節(jié)省開發(fā)成本、降低風險。應用方案架構(gòu)圖如圖1所示,具體流程包括:
首先,進行語音識別的語音來自慕課平臺上現(xiàn)存的講課視頻以及智慧教室形成的上課實錄語音流,其中視頻文件需要抽取語音流,形成語音庫;
然后,語音識別前需要對語音做一定的處理,包括降噪、設置比如采樣率及聲道等參數(shù)、轉(zhuǎn)換文件壓縮格式等,否則會影響語音識別率。語音識別引擎有兩大模塊:聲學模型和語言模型。聲學模型就是用語音訓練集來進行訓練學習語音;語言模型就是通過對文本訓練集的反復訓練和迭加優(yōu)化,來刻畫文本和文本之間的概率權(quán)重。這兩個模塊合起來執(zhí)行就能得到識別結(jié)果。
最后,識別的授課語音形成文檔返回。而關(guān)于文檔的搜索技術(shù)則已經(jīng)非常成熟,這樣,學習者就解決了如何從浩如煙海的慕課視頻,快速搜索定位到具體知識技能點課件的難題。
3 關(guān)鍵問題及擬采取的解決措施
3.1 抽取慕課視頻中的語音流數(shù)據(jù)
慕課平臺的老師講課視頻多采用MP4(mp4,m4a,m4v,f4v,f4a,m4b,m4r,f4b,mov)或者WMV (wmv, wma, asf*)等格式,常用的音頻格式則有MP3、WMA、AAC等格式,具體要講視頻抽取轉(zhuǎn)換成哪種音頻格式取決于下一步語音識別模塊中支持的格式。
MoviePy是一個用于視頻編輯的Python庫,可以實現(xiàn)切割、拼接、標題插入、視頻合成、視頻處理和自定義效果的創(chuàng)造。安裝Moviepy庫,運用VideoFileClip函數(shù)讀取MP4視頻,然后提取音頻并輸出,即可以實現(xiàn)從教師的講課視頻中抽取語音流數(shù)據(jù)的功能。
3.2 使用語音識別模型識別語音流數(shù)據(jù)
使用語音模型識別語音流數(shù)據(jù),該系統(tǒng)通常由語音信號預處理、語音特征提取、聲學模型、語言模型和語音搜索解碼算法構(gòu)成[8],最終目標是將一段語音信號轉(zhuǎn)換為輸出的文本文字。語音識別模塊技術(shù)要求較高,可以借助第三方云AI。目前公開的云AI有微軟的Azure Machine Learning或IBM的IBM Bluemix、亞馬遜網(wǎng)站服務的Amazon Machine Learing等海外公司產(chǎn)品,以及百度AI、騰訊AI等國內(nèi)產(chǎn)品。比如在百度AI注冊后建立應用并記錄對應的API_KEY和SECRET_KEY,作為調(diào)用API(Application Programming Interface,簡稱API) 的身份憑識。根據(jù)音頻url、音頻格式、語言id以及采樣率等參數(shù)創(chuàng)建音頻轉(zhuǎn)寫任務。創(chuàng)建成功后,音頻會開始進行語音轉(zhuǎn)寫任務,再通過查詢結(jié)果接口進行結(jié)果查詢,獲得識別結(jié)果。
首先是創(chuàng)建賬號及應用,獲取AppID、API Key、Secret Key,并通過請求鑒權(quán)接口換取 token,主要代碼如下。
grant_type = "client_credentials"
client_id = "API Key"
client_secret = "Secret Key"? ? ? ? ? ? ? ? ? ? ? ? ? ?# 創(chuàng)建應用所獲取的API Key、Secret Key
url='https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id={}&client_secret={}'.format(client_id, client_secret)
res = requests.post(url)
token = json.loads(res.text)["access_token"]
print(token)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? # 獲取token
然后是音頻文件轉(zhuǎn)碼,需要將抽取到的音頻轉(zhuǎn)成符合語音識別模塊輸入要求格式的音頻。百度語音支持pcm、wav、amr、m4a格式,音頻參數(shù)為單聲道、16000的采樣率以及16bits編碼。最后是創(chuàng)建識別請求,通過POST方式提交音頻,返回識別結(jié)果。
headers = {'Content-Type': 'application/json'}? ?# 固定頭部
url = "https://vop.baidu.com/server_api"
data = {
"format":"pcm",
"rate": 16000,
"dev_pid": 1537,
"speech": speech,
"cuid": CUID,
"len": size,
"channel": 1,
"token": token,
}? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?# 語音數(shù)據(jù)JSON格式參數(shù)
req = requests.post(url, json.dumps(data), headers)? ? ? ? ? ?# 通過post方式提交音頻
result = json.loads(req.text)
return result["result"][0][:-1]? ? ? ? ? # 返回識別結(jié)果
4 測試與結(jié)論
邀請14位老師,其中男性7位,女性7位,年齡為26~60歲,口齒清晰,發(fā)音流利。通過佩戴收音耳麥在授課環(huán)境下錄音,語音信號以16bit量化的16KHZ采樣,形成語音文件。
為簡化測試,將每堂課的授課錄音選取約5分鐘作為測試語音。授課老師整理各自的授課實錄形成人工文本文件。語音文件和人工文本文件一一對應,以便后續(xù)作比對處理。創(chuàng)建應用,將測試語音文件上傳,調(diào)用接口進行測試。譬如選擇某段中國文化課堂測試語音,時長為5分10秒,大小為54M,字數(shù)為1188個,測試的識別結(jié)果與人工文本比對后發(fā)現(xiàn)75個錯字,錯字率為6.31%。同樣的方法,將所有學科的授課測試語音做識別比對,得出以下結(jié)論:首先,授課語音識別錯字率在6.21%~8.13%區(qū)間內(nèi),識別效果可以滿足后續(xù)對某個具體知識技能點的文本搜索;其次,專業(yè)領域的課程語音識別效果略低于通識課程語音,原因主要是核心詞匯的識別率,某些生冷的專業(yè)詞匯不收錄在語音模型詞庫中;最后,授課老師的一些發(fā)音習慣,如吞音、音量過小或過大都會影響識別效果。
后續(xù)進一步提高慕課課堂語音識別正確率的有效途徑是對專業(yè)領域的語言模型實施迭代優(yōu)化,獲得對應領域的訓練文本,動態(tài)更新詞典,反復改進初始語言模型,直到達到滿意的閾值為止。
參考文獻:
[1] 韓筠.在線課程推動高等教育教學創(chuàng)新[J].教育研究,2020,41(8):22-26.
[2] 黃斌,吳成龍.MOOC的研究現(xiàn)狀、熱點領域與發(fā)展建議——基于CNKI期刊論文的可視化分析[J].成人教育,2021,41(7):20-26.
[3] Megrhi S,Souidene W,Beghdadi A.Spatio-temporal salient feature extraction for perceptual content based video retrieval[C]//2013 Colour and Visual Computing Symposium (CVCS).Gjovik,Norway.IEEE,2013:1-7.
[4] 胡志軍,徐勇.基于內(nèi)容的視頻檢索綜述[J].計算機科學,2020,47(1):117-123.
[5] 程風,翟超,呂志,等.基于語音識別技術(shù)的智能家居主控設計[J].工業(yè)控制計算機,2018,31(5):29-31.
[6] 戴禮榮,張仕良,黃智穎.基于深度學習的語音識別技術(shù)現(xiàn)狀與展望[J].數(shù)據(jù)采集與處理,2017,32(2):221-231.
[7] Xiong W,Wu L,Alleva F,et al.The microsoft 2017 conversational speech recognition system[C]//2018 IEEE International Conference on Acoustics,Speech and Signal Processing.Calgary,AB,Canada.IEEE,2018:5934-5938.
[8] 梁靜.基于深度學習的語音識別研究[D].北京:北京郵電大學,2014.
【通聯(lián)編輯:唐一東】