







摘要:隨著人工智能和自然語言處理技術的快速發展,自動口語測評系統在外語教學中發揮著越來越重要的作用。文章旨在設計及實現一個支持多語種的自動口語測評系統,為學習者提供實時、客觀的口語能力反饋,技術上主要通過神經網絡模型(NNM)、語音識別(ASR)、機器學習(ML)等方式實現口語自動評分,通過測試,可實現對英語、日語、俄語、德語、法語、西班牙語、意大利語、韓語的口語自動評測,在測試準確率等方面達到人工專家評分95%的效果,通過該系統的設計應用提高了學習者的學習效率。
關鍵詞:智能語音;自然語言處理;語音識別;多語種;口語評測
中圖分類號:TP391文獻標識碼:A
文章編號:1009-3044(2024)35-0006-04開放科學(資源服務)標識碼(OSID):
0引言
人工智能技術正在引發教育領域的革命性變革,其中智能語音技術對外語學習的影響尤為顯著。各種智能化學習工具的出現,為語言學習者提供了更加便捷、高效和個性化的學習體驗,如AI助教、自適應學習、智能搜題、智能閱卷、外語隨身翻譯等智能化學習工具,對信息獲取方式和外語教學帶來新的沖擊。
智能語音技術包括語音識別(ASR)、語音合成(TTS)、聲紋檢測(VD)等重要內容,其強大的自然對話和交互能力為外語學習領域帶來顯著的影響,其應用在個性化學習體驗、實時反饋和糾錯、沉浸式語言環境、自主學習與互動學習等方面,極大提高了學習效率和學習體驗。
自然語言處理作為人工智能的重要分支,極大地推動了智能語音技術的進步。近年來,隨著深度學習的不斷發展,特別是Transformer模型的應用,顯著提高了語音識別、語音合成等技術的效率和準確性,為自動口語測評系統的發展奠定了技術基礎,極大提高了自然語言處理的效率和準確性。
目前主流的口語測評系統,主要以中文、英語等大語種的測評為主,缺乏對小語種的口語測評即時反饋,其主要局限在于缺乏小語種語料庫和口語測評模型支持,以及相關用戶群體數量有限導致系統開發積極性不高所致。
本文擬通過設計一個多語種自動口語測評系統,實現對小語種的語料上傳、檢測以及進行口語訓練實時檢測和反饋,對口語學習起到即時的練習反饋效果。
1總體設計
1.1需求分析
語言學習者在進行語言學習時,面臨的最大問題就是發音是否準確、語音語調是否標準,如果能隨時隨地進行語言學習,并且在語言訓練時得到獲得及時的反饋和評價,將對外語學習起到積極的促進作用。因此,設計一套自助式口語測評系統,并采用該系統對語言學習過程中的單詞、句子、段落進行發音訓練,將對外語學習起到積極的促進作用。
本系統面向語言學習者,包括語言專業學習者以及對該語言有興趣的其他人員等,主要使用對象是本科生和研究生。本系統包含8個語種,包括英語、日語、俄語、德語、法語、西班牙語、意大利語、韓語,配置難、易、中三種程度學習內容,適應不同水平的學習者。
1.2系統架構
系統采用三級架構體系,包括如下:
表示層:主要指前端界面,用于給用戶提供友好的訪問接口,包括移動端及PC端兩種訪問方式,允許學生朗讀以及答題、寫作文等,支持以文本和音頻的方式上傳練習材料以及口語練習音頻,同時顯示測試結果和反饋。
應用邏輯層:承上啟下,用于負責處理前端請求,執行口語評分算法,并與后端交互、存儲相關數據。
數據訪問層:主要存儲用戶信息、練習音頻、測試結果等數據,用于實現前端頁面與數據庫的交互和訪問,
1.3功能模塊
系統功能模塊具體如表1所示。
1.4系統方案設計
本系統服務端采用本地化部署+云端調用的方式提供服務,面向教師和學生分別提供PC端以及移動端服務。該系統為不同語言背景的學習者提供一個準確、客觀的口語能力評估工具,系統調用語音處理引擎處理多種語言的語音輸入,并對其發音準確性、流利度、語法正確性等多個維度進行評價,評估學生的口語能力,為學習者提供實時反饋,促進其語言能力的提升。
詳細設計如下:
1)語種多樣性:本系統要求能夠支持多種語言,包括不同的發音、語法和詞匯,因此配置特定的語音識別和評估算法。
2)語音識別技術:口語測評系統的核心是語音識別技術,在選擇語音識別引擎時,主要需要考慮其準確性、實時性、多語言支持等因素,涉及音頻處理、特征提取、聲學模型、語言模型等多個方面。
3)語音評分算法:需要制定口語評估標準,這些標準包括發音準確性、語速、語調、語法正確性、詞匯使用等多個方面,評估標準能夠客觀地反映用戶的口語水平。
口語測評系統對用戶的發音、語法、詞匯和流利度等方面進行評分,通過自然語言處理(NLP)技術和機器學習算法實現。在該系統中,使用Transformer神經網絡結構來評估發音質量;使用語法分析器(句法分析器)來檢查語法錯誤;使用詞匯數據庫(WordNet)來評估詞匯豐富度;使用語速、停頓等指標來評估流利度。
4)用戶界面設計:口語測評系統采用友好的用戶界面,以便用戶方便地進行口語練習和查看評分結果。用戶界面應該簡潔明了,易于使用,以提高用戶的學習興趣和效果。在設計用戶界面時,需要提供清晰的操作提示和反饋,以幫助用戶順利完成測試。此外,需要考慮不同語種用戶的閱讀習慣和界面布局。
5)數據收集與分析:為了不斷優化和改進口語測評系統,需要收集練習數據和評分結果,并進行數據分析,以此幫助發現系統的不足之處,以及了解用戶的學習需求和行為特點。此外,還可以利用這些數據進行機器學習模型的訓練和優化。
系統架構具體如圖1所示。
2技術實現
該應用系統開發主要采用以下技術方式,具體如表2所示。
3關鍵技術
3關鍵技術
在口語測評系統中,聲學模型扮演著至關重要的角色,其主要任務是將聲音轉化為可分析的聲學特征,進而用于語音識別和語音分析。在本次口語自動測評設計中,主要采用了Transformer模型,具體如下:
1)高效處理長序列:Transformer模型使用自注意力機制,這使得它能夠高效地處理長序列數據。在口語測評中,輸入的句子可能很長,但Transformer模型仍然能夠準確捕捉其中的關鍵信息。相比于傳統的遞歸神經網絡(RNN),Transformer模型具有更高的并行性和計算效率,這在處理長句子時尤為明顯。
2)上下文感知能力:Transformer模型能夠評測序列中不同位置之間的依賴關系,從而更準確地評估口語表達的準確性,實現上下文感知。
3)豐富的語言知識和模式:Transformer模型通過在大規模語料庫上進行無監督預訓練,可以學習到豐富的語言知識和模式。在口語測評中,這些語言知識和模式有助于模型更準確地理解口語表達,提高評估的準確性。
4)多樣化的評估指標:在口語自動測評中,Trans?former模型可以結合多種評估指標來全面評估口語表達的準確性、流暢性和自然度,模型可以計算口語表達的困惑度(Perplexity)、BLEU值等指標來評估其準確性,還可以通過注意力可視化等方法來深入了解模型在評估過程中的表現。
Transformer處理流程及編碼器結構,具體如圖2和圖3所示。
Transformer模型能夠更準確地評估口語表達的準確性、流暢性和自然度,為口語教學和學習提供有力支持。
3.2線性擬合算法
在該系統設計時,主要使用線性擬合算法,其在口語測評系統中的應用主要包括:
1)聲學特征提取與建模:線性擬合算法可以用于提取和建模語音信號的聲學特征,通過線性預測編碼(LinearPredictiveCoding,LPC)可以提取語音信號的線性預測系數,該系數可以用來表示語音的頻譜特性。這些特征在語音識別和口語測評中都非常有用。
2)發音質量評估:在發音質量評估中,線性擬合算法可以用來建立發音標準與發音樣本之間的線性關系。例如,可以收集一系列發音標準的樣本,并使用線性回歸算法來預測發音樣本的得分。這種方法可以幫助系統快速評估發音的準確性。
3)語速和語調分析:語速和語調是口語表達中的重要因素。線性擬合算法可以用來分析語速和語調的變化趨勢,從而評估口語表達的流暢性和自然度。
3.3專家評分模型校驗
采用多個評分維度,從語音、語調、準確度、流利度、韻律度、連讀準確性等方面進行打分評測,支持字、詞、句、篇章等題型,并返回準確度、流暢度、完整度、聲韻調型等多維度評分。
1)發音準確度:主要考查發音是否標準、清晰,是否符合目標語言的發音規范。這包括元音、輔音的發音準確性,以及單詞和句子的整體發音。
2)流利度:評估語音輸出的流暢程度,包括語速、停頓、重復等因素。流利度好的語音應該具有自然的節奏和韻律,沒有過多的停頓或重復。
3)語調與韻律:考查語音的語調和韻律是否正確。語調包括語音的高低起伏變化,而韻律則包括音節、重音、節奏等因素,這些元素對于語音的自然度和可理解性非常重要。
4)完整度:評估語音是否完整,是否涵蓋了所有要求的內容。這包括單詞、短語、句子等各個層級的完整性。
5)語音清晰度:主要考查語音是否清晰可辨,能否被聽眾準確理解。這與發音準確性密切相關,但更側重語音的整體可識別性。
6)語法正確性:在句子和段落層級上,評估語音中的語法是否正確,包括單詞的使用、句子的結構等方面。
系統評分標準具體如下所示:
總分=n=1M維度n得分×權重
系統評分維度具體如圖4所示。
語音評測的專業性考量對比的是和母語專家評測的一致性,業內通用皮爾森相關系數來反映相關程度的統計量。皮爾森相關系數(Pearsoncorrelationco?efficient)是度量兩個變量X和Y之間線性相關程度的指標,廣泛應用于社會科學、自然科學等多個領域。其范圍在-1到1之間,1表示完全相關,-1表示完全相反,0表示亂序無關,數值越大表示相關度越高。本測評系統在一致性上達到了0.9左右,與母語水平接近度較高。
4其他需考慮的問題
4.1系統集成和擴展
本系統在設計時考慮到其應在不同的操作系統和設備上運行,以確保更多的用戶能夠方便地訪問和使用系統,以便用戶能夠更方便地獲取相關資源。
4.2數據安全和隱私保護
本系統在設計時,為了確保用戶的測試數據得到妥善保護,主要采用RSA加密算法加密賬戶信息等,對于涉及的用戶個人信息,主要采用將靜態脫敏方法進行數據脫敏,避免數據泄露或濫用。
4.3可擴展性和可維護性
本系統在設計時進行了擴展性和維護性考慮,以便在未來添加新的語種或改進功能,確保系統能夠持續滿足用戶的需求。
5系統測試
測試時,選擇共200名教師用戶和學生用戶作為受眾群體,通過PC端和移動端分別訪問多語種自動口語測評系統,對該系統所支持語言的單詞、句子、段落進行朗讀測試,朗讀后,系統均進行了相應打分,同時請專業語言教師對朗讀錄音進行打分,經過比對機器打分與人工打分的結果,所打分數平均不超過5%,滿足教學和個人練習使用的需要。
5.1測試環境
測試環境如表3所示。
5.2測試結果
對英語、日語、俄語、德語、法語、西班牙語、意大利語、韓語等不同語種的評分結果,與人工專家打分結果進行對照顯示,各語種的準確率基本接近,其中日語和法語的準確率最高,其皮爾森相關系數達到0.95,西班牙語的準確率相對較低,皮爾森相關系數達到0.83,這主要與不同語種的語音庫豐富程度有關系;在題型方面,測評系統對客觀朗讀題打分較高,對主觀口語作文題,評測結果還有待進一步完善,表明人工智能模型參數和準確度還需進一步提高。
5.3用戶反饋
反饋內容主要包括如下:測試對象中教師和學生對系統界面的美觀度表示滿意,對語音測評功能表示基本滿意,建議后續完善評分反饋的詳細說明;在友好度方面,通過PC端和移動端訪問均感覺比較方便;在評分準確性方面,用戶反饋該系統對慢速、清晰讀的結果識別率較高、評分結果較好,對一些快速連讀、連音等情況,還達不到較好的識別率、系統評分較低,說明語音庫還需要進一步豐富,此處后續應繼續完善。
6結束語
通過開發及測試自動口語測評系統,可以較好地提高外語教學的效率和質量,用戶可以通過手機App以及電腦PC端等途徑進行口語發音練習,滿足學習者進行口語練習的需要。經測試,本系統能夠對英語、日語、法語、俄語、德語、西班牙語、意大利語、韓語等語言進行單詞、句子以及段落的讀音練習及反饋,達到預期的效果;對主觀作文等題型,在語法檢查方面,還有進一步提升的空間。
未來,隨著技術的不斷進步和應用場景的不斷拓展,尤其是算力的不斷發展對系統的反應速度將會有較大提高,模型的優化和完善將使系統的準確率進一步完善。通過以下幾個方面措施可以使系統的識別準確率進一步提高:首先,通過使用高質量的語音庫,確保訓練模型使用的語音數據覆蓋廣泛的語言變體、口音、語速和背景噪音等,以提高對不同用戶語音的識別能力。其次,通過構建強大的語法和詞匯庫,對口語中的語法錯誤、詞匯使用不當等進行準確識別。再次,還可以不斷深入使用監督學習、無監督學習、強化學習,讓系統在不斷嘗試和反饋中優化及評估策略,以便更準確地評估口語表達的準確性和邏輯性。在應用場景方面,在后續應用中,系統可應用在課前、課中、課后等不同階段,為語言學習者提供更好的語言學習機會,提供更加精準和個性化的口語學習體驗。
參考文獻:
[1]周清揚,信以恒,鄧祥騰,等.人工智能工具輔助下英語寫作水平及創造力的研究[J].語言學,2023(2):96-114.
[2]宋柔,李斌,王寶鑫,等“.語言智能”多人談[J].語言戰略研究,2023,8(4):53-56.
[3]劉明,吳忠明,廖劍,等.大語言模型的教育應用:原理、現狀與挑戰:從輕量級BERT到對話式ChatGPT[J].現代教育技術,2023,33(8):19-28.
[4]肖仰華.生成式語言模型與通用人工智能:內涵、路徑與啟示[J].人民論壇·學術前沿,2023(14):49-57.
[5]郝磊,溫志強,王妃,等.ChatGPT類人工智能催生的多領域變革與挑戰(筆談)[J].天津師范大學學報(社會科學版),2023(4):8-23.
[6]張艷麗,孫中玲,張德盛,等.基于大數據的外語智慧教育應用研究[J].現代教育技術,2017,27(12):63-68.
[7]呂麗盼,俞理明.雙向文化教學:論外語教學跨文化交際能力培養[J].中國外語,2021,18(4):62-67.
[8]連慧.新一代人工智能對高校外語教學的機遇、挑戰和應對措施:以ChatGPT為例[J].傳播與版權,2023(17):100-102.
[9]黃立波.大數據時代背景下的語言智能與外語教育[J].中國外語,2022,19(1):4-9.
[10]吳曉如,王政.人工智能教育應用的發展趨勢與實踐案例[J].現代教育技術,2018,28(2):5-11.
【通聯編輯:王力】
基金項目:北京市高等教育學會2023年面上課題《人工智能技術引領高校智慧校園建設與應用研究》(項目編號:MS2023140)