魏瓊華
摘 要:隨著語音識別技術的應用,出現了一種新的可能性,即在與英美外籍人士交流時,可以使用語音識別技術對話的同時在手機顯示對應的英文文本,這將顯著減小交流的障礙。本文將這種新的模式應用于大學英語聽力教學中并進行定量評估,通過實驗證明基于語音識別的大學英語聽力教學模式可以更有效提高學生的英語聽力成績,這有助于學生樹立信心,提高學習興趣,達到良好的學習效果。
關鍵詞:語音識別;大學英語;聽力教學
中圖分類號:H319.9 文獻標識碼:A 文章編號:2096-3866(2020)24-0-02
近年來,以深度學習為代表的人工智能飛速發(fā)展,各種軟件和功能不斷出現。其中不少深度學習的應用和英語教學密切相關。在聽的方面,語音識別已經取得了長足的進展,準確率不斷提高。說的方面則更為簡單,語音合成技術已經非常成熟,除了有時有語調或者斷句之類的小問題,根據文本的自動語音合成效果已經可以和真人比擬。使用深度學習的翻譯機則表現了讀寫方面的能力,在注意力機制出現之前,RNN曾經取得了不少令人矚目的結果,在注意力機制和BERT出現之后,翻譯水平進一步提高。不僅如此,人工智能也可以用來做文甚至寫詩,還出現了能夠看圖做文的深度學習神經網絡[1]。這些成果都表明,過去需要枯燥學習和長期積累才能獲得的語言能力,可以使用人工智能輕易地獲得。這將給英語教學帶來天翻地覆的變化。
不過,盡管人工智能已經取得了豐碩的成果,但是其不同領域的表現仍存在差異,特別是在機器翻譯方面,由于語言可以被用來表述不同專業(yè)領域的知識,使用語言時可能還有暗喻/典故/傾向/背景等很多因素的影響,所以機器翻譯還難以在所有領域代替人工翻譯。這一問題在可預見的將來(數十年內)應該也不會改變。相比之下,語音識別的表現則略勝一籌,其誤差主要來自背景噪音。在信噪比較高的場合,語音識別的正確率可以相當高。考慮到中國學生的英語能力有一個突出的特點,就是讀寫較好而聽說卻差強人意,所以在需要和英美人士交流的場合出現一種新的可能性:語音識別軟件將英語語音轉換為英語文本并顯示給國人,從而方便一個方向的交流。當然,語音識別對反向的交流沒有幫助(外籍人士不可能閱讀中文文本),但語言交流的另外一個特點是,母語人士會很輕易地理解非母語人士說出的話。所以反向交流障礙會小很多。基于這些特點,將出現全新的涉外交流模式。
隨著社會國際化的不斷發(fā)展,在大學英語教學中,各高校越來越重視學生聽說能力的培養(yǎng),但是實際的教學效果不容樂觀,因而,本文將通過具體的實證研究,對將語音識別應用于大學英語聽力教學的效果進行探討和評價。
一、語音識別技術
語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統(tǒng)能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。語音識別技術已經經過了幾十年的發(fā)展,曾經使用過的技術包括支持向量機、BP人工神經網絡、循環(huán)神經網絡(RNN)、長短時記憶模塊(LSTM)、卷積神經網絡(CNN)等[2]。其中,LSTM、CNN ?等技術都基于深度學習技術。深度學習技術自 2009 年興起之后,已經取得了長足進步,語音識別的準確率也隨之同步提高。目前,語音識別的精度和速度取決于實際應用環(huán)境,但在安靜環(huán)境、標準口音、常見詞匯場景下的語音識別率已經超過 95%,意味著具備了與人類相仿的語言識別能力。隨著技術的發(fā)展,現在口音、方言、噪聲等場景下的語音識別也達到了可用狀態(tài),特別是遠場語音識別已經隨著智能音箱的興起成為全球消費電子領域應用最為成功的技術之一。
當然,當前技術還存在很多不足,如對于強噪聲、超遠場、強干擾、多語種、大詞匯等場景下的語音識別還需要很大的提升;不過,在需要和外籍人士交流的場合,一般都可以保證相對安靜的環(huán)境和較高的信噪比,不會有太大的干擾,所以這些障礙一般不會表現出來。
二、實驗方案與結果
(一)研究假設與對象
本研究的主要目的是檢驗語音識別是否能夠對具備相當英語讀寫能力的學生提高聽力水平,能夠提高多少。研究對象為河南中醫(yī)藥大學2018級非英語專業(yè)本科生80人,由于考慮到英語成績太差的學生看字幕可能有困難,而成績優(yōu)秀的學生語音識別作用不明顯,選取的80位同學在2019年春季期末英語考試成績均在60分至75分之間,將這80人隨機分成實驗組和對照組,兩組均為40人。
(二)研究步驟
本文實驗具體方法:選定聽力語料,對實驗組和對照組進行聽力測試,統(tǒng)計考試成績進行分析。實驗組和對照組的聽力語料相同,實驗區(qū)別在于,實驗組聽力測試的同時在學生前面的顯示器上顯示語音識別的英文文本。實驗結束后,對兩組成績核對分布、方差齊性,再進行獨立樣本t檢驗。
在實驗中,首先確定實現語音識別的接口。目前,百度和科大訊飛等公司都提供了中文語音識別接口,但是這些公司更多地關注中文。相比之下,Google云提供的語音識別引擎不僅提供流式語音識別,還能通過提供提示來定制語音識別功能,以轉錄特定領域的術語和生僻字詞,并提高特定字詞或短語的轉錄準確率。所以是我們實驗中選用Google云的引擎。
本文測試選用的語料則為大學外語題庫中的聽力測試題目,按照常規(guī)考試安排,包含對話理解(60分)和短篇理解(40分)。其中對話理解的難度較低,而短篇理解來自大四聽力考試的題庫。所有題目語音識別的結果均來自Google云服務。需要注意的是,盡管Google語音識別的速度很快,但是流式語音識別畢竟要搜集到一段話后才能結合上下文給出語音識別結果,表現為語音識別給出的文本會滯后于語音發(fā)生時刻,這一時延一般在5-10秒之間(有時為網絡延遲),為真實計,在給學生顯示語音識別結果時,也同時精確地體現這一時延。這延時正好可以讓學生評價自己所聽到的內容,并且跟隨后的語音識別提供的文本進行對比,找出聽力的不足。此外,語音識別偶然會出錯,對應的錯誤文本也不加修改向學生展示。