一種基于河南方音的英語語音學習系統
李楠
(河南師范大學 外國語學院,河南 新鄉 453007)
[摘要]在評價現有的語音學習軟件的基礎上,結合河南英語語音教學的需求,提出了建立語音學習系統的模型與基本方法,并嘗試結合以河南方音為背景的學生來形成相應診斷,進而提升其英語語音學習水平。
[關鍵詞]方音背景;非本族語的英語語音識別;機助語音學習系統;二語語音習得
[基金項目]教育部人文社科項目“基于詞匯坐標的英語語料庫檢索平臺研究”(12YJC740062);教育部人文社科項目“基于語料庫的中國學習者英語搭配認知模式研究”(12YJC740088)。
[作者簡介]李楠(1980-),女,河南安陽人,講師,主要從事應用語言學研究。
[中圖分類號]G434
[收稿日期]2015-05-11
一、引言
目前,英語語音的重要性及其在外語教學中的首要地位已成為每一位英語教師及學習者必須承認的現實。英語語音教學已經成為貫穿英語學習各個階段的重點。然而,河南省英語語音教學方面依然存在一些問題。這些問題阻礙了河南省英語教學質量的整體提高,亟待解決。英語教學資源配置向城市傾斜、農村英語教學的師資素質問題及英語學習環境的嚴重缺乏成為阻礙提高英語語音教學整體質量的關鍵[1,2]。據河南省次方言區的調查顯示,有32.05%的學生反映自己的單詞的發音水平較差,26.92%的學生反映自己對重音的把握能力較差,而只有分別為11.53%和21.79%的學生認為自己對單詞的發音和重音的把握基本可以[3]。對此,英語課堂教師及研究者提出了各種解決方案:進行滲透式語音教學;提高教師業務素質,完善硬件設施的配備,使英語教學方式多樣化等[4]。經過政府教育機構和教師們多年的共同努力,在英語教學改革上取得了一定的進展,但是其效果遠遠未能滿足當今社會的需求。教師隊伍整體素質的提高需要不間斷的努力,不能一蹴而就。另外,硬件配置又受多方限制,不能一朝一夕得到解決。相對而言,如果能夠有一個集檢測、評價、反饋功能于一體的軟件來指導學習者英語語音習得過程中的聽和說,那么學習者就可以通過該軟件的評價系統更加清晰地了解自己發音的不足之處,對自己的語音水平有一個整體的把握;通過該軟件的反饋系統就可以對發音困難進行糾錯和跟讀模仿訓練,這樣就等于有了一個貼身老師,從而可以取得更大的進步。
從語言本身的特點而言,雖然學習者學習動機較強,模仿也很認真,但是他們的發音仍存在一些問題,語音在某些內容上可意會不可言傳的特性導致了這種局面,如音高、音強、音長等物理特性就很抽象。英漢語音的諸多差異更為細微和難以把握。教學中希望有一種儀器使發音的特征通過可視的形式顯示出來,可使學生直觀認知,再進行操練,與樣本對照,不斷修正自己的發音,提高語音學習效果。
二、研究背景
目前,國內外對于英語語音的研究分為音段層面(如音位)及超音段層面(如語調)。在英語語音教學中對超音段往往沒有給予足夠的重視,或者缺乏有效的訓練手段,而利用計算機軟件提供的視覺反饋來進行訓練是解決這一問題的有效途徑。中國學生的語音練習通常采用聽錄音并且跟讀模仿的方法,練習過程中學生得不到任何反饋引導,因此我們很難確定機器播放出的語音與學生跟讀兩者之間的相關性。在課堂教學中,即使有教師指導,也很難做到對學生的語音、語調提出實時的、準確的指點,使學生立即明白問題出在什么地方。針對上述種種問題,國外不少語言研究機構都致力于開發用于語音訓練的計算機軟件,其中有以旨在訓練口語的基于一定句法規則的Y Nut[5],也有 PRAAT語音學習分析軟件。國內也有語音助學軟件,如百度語音、超級語音學習系統(SuperSpeech)、新東方國際音標發音軟件。現有語音學習軟件大都以習得標準目標語為目的,不考慮方音因素。要么以神經網絡和監控理論為框架[6],要么通過對比標準語音庫和學習者語音產出給出評分,少有軟件能夠根據學習者語音產出進行相應診斷,給出改進方法或建議。總的來說,國內的機助語音學習軟件大都停留在音段音位層面,對非連續語流中的音段音位的判斷相對準確。而對于超音段音位層面的重讀、節奏以及語調的判定較為模糊。相比之下,國外的此類軟件則相對成熟,但是,由于母語背景不同,以及界面語言采用的并非漢語,中國英語學習者使用起來較為費力,并且針對性不強。地處中原的河南省擁有眾多的次方言區,有些方音差別極大,甚至會產生省內交流不能相互通達的情況,方音背景的差別使得英語語音學習也出現了諸多問題。
本研究以河南方音為背景的英語學習者為依托,首先找出英語發音困難較大的典型次方言區的學習者,采集他們的發音數據。通過對發音數據的分析,得出發音困難的模式,形成凸顯發音困難的語音數據庫,以方便與標準英語參照數據庫進行比照。基于方音自動分析和識別技術,對學習者的語音輸入自動識別、歸類,并根據分析結果給出反饋和評價。在此基礎上為不同方言背景和發音困難的學習者訂制練習,從而增強語音學習的交互性和靈活性,提高學生參與學習的主動性和積極性,使學生更加容易掌握語音知識。
三、理論模型
語言學習遵循聽、說、讀、寫這一發展順序的軌道[7],即聽說在先,讀寫在后。沒有聽覺輸入的語音產出在正常條件下幾乎是不可能做到的。所以,聽為語音產出提供了前提和基礎,而說是語音輸入的檢驗。傳統的語言學習是基于文本,或叫做基于教材的學習。基于教材的學習一直是學校教育所采取的最基本的教學手段,長久以來,它對于語言能力的訓練的效果是毋庸置疑的。但是在傳統的基于文本的教學過程中,聽與說的能力的鍛煉未能得到很好的體現。同時,人們也開始質疑基于文本學習的效率[8,9]。以聽力和口語鍛煉為基礎的活動是不能只靠文本形式的教科書實現的,但是通過視覺、語音的輸入,聽力和口語活動開展起來卻事半功倍。隨著時代的發展,對英語學習者的口語表達能力提出了越來越高的要求。同時,成功的語言交際又離不開可以為國際言語交際社團所接受的語音。
3.1框架設計
開發一個系統,首先需要建立整個系統的框架,確定系統的體系結構由哪些模塊組成,模塊間的調用關系如何,需要哪些全局變量等。通過分析和查閱文獻,參考現有的語音學習軟件的開發理念,我們總結出如圖1所示的系統結構圖[7]。
正如圖1所展示的那樣,精心設計的多媒體練習可以激活視覺處理器、聽覺處理器及概念處理器,并且技術上可以實現多媒體練習與三個處理器的實時、同步運作。這對提高系統效能有著非比尋常的意義。與此同時,他們和學習者的現時記憶及長時記憶相互作用。于是,學習者便能夠將語言和多媒體練習提供的感官輸入拼湊在一起,形成有意義的理解。學習者的長時記憶、系統提供的視覺信息及概念處理器共同工作可以將看到、聽到的語音信息解碼,最終形成自己的理解。通過練習,學習者可以將腦部系統中的相關機制調動起來,為學習過程提供便利。這樣,不僅可以鍛煉學習者的口語表達能力,還能經過反復練習,充分調動腦部相關機制,便于學習者從練習中發現語言的規則和模式。這種有意義的、反復的練習對口語流利性的達成是十分有益的。
在語音練習這個最主要的模塊中,系統不光向學習者提供反復聆聽、錄音、發音對比的功能,還可以在學習者聽取系統提供的規范發音的同時,提供與語音信號同步的視覺畫面。這樣,學習者不僅可以鍛煉發音,還可以掌握在真實的語言環境下得體地使用語言的交際能力。
3.2 工作原理
本文所描述的語音學習系統與以往的語音學習軟件最大的不同之處就在于加入了方言的因素。所以,以圖1所示的語音識別系統的設計原理為指導,我們建構了以河南方音為背景的機助語音學習系統。我們的系統仍然保留原有的標準語音庫,即聲學參數模板。它是用訓練和聚類的方法,從一人或多人的多次重復的語音參數之中,經過長時間的訓練而聚類得到的。或者我們可以參照現有的語音庫。但是,我們將在標準語音庫之外設計一個以河南方音為背景的英語學習者的發音數據庫(或稱為方言數據庫),作為原有的標準語音庫的補充數據。測度估計是語音識別的核心,用來表征參數與模板之間的測度。這樣做,在測度估計中,可以參照方言數據庫提供的以河南方音為背景的英語學習者的發音數據,以增加對學習者的失誤發音或錯誤發音的判決的準確度。在輸出識別結果之后,可以通過語音評價機制對學習者的發音做出反饋。通過在視覺上規范語譜圖和學習者語譜圖的對比、聽覺上規范發音和學習者發音的對比,可以更快地幫助學習者改正錯誤的發音習慣、掌握正確的發音方法。系統將向學習者提供反復聽、練習的機會,直到學習者達到自己預期的語音水平。除此之外,我們還將在聽取系統規范發音的同時提供與發音同步的視覺畫面,這樣能夠使學習者在真實的語言環境下掌握和使用正確的發音。
四、方音的凸顯與自動分析
自動語音識別是任何語音學習平臺的核心技術。一般采用的基本方法有三:基于聲道模型及語音知識的方法、模板匹配的方法和利用人工神經網絡的方法[10]。本語音訓練系統采用的是模板匹配的方法,其核心概念支持為隱馬爾可夫理論(Hidden Markov Model,簡稱HMM)。自動語音識別技術領域亟待解決的一個難題就是必須在自適應性能方面有待進一步地提高,做到不受特定人、口音或者方言的影響[11]。口語方音研究主要圍繞兩大問題展開,通過發音建模的口音適應以及方音的識別[12]來進行。方音較重造成的語音錯誤在所有發音錯誤中占據了相當一部分比重[13,14]。另外,同一方音背景的人在語音產出中會犯類似的錯誤。基于錯誤數量比重大及錯誤類型模式集中這樣兩點,基于方音的建模就成為一個理想的解決方案[15]。在我們的研究中,也就是收集并建立有河南方音的英語發音數據庫。
語音識別基元的選取和識別是以方言為背景的語音學習平臺建立中的另一個重要問題。它對于語音識別系統的實現和準確度的高低有著重要的意義,必須要對它進行準確地界定。同時還需要確保有足夠的數據對其進行訓練,使其涵蓋數據群體特征[16]。此語音識別系統的識別基元采用音素建模。音素是采用最多的英語語音識別基元[17]。由于受方音背景影響的英語發音情況的復雜性,在識別操作過程中應充分考慮對識別影響較大的因素,如清輔音的濁化、詞尾輔音的加音、鼻輔音的脫落等[14]。
此外,語言模型和聲學模型是語音識別的基礎,必須具有抗噪的強健性[18]。其性能受諸多因素的影響,包括不同的說話人、說話方式、環境噪音、傳輸信道等等[19]。提高系統強健性,就要提高系統克服這些因素影響的能力,使其在不同的應用環境條件下工作性能穩定。一個高效的語音識別系統還必須同時具有一定的自適應能力,根據不同的影響來源,自動地、有針對性地對系統進行調整,在使用中通過語音輸入的增加得到不斷地訓練從而逐步提高性能。
五、機助語音學習系統的發展前景
機助語音學習系統的建立同語音識別技術的發展密不可分。從一定程度上來講,機助語音學習系統的有效性很大部分上取決于語音識別率的高低。盡管語音識別的研究已長達半個世紀,但現有的語音識別系統離實用化的要求還存在一定的差距。在語音識別中遇到的另外一個難題是語音識別基元的選擇,在實際應用中表現為,如何根據存貯空間、搜索速度和使用者個體特點的要求,選擇合適的識別單元,如詞、音節、音素。目前,語音識別系統中很少涉及到的一個語言特征就是韻律信息。韻律信息指的是說話之中的重音、語調等超音段信息。說話的韻律可以傳達出很多重要信息。因此,如何在語音識別中結合韻律信息還有待進一步的研究。
由于技術和資源方面的局限性,以方言為背景的語音識別技術在語音教學中的應用還鮮為人們所涉及。但是,此項研究卻具有重大的理論意義和現實意義。一方面,以方言為背景的語音識別為現有語音識別技術增加了一個新的研究層面。從語音習得的角度講,以方音為背景的機助語音學習系統的建立更是二語語音習得研究的一項有益嘗試。另一方面,針對河南省英語教學銜接不夠合理、教師的知識結構落后、硬件設施配備不完善等現實問題,以及中國和河南方音情況復雜這樣一個現狀,以方言為背景的機助語音學習系統的建立更是迫在眉睫。以方言為背景的機助語音學習系統的建立能為語音教學提供有效的手段,從而有效地促進不同方言區的語音教學。
[參考文獻]
[1]高鵬. 中學英語口語教學 [J]. 康定民族師范高等專科學校學報,2002,9(2):60-62.
[2]顧俊秀. 中學英語課堂教學改革小議 [J]. 大同職業技術學院學報,2006,20(4):93-94.
[3]馬均平,賈慧范.農村中小學英語詞匯及語音教學情況調查及研究(未發表)[Z].全國教育科學“十一五”規劃2007年度教育部規劃課題研究論文. 2012.
[4]吳效鋒.新課程怎樣教 [M].沈陽:遼寧大學出版社,2005,1-324.
[5]Timo, O L N, Bissyandé, T. F. Y Nut, a Phonetic-Based Learning System for Spoken Languages [Z]. E-Infrastructure and E-Services for Developing Countries -- 5th International Conference, AFRICOMM 2013, Blantyre, Malawi, November 25-27, 2013, Revised Selected Papers, 229-233.
[6]Moulin-Frier, C, Arbib, M A. Recognizing speech in a novel accent: the motor theory of speech perception reframed [J]. Biological Cybernetics, 2013, (4): 421-447.
[7]Knowles, L. The Evolution of Computer Assisted Language Learning [J]. Journal of Communication and Publication, 2004, (1): 1-38.
[8]Thompson, C L. Pronouns and Voice in Koyukon Athapaskan: A Text-Based Study [J]. International Journal of American Linguistics, 1989, (1): 1-24.
[9] McCarthy, J C, Miles, V C, & Monk, A F. An Experimental Study of Common Ground in Text-based Communication [R]. CHI ’91 Proceedings of the SIGHI Conference on Human Factors in Computing Systems: Reaching through Technology. New York: Association for Computer Machinery, 1991: 209-217.
[10]Lee, Kai-Fu. Automatic Speech Recognition: The Development of the SPHINX System [M]. Norwell: Kluwer Academic Publisher, 1989: 1-211.
[11]鐘玉琢. 多媒體技術基礎及應用[M]. 北京:清華大學出版社,2006,1-376.
[12]Huang, C, Chen, T, & Chang, E. Accent Issues in Large Vocabulary Continuous Speech Recognition [J]. International Journal of Speech Technology, 2004, 7 (2-3): 141-153.
[13]Huang, C, Chang, E, Zhou, J L, & Lee, K F. Accent modeling based on pronunciation dictionary adaptation for large vocabulary Mandarin speech recognition [C]. Proceedings of International Conference on Spoken Language Processing, 2000, 3: 818-821.
[14]李楠. Problematic English Phones for Chinese EFL Learners [D]. 中國優秀碩士學位論文全文數據庫,2009, 8(8).
[15]Sangwan, A, Hansen, J H L. Automatic analysis of Mandarin accented English using phonological features. Speech Communication, 2012, 54: 40-54.
[16]Lawrence, R. Fundamentals of Speech Recognition [M]. New Jersey: Pearson Education, 2008: 1-540.
[17]Goronzy, S. Robust Adaptation to Non-Native Accents in Automatic Speech Recognition [M]. Verlag, Berlin & Heidelberg: Springer, 2002, 1-144.
[18]Flanagan, J L, et al. Automatic speech recognition in severe environments - A Report Prepared by National Research Council (U.S.), Committee on Computerized Speech Recognition Technologies, National Research Council (U.S.) [C]. Washington, D.C.: National Academy Press, 1984, 1-81.
[19]韓紀慶,張磊,鄭鐵然. 語音信號處理 [M]. 北京:清華大學出版社,2004,1-328.
[責任編輯:K]