張威 蔡文育
[摘 要] 本文以教育部頒布的《大學英語教學指南》中關于大學英語課堂教學要與現代信息技術相結合的相關精神為指導,回顧及梳理了國內外英語寫作研究與實踐領域中主要成果及主流寫作自動評改系統的特點與不足,展望了未來大規模外語測試中人機結合作文評閱的前景,并提出要多學科交叉,校企協作,將計算語言學、二語寫作研究成果與大數據、人工智能、機器學習、深度學習技術整合的建議,以期進一步提升自動評改系統的準確度。
[關鍵詞] 大數據;自動評改;英語寫作;反饋
[中圖分類號] G642? ?[文獻標志碼] A [文章編號] 1008-2549(2019) 04-0102-02
一 研究背景
英語寫作作為一種重要的語言輸出,是測試學生綜合能力和認知水平的一種非常有用的方法,也是英語學習者聽、說、讀、寫、譯這五種語言應用能力中最難以培養的。在傳統的英語寫作教學過程中,學生寫作水平的提高主要依靠自身練習與教師引導,教師要從內容、詞匯、語法、篇章結構、格式規范等各方面對學生的作文進行評改,長期以來學生和教師都投入了大量的時間和精力,但是收效甚微。在全國大學英語四、六級考試中,學生的聽力和閱讀成績在近年來都有較明顯進步,而寫作成績卻少有提高。這是由于大班授課、寫作練習及評改不足、反饋不及時、主觀性較強等多種原因造成的。因此,張雪梅(2006:28)認為由于現行教學中的教師反饋質量不高、教學針對性不強,我國大學英語寫作存在著費時、低效的現象。
教育部于2016年頒布的《大學英語教學指南》為下一步的大學英語寫作教學改革指明了方向,“大學英語應大力推進最新信息技術與課程教學的融合,繼續發揮現代教育技術,特別是信息技術在外語教學中的重要作用。大學英語教師要與時俱進,在具體的課堂設計與實施過程中,融入并合理使用信息技術元素”。鑒于此,主動適應大數據、“互聯網+”時代下大學英語教學發展的需求,充分利用現代信息技術手段提高教學效果,深入促進教育信息化的發展及寫作教學的轉變,實現教育與信息技術相互交融及創新發展,已成為高等院校未來發展的必然趨勢。
二 國外寫作在線自動評改系統的發展
所謂自動寫作評改系統(Automated Essay Evaluation System,AEES),是指使用專門的計算機程序為教育環境中的作文自動評估與評分。自動寫作評分是一種教育評估的方法,也是一種自然語言處理的應用。這個方向的研究始于美國上世紀60年代,其在國外主要經歷了三個發展階段。
第一階段是第一套自動寫作評分系統PEG(Project Essay Grade),由美國杜克大學Ellis Page等人于1966年開發(Page,2003),Page是第一個探索、記錄和驗證基于計算機的寫作評估的人,因其開拓性的研究,Page被視為“自動寫作評分系統之父”。Page使用回歸模型,將文本的表面特征(如:文本長度、詞長和標點符號)作為自變量,將論文得分作為因變量來衡量作文,不涉及內容、組織、體裁等。
第二階段是由美國科羅拉多州皮爾遜知識技術公司于20世紀90年代研發的IEA(Intelligent Essay Assessor)、美國教育考試服務中心(Educational Testing Service,簡稱ETS)研發的 E-rater和美國新澤西州Vantage學習公司研發的IntelliMetric,這幾個系統對寫作的評估更為系統化,增加了詞法、句法、語篇及結構的分析。IEA基于潛在語義分析(Latent Semantic Analysis)分析隱藏在文本中的潛在的語義結構(Semantic Structure),即所有詞匯項(terms)的語義之和。基于對大量文本(通常為數千到數百萬字)的統計分析,LSA得出高維語義空間,單詞和段落在該語義空間中表示為矢量,待評分作文可以通過這些LSA矢量來表征,與已知寫作質量的作文進行比較,它們的相似性通過語義空間中包含角度的余弦來度量,兩文之間的角度越小,語義或概念內容則越相似,并基于它們的相似性得出作文評分(Similarity Score);E-rater利用了統計技術、矢量空間模型技術和自然語言處理技術,既能像 PEG 那樣評判作文的語言形式,又能像 IEA 那樣評判作文的內容質量,還能對作文的篇章結構進行分析。E-rater 圍繞這三個主要方面(即三個模塊)分析和評判作文質量,分別是話語結構(Discourse)(即篇章結構)分析模塊、句法多樣性(Syntactic Variety)(即語言形式)分析模塊、內容(Content)分析模塊(唐冬寧, 張威 2017);IntelliMetric則更為先進,以基于大腦或基于思維的認知模型為基礎,借鑒了認知加工,人工智能,自然語言理解和計算語言學的傳統。能分析400多種語義、句法和話語層次的特征,能提供整體評分以及中心思想與一致性、文章展開與細節描述、文章組織與結構、句子結構、技巧及慣用規則這五大類特征的分數。
第三階段是2000年以來,基于上述評分系統開發的My Access!、Criterion、Bayesian Essay Test Scoring System(BETSY)、Hot Online Essay Scoring和Writing Roadmap等系統,這幾個系統不僅可以反饋寫作分數、詞匯和語法,還能夠有針對性和個性化地反饋寫作的內容質量、篇章組織及格式規范,因此它們在美國的課堂教學中也成為重要的形成性評價工具,但它們主要針對英語本族語學習者。
三 國內寫作在線自動評改系統的發展與不足
國內對寫作自動評改系統的研究始于20世紀初,主要側重介紹與探討。最早涉足該領域者是梁茂成(2005),他在研制適合中國學生的英語寫作自動評分系統方面進行了大膽的探索。李亞男(2006)將自動評改技術用于中國少數民族漢語水平測試的寫作研究中。曹亦薇和楊晨(2007)是第一個使用潛語義分析技術對漢語作文進行自動評分研究的開創者,并得出潛語義分析在漢語寫作的自動評分中起著至關重要作用這一結論。韓寧(2009)介紹并評價了美國英語考試及教學中最流行的七個寫作自動評分系統。梁茂成(2011)開發了大型英語考試寫作自動評分系統,即EFL Essay Evaluator1.0。該系統把1000多篇人工評分的中國大學生議論和說明文體的英語命題作文文本作為語料庫,對前期的評分模型進行驗證和優化,從而建立出系統架構,其主要圍繞作文的語言質量、內容質量以及篇章結構這三個方面進行評判。