句酷網、愛寫作系統評分效果的比較研究

2017-07-12 22:08:15任瑞娟高莉

讀與寫·教育教學版 2017年6期

關鍵詞：比較

任瑞娟+高莉

摘要：本文從分布差異，差值、均值差異，多元線性回歸差異三方面，比較句酷網、愛寫作系統對210份機輔英語寫作比賽文本的內容、結構、總分評分。發現句酷網評分分散，更能區分作文水平；兩系統的總分都具備一定的參考性；兩系統在總分、內容、結構三部分的評分都差異顯著；句酷網的評分注重結構，無法識別內容；愛寫作系統的評分內容、結構并重?？傮w而言，愛寫作系統的評分效果優于句酷網。建議學生在寫作訓練中，使用愛寫作系統的評分，有效提高寫作能力。

關鍵詞：英語作文評分比較句酷網愛寫作系統作文自動評分系統

中圖分類號：H319 文獻標識碼：A 文章編號：1672-1578（2017）06-0003-02

1 引言

“走出去”戰略的深化，對英語學習者的寫作能力提出了更高的要求。因能檢驗學習者的書面表達能力，作文是各類英語測試的必考題。一般要求學生圍繞特定話題，運用所學語言知識、組織安排語言材料。作文評分由教師進行，該過程的主觀性無法避免，所以保證評分的信、效度尤為關鍵。作文自動評分系統（Automated Essay Scoring，以下簡稱“系統”）為提高評分的信、效度而研發，其前提是計算機軟、硬件性能的提升。系統是使用計算機程序模擬人工評分，對作文進行快速、自動評分的計算機技術。1966年，Ellis Batten Page成功研制了世界上第一個系統PEG（Project Essay Grader）。中國的系統研究始于本世紀初，以梁茂成、葛詩利、楊永林等為代表的學者研制了愛寫作系統、易格軟件、冰果系統、新視野系統、句酷網等系統。

2 文獻綜述

學界對系統的比較研究分為兩類。第一類是對系統的研制原理、評分效果的理論研究。韓寧介紹了美國幾個系統的基本原理，指出了這些系統的局限性，并說明了系統的恰當使用方式。毛世花、陳曉麗闡述了E-rater和句酷網的評分原理，并討論了E-rater和句酷網的優缺點。陳長進分析了句酷網和冰果系統的評分機制，并簡單比較了句酷網和冰果系統的評分效果。第二類是有關系統評分效度的實證研究，以探求系統在評分實踐中的差異。楊婷婷以37份大學生的英語四級考試作文為樣本，通過皮爾遜相關分析和配對樣本T檢驗，比較了冰果系統和新視野系統的評分，證明冰果系統和新視野系統的評分不一致。殷小娟等以145份大學生的寫作訓練文本為例，用斯皮爾曼相關和單因素方差分析，分別對比了句酷網和冰果系統與人工評分間的相關性、差異性，證明句酷網和冰果系統的評分存在顯著差異。上述實證研究都運用總體評分法，只涉及系統評分的總分比較，實用性有待進一步完善。通過比較句酷網、愛寫作系統的評分效果，本文旨在幫助學生在寫作訓練中選擇合適的系統，有效提高寫作能力。

3 研究過程

本文用定量研究法。樣本是某大學機輔英語寫作比賽的真實文本210份，數據是句酷網（http：//www.pigai.org/）、愛寫作系統（http：//iwrite.unipus.cn）的評分結果，數據收集有三步。第一步：分別登錄兩系統，按比賽要求布置作文。第二步：分別將兩系統的設置改為——總分100分，內容、結構各占比40%、25%。第三步：分別輸入文本到兩系統，由其自動評分，并記錄結果。句酷網、愛寫作系統的評分都標明了總分，并顯示內容、結構兩維度的評分比例。將兩個比例分別與40、25相乘，即為兩維度的評分。最后用SPSS 20.0對句酷網、愛寫作系統的評分結果進行統計分析。本文從分布差異，差值、均值差異，多元線性回歸差異三方面比較兩系統的英語作文評分。

3.1 分布差異

句酷網的評分中，總分含60個值，介于15.5——87.0之間；內容評分含36個值，介于12.8——39.2之間；結構評分含24個值，介于13.25——23.75之間。愛寫作系統的評分中，總分含37個值，介于31——82之間；內容評分含18個值，介于13.2——34.0之間；結構評分含8個值，介于18——25之間。表1是比率排在前六的兩系統在總分、內容、結構三部分的評分。句酷網的評分分布為：總分中，74.0的最多，隨之是65.0、70.5、77.5、78.5、79.0，有25.72%的是這六個分值；內容評分中，31.2的最多，隨之是28.8、29.2、29.6、33.2、30.8，有34.27%的是這六個分值；結構評分中，21.75的最多，隨之是20.75、20.50、21.00、21.25、22.00，有50.48%的是這六個分值。愛寫作系統的評分分布為：總分中，56的最多，隨之是55、70、54、60、63，有33.32%的是這六個分值；內容評分中，23.2的最多，隨之是20.0、18.0、21.2、22.0、25.2，有64.75%的是這六個分值；結構評分中，25的最多，隨之是23、21、22、20、19，有97.14%的是這六個分值。

3.2 差值、均值差異

表2是兩系統評分差值的比率分布。完全一致率指兩系統評分相同；相鄰吻合率指兩系統評分差值在0.0—10.0間（總分）、0.0—4.0間（內容評分）、0.0—2.5間（結構評分）（梁茂成，2012）。由表可知，兩系統評分的相鄰吻合一致率（包含完全一致率、相鄰吻合率）方面，結構最高、總分居中、內容最低。兩系統評分差值的最大值方面，內容最大、結構居中、總分最小。兩系統評分差值的最小值方面，總分、內容、結構都有相同評分。兩系統評分差值的均值方面，內容最大、總分居中、結構最小。兩系統評分差值的最頻值方面，內容最大、總分居中、結構最小。

本文對兩系統在總分、內容、結構三部分的評分做了配對樣本T檢驗。檢驗結果如表3，該表顯示：總分中，兩系統評分差異顯著（t=16.714，df=209，p<0.05），句酷網評分顯著比愛寫作系統評分高（MD = 11.74）；內容評分中，兩系統評分差異顯著（t=16.890，df=209，p<0.05），句酷網評分顯著比愛寫作系統評分高（MD=8.16）；結構評分中，兩系統評分差異顯著（t=-9.580，df=209，p<0.05），句酷網評分顯著比愛寫作系統評分低（MD=-2.12）。

3.3 多元線性回歸差異

本文還分別對兩系統在總分、內容、結構三部分的評分做了多元線性回歸分析，結果如下。對句酷網評分的多元線性回歸分析滿足誤差成正態分布及誤差和預測變量不相關的前提假定；兩個預測變量中，“結構評分”這一變量與因變量顯著相關（表4）；強制回歸結果顯示，兩個變量對總分有良好的預測作用（表5），R2為0.364，即“內容評分”、“結構評分”構成的組合可解釋總分36.4%的變異；兩個預測變量中，“結構評分”（Beta=0.632）的標準化回歸系數較高，說明結構評分越高，總分越高；標準化回歸方程為：總分=0.632×結構評分+0.241×內容評分。對愛寫作系統評分的多元線性回歸分析滿足誤差成正態分布及誤差和預測變量不相關的前提假定；兩個預測變量都與因變量顯著相關（表4）；強制回歸結果顯示，兩個變量對總分有良好的預測作用（表5），R2為0.406，即“內容評分”、“結構評分”構成的組合可解釋總分40.6%的變異；兩個預測變量中，“內容評分”（Beta=0.503）的標準化回歸系數較高，說明內容評分越高，總分越高；標準化回歸方程為：總分=0.503×內容評分+0.361×結構評分。

4 結論

基于上文的數據分析，本文有以下結論。兩系統對各部分獨立評分、互不影響，但評分差異明顯。句酷網評分較分散，說明句酷網能明確區分水平相近的作文。兩系統對各部分的評分高低不一，說明兩系統的內部一致性不穩定。句酷網評分的最高分高、最低分低，說明句酷網對好作文寬松、差作文嚴厲，總體嚴厲度變化較大。相對內容評分、結構評分而言，兩系統總分差值的誤差最小，說明兩系統的總分都有一定的參考性。句酷網的不同評分與結構最相關，愛寫作系統的不同評分與內容最相關；說明兩系統評分的側重點不同。此外，句酷網的不同評分與內容評分的變化無關，說明句酷網無法識別作文的內容。兩系統評分差異顯著，句酷網評分注重結構，無法識別內容；愛寫作系統評分內容、結構并重?？傮w而言，愛寫作系統評分效度優于愛寫作系統。建議學生在寫作訓練中，使用愛寫作系統的評分，明確了解作文的內容、結構，有效提高寫作能力。

參考文獻：

[1] 陳長進.作文自動批改系統比較研究[J].科技視界，2013（30）：144-145.

[2] 葛詩利，陳瀟瀟.中國EFL學習者自動作文評分探索[J].外語界，2007（5）：43-50.

[3] 韓寧.幾個英語作文自動評分系統的原理與評述[J].中國考試，2009（3）：38-44.

[4] 梁茂成.中國學生英語作文自動評分模型的構建[M].北京：外語教學與研究出版社，2011.

[5] 梁茂成.大規?？荚囉⒄Z作文自動評分系統的研制[M].北京：高等教育出版社，2012.

[6] 梁茂成，文秋芳.國外作文自動評分系統評述及啟示[J].外語電化教學，2007（10）：18-24.

[7] 毛世花，陳曉麗.E-rater和句酷的對比研究及對提高大學生英語作文水平的啟示[J].高等函授學報，2012（5）：20-21.

[8] 武尊民.英語測試的理論與實踐[M].北京：外語教學與研究出版社，2003.

[9] 許宏晨.第二語言研究中的統計案例分析[M].北京：外語教學與研究出版社，2013.

[10] 楊婷婷.英語寫作自動評分系統的不一致性研究[J].社科縱橫，2012（3）：297-298.

[11] 楊永林，全冬.認知的理念，實用的視角——信息技術在外語教學中的應用[J].外語電化教學，2011（11）：47-51.

[12] 殷小娟，賈永華，林慶英.“句酷網”和“冰果”自動評分效度的對比實證研究[J]. 河北北方學院學報，2017（1）：1-11.

[13] Dikli， S. An Overview of Automated Scoring of Essays[J]. Journal of Technology， Learning， and Assessment， 2006（8）：4-30.

作者簡介：任瑞娟（1992-），山西呂梁人，西北農林科技大學外語系碩士在讀，研究方向：二語習得。

高莉（1976-），陜西寶雞人，西北農林科技大學外語系副教授，研究方向：認知語言學、二語習得。

句酷網、愛寫作系統評分效果的比較研究

句酷網、愛寫作系統評分效果的比較研究