批改網(wǎng)英語作文自動評分系統(tǒng)評分質(zhì)量研究

2021-09-03 09:32:54高健民

哈爾濱學(xué)院學(xué)報(bào) 2021年7期

高健民

(浙江大學(xué) 外國語言文化與國際交流學(xué)院，浙江杭州 310058)

寫作評估是外語教育中的重要一環(huán)。隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展，英語作文評分的方式也發(fā)生了巨大改變。系統(tǒng)自動評分的方式不僅彌補(bǔ)了人工評分成本高、效率低的局限，還提高了作文評分的信度，減輕了由于人工閱卷員評分標(biāo)準(zhǔn)不一致造成的偏頗。一些自動評分系統(tǒng)不僅可以給作文提供一個整體性的分?jǐn)?shù)，還能同時呈現(xiàn)關(guān)于作文語言質(zhì)量的反饋，這些優(yōu)點(diǎn)使得作文自動評分系統(tǒng)不僅被廣泛應(yīng)用于各種英語考試中，許多英語教師也將其應(yīng)用在課堂測試的評分上。然而，即使作文自動評分系統(tǒng)在評估學(xué)生的寫作能力方面有著很多優(yōu)勢，對其評分可靠性和有效性的爭論卻從未停止過。此外，由于這些評分系統(tǒng)往往缺乏評分過程上的透明性，直觀感受其評分效果十分困難。因此，對于作文自動評分系統(tǒng)評分質(zhì)量的定量分析是十分重要的。

一、文獻(xiàn)綜述

從理論的角度，一些研究者提出了對于作文自動評分系統(tǒng)評分質(zhì)量進(jìn)行評估的必要性以及需要考慮的因素。例如，Xi系統(tǒng)性地提出了作文自動評分系統(tǒng)評分過程有效性的問題，主要對使用作文自動評分系統(tǒng)是否會引起構(gòu)念無關(guān)因素或造成構(gòu)念代表性不足的問題進(jìn)行了討論，還指出研究系統(tǒng)自動評分結(jié)果與其他非測試得分類指標(biāo)的一致性至關(guān)重要。[1]Deane也討論了采用系統(tǒng)自動評分方式對構(gòu)念效度的影響，指出作文自動評分系統(tǒng)所能測量到的寫作技能是有限的。[2]

在實(shí)證研究方面，Weigle將考生在托福考試(TOFEL)寫作任務(wù)中由e-rater這一自動評分系統(tǒng)給出的得分與考生對于自我寫作能力的自評分以及考生在非測試環(huán)境下完成的作文的得分進(jìn)行了比較，最后發(fā)現(xiàn)這些得分之間存在中等強(qiáng)度的相關(guān)性。[3]Ramineni等人將GRE測試(美國研究生入學(xué)考試)中的考生作文作為語料，對人工評分和系統(tǒng)自動評分的預(yù)測效度進(jìn)行了比較，結(jié)果發(fā)現(xiàn)兩者都能很好地預(yù)測考生在口語測試任務(wù)上的得分。[4]除了研究系統(tǒng)自動評分與其他測量寫作水平或整體語言水平指標(biāo)的相關(guān)性之外，一些研究者還研究了系統(tǒng)自動評分與人工評分的一致性，這類研究的共同發(fā)現(xiàn)是自動評分與人工評分之間具有較高的一致性，并且這兩者的一致性接近不同閱卷員之間評分的一致性。[5-6]除此之外，還有許多針對不同自動評分系統(tǒng)的個案研究。[7]

通過對以往文獻(xiàn)的系統(tǒng)性梳理，本研究發(fā)現(xiàn)了在這一領(lǐng)域研究上的不足。首先，雖然很多研究都表明系統(tǒng)自動評分與人工評分有著高度的相關(guān)性，在Liu和Kunnan的研究中卻顯現(xiàn)了不同的結(jié)果。[8]而且這種一致性不應(yīng)該被當(dāng)作是衡量評分有效性的唯一指標(biāo)，因?yàn)槠鋬H能反映出系統(tǒng)自動評分的穩(wěn)定程度，并不能反映其全面評估考生寫作水平的能力；[9](P142-173)且以往研究往往割裂了分?jǐn)?shù)與文本之間的聯(lián)系，沒能從作文本身語言特征的角度為系統(tǒng)自動評分質(zhì)量的高低提供證據(jù)。其次，以往大多數(shù)研究都是國外研究者針對國外考試機(jī)構(gòu)開發(fā)的自動評分系統(tǒng)所作的效度驗(yàn)證，而國內(nèi)這方面的研究比較少，且多為綜述性研究，[10-13]僅Qian等學(xué)者和何旭良針對國內(nèi)的兩款主流自動評分系統(tǒng)，即iWrite和批改網(wǎng)的評分質(zhì)量進(jìn)行了實(shí)證研究。[14-15]由于國外大多數(shù)的自動評分系統(tǒng)在國內(nèi)是無法使用的，而中國擁有龐大的英語學(xué)習(xí)群體，因此對國內(nèi)主流作文自動評分系統(tǒng)評分質(zhì)量的研究意義重大。

本研究選取了批改網(wǎng)作為研究對象，原因在于其較早得到了推廣，且可以被免費(fèi)使用，有著龐大的受眾群體。對于批改網(wǎng)評分質(zhì)量的研究不僅可以填補(bǔ)國內(nèi)對于作文自動評分系統(tǒng)評分質(zhì)量實(shí)證研究的空白，還能為廣大英語教師及學(xué)習(xí)者提供啟示。基于此，本研究主要關(guān)注以下兩個問題：(1)批改網(wǎng)系統(tǒng)自動評分與人工評分的一致性如何？(2)批改網(wǎng)系統(tǒng)自動評分與文本語言特征(復(fù)雜度、準(zhǔn)確性和流利度)的相關(guān)性如何？

二、研究方法

1.材料與被試

本研究所用的語料為國內(nèi)某大學(xué)104名一年級學(xué)生的英語期末考試作文。這些學(xué)生都是非英語專業(yè)，并且來自兩個不同的大學(xué)英語平行班。該英語測試在課程結(jié)束時舉行，其中包含一項(xiàng)獨(dú)立寫作任務(wù)，寫作題目是分析一項(xiàng)社會問題。作文成績與學(xué)生的課程成績直接相關(guān)，因此可以確保所有學(xué)生都認(rèn)真進(jìn)行了作答。

2.評分過程

所有作文都是由一名任課教師和一名研究者共同批閱的，均具有豐富的閱卷經(jīng)驗(yàn)。評分依據(jù)是全國大學(xué)生英語四級考試作文整體性評分量表(滿分15分)。在正式評分之前，兩位評分員就評分標(biāo)準(zhǔn)進(jìn)行了討論，然后隨機(jī)抽取了25份作文進(jìn)行了試評，在兩位評分員的評分達(dá)到高度一致后(r=0.86，p<0.01)，每位評分員分別對其余的作文進(jìn)行了獨(dú)立評分。每篇作文最終的人工得分為兩個評分員評分的均值。由于批改網(wǎng)評分制為百分制，因此在系統(tǒng)批閱所有作文后，研究者將百分制分?jǐn)?shù)轉(zhuǎn)化為了15分制的分?jǐn)?shù)。

3.文本語言特征量化指標(biāo)

在本研究中，研究者對文本語言特征進(jìn)行了量化。復(fù)雜度方面由Coh-Metrix文本分析軟件進(jìn)行量化。對于句法復(fù)雜度，本文從句子和短語層面選取了4個指標(biāo)，即平均句長、從句數(shù)量、名詞短語密度及動詞短語密度。詞匯復(fù)雜度由篇章詞匯多樣性指標(biāo)量化，因該指標(biāo)對于文章長度最不敏感，即其不易受到不同文章長度的影響。[16]

準(zhǔn)確性由文章錯誤率量化。錯誤類型的識別依據(jù)Bardovi-Harling和Bofman提出的標(biāo)準(zhǔn)。[17]兩位評分員首先對于隨機(jī)抽取的25篇作文進(jìn)行了試編碼，即識別出作文中所有的語言錯誤。在評分員所識別出的錯誤數(shù)量達(dá)到高度一致后(r=0.89，p<0.05)，兩位評分員分別對剩余的作文進(jìn)行編碼。文章錯誤率即語言錯誤總數(shù)占作文總詞數(shù)的比率，這種做法有利于使準(zhǔn)確率的統(tǒng)計(jì)免受文章長度的影響。

作文的流利度由總詞數(shù)衡量。由于在測試環(huán)境下，考生答題時間上限是固定的，且根據(jù)以往觀察，考生在寫作任務(wù)上的用時不會有過大的差異，因此總詞數(shù)能夠在一定程度上衡量考生的寫作速率。

4.數(shù)據(jù)分析

對于第一個研究問題，研究者首先對批改網(wǎng)自動評分和人工評分進(jìn)行了配對樣本t檢驗(yàn)，以比較兩者在分?jǐn)?shù)高低上的差異。然后，研究者對兩組分?jǐn)?shù)做了一致性檢驗(yàn)，具體指標(biāo)包括精確一致性(分值完全相等)、臨近一致性(分值差異小于等于2分)和皮爾遜相關(guān)系數(shù)。對于第二個研究問題，研究者將批改網(wǎng)自動評分與作文文本語言特征的各項(xiàng)指標(biāo)做了相關(guān)分析。

三、結(jié)果與討論

1.批改網(wǎng)自動評分與人工評分的一致性

據(jù)表1所示，批改網(wǎng)評分的平均值，最大值及最小值均高于人工評分，且配對樣本t檢驗(yàn)的結(jié)果表明批改網(wǎng)評分與人工評分具有顯著差異(p<0.05)。這表明批改網(wǎng)評分要比人工評分更高。根據(jù)表2所示，批改網(wǎng)評分與人工評分的精確一致性和臨近一致性較低，且相關(guān)系數(shù)為0.41(p<0.01)，說明兩者僅存在著弱相關(guān)關(guān)系。

表1 批改網(wǎng)評分與人工評分的描述性統(tǒng)計(jì)

表2 批改網(wǎng)評分與人工評分的一致性統(tǒng)計(jì)

2.批改網(wǎng)評分與作文文本語言特征指標(biāo)的相關(guān)性

表3列出了批改網(wǎng)評分與文本復(fù)雜度、準(zhǔn)確度和流利度指標(biāo)的相關(guān)系數(shù)。可見，批改網(wǎng)評分僅與句法復(fù)雜度中的名詞短語密度、詞匯復(fù)雜度指標(biāo)以及流利度指標(biāo)相關(guān)。其中，批改網(wǎng)評分僅與表示詞匯復(fù)雜度的篇章詞匯多樣性有強(qiáng)相關(guān)關(guān)系，相關(guān)系數(shù)為0.764，其余均為中等相關(guān)。

表3 批改網(wǎng)評分與文本語言特征指標(biāo)的相關(guān)系數(shù)

3.討論

首先，批改網(wǎng)評分顯著高于人工評分，這一點(diǎn)與何旭良的研究結(jié)論完全一致。結(jié)合批改網(wǎng)評分與文本語言特征的相關(guān)性結(jié)果可知，批改網(wǎng)關(guān)注到的語言特征是有限的。而人工閱卷往往會從更多方面考慮作文質(zhì)量，如寫作邏輯、內(nèi)容質(zhì)量、語言的地道性等，因此人工評分可能會比系統(tǒng)自動評分更加“苛刻”。其次，批改網(wǎng)評分與人工評分為弱相關(guān)關(guān)系，這一點(diǎn)與何旭良的研究結(jié)果相違背，推測其原因在于本研究中的作文樣本量更大。精確一致性和臨近一致性指標(biāo)表明，兩者的評分并不總是完全一致的，這一發(fā)現(xiàn)與國外學(xué)者對于e-rater和My Access評分質(zhì)量的研究結(jié)果不同，原因可能在于不同的自動評分系統(tǒng)在評分單位上有所差異。評分量表的全距越高，可能會導(dǎo)致作文之間分?jǐn)?shù)差異更大，從而影響到精確一致性和臨近一致性的數(shù)值。但是從另一個角度看，這也在一定程度上表明批改網(wǎng)的評分質(zhì)量仍有待提高。

批改網(wǎng)評分與文本語言特征的相關(guān)性說明，批改網(wǎng)系統(tǒng)評分可能更加關(guān)注作文在詞匯層面的表現(xiàn)，詞匯的多樣性以及名詞短語的使用都與批改網(wǎng)評分呈正相關(guān)關(guān)系。批改網(wǎng)評分沒能反映考生在句子組構(gòu)層面的能力，原因可能是大一的非英語專業(yè)學(xué)生經(jīng)受的語言訓(xùn)練比較少，沒有經(jīng)歷長期的浸入式英語學(xué)習(xí)，所以普遍在句法方面表現(xiàn)較差，不能與彼此之間拉開顯著的差距，而他們在相對容易學(xué)習(xí)的詞匯表達(dá)方面則能體現(xiàn)出更大的差距。此外，批改網(wǎng)評分也不能反映出作文的準(zhǔn)確率，這可能是因?yàn)樽詣釉u分系統(tǒng)只能識別出句法和詞匯形態(tài)層面的錯誤，在識別如詞匯使用合理性及詞匯搭配方面的錯誤上不夠精確，這類錯誤的識別往往需要專業(yè)教師的判斷，因而其評分與人工進(jìn)行統(tǒng)計(jì)的準(zhǔn)確率沒能呈現(xiàn)統(tǒng)計(jì)學(xué)上的相關(guān)性。從另一方面來看，批改網(wǎng)系統(tǒng)在評分有效性上需要進(jìn)一步優(yōu)化，提高其對句法特征和語言準(zhǔn)確度方面的識別能力。最后，批改網(wǎng)評分與作文總詞數(shù)呈正相關(guān)，而總詞數(shù)往往與詞匯多樣性相關(guān)，尤其是對于那些詞匯量積累較大的考生來說，寫的詞數(shù)越多，越能體現(xiàn)他們的語言能力，因而會在批改網(wǎng)中得到更高的分?jǐn)?shù)。同時，本研究中考生作文的體裁為議論文，文章的長度或許也與論證的充分性程度相關(guān)，關(guān)于批改網(wǎng)是否能夠識別這種高階的語言能力還需要更多的研究進(jìn)行驗(yàn)證。

四、結(jié)論

本研究中發(fā)現(xiàn)批改網(wǎng)評分與富有經(jīng)驗(yàn)的評分員給出的評分之間的一致性較低，其主要與名詞短語密度、詞匯復(fù)雜度和總詞數(shù)相關(guān)，不能全面反映文本語言特征。這表明批改網(wǎng)作文自動評分系統(tǒng)作為一種教學(xué)輔助工具，僅可在有限的程度上幫助教師區(qū)別不同水平的作文。因此，僅依靠批改網(wǎng)評分對學(xué)生的作文質(zhì)量進(jìn)行評估是不正確的，仍然要對學(xué)生的作文進(jìn)行多元反饋。學(xué)習(xí)者可以將其評分作為參考，并主要關(guān)注其在詞匯層面給出的建議。

本研究也存在幾點(diǎn)局限：首先，與大多數(shù)研究一樣，本研究中收集到的作文都屬于議論文體裁，這可能與測試中多使用議論文寫作任務(wù)的情況有關(guān)。但學(xué)生平時的寫作練習(xí)不僅局限于議論文體裁，所以未來研究可以用不同體裁的作文作為語料驗(yàn)證本研究中的結(jié)論。其次，本研究中沒有考慮英語專業(yè)學(xué)生的作文。英語專業(yè)學(xué)生英語水平通常較高，其作文可能在句法復(fù)雜度方面的差異更加明顯，因而以英語專業(yè)學(xué)生的作文作為語料進(jìn)行系統(tǒng)自動評分可能會產(chǎn)生與本研究不同的結(jié)果。