高健民
(浙江大學(xué) 外國語言文化與國際交流學(xué)院,浙江 杭州 310058)
寫作評估是外語教育中的重要一環(huán)。隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,英語作文評分的方式也發(fā)生了巨大改變。系統(tǒng)自動評分的方式不僅彌補(bǔ)了人工評分成本高、效率低的局限,還提高了作文評分的信度,減輕了由于人工閱卷員評分標(biāo)準(zhǔn)不一致造成的偏頗。一些自動評分系統(tǒng)不僅可以給作文提供一個整體性的分?jǐn)?shù),還能同時呈現(xiàn)關(guān)于作文語言質(zhì)量的反饋,這些優(yōu)點(diǎn)使得作文自動評分系統(tǒng)不僅被廣泛應(yīng)用于各種英語考試中,許多英語教師也將其應(yīng)用在課堂測試的評分上。然而,即使作文自動評分系統(tǒng)在評估學(xué)生的寫作能力方面有著很多優(yōu)勢,對其評分可靠性和有效性的爭論卻從未停止過。此外,由于這些評分系統(tǒng)往往缺乏評分過程上的透明性,直觀感受其評分效果十分困難。因此,對于作文自動評分系統(tǒng)評分質(zhì)量的定量分析是十分重要的。
從理論的角度,一些研究者提出了對于作文自動評分系統(tǒng)評分質(zhì)量進(jìn)行評估的必要性以及需要考慮的因素。例如,Xi系統(tǒng)性地提出了作文自動評分系統(tǒng)評分過程有效性的問題,主要對使用作文自動評分系統(tǒng)是否會引起構(gòu)念無關(guān)因素或造成構(gòu)念代表性不足的問題進(jìn)行了討論,還指出研究系統(tǒng)自動評分結(jié)果與其他非測試得分類指標(biāo)的一致性至關(guān)重要。[1]Deane也討論了采用系統(tǒng)自動評分方式對構(gòu)念效度的影響,指出作文自動評分系統(tǒng)所能測量到的寫作技能是有限的。[2]
在實(shí)證研究方面,Weigle將考生在托福考試(TOFEL)寫作任務(wù)中由e-rater這一自動評分系統(tǒng)給出的得分與考生對于自我寫作能力的自評分以及考生在非測試環(huán)境下完成的作文的得分進(jìn)行了比較,最后發(fā)現(xiàn)這些得分之間存在中等強(qiáng)度的相關(guān)性。[3]Ramineni等人將GRE測試(美國研究生入學(xué)考試)中的考生作文作為語料,對人工評分和系統(tǒng)自動評分的預(yù)測效度進(jìn)行了比較,結(jié)果發(fā)現(xiàn)兩者都能很好地預(yù)測考生在口語測試任務(wù)上的得分。[4]除了研究系統(tǒng)自動評分與其他測量寫作水平或整體語言水平指標(biāo)的相關(guān)性之外,一些研究者還研究了系統(tǒng)自動評分與人工評分的一致性,這類研究的共同發(fā)現(xiàn)是自動評分與人工評分之間具有較高的一致性,并且這兩者的一致性接近不同閱卷員之間評分的一致性。[5-6]除此之外,還有許多針對不同自動評分系統(tǒng)的個案研究。[7]
通過對以往文獻(xiàn)的系統(tǒng)性梳理,本研究發(fā)現(xiàn)了在這一領(lǐng)域研究上的不足。首先,雖然很多研究都表明系統(tǒng)自動評分與人工評分有著高度的相關(guān)性,在Liu和Kunnan的研究中卻顯現(xiàn)了不同的結(jié)果。[8]而且這種一致性不應(yīng)該被當(dāng)作是衡量評分有效性的唯一指標(biāo),因?yàn)槠鋬H能反映出系統(tǒng)自動評分的穩(wěn)定程度,并不能反映其全面評估考生寫作水平的能力;[9](P142-173)且以往研究往往割裂了分?jǐn)?shù)與文本之間的聯(lián)系,沒能從作文本身語言特征的角度為系統(tǒng)自動評分質(zhì)量的高低提供證據(jù)。其次,以往大多數(shù)研究都是國外研究者針對國外考試機(jī)構(gòu)開發(fā)的自動評分系統(tǒng)所作的效度驗(yàn)證,而國內(nèi)這方面的研究比較少,且多為綜述性研究,[10-13]僅Qian等學(xué)者和何旭良針對國內(nèi)的兩款主流自動評分系統(tǒng),即iWrite和批改網(wǎng)的評分質(zhì)量進(jìn)行了實(shí)證研究。[14-15]由于國外大多數(shù)的自動評分系統(tǒng)在國內(nèi)是無法使用的,而中國擁有龐大的英語學(xué)習(xí)群體,因此對國內(nèi)主流作文自動評分系統(tǒng)評分質(zhì)量的研究意義重大。
本研究選取了批改網(wǎng)作為研究對象,原因在于其較早得到了推廣,且可以被免費(fèi)使用,有著龐大的受眾群體。對于批改網(wǎng)評分質(zhì)量的研究不僅可以填補(bǔ)國內(nèi)對于作文自動評分系統(tǒng)評分質(zhì)量實(shí)證研究的空白,還能為廣大英語教師及學(xué)習(xí)者提供啟示。基于此,本研究主要關(guān)注以下兩個問題:(1)批改網(wǎng)系統(tǒng)自動評分與人工評分的一致性如何?(2)批改網(wǎng)系統(tǒng)自動評分與文本語言特征(復(fù)雜度、準(zhǔn)確性和流利度)的相關(guān)性如何?
1.材料與被試
本研究所用的語料為國內(nèi)某大學(xué)104名一年級學(xué)生的英語期末考試作文。這些學(xué)生都是非英語專業(yè),并且來自兩個不同的大學(xué)英語平行班。該英語測試在課程結(jié)束時舉行,其中包含一項(xiàng)獨(dú)立寫作任務(wù),寫作題目是分析一項(xiàng)社會問題。作文成績與學(xué)生的課程成績直接相關(guān),因此可以確保所有學(xué)生都認(rèn)真進(jìn)行了作答。
2.評分過程
所有作文都是由一名任課教師和一名研究者共同批閱的,均具有豐富的閱卷經(jīng)驗(yàn)。評分依據(jù)是全國大學(xué)生英語四級考試作文整體性評分量表(滿分15分)。在正式評分之前,兩位評分員就評分標(biāo)準(zhǔn)進(jìn)行了討論,然后隨機(jī)抽取了25份作文進(jìn)行了試評,在兩位評分員的評分達(dá)到高度一致后(r=0.86,p<0.01),每位評分員分別對其余的作文進(jìn)行了獨(dú)立評分。每篇作文最終的人工得分為兩個評分員評分的均值。由于批改網(wǎng)評分制為百分制,因此在系統(tǒng)批閱所有作文后,研究者將百分制分?jǐn)?shù)轉(zhuǎn)化為了15分制的分?jǐn)?shù)。
3.文本語言特征量化指標(biāo)
在本研究中,研究者對文本語言特征進(jìn)行了量化。復(fù)雜度方面由Coh-Metrix文本分析軟件進(jìn)行量化。對于句法復(fù)雜度,本文從句子和短語層面選取了4個指標(biāo),即平均句長、從句數(shù)量、名詞短語密度及動詞短語密度。詞匯復(fù)雜度由篇章詞匯多樣性指標(biāo)量化,因該指標(biāo)對于文章長度最不敏感,即其不易受到不同文章長度的影響。[16]
準(zhǔn)確性由文章錯誤率量化。錯誤類型的識別依據(jù)Bardovi-Harling和Bofman提出的標(biāo)準(zhǔn)。[17]兩位評分員首先對于隨機(jī)抽取的25篇作文進(jìn)行了試編碼,即識別出作文中所有的語言錯誤。在評分員所識別出的錯誤數(shù)量達(dá)到高度一致后(r=0.89,p<0.05),兩位評分員分別對剩余的作文進(jìn)行編碼。文章錯誤率即語言錯誤總數(shù)占作文總詞數(shù)的比率,這種做法有利于使準(zhǔn)確率的統(tǒng)計(jì)免受文章長度的影響。
作文的流利度由總詞數(shù)衡量。由于在測試環(huán)境下,考生答題時間上限是固定的,且根據(jù)以往觀察,考生在寫作任務(wù)上的用時不會有過大的差異,因此總詞數(shù)能夠在一定程度上衡量考生的寫作速率。
4.數(shù)據(jù)分析
對于第一個研究問題,研究者首先對批改網(wǎng)自動評分和人工評分進(jìn)行了配對樣本t檢驗(yàn),以比較兩者在分?jǐn)?shù)高低上的差異。然后,研究者對兩組分?jǐn)?shù)做了一致性檢驗(yàn),具體指標(biāo)包括精確一致性(分值完全相等)、臨近一致性(分值差異小于等于2分)和皮爾遜相關(guān)系數(shù)。對于第二個研究問題,研究者將批改網(wǎng)自動評分與作文文本語言特征的各項(xiàng)指標(biāo)做了相關(guān)分析。
1.批改網(wǎng)自動評分與人工評分的一致性
據(jù)表1所示,批改網(wǎng)評分的平均值,最大值及最小值均高于人工評分,且配對樣本t檢驗(yàn)的結(jié)果表明批改網(wǎng)評分與人工評分具有顯著差異(p<0.05)。這表明批改網(wǎng)評分要比人工評分更高。根據(jù)表2所示,批改網(wǎng)評分與人工評分的精確一致性和臨近一致性較低,且相關(guān)系數(shù)為0.41(p<0.01),說明兩者僅存在著弱相關(guān)關(guān)系。

表1 批改網(wǎng)評分與人工評分的描述性統(tǒng)計(jì)

表2 批改網(wǎng)評分與人工評分的一致性統(tǒng)計(jì)
2.批改網(wǎng)評分與作文文本語言特征指標(biāo)的相關(guān)性
表3列出了批改網(wǎng)評分與文本復(fù)雜度、準(zhǔn)確度和流利度指標(biāo)的相關(guān)系數(shù)。可見,批改網(wǎng)評分僅與句法復(fù)雜度中的名詞短語密度、詞匯復(fù)雜度指標(biāo)以及流利度指標(biāo)相關(guān)。其中,批改網(wǎng)評分僅與表示詞匯復(fù)雜度的篇章詞匯多樣性有強(qiáng)相關(guān)關(guān)系,相關(guān)系數(shù)為0.764,其余均為中等相關(guān)。

表3 批改網(wǎng)評分與文本語言特征指標(biāo)的相關(guān)系數(shù)
3.討論
首先,批改網(wǎng)評分顯著高于人工評分,這一點(diǎn)與何旭良的研究結(jié)論完全一致。結(jié)合批改網(wǎng)評分與文本語言特征的相關(guān)性結(jié)果可知,批改網(wǎng)關(guān)注到的語言特征是有限的。而人工閱卷往往會從更多方面考慮作文質(zhì)量,如寫作邏輯、內(nèi)容質(zhì)量、語言的地道性等,因此人工評分可能會比系統(tǒng)自動評分更加“苛刻”。其次,批改網(wǎng)評分與人工評分為弱相關(guān)關(guān)系,這一點(diǎn)與何旭良的研究結(jié)果相違背,推測其原因在于本研究中的作文樣本量更大。精確一致性和臨近一致性指標(biāo)表明,兩者的評分并不總是完全一致的,這一發(fā)現(xiàn)與國外學(xué)者對于e-rater和My Access評分質(zhì)量的研究結(jié)果不同,原因可能在于不同的自動評分系統(tǒng)在評分單位上有所差異。評分量表的全距越高,可能會導(dǎo)致作文之間分?jǐn)?shù)差異更大,從而影響到精確一致性和臨近一致性的數(shù)值。但是從另一個角度看,這也在一定程度上表明批改網(wǎng)的評分質(zhì)量仍有待提高。
批改網(wǎng)評分與文本語言特征的相關(guān)性說明,批改網(wǎng)系統(tǒng)評分可能更加關(guān)注作文在詞匯層面的表現(xiàn),詞匯的多樣性以及名詞短語的使用都與批改網(wǎng)評分呈正相關(guān)關(guān)系。批改網(wǎng)評分沒能反映考生在句子組構(gòu)層面的能力,原因可能是大一的非英語專業(yè)學(xué)生經(jīng)受的語言訓(xùn)練比較少,沒有經(jīng)歷長期的浸入式英語學(xué)習(xí),所以普遍在句法方面表現(xiàn)較差,不能與彼此之間拉開顯著的差距,而他們在相對容易學(xué)習(xí)的詞匯表達(dá)方面則能體現(xiàn)出更大的差距。此外,批改網(wǎng)評分也不能反映出作文的準(zhǔn)確率,這可能是因?yàn)樽詣釉u分系統(tǒng)只能識別出句法和詞匯形態(tài)層面的錯誤,在識別如詞匯使用合理性及詞匯搭配方面的錯誤上不夠精確,這類錯誤的識別往往需要專業(yè)教師的判斷,因而其評分與人工進(jìn)行統(tǒng)計(jì)的準(zhǔn)確率沒能呈現(xiàn)統(tǒng)計(jì)學(xué)上的相關(guān)性。從另一方面來看,批改網(wǎng)系統(tǒng)在評分有效性上需要進(jìn)一步優(yōu)化,提高其對句法特征和語言準(zhǔn)確度方面的識別能力。最后,批改網(wǎng)評分與作文總詞數(shù)呈正相關(guān),而總詞數(shù)往往與詞匯多樣性相關(guān),尤其是對于那些詞匯量積累較大的考生來說,寫的詞數(shù)越多,越能體現(xiàn)他們的語言能力,因而會在批改網(wǎng)中得到更高的分?jǐn)?shù)。同時,本研究中考生作文的體裁為議論文,文章的長度或許也與論證的充分性程度相關(guān),關(guān)于批改網(wǎng)是否能夠識別這種高階的語言能力還需要更多的研究進(jìn)行驗(yàn)證。
本研究中發(fā)現(xiàn)批改網(wǎng)評分與富有經(jīng)驗(yàn)的評分員給出的評分之間的一致性較低,其主要與名詞短語密度、詞匯復(fù)雜度和總詞數(shù)相關(guān),不能全面反映文本語言特征。這表明批改網(wǎng)作文自動評分系統(tǒng)作為一種教學(xué)輔助工具,僅可在有限的程度上幫助教師區(qū)別不同水平的作文。因此,僅依靠批改網(wǎng)評分對學(xué)生的作文質(zhì)量進(jìn)行評估是不正確的,仍然要對學(xué)生的作文進(jìn)行多元反饋。學(xué)習(xí)者可以將其評分作為參考,并主要關(guān)注其在詞匯層面給出的建議。
本研究也存在幾點(diǎn)局限:首先,與大多數(shù)研究一樣,本研究中收集到的作文都屬于議論文體裁,這可能與測試中多使用議論文寫作任務(wù)的情況有關(guān)。但學(xué)生平時的寫作練習(xí)不僅局限于議論文體裁,所以未來研究可以用不同體裁的作文作為語料驗(yàn)證本研究中的結(jié)論。其次,本研究中沒有考慮英語專業(yè)學(xué)生的作文。英語專業(yè)學(xué)生英語水平通常較高,其作文可能在句法復(fù)雜度方面的差異更加明顯,因而以英語專業(yè)學(xué)生的作文作為語料進(jìn)行系統(tǒng)自動評分可能會產(chǎn)生與本研究不同的結(jié)果。