吳昊 韓葉
(海軍軍醫大學國際軍事醫學交流中心外語教研室,上海 200433)
寫作作為英語的輸出性技能之一,在評價學生語言知識的吸收和應用上扮演著非常重要的角色。文章重點比較了兩種常用的寫作評價方法:分析性評價和整體性評價。采用 Bachman和 Palmer(1996)的《測試效用框架》(framework of test usefulness),文章從信度、效度和實用性等角度對兩種評價方式進行了對比。最后,基于比較分析中提到的理論和實證發現,文章為寫作教學和評價給出了一系列建議。
分析性評價(analytical assessment)是一種對評價標準中各個維度分別打分并將總分或加權分數作為評價結果的評價方式。成績一般以字母、數字或百分比等形式體現。分析性評價關注應試者在各個維度中的表現,每一個維度的評價過程相對獨立。在寫作測試中,評分員可以分別給詞匯、語法、篇章結構、連貫性等維度制定評價標準,然后依照這些評價標準給應試者的各項表現逐一打分,取總成績或者加權分數。
整體性評價(holistic assessment)是一種綜合考慮評價標準后直接給出評價結果的評價方式。評分員將應試者的表現對標到評價標準中的對應等級并給出評價結果。成績一般以字母、數字或百分比等形式。在評價過程中,評分員給出的分數反映了他們對應試者在任務中的表現的總體印象。評分員需要經過嚴格的培訓以保證他們的判斷符合評分標準的要求。
本節采用Bachman和Palmer(1996)提出的《測試效用框架》重點對比兩種評價方式的四個核心特點:信度、結構效度和實用性,并引用實證研究的發現加以佐證。
評價方式的信度指的是不同評分員對于應試者表現的判斷具有多高的一致性。較高的信度意味著評分員多數情況下都能夠給出一致的評價結果。評價實操通常關注兩種信度:評分員間信度(inter-rater reliability)和評分員內信度(intra-rater reliability)。前者衡量不同評分員對同一試卷的評價一致性,而后者衡量同一位評分員對同一試卷進行多次評價的一致性。
分析性評價通常比整體性評價具有更高的信度。在Ghalib和Al-Hattami(2015)的研究中,三名專業評分員在接受了兩個小時的培訓后為30名英語專業學生的寫作試卷打分。評分員首先使用整體性評價對30篇稿件進行評分,然后使用分析性評價為同一批文章打分,為保證兩次評價的獨立性,時間間隔為一個月。當三名評分員使用分析性評價時,評分員間的差異不顯著,但當他們使用整體性評價時,差異顯著。這表示分析性評價的評價結果一致性和可靠性更高。此外,類內相關系數(intra-class correlation coefficient)表明,當三位評分員使用分析性評價時,他們的類內相關系數更高,更高的類內相關系數意味著更高的評分員內信度。
在之后的研究中,Knoch(2009)訓練了10位評分員對100份稿件進行評分,發現在大學學術英語的教學環境下,分析性評價比整體性評價具有更高的評分員間可靠性,這彌補了Ghalib和Al-Hattami的研究中缺乏評分員間信度測量的問題。此外,在一項類似的研究中,Zhang等人通過分層抽樣從5,000名中國EFL學生中選取了300份答卷,得到的結論與Ghalib和Al-Hattami一致。
以上研究發現均可以有力支持分析性評價比整體性評價具有更高的信度。但是,目前大多數有關評價方式的研究都集中在大學英語教學背景下,其他語言學習環境下(如中小學、校外語言學習中心、其他語種的學習)的實證研究開展不足。未來的研究可以考慮在更多學習環境下開展,以使論點的普適性更強。
評價方式的效度指的是評價的準確性,反映了測試內容在多大程度上吻合教學內容的安排。在效度的各個維度中,建構效度最受關注。寫作測試的建構效度指的是一次寫作測試能夠在多大程度上將應試者在不同技能上的表現區別開來,建構效度越高,這種能力就越強。一般來講,分析性評價比整體性評價具有更高的建構效度。以上文提到的雅思寫作測試和托福寫作測試做對比,雅思寫作測試給應試者的各項寫作能力分別評分,這樣每項技能的表現都可以區分開來,例如某位應試者在語法多樣性和準確性這一項的表現只得到了5分,但這并不影響他在詞匯豐富程度這一項得到6分,這樣就避免了評分員因個人喜好給某個維度賦予更多權重,從而對整個測試評價過程的信度帶來負面影響。
相比之下,整體性評價根據評分員的總體印象給出一個單一的分數,這是其結構效度相對較低的主要原因。畢竟整體性評價不能像分析性評價那樣對每一個維度分別評價。結構效度低的評價方式在報告成績時會給應試者帶來一定程度的消極感受:例如,托福寫作測試采用整體性評價,考生備考時很難很快理解3分的作文比4分的作文差在哪里,是連貫性,文章結構,還是詞匯準確度?即使是評價經驗豐富的教師拿到這樣兩份試卷后做出的解釋也不一定和評分員給出評價時的原因相同,因為如果這位評分員因個人喜好更看重文章結構,而這份試卷的結構恰好完整且清晰,那么這份試卷拿到高分的可能性便會大大增加,反之亦然。
評價方式的實用性衡量的是整個評價過程所需的人力、財力和時間成本。在大多數情況下,評價周期拉得越長,成本越高。研究表明,在對同一份樣卷進行評價時,整體性評價所花費的時間遠遠少于分析性評價,因為使用分析性評價的評分員需要更多的時間給每個維度逐一評分。此外,如果分析性評價因其側重點在設計過程中賦予了各個維度不均等的權重,用于計算最終得分的時間將會更久。研究表明,分析性評價在評分員培訓中所花費的時間是整體性評價的兩倍,在正式評價環節中所花費的時間更是整體性評價的四倍。在Zhang等人(2015)的研究中,同一批14名評分員對300份英語寫作樣本進行評分,使用分析性評價需要花費多達8.5天,而整體性評價僅花費了1.5天,兩者相差5.7倍。很顯然,與分析性評價相比,整體性評價的“性價比”更高。
首先,評價方式的選擇應該考慮測試的目的。由于整體性評價的實用性很高,它經常作為大規模評價或在有限時間、有限資源內完成的緊急需求下的首選評價方式。然而,如果一次寫作測試是為了向教師和學生提供診斷性信息,分析性評價無疑是更好的選擇。研究表明,分析性評價可以提高評分的透明度、提升評分員內信度和評分員間信度、激發教師對教學實踐的反思以及促進學生進行自我感知和評價。
其次,評價標準的設計應當清晰、明確、合理。一份合格的寫作評價標準應該對寫作技能的定義、得分方式、各個維度的權重以及分數的反饋方式有精確的解釋。此外,如果測試的目的是評價某一特定語言技能的掌握情況,那么評價標準應當給出明確的側重點。例如,如果教師希望用寫作測試考察英語初學者對于過去式的掌握和運用,那么語法的準確性應該被賦予更多的權重,相反對于初學者來說文章結構和語義連貫性這些高階技能不應該成為本次測試的重點。此外,教師也應當考慮在本次測試中采用分析性評價,因為它可以在調整語法技能在評價標準中的權重的同時提供給學生更詳細的反饋,例如,將語法技能增加到50%,而將剩余的50%分配給詞匯、文章結構、文章內容等方面。
評價標準確立后,還需要進行評價標準的培訓和樣卷的試評和解析。評價標準培訓的主要目的是保證評價標準的信度和效度。測試的組織者應當帶領評分員認真核對答案、學習評價標準和評價要求。此外,提供樣卷的試評和解析是最有助于保證信度和效度的方式之一。樣卷的數量不必過大,3到10份具有代表性的樣卷就足以幫助評分員在評價前對應試者的群體水平有一個大致的了解,也可以保證評分員在評價實操中快速回顧和參考。相關研究表明,大部分的評分員對于樣卷的依賴程度很高,尤其是在處理疑難答卷時(如處于及格邊緣、優秀邊緣的答卷),樣卷往往可以提供非常有效的參考。
文章通過對比發現,分析性評價因其給每個維度逐一打分的特質,具有更高的信度、結構效度。相比之下,整體性評價因其只需打一次分數,在時間和人力成本上具有更強優勢。兩種評價方式對應不同的測試需求,教師應當綜合考慮測試的目的和測試結果的功能。此外,測試發起方應當制定規則合理、描述清晰的評價標準,并進行全面的評價培訓以保證測試的信度和效度。