基于多層面Rasch模型的在線同伴互評內部一致性問題分析

2022-05-10 08:16:00杜默君

吉林省教育學院學報 2022年3期

杜默君

動態(tài)評估注重在形成性評價過程中評價者和學習者的協(xié)商，并通過一定的中介干預來實現學習者的潛在能力發(fā)展。Lantolf & Poehner 將動態(tài)評估的模式分為干預式動態(tài)評估和互動式動態(tài)評估兩種類型，同伴干預是干預式動態(tài)評估模式的一種形式，它要求學習者在寫作過程中以書面評論和面對面協(xié)商的形式相互對其寫作的草稿進行討論。部分學者對同伴干預進行了積極評價，并認為匿名互評能夠提高學生對作文反復修改的意愿，讓學生在輕松的網絡環(huán)境下實現真正意義上的協(xié)商與合作，進而從根本上提高學習者的英語寫作自主性，提高學習效果。

國內越來越多的研究者使用互動型同伴互評作為一種新型的形成性評估手段，并將其運用到外語語言教學中。盡管如此，基于信息技術的匿名同伴互評在我國語言教學與動態(tài)評估領域的理論與實踐研究尚處于初期階段，需要更多的研究人員采取一定的手段來進行實證性研究與驗證。

一、文獻綜述

國際上同伴干預研究逐漸成為外語教學的研究熱點。從研究趨勢來看，相關描述性研究正逐步減少，進入到實證性研究和質量研究階段。近年來的實證性研究多以教育心理學理論為指導，采用準實驗研究手段調查互動影響因素與語言發(fā)展間的因果關系，質性研究常在社會文化理論指導下對同伴互評展開探索，也有一些學者基于該理論采用個案研究、民族志、會話分析三種質性研究方法展開討論。

國內關于同伴互評的實證性研究尚處于起步階段，研究成果相對較少。主要研究比較了在二語教學過程中的自評、互評和師評結果之間的差異性、一致性以及評分標準的交互性，有研究者分析了不同水平組學生在評估自己或者同伴英語寫作能力時的差異，以此探討同伴互評的科學性與可行性。

這些研究均為同伴互評的可行性與效度驗證提供了基本參考，但仍存在一些不足之處，因此，本研究采用MFRM 在網絡環(huán)境下的大學英語寫作動態(tài)評估中的同伴互評展開研究。

二、研究設計

（一）研究問題

本研究試圖回答以下2個問題：

1.基于計算機網絡技術的在線同伴干預的交互性與信度如何；

2.在Peerceptiv互評系統(tǒng)環(huán)境下，同伴互評內部一致性如何。

（二）研究對象與環(huán)境

研究對象均為江西某普通理工科高校63 名非英語專業(yè)本科生，A 級班，選修大學英語課程。女生19 人（占總人數的30.16%），男生44 人（占總人數的69.84%），均為理工科背景專業(yè)。

（三）研究工具

本研究要求學生在規(guī)定時間內基于Peerceptiv互評系統(tǒng)環(huán)境完成一篇議論文，文章主題是交通方式改變我們的生活，與所學課文相關，題中沒有生僻詞匯，適合本階段本科生作文。寫作主要包括三個過程：寫作過程、干預過程和評估過程，分別由以下幾個步驟組成：

1.寫作過程：學習者根據要求在Peerceptiv互評寫作平臺獨立按時完成評估者設置的任務初稿并提交，等待同伴互評；

2.同伴干預及矯正過程：采用同伴線上干預+線下教師面輔（采用漸進提示法對學習者進行干預）的方式進行，然后要求評估者結合同伴干預情況，對一稿進行修改或矯正。然后由受試者提交二稿，并對評估者寫回評。

3.評估過程：根據受試者在Peerceptiv互評網絡平臺提交的二稿進行二次互評，評估者根據結果對其在線寫作能力進行評估，互評結束后要求受試者給與評價者回評，并記錄回評結果，以便于后期結果進行比對。

評分標準包含詞匯準確度、語言清晰度、結論是否完整、文章篇幅（長度）、結構完整性、語法等7個維度。各分項評分標準全部采用李克特7 級量表，其范圍從“非常同意”到“非常不同意”順序排列。

三、研究結果

（一）數據初步分析

數據和模型擬合是否理想，主要依據加權的均方擬合統(tǒng)計量和未加權的均方擬合統(tǒng)計量來判斷。一般而言，擬合不佳的被試人數控制在5%以內屬于可接受范圍。在本研究的63 名被試者中，僅有3人（占總人數的4.8%）的加權的均方擬合統(tǒng)計量（Infit MnSq）和未加權的均方擬合統(tǒng)計量（Outfit Mn-Sq）值不在［0.5，1.5］參照區(qū)間內，由此說明，本研究的數據與Rasch 模型的總體擬合情況較好。本研究中數據顯示在進行計算機輔助的動態(tài)寫作時，普通本科學生作文結論部分（首尾是否呼應）不盡人意，文章長度和用詞準確性方面尚可。

（二）測量層面分析

1.受試層面分析

表1 是本研究中受試層面的分析結果報告，主要報告了受試能力值及得分一致性情況。表中第一列是依據Facets 測算原始值并經MFRM 調整后得到的公平均值（Fair Average），第二列為依據Facets計算后得到的被試在線英文寫作能力測量值（單位為logit）。表1顯示，被試的寫作能力值差別較大，在0.10~3.20 logits 之間。由加權的均方擬合統(tǒng)計量Infit MnSq 可知，同伴互評中有 3 位受試者（Infit 值分別為1.85，1.53，0.48）得分一致性較差，除此之外，受試者整體獲得評分情況的一致性較好。從表中可以看出，本例中的卡方檢驗值為883.1，該數值可以用來檢驗各測量層面內部被試個體測量值之間是否存在顯著性差異。結果表明，χ2=883.1，自由度df=62，p=0.00，小于顯著性水平設定的0.05，說明被試者的能力值（本文中表現為同伴互評的等級分）之間存在顯著性差異。表格下方也報道了FACETS 測算出來的被試分隔指數為3.50，這一數據說明被試的能力可大致分為4 個等級；分隔信度系數為0.92，這一指標說明基于計算機的動態(tài)評估中的同伴互評結果能較好地區(qū)分不同能力水平的學習者。

表1 受試層面測量報告

2.評分者側面

評分者側面的分析報告了評分者的評分寬嚴程度，Infit 統(tǒng)計量反映了評分者自身評分的一致性。由表2 可知，基于Peerceptiv 動態(tài)同伴互評中受試者 R37、R8 的Infit 統(tǒng)計量大于1.5，表明這兩位評分者評分過程中自身評價尺度不穩(wěn)定，前后波動較大，有時寬松有時嚴格，存在少數評分者自身一致性較差的現象，但占比僅為4.76%。僅有一位評分員R59的Infit 統(tǒng)計量小于0.5，數據說明其他同伴互評評分區(qū)分度良好，沒有趨中的傾向，評分者自身一致性較好。

通過分隔指數和分隔信度方面的數據來看，同伴互評評分者分隔指數為4.18，分隔信度為0.95，卡方檢驗值為1112.1，df=62，p=0.00＜0.05，說明同伴互評者嚴厲程度存在差異性顯著。分隔信度系數為0.95，證明了評分員嚴厲度的區(qū)分結果可靠性，就整體評分員的內部一致性而言，基于動態(tài)評價理論框架設計的同伴互評，評分者在評價不同工作時，評價尺度前后一致，才具有更好的評分者自身一致性。評分員的內部一致性主要依據Infit MnSq 和Outfit MnSq 值來進行評估。McNamara（1996）認為評分員的內部一致性主要參考Infit MnSq 和Outfit MnSq 值是否介于均值±2 個標準差之間。表2 顯示，評分員整體Infit MnSq 和Outfit MnSq 均值都在1.00±2×0.32 即 0.36~1.64 之間，說明互評者整體內部一致性都比較理想。

表2 評分員層面測量報告

3.評分標準層面

表3 顯示的是評分標準測量報告，主要用于分析評分標準各個維度的難度值。表中第2 列的測量值表示同伴互評過程中所擬定的評分標準各維度的難度及其差異，測量值與各維度的難度值成正比。從表3 中的數據可以看出，本研究采用的7 項評分標準的難度差別不大，評分標準的描述語表達清晰，考生能夠抓準各描述語的含義。各評分維度難度值位于－0.44~0.20logits之間，其中“文章長度”難度最大，說明在線寫作對文章長短不易把握；“語言清晰程度”維度的難度系數最低，說明學生寫作時能夠明確地闡述自己的中心思想。表后的卡方檢驗結果表明，評分標準各維度之間的難度存在顯著性差異（χ2=43.7；df=6；p=0.00）。表中分隔系數的讀數顯示為2.33，說明整體評分標準的難度大致可以分為2~3 個等級，平均誤差很小，僅有0.08 的誤差值，分隔信度系數指標為0.84，說明評分標準描述語達到預期效果，其難度的區(qū)分結果可靠。

表3 評分標準層面測量報告

四、討論與建議

基于計算機的線上動態(tài)二語寫作考試評分的主觀性使評分者偏差成為考試中需長期關注的重要問題。本研究利用Facets 軟件對動態(tài)評價理論指導下的基于計算機的作文同伴互評測試進行了詳細分析，具體而言，對在線同伴互評內部一致性問題也進行了詳細分析。研究結果表明：

（一）在信息技術環(huán)境下進行動態(tài)英語寫作測試過程中，也存在同伴互評者之間評分寬嚴程度不一致的問題，存在顯著差異。具體而言R17是本次網絡寫作中最嚴厲的評分者，而R50 則是最寬容的評分者，兩者之間相差4.89個logits。

（二）在Peerceptiv 同伴互評系統(tǒng)控制下，評分者在二語寫作評分中能保持整體評分的一致性，但少數評分者評分時仍然表現出集中趨勢。這說明雖然進行計算機網上二語寫作評分可提供更及時的反饋，但仍需建立更加合理的監(jiān)控機制，提醒過多使用集中趨勢量尺的評分者。

（三）由于基于計算機的動態(tài)系寫作測試有別于傳統(tǒng)的靜態(tài)測試，評分者未能及時進入角色，這也是發(fā)生評分者偏差的一個重要原因。因此，在計算機動態(tài)英語寫作測試中要控制評分者偏差，提高評分者信度，對評分前培訓及試評應給予足夠重視，同時還要注意監(jiān)控后期評分過程。

基于多層面Rasch模型的在線同伴互評內部一致性問題分析

一、文獻綜述

二、研究設計

三、研究結果

四、討論與建議

二、研究設計

四、討論與建議