張小娟 張 睿 杜 娟
(1同濟大學物理科學與工程學院,上海 200092; 2上海市光明中學,上海 200092)
混合式教學作為一種新興的教學模式,它將兩種或多種不同的訓練方法相結合,從而達到最優的教學效果,例如它把傳統教學和在線教學充分結合起來,利用網絡教學和課堂教學的優勢互補來提高學生的學習效果[1]。在混合式教學過程中,教師通常會通過在線測試或課堂應答系統來檢驗學生對知識點的掌握程度,并根據答題效果,及時調整課堂教學內容,實現教學過程的精準化和合理化。在形成性評價中,測試題目的質量好壞決定了測試結果的準確性,因此,選擇合適的方法來對測試題目質量進行評估,對于考察學生的學習效果具有重要的意義。
題目的難度和區分度是衡量題目質量的重要指標,在混合式教學中,不同的教學環節對測試題的難度和區分度的要求也有所不同,這就需要運用合理的方法來對題目進行篩選。傳統的方法通過題目的失分率確定難度系數,這樣的方法由于樣本的限制,往往產生較大的誤差,不利于對學生的學習效果做出準確的評價。而隨著大數據時代的到來,基于教育大數據的個性化教育也受到廣泛的關注,對教育數據的有效挖掘,對提高教育管理效率和學習效率具有重要的意義[2]?;陧椖糠磻碚摰亩颠壿嬎沟倌P椭邪四芰怠㈦y度和區分度多個指標,既能預測學生的答題概率也能判斷學生的能力等級,能夠滿足對學生的個性化評價,為混合式教學的順利開展提供有力的支持。
項目反應理論將學習者對測試項目的反應(應答)以表示測試項目特性的項目參數和表示被測試者能力的能力參數及其組合的統計概率模型所表示。單參數邏輯斯蒂模型和二參數邏輯斯蒂模型都是典型的項目反應理論模型[3]。
二參數邏輯斯蒂模型如公式(1)所示。
(1)
在二參數邏輯斯蒂模型公式中,P(θ)表示被測試者正答的概率;D為量表因子,其值固定取1.7;θ表示被測試者的能力參數;b表示難度參數,a表示區分度參數[3]。
1) 樣本來源
文章以上海市光明中學2017級267名高一學生第一學期物理期末考試成績和同濟大學2017級446名大一新生第一學期物理期末考試成績為例,針對學生題目的答題情況來進行數據分析。
2) 試卷效度、信度分析

由于試卷題目的效度一般在0.4~0.7為最佳[5],為保證計算結果的可靠性,筆者分別將兩套試卷中近似值在0.3以下的題目刪掉。
3) 能力等級劃分
本文嘗試利用兩種方法來劃分學生的能力等級。
方法1是按照學生的標準分來進行劃分,高一新生共劃分為由高到低A、B、C、D 4個等級,對應能力參數為0.853、0.701、0.557、0.421;大一新生共劃分為由高到低A、B、C、D、E 5個等級,對應能力參數為0.894,0.767,0.615,0.46,0.289。
方法2是按照每10分為一個等級來劃分,共劃分為A、B、C、D、E、F、G這7個等級,每個等級對應的學生的能力參數θ分別為0.9、0.8、0.7、0.6、0.5、0.4、0.3。
根據每個等級學生題目的正確答題人數與該等級內總人數的比值來確定每個等級的答對率P(θ),然后通過邏輯斯蒂回歸求出難度b和區分度a。
為了比較兩種方法算出來的a、b值哪個更可靠,分別將方法1與方法2求得的a、b值代入方法2的7個等級中求出預測的答對率。計算并比較兩種方法預測的答對率與實際的答對率的殘差平方和。經過比較兩套試卷的結果發現,大部分題目使用方法2計算得到的殘差平方和小于方法1。故本文將學生的能力等級按方法2劃分為7個等級。
4) 指標參數相關性分析
而單參數邏輯斯蒂模型則是二參數邏輯斯蒂模型的簡化,其區別在于單參數邏輯斯蒂模型的區分度a的值恒為1。
本文中為了進一步驗證二參數邏輯斯蒂模型計算出的a、b值的可靠性,筆者嘗試采用單參數邏輯斯蒂模型和傳統方法來計算a、b值,并對3種方法計算出的a、b值做相關性分析。結果如表1、表2所示。

表1 難度相關性分析表

表2 區分度相關性分析表
從表1中可以發現,傳統方法、單參數邏輯斯蒂模型和二參數邏輯斯蒂模型三者在0.01水平(雙側)均顯著相關,且具有強相關性,所以,相對來說,3種方法預測出來的難度參數的分布是高度一致的。
由于單參數邏輯斯蒂模型的區分度均為1,所以無法做相關性分析,這里僅對傳統計算與二參數邏輯斯蒂模型做相關性分析,從表2中可以看出同濟大學的區分度兩者顯著相關,但相關系數不夠高,而光明中學則沒有顯著性。
5) 殘差分析
通過難度、區分度相關性分析,3種方法的預測結果在難度上相對來說是比較一致的,那么3種方法預測出來的正確率哪個更加接近真實值呢?
圖1、圖2為用3種方法計算出來的殘差平方和的平均值以及標準差的比較圖,從圖中可以直觀地看出二參數邏輯斯蒂模型的殘差平方和的標準差以及平均值明顯小于其他兩種方法,因此,使用二參數邏輯斯蒂模型計算出來的P(θ)更接近于原始的P(θ)值,也就是說二參數邏輯斯蒂模型估測的區分度和難度值更加可靠,所以依據二參

圖1 殘差平方和標準差比較圖

圖2 殘差平方和平均值比較圖
數邏輯斯蒂模型來計算測試題的難度和區分度還是比較合理的。
混合式教學一般分為課前、課中、課后3個環節。課前環節,學生根據學習任務的需要在網絡學習平臺上通過相關的視頻、課件資源進行學習,起到一個課前預習的效果。課中環節,教師組織線下授課,進行課堂講解、答疑和討論。課后環節,學生可在網絡平臺上進行作業練習、在線討論、評論總結等[7]。具體流程如圖3所示。

圖3 混合式教學流程圖
在混合式教學中,往往會通過測試題來對學生進行形成性評價,在進行教學設計時,可根據布魯姆的教育目標分類理論,結合線上和線下教學的特點,針對學習目標,根據不同教學環節教學需要設置不同難度、區分度的題目。
以大一試卷為例,根據學生的答對率對題目作聚類分析,聚類情況如表3、表4、表5所示。
上述表格中,表3的答對率在0.8~0.95之間,表4的答對率在0.54~0.75之間,表5的答對率在0.30~0.48之間,從表格數據中可以發現難度、區分度的不同均會影響答題的正確率。

表3 大一試題題目答對率聚類1

表4 大一試題題目答對率聚類2

表5 大一試題題目答對率聚類3
通過二參數邏輯斯蒂模型的計算公式也可以得知,當θ=b時,被測試者的正確概率為0.5,可以以這個0.5為基準,當區分度和被測試者能力一定的情況下,b越小,超過0.5的正確概率的人數就越多[3]。就可以根據學習任務的需求,在區分度一定的情況下,根據正確概率要求和被測試者的能力來挑選難度適宜的題目。在難度一定的情況下,區分度越大的題目,越能區分被測試者的能力。
在不同的教學環節中,又該如何應用難度、區分度這兩個指標來設定測試題目,實現對學生的形成性評價呢?
在課堂討論的環節中,學生的參與度是討論題目質量好壞的重要評價標準,討論題目的難度太大,會讓學生失去課堂討論的信心,討論題目的難度太小,又會失去課堂討論的價值,在對課堂討論題目進行選取時就應該選擇難度系數居中、區分度大一點的題目。對于表3、表4、表5中給出的題目,表4對應的題目難度系數居中,更適合用于課堂討論。
在課后的線上作業環節,主要是判斷學生對知識的掌握情況,題目的設置要有兼顧性和層次性。通過設置不同難度的題目可以了解學生對所學知識的掌握情況。但是就目前的大多數學習平臺來說,線上作業的題目設置并不能實現個性化學習的需要,即對不同能力等級的學生很難做到個性化的題目設置。因此,要滿足學生個性化學習的需要,未來學習平臺的線上作業環節的題目的設置需要有不同的難度系數、區分度,然后按照最近發展區理論,對不同能力等級的學生設置與學生能力等級相近或者比學生能力等級稍微高一點的題目,從而實現學生的個性化發展。
學習預警指按照一定的標準綜合評估學生的背景信息、學習行為、考試成績等因素,按照評估結果向學生、教師等發出提示信號,并及時提供有效且針對性強的干預建議[8]。長期以來,預測學生的學習成績一直是許多學科的重要研究課題[9]。通過預測學習成績實現學習預警對于學生的形成性評價具有重要的意義。
在混合式教學中,學生會在學習的過程中產生大量的實時動態數據,例如在線討論情況、視頻觀看時長頻率、各教學環節答題情況等。針對答題情況,未來可以使用二參數邏輯斯蒂模型根據學生在前半學期教學環節中的題目答對率來預測學生期末成績的及格率,然后對不及格的學生進行及時預警。
此外,教師還可以通過測試相同能力水平的學生在相同難度和區分度的題目時的正確率,通過正確率來判斷學生某一段時間的學習努力程度是否上升或者下降。對于同一個學生來講,也可以通過選取相同難度和區分度的題目來記錄學生的正答概率,通過一段時間的記錄,來預測學生的能力是否發生變化。在學習預警中選擇的題目區分度要盡量大一些,能夠區分出高低能力等級的學生。
混合式教學作為一種線上學習與線下學習相結合的教學形式,這種教學形式要求通過形成性評價及時了解學情,調整教學策略。本文通過對傳統方法、單參數邏輯斯蒂模型和二參數邏輯斯蒂模型的比較分析,發現二參數邏輯斯蒂模型在預測題目難度和區分度方面具有明顯的優勢,并且使用二參數邏輯斯蒂模型來進行測試題指標的計算,并根據教學要求給出混合式教學中不同環節的測試題選擇方法,也為混合式的形成性評價提供有益參考。