999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Rasch模型的大概念理解能力垂直等值研究

2024-10-30 00:00:00彭文坤
化學教學 2024年10期

摘 要: 基于Rasch模型,針對高中化學課程中的“結構決定性質”大概念,開展了大概念理解能力的垂直等值研究。研究結果顯示了不同年級學生在“結構決定性質”大概念理解能力上的表現,為構建高中化學大概念理解能力的定量監測提供了方案。

關鍵詞: 結構決定性質; Rasch模型; 大概念; 垂直等值

文章編號: 10056629(2024)10001407

中圖分類號: G633.8

文獻標識碼: B

1 問題的提出

大概念是反映學科本質、具有抽象性、概括性、統攝性和廣泛遷移價值的學科思想和觀念[1]。本研究以“結構決定性質”這一大概念為例,探討物質宏觀性質與微觀本質之間的相互關系。該大概念反映了化學學科宏觀與微觀的關聯本質[2],深入了解不同年級學生對該大概念的理解能力水平,具有較高的研究價值。如果使用同一測試工具在不同年級學生間進行測量,低年級的題目難度對高年級學生而言就變得過于簡單,難以有效測量高年級學生。且重復使用同一測試工具還可能存在練習效應,影響結果的準確性。如果使用針對各年級的多套測試題,且測試題之間能進行有效的等值轉換,那么就可以很好地解決這一問題。基于Rasch模型的垂直等值便是一種有效的解決方案。

垂直等值關注學生大概念理解能力發展的連續性,通過將不同年級的測驗結果轉換到統一的分數量尺上,可以追蹤學生在某一大概念理解能力上的增值情況,利于進行增值性評價。有研究者提出,增值評價是一種可以準確掌握學生成長狀態、科學計算學生發展水平、詳細記錄學生增值軌跡的學生評價[3]。Young指出,大多數增值性評價需要一個垂直化的分數量尺,以便將學生在連續幾個學年的成績進行比較,因此,用于增值性評價的測驗需要經過良好的垂直等值設計[4]。

2 研究設計

2.1 垂直等值研究的思路與方法

垂直等值(vertical scaling)指的是在某一特質領域內,建立一個評價參照體系,用于衡量縱向發展中不同水平群體或個體特質水平的發展狀況的過程[5]。通過梳理已有文獻,如閔尚超和何蓮珍的“構建英語聽力能力發展性量表——IRT垂直等值的應用”等,發現垂直等值研究通常包含以下幾個關鍵步驟:首先,明確進行垂直等值研究的目的,確定為何需要進行此研究;其次,編制雙向細目表,同時考慮學科特點和測試內容的維度結構;接著,構建發展性分數量尺,并選擇合適的題目設計方法,如錨題設計、等組設計或錨測驗設計,以及分數轉換方法,如Thurstone方法、Hieronymus方法或IRT方法;然后,選擇合適的分析軟件,如PARSCALE或WINSTEPS等[6];最后,報告垂直等值的結果并對數據進行解讀。本研究的思路與方法如圖1所示。

2.2 大概念理解能力垂直等值的合理性

大概念具有不同的知識層級結構,能夠反映學科的核心特質,并占據學科的中心地位[7]。化學學科中的“結構決定性質”大概念層級結構如下:一級主題概念包括“基于官能團、化學鍵與反應類型來認識有機化合物的一般思路”,而二級概念則涉及取代反應、加成反應等。大概念本身的知識層級遞進關系適合進行垂直等值。

高中化學課程遵循由淺入深的原則。在必修階段,學生僅需了解化學鍵的基本概念,如離子鍵和共價鍵的形成。隨著年級的提升,學生將逐漸學習更為復雜的結構與性質之間的聯系。進入選修階段,則需要掌握共價鍵的主要類型,并能利用鍵能、鍵長、鍵角等參數來解釋簡單分子的某些性質[8]。這種連貫性確保了學習內容的連續性和相關性,也為不同年級間的垂直等值提供了可能性。

在教育評價的需求方面,對核心概念或原理的調查有助于描繪不同年級學生概念理解的發展水平[9]。教育決策者或教師需要了解學生對大概念的理解情況,以便進行資源調配或教學調整,垂直等值就較好地提供了這樣一個評價框架。

3 研究實施

3.1 雙向細目表的編制

查閱文獻資料后發現,目前在大概念的層級劃分上尚未有統一標準。有的采用跨學科、學科單元間、學科單元內、學科課時內的大概念劃分[10];有的則使用大概念、學科基本理解、學科基本概念和學科事實的分類[11];還有的采用學科大概念、主題大概念和學科基本觀念的劃分[12]。鑒于“結構決定性質”這一大概念在高中化學教材(人教版)中的呈現情況,為便于后續選題內容,本研究采用了圖2所示的結構層次。采用了自下而上的大概念提取方法,結合生活和教學經驗,通過不斷追問、綜合具體案例和小概念來進行提取[13]。同時,運用鄭長龍基于idea的主題大概念提取模型[14],并通過文獻研究進行了補充,最終構建了該大概念如圖2的概念層級關系。

已有研究表明,隨著學生對學科基本理解的不斷加深和對基本概念的不斷豐富,他們對大概念的理解也會逐漸深化[15]。本研究采用Wiggins的理解六側面對學生大概念的理解能力進行測量,理解六側面是測量理解的有效辦法,可以從理解的某個側面中將事實性知識與真實的理解進行區分[16]。理解六側面對“大概念”作了詳細解釋,還闡述了這些側面如何豐富學生學習。由于此研究對象為學生對“結構決定性質”大概念的理解,對此我們沒有使用布魯姆目標分類水平,其原因如下:大概念的理解指向學生高階思維的培養[17],而布魯姆分類法在高階思維能力評價上存在不足[18],布魯姆分類法中知識與理解的內在關系和界線比較含糊[19]。因此采用Wiggins的理解的六側面對學生大概念的理解進行測量。

本研究采用了二段式測試,即第一段問題為選擇題或是非題,旨在檢測學生是否理解了相關問題的內容。第二段問題則考查學生對第一段問題所給答案的理由,采用選擇題形式。每個題目的第一、二段均設唯一正確答案。第二段的干擾選項基于學生可能的誤解或與問題相關的不同觀點設計,這些觀點來源于已有研究文獻及教師的訪談。僅當學生對兩段問題都回答正確時,才計為1分。這樣的設計既滿足了Rasch模型對項目局部獨立性的要求,又降低了學生猜題的可能性,提高了測量的效度。

結合Wiggins的“理解六側面”模型和高中化學課程標準,從化學學科本體視角和學生學習視角出發,構建“結構決定性質”大概念理解能力的評估指標。對于“神入”和“自知”兩個側面據研究實際情況進行了調整,“神入”隱含了經驗前提,評估時需要注意學生回答和解釋問題時是否克服了自我中心主義[20],但學生自我中心主義有時并不容易被察覺。“自知”這一側面反映學生對理解局限、盲區、偏見等的自我認識[21]。學生表達自我認識的方式可能因人而異,這也會導致評分者在評估時產生較大偏差,難以統一標準。同時,這兩個側面通常需采用開放式問卷設計,會占用被測試者較長時間。課題組在預測試中發現,由于答題疲勞,對此兩側面答題的學生數量極少。正式測試中將這兩個側面納入第二段問題的末尾(如E選項),采用開放性設計。最終問卷中學生選答此項人數極少,沒有統計價值,不列入后續分析。最終測試題目的內容、題量和理解側面的情況詳見表1。

3.2 分數量尺的構建

等值設計采用錨題設計(共同題)模式,根據項目反應理論,在不同年級的試卷之間設置錨題,以便于進行比較分析[22]。錨題設計(Common item design)是最常用的等值方法,它能夠有效地將不同年級學生的學業水平進行垂直等值[23],如圖3所示。鑒于“結構決定性質”這一大概念貫穿整個高中化學課程,設計的錨題均圍繞該大概念展開,以減少項目漂移(item drift)。

根據錨測驗題與獨立測驗題目是否同時進行,等值設計可以分為“內錨設計模式”和“外錨設計模式”。此研究采用內錨設計模式,如圖3所示。依據Inacre的建議,至少應保留5個垂直錨題[24]。在考慮題目分值時,應確保錨題分值至少占總分值的20%,并盡可能使錨題覆蓋所有測量方面[25]。因此,本研究在高一與高二年級之間設置了5個錨題,實際包含10個二段式題目。高二與高三年級之間的錨題數量為8個,實際包含16個二段式題目,這一數量符合要求。錨題覆蓋了概念理解的各個方面,具體數量及占比見表2。由于所有錨題均采用二段式設計,即20個一段式題目和20個對應的二段式題目。如果題目數量過多,學生可能會出現作答疲勞,導致大量未作答項目,影響估計結果的收斂性[26]。因此,最終確定為高一年級20題、高二年級23題、高三年級26題,由于是二段式設計,實際題量分別為40題、46題、52題。

項目反應理論(IRT)方法是基于被試的作答模式來估計其潛在能力值,這種方法能夠反映被試的實際能力分布,并且已經成為構建垂直等值量尺的主要方法[27]。因此,本研究借鑒此方法,采用二級計分法、單層面、單參數的二級Rasch模型。根據已有研究,當構建大型題庫時,采用固定參數標定(FIPC)方法更為靈活、有效且節省時間[28],且固定項目參數估計在特定參數估計方法的應用下能夠取得良好效果[29]。在此研究中,課題組篩選了近10年的各省高考題和學考題,建立了題庫。由于此研究專注于某一特定化學大概念的理解能力,題目的等級和考察范圍可以得到精確控制,題目的測量穩定性較高,可以采用固定參數標定法。

3.3 垂直等值分析

3.3.1 樣本情況

樣本為西南地區某縣三所高中的部分學生(全縣共有三所高中),根據歷年的高考化學排名情況,該縣高中教育水平在全市郊縣高中中屬于中等層次。因此,通過對這三所學校的學生進行測試,可以大致反映該市郊縣區中等層次學生對“結構決定性質”大概念的理解水平。本研究對含有化學科目的各類組合班級進行了整體隨機抽樣,最終樣本數分別為高一200人、高二236人和高三289人,這符合Rasch模型數據分析的要求。在正式測試前,所有年級都進行了小范圍內的預測試。正式測試時間安排在各年級下學期期中,由于高三年級需要參加藝術和體育考試,測試時間稍作提前。所有年級測試時長均為40分鐘(含測試前相關說明),班級科任教師在場監督作答。

3.3.2 數據可靠性分析

采用Winsteps 3.66.0軟件進行數據處理。Rasch測量模型的核心指標包括測量工具的單維性、分離度、信度(針對題目和被試)以及題目難度與被試能力對應圖(Wright Map)。在單維性檢驗方面,主要通過殘差主成分分析來進行,判斷依據是題目的因子載荷(Contrast Loading)值是否處于-0.4到0.4之間。經過預測試并對部分題項進行修改,三個年級正式測試的結果顯示出良好的單維性,如圖4所示。在圖中僅有題項A的值超出了這一范圍。經過查證,題項A對應的是一道氧化還原類的闡明題目。該題目的正確選項有對實驗結果的闡明,也有操作層面的考察,考慮到題目設計的整體性,課題組決定保留該題目。

三套測試題的學生區分度從高一到高三遞增,高一年級的學生strata值為2.97,已非常接近3。由于高一年級學生才升入高中,對“結構決定性質”大概念相關內容接觸少,導致層次偏少,該區分度和分層情況可以接受[30]。高二、高三年級strata值分別為3.09與4.04,區分度及分層情況符合要求。模型數據擬合指數INFIT (OUTFIT)的擬合指數MNSQ(mean square)值要求在0.7到1.3之間[31],ZSTD值通常要求在-2到+2之間。此研究中“點測量相關系數”PTMEA(Point-Measure Correlation)大部分在0.5以上,三個年級的測試結果均符合擬合指標要求。

3.3.3 錨題質量分析

在垂直等值過程中,如果錨題在兩個不同位置發揮的作用不同,容易產生項目漂移(item drift),這可能會嚴重影響垂直等值的效果[32]。因此,在設計錨題時,需要仔細考慮題目內容,并通過簡潔、規范地表述減少情境效應。為了提高錨題的質量,采用錨題卡方值判定的方法[33]。計算公式如下:

(diA-diB-GAB)2N12·KK-1

diA表示錨題i在試卷A的難度值,diB表示錨題i在試卷B的難度值,GAB表示所有錨題在試卷A和試卷B的難度平均值之差,K表示錨題數量,N表示考生樣本數。錨題的卡方值越小質量越好,卡方值大于3.84(自由度為1)的錨題為質量較差的錨題,需要剔除[34]。通過計算發現這些錨題卡方值均遠小于3.84,故錨題質量較好。

為進一步提高錨題質量并優化錨題組。“錨題組”由上一級測試中的較容易題和下一級測試中較難題進行拼接,實現對上下兩個層級都具有代表性[35]。由懷特圖可知,例如高二錨題大部分難度較大,對高三學生而言此部分錨題難度較小。所有錨題均經過課題組成員與專家討論,具有較高的效度。

4 研究結論及啟示

4.1 垂直等值結果

數據通過單維性檢驗后利用IAFILE命令對錨題進行參數固定。此研究以高二年級錨題為基準,分別對高一和高三進行參數固定,在winsteps軟件中選擇score table可以得到等值后對應的Rasch分值,整理得表3。

通過散點圖發現原始分數與Rasch分并不是線性關系,而是曲線關系,對曲線進行擬合可得到三個年級的原始分與Rasch分的回歸公式:

高一年級:Y1=0.0027x3-0.0840x2+1.0458x-6.0436(R2=0.996)

高二年級:Y2=0.0017x3-0.0600x2+0.8202x-4.1404(R2=0.993)

高三年級:Y3=0.0012x3-0.0484x2+0.7432x-2.9960(R2=0.991)

其中Y1、 Y2、 Y3分別表示高一、高二和高三年級測試中的Rasch分,x表示學生在二段式測試中獲得的原始得分。

4.2 垂直等值結果的分析與啟示

首先,通過年級與個人的等值分進行單因素方差分析,可以看出不同年級間等值后的Rasch平均分增量及差異(LSD法)如表4。

通過表4發現等值后各年級之間能力值有顯著差異。在“結構決定性質”大概念的理解上,高一至高二學生的Rasch分數平均分增值量為1.74,高二至高三學生的Rasch分數平均分增值量為1.03。表明高一至高二期間為“結構決定性質”大概念理解能力提升的關鍵期。教學中,我們應將該大概念的教學期適當前移至高一年級中后階段,利于提升學生“結構決定性質”大概念的理解能力。

其次,通過對學生“結構決定性質”大概念理解能力進行測量。結合分數轉換表(表3),可以預測學生的大概念理解能力。例如,某高一學生測試原始分為16分,根據表3,可以知道其Rasch分為0.26。通過高二年級的回歸方程,求算出該生按高二試題測試得分,約為14分左右(考慮到試題難度的提升,分數有所下降)。在生源、教學等條件穩定的情況下,若按照平均分增值量1.74計算,該生的Rasch分在高二應為2.00左右。通過回歸方程的反向計算,求出得分約為20分左右。這意味著該生在兩次測試間,對應能力應獲得約6分的增值。這有助于對學生在某一大概念理解能力上的發展進行預測,并跟蹤其進步情況。

再次,通過利用各題項等值后的MEASURE值,能夠了解從高一到高三各理解側面指標表現的變化情況,如圖5所示。從圖中可以看出,解釋、闡明、應用和洞察表現均呈現遞增趨勢。特別是在高二到高三期間,應用側面指標的提升速度高于高一到高二期間,這表明高三的復習對該大概念的理解在應用側面上有顯著的促進作用。解釋、闡明和洞察理解側面的提升則在高一到高二階段更為顯著。

最后,由于研究時長和其他條件的限制,樣本僅限于某縣域內的高中學生,因此研究成果的推廣范圍存在一定局限性。課題組后續將進行范圍更廣的測試,并開展其他化學大概念的研究。

參考文獻:

[1][2][14]鄭長龍. 大概念的內涵解析及大概念教學設計與實施策略[J]. 化學教育(中英文), 2022, 43(13): 6~12.

[3]張苧予. 如何評價職業學校教師教學的有效性——基于學生知識圖譜增值模型的策略[J]. 中國職業技術教育, 2022, (17): 49~54.

[4]Young M. J. Vertical scales. In S. M. Downing and T. M. Haladyna (Eds.) [H]. Handbook of test development. Lawrence Erlbaum Associates Publishers, 2006.

[5]羅照盛. 項目反應理論基礎[M]. 北京: 北京師范大學出版社, 2012: 80~81.

[6][27][29]王燁暉, 邊玉芳, 辛濤. 垂直等值的應用及最新發展述評[J]. 心理學探新, 2011, 31(5): 472~476.

[7]何彩霞. 化學學科核心素養導向的大概念單元教學探討[J]. 化學教學, 2019, (11): 44~48.

[8]錢秋萍, 吳俊明. 化學的分子思維及其教學[J]. 化學教學, 2018, (10): 3~9.

[9]盧姍姍, 畢華林. 近二十年國際科學概念學習研究的內容分析[J]. 全球教育展望, 2015, 44(4): 19~27+18.

[10]李松林. 以大概念為核心的整合性教學[J]. 課程·教材·教法, 2020, 40(10): 56~61.

[11][15]王欽忠. 用結構化的教學內容引導學生建構知識——以高中化學“物質的分類”教學為例[J]. 化學教學, 2023, (4): 33~37.

[12]王換榮, 肖中榮. 學科大概念多重層級下的主題大概念教學路徑——以人教版(2019版)選擇性必修2《物質結構與性質》為例[J]. 化學教學, 2023, (9): 25~28.

[13]劉徽. “大概念”視角下的單元整體教學構型——兼論素養導向的課堂變革[J]. 教育研究, 2020, 41(6): 64~77.

[16][20][21]格蘭特·威金斯, 杰伊·麥克泰格著. 閆寒冰, 宋雪蓮, 賴平譯. 追求理解的教學設計(第二版)[M]. 上海: 華東師范大學出版社, 2017:180,113~117.

[17]王光明, 甄祎明. 加拿大不列顛哥倫比亞省“知道—實踐—理解”課程模式及其啟示[J]. 課程·教材·教法, 2020, 40(10): 125~130.

[18]張浩, 吳秀娟, 王靜. 深度學習的目標與評價體系構建[J]. 中國電化教育, 2014, (7): 51~55.

[19]王斌華. 課程規劃導論(下)[J]. 外國教育資料, 1998, 27(1): 28~32.

[22][25]王磊. 基于學生核心素養的化學學科能力研究[M]. 北京: 北京師范大學出版社, 2017:44,45.

[23]黎光明, 梁正妍. 錨題比例與年級離散度對垂直等值的影響[J]. 江西師范大學學報(自然科學版), 2019, 43(1): 52~58.

[24]Linacre J M. A Users Guide to WINSTEPS MINISTEP Rasch-Model Computer Programs [EB/OL]. https://www.winsteps.com/manuals.htm, 2020.

[26]KANG T, PETERSEN N S. Linking Item Parameters to a Base Scale [J]. Asia Pacific Education Review, 2011, 13(2): 311~321.

[28]Arai, S. & Mayekawa, S. A Comparison of Equating Methods and Linking Designs for Developing an Item Pool under Item Response Theory [J]. Behaviormetrika, 2011, 38(1): 1~16.

[30]Fisher W P. Reliability, separation, strata statistics [J]. Rasch Measurement Transactions, 1992, (6): 238.

[31]Akase M. Longitudinalmeasurement of growth in vocabulary size using Rasch-based test equating [J]. Language Testing in Asia, 2022, 12(1): 1~20.

[32]Wells, C. S., Subkoviak, M. J., & Serlin, R. C. The effect of item parameter drift on examinee ability estimates[J]. Applied Psychologi-cal Measurement, 2002, 26(1), 77~87.

[33][34]呂劍濤. 標準化英語考試等值可行性研究[M]. 北京: 人民出版社, 2017:11~12.

[35]朱正才. 英語能力等級量表描述語量表化的可行性方案探討[J]. 中國考試, 2016,(4): 3~7.

主站蜘蛛池模板: 一区二区三区在线不卡免费| 国产精品va| 国产成人高清精品免费软件| 中文天堂在线视频| 亚洲中文字幕av无码区| 中文天堂在线视频| 亚国产欧美在线人成| 亚洲成人一区二区| 亚洲视频无码| 欧美日本中文| 五月婷婷精品| 久久久久国产一级毛片高清板| 国产精鲁鲁网在线视频| 亚洲国产精品一区二区第一页免 | 色综合国产| 在线人成精品免费视频| 国产午夜福利在线小视频| 国产无码制服丝袜| 国产高清免费午夜在线视频| 国产不卡网| 国产亚洲欧美在线专区| 毛片免费高清免费| 免费观看成人久久网免费观看| 精品欧美一区二区三区久久久| 国产嫖妓91东北老熟女久久一| 五月婷婷综合色| 美女无遮挡被啪啪到高潮免费| 日本午夜精品一本在线观看| 精品午夜国产福利观看| 精品偷拍一区二区| 亚洲狼网站狼狼鲁亚洲下载| 国产主播一区二区三区| 国产超碰一区二区三区| 亚洲色图综合在线| 亚洲动漫h| 国产精品福利在线观看无码卡| 久久久国产精品无码专区| 国产午夜精品一区二区三| 日本不卡视频在线| 青青青国产视频| 99无码中文字幕视频| 亚洲精品无码久久久久苍井空| 色噜噜综合网| 色综合天天娱乐综合网| 中文一级毛片| 色综合天天娱乐综合网| 亚洲中文字幕日产无码2021| 亚洲码一区二区三区| 欧美a在线看| 无码国产偷倩在线播放老年人| 免费人成黄页在线观看国产| 香蕉精品在线| 91久久精品国产| 国产网站免费| 亚洲,国产,日韩,综合一区| 国产精品999在线| 国产玖玖视频| 久久午夜影院| 国产麻豆精品久久一二三| www精品久久| 免费国产高清视频| 婷婷激情亚洲| 一区二区三区国产精品视频| 色噜噜在线观看| 婷婷午夜天| av天堂最新版在线| 欧美丝袜高跟鞋一区二区| 激情综合婷婷丁香五月尤物 | 国语少妇高潮| 日韩在线网址| 午夜视频免费试看| 三级毛片在线播放| 伊人色在线视频| 亚洲精品中文字幕无乱码| 日韩无码视频播放| 99九九成人免费视频精品| 欧美亚洲国产视频| 国产色婷婷视频在线观看| 亚洲天堂精品在线| 波多野结衣国产精品| 成年网址网站在线观看| 一级成人欧美一区在线观看|