國家義務教育質量監測小學科學測驗題目數量對測驗信度的影響

2024-01-01 00:00:00姜有祥曹郎溫紅博

考試研究 2024年6期

[摘要] 探討國家義務教育小學科學質量監測測驗題目數量對信度的影響。采用概化理論和完全交叉設計，通過概化研究和決策研究，對各題本和總測驗的信度狀況、題目數量對信度的影響進行分析。在題本層面，除題本五的測驗信度未達到0.80外，小學科學測驗各題本信度均較高。對于6個題本，題目數量的增加能夠提高測驗的信度，但信度增長速度逐漸減緩。在題目數量達到一定水平后，繼續增加題目數量對信度的影響較小。當各題本題目數在45題左右時，能夠很好地保證各題本測驗信度較高。總體測驗層面，概化系數和可靠性系數分別為0.933和0.928，顯示出較好的測驗信度水平。在保證題目質量的前提下，如需縮減題目數量，可將總測驗題目數由109題降至98題。

[關鍵詞] 義務教育質量監測；小學科學；題目數量；測驗信度

[中圖分類號] G424.74 [文獻標識碼] A

[文章編號] 1673—1654（2024）06—020—011

義務教育在國家教育體系中處于基礎地位，是國民素質的基本保障和核心工程。為促進義務教育質量提升，教育部于2021年印發《國家義務教育質量監測方案（2021修訂版）》（以下簡稱“《監測方案》”），進一步明確了義務教育質量監測的內容和環節。

根據《監測方案》，國家義務教育質量監測包括對學生德育、語文、數學、英語、科學、體育與健康、藝術、勞動和心理健康的監測，同時包括對影響學生發展質量的相關因素的監測。

一、研究背景

國家義務教育質量監測涉及的學科眾多，學科內知識較為龐雜。以小學科學為例，《監測方案》指出，科學主要監測學生掌握的科學基礎知識和思維方法情況、科學探究能力等。一般情況下，當測驗涉及的知識范圍廣、內容要求多時，必然需要增加測驗長度（test length），以保證測量信度（reliability）。然而，測驗長度并不能無限增加，考生的認知疲勞因素可能對長測驗的信度產生負面影響[1]。因此，如何平衡測驗長度與測驗信度是大規模教育評估（large-scale educational assessment）必須要考慮的問題。

（一）大規模教育評估中題目數量與信度的關系

美國考試服務中心（The Educational Testing Service，ETS）將大規模教育評估定義為在一段時間的教育學習之后，對大量的學生群體實施的內容較為豐富的測驗，通過采集其成就水平方面的作答表現和其它證據，為決策者、社會、學校、學生及家長提供關于其教育成就表現的反饋信息，以便了解學生學業成就水平和學校、地區的教育質量，以支持做出正確的決策[2]。

大規模教育評估要為決策者提供信息支持，必然涉及到信息的可靠性問題，這也就涉及教育與心理測驗的信度。信度表示測驗結果的可靠性和穩定性，是一個測驗測量準確性的評價指標。大規模教育測量的信度兼具信度的一般性和大規模測量的特殊性。題目數量的增多通常能夠提高測驗的信度，如有研究表明，當一份測驗中同質性的題目數量增多之后，同一心理特質被考查到的次數就會增多，被試的成績也就越能有效拉開，整個團體的測驗分數分布就會更廣，從而提高測量的信度[3]。但大規模測驗信度的特殊性體現在大規模測驗中的題目設置。大規模測驗在考查內容上有測試范圍廣、內容多的特點。既要考慮覆蓋范圍的廣度，又要考慮個體作答的時間成本和實施測驗的人力物力成本[4]。如果按照傳統方式增加題目數量，則個體作答時間增加導致的疲勞效應將會對測試結果產生顯著的負效應[5-7]，進而損壞量表質量，降低信度。另外，增加測驗的題目數量還可能存在邊際效應，即當信度已經達到一定水平時，增加題目數量對信度的影響變得微乎其微[8-9]。

可見，大規模測驗存在著廣泛的測驗內容與有限的測驗成本之間的矛盾，即廣泛的測驗內容需要足夠多的題目承載，但過長的測驗又會與有限的測驗時間、有限的被試注意力以及有限的人力、物力、財力相沖突，并且可能會影響測驗信度。

（二）矩陣取樣設計

針對大規模測驗的這一矛盾特征，國際上的大型測評項目大多采用矩陣取樣（matrix-sampling）設計[10]作為收集科學的、客觀的數據的方式[11-12]。矩陣取樣設計先根據課程設計開發一套完整的測試題目，然后將題目集劃分為若干套題目，再讓每個學生接受其中一套試題的測試。矩陣取樣設計通過限制學生的作答題目數來控制作答時間，但同時保證了測驗內容的廣泛覆蓋。

采用矩陣取樣設計有兩方面的優勢。首先，相較于傳統測驗以評估個體差異為測量目標，大規模測驗以評估團體（性別、地區等）差異為目標。而矩陣取樣設計得益于其隨機化技術實現了對每個測試團體所有測量內容的測試，更適合于反映團體水平的差異[5-6]。其次，矩陣取樣設計保證了大規模測驗對考查范圍和題目數量的要求[7，13-14]，同時個體測驗壓力不會過大，可以平衡廣泛的測試內容與有限的測試時間之間的矛盾。

隨著認識和實踐水平的不斷提升，矩陣取樣設計逐步發展出不同類型，包括完全矩陣取樣和不完全矩陣取樣。不完全矩陣抽樣技術與完全矩陣抽樣技術的區別在于題目之間是否有錨題（anchor item），不完全矩陣取樣設計在隨機產生題本之前先選取一部分對評價目標總體更關鍵的題目作為錨題，然后對剩余的題目進行隨機抽樣組成若干題本[15]。其優勢在于錨題的存在讓等值技術有了施展之地，實現了不同題本分數間的可比性。但相同知識內容的問題可能在每個題本中出現在相同位置，題目位置效應將導致學生在題本末尾的掌握水平被高估（練習效應）或低估（疲勞效應）[6]。

目前應用最廣泛的是不完全矩陣取樣設計的一種變式——平衡不完全組塊設計（balanced incomplete block design，BIB）[12]。BIB設計可以避免產生上述位置效應，其通過簡單隨機抽樣，從測試領域（題庫）中設計若干試題模塊組成題本，交由被試總體中隨機的一個樣本作答[5-6]。該方法保證了題目能夠產生相同的暴露度（題目出現頻次），并且同一學生能夠被分配足夠多的題目[16]。

目前國家義務教育質量監測采用的即為BIB設計。在具體操作上，先將題庫劃分為若干組塊，再將組塊組合成冊（題本）；在組合規則上，每兩個組塊僅組合一次，即只出現在一個題本中；每個組塊在所有題冊中出現的次數相同；每個題冊的長度相等，由相同個數的組塊組成；每一對組塊同時出現的頻率相同。表1所示即為國家義務教育質量監測四年級科學測驗的組塊組合模式，包括六個題本在三個測驗領域的組塊組合。

雖然矩陣取樣設計是當前保證測驗內容覆蓋面廣、考生測試時間短的主流手段，但客觀上矩陣取樣設計區別于傳統測驗，其并未在各個題本內保證對需要測量的知識內容測量足夠多次，以保證對各個知識內容領域的測量信度。加之減少考生作答的題目與作答時間，又勢必會對測量信度產生影響。值得注意的是，這種通過取樣設計來平衡測驗內容與測試時間的方法對測驗信度有多大影響，尚未被研究者深入研究，如何通過量化的方法研究大規模教育質量監測中題目數量變化對測驗信度的影響，是心理與教育測量研究者亟需解決的問題。

（三）小學科學教育質量監測

為了提升小學科學教育質量，順應科學學科核心素養和能力指向的要求，許多國家和國際組織展開了包含小學科學教育在內的大規模教育質量監測[17]，主要包括國際數學與科學趨勢研究項目（Trends in International Mathematics and Science Study，TIMSS）、美國國家教育進步評價（National Assessment of Educational Progress，NAEP）、國際學生評估項目（Programme for International Student Assessment，PISA）和我國國家義務教育質量監測等。

如前所述，在大規模教育質量監測活動中，一般采用BIB技術設計測驗以平衡測驗內容和測驗時間。然而，小學科學教育質量檢測中題目數量與測驗信度的平衡卻尚未得到充分關注。因此，本研究將探究我國的國家義務教育質量監測中，小學科學測驗題目數量與測驗信度的關系，以期為小學科學及其他學科測驗編制和實施中的試卷設計提供參考。

（四）概化理論在教育測量中的應用

概化理論（Generalization Theory，GT）是在經典測量理論（Classic Test Theory，CTT）的基礎上，基于實驗設計思想和方差分析方法發展起來的一種心理測量理論。其主要用于分析測量過程中變異的各種來源及其對總測驗的影響程度，確定測量側面對測量目標的影響程度，從而有效控制其可能產生的誤差[18]。

GT應用廣泛，常用于教師教學評價、人事面試評測等標準參照性測驗、非標準化測驗、表現型評價中。相對于經典測量理論，概化理論在誤差分析、信度評價和推論決策上更為優越，并且能夠在誤差分解的基礎上深入、量化分析特定側面的影響。

面對復雜設計的大規模測驗，基于對誤差的分解理念和方差分析方法，GT具有能夠辨識和估計各種測量誤差變異來源的優勢。同時，GT通過對測量的誤差側面下水平的調整，能夠找到最佳測驗條件，幫助研究者制定決策[19-21]。

許多研究者使用GT來研究某一側面對測驗信度的影響：如趙軒等人利用GT研究高考數學文理卷各題型下題目數量對信度的影響，發現當前試卷依然可以通過增加題量來提高信度[22]；陳維等人利用GT研究高考語文模擬卷中主客觀題題量和分值對測量信度的影響[23]。

鑒于GT方法在研究測量誤差來源方面的優勢，本研究將采用GT方法，研究矩陣取樣設計下的我國義務教育質量監測小學科學測驗中，題目數量對信度的影響。

二、研究方法

（一）研究設計

概化理論在分析不同側面對測量誤差的影響時，一般采用兩步走策略：概化研究和決策研究。概化研究用以確定測量目標、不同測量側面、測量側面與測量目標的交互作用的方差分量大小，比較不同側面對測量精度的影響。決策研究通過增加側面的水平數或將側面固定起來等策略，尋找減小誤差、提高精度的良好設計。

本研究將分別從題本層面和總測驗層面研究題目數量對測驗信度的影響。針對題本層面，首先在概化研究中使用p×i（考生×題目）的完全交叉設計，分析各變異分量估計值，考察各單題本的信度狀況。其次，在決策研究中分析單題本題目數量處于不同水平時的信度狀況，探究題目數量對單題本信度的影響。針對總測驗層面，在概化研究中依據BIB設計，采用分塊法對各題本進行方差分量合成，考察總測驗的信度狀況。在決策研究中研究題目數量處于不同水平時總測驗的信度狀況，探究題目數量對總測驗信度的影響。

（二）研究對象

研究數據來自國家義務教育質量監測小學四年級科學質量監測。監測的樣本來自全國31個省（自治區、直轄市）及新疆生產建設兵團中共325個樣本縣（市、區）的3900所小學。全樣本數據包括112314名四年級學生。本研究隨機抽取其中30000個樣本作為研究對象，其中有效樣本29983個。

（三）研究工具

本研究的研究工具為國家義務教育質量監測小學四年級科學測驗。其監測內容依據《義務教育小學科學（3-6年級）課程標準（實驗稿）》編制。題型包括選擇題、組合題和問答題（見表2）。測驗考查的科學素養包括科學理解、科學探究和科學思維。

國家義務教育小學科學測驗共有109道試題。根據BIB設計方法，將109道試題劃分為若干組塊，每6個組塊組合成一個題本（如表1）。表3為各題本題目數與參測考生數情況，各題本題目數從35到38不等，各題本參測考生數從4941到5064不等。

（四）數據分析

為研究義務教育質量監測小學科學測驗各題本的信度狀況，以及各題本和總測驗中題目數量對信度的影響，研究基于概化理論，以概化系數（[Eρ2]）和可靠性系數（?）作為信度指標，采用p×i的完全交叉設計。先通過方差分析，對6個題本內造成誤差的變異分量進行估計，然后分析各題本測驗的信度狀況。最后，在此基礎上進行決策研究，通過調整題目數量，分析各題本內題目數量變化對信度造成的影響，找出兼顧測驗題目數量與測量信度的最優方案。

在數據分析工具方面，本研究使用R4.1.2作為數據分析軟件，使用gtheory包[24]進行概化理論分析。

三、研究結果

（一）各題本信度與題目數量的關系

1. 概化研究

概化研究（G研究）的任務是盡可能多地估計測驗中涉及到的誤差來源的方差分量。對于各題本而言，測量變異來源包括考生的科學素養水平（記為p）、不同題目對作答的影響（記為i）、考生與題目間的交互作用（記為pi）。國家義務教育質量監測小學科學測驗各題本的方差分析結果如表4所示。

從三個變異來源的方差分量占比上來看，比例最高的成分是學生與題目的交互作用，約占比82%。而題目側面的方差分量均值約為6%，帶來了較小的系統誤差。本次測驗的測量對象，考生科學素養水平對總變異的影響約占11%，比重相對較小，說明測量的準確性仍有提升空間。六個題本內的三種變異來源方差分量的比值相近（均接近1：0.5：7），說明各題本內分數的誤差來源結構相似，總測驗劃分而成的題本間無明顯區別。

一般而言，當概化系數和可靠性系數均超過0.8時，測驗可被視為信度水平較高[25]。小學科學測驗各題本的信度狀況如表5所示。從當前信度指標上可以看到，除了題本五的概化系數和可靠性系數略低于0.80，其余題本信度均較高，能夠比較準確地反映參與測驗學生的科學素養水平。

2.決策研究

決策研究（D研究）的任務是基于G研究對測驗變異來源的認識，重新構建概括全域，探究在各水平上測驗的信度狀況，從而尋找對準確測量更有利的測量條件。

為了進一步探究各題本下題目數量對信度狀況的影響，本研究通過調整各題本的題目數量側面，研究測驗信度的變化趨勢。各題本題目數均在35至38題，因此研究以5為步長調整題目數，設置了20、25、30、35、40、45、50共7種水平，結果見表6和表7。

總體上看，提升各題本的題目數量都能夠有效提升測驗信度。在測驗題目數較多的情況下，題目數量繼續增加對測驗信度的影響較小，且各題本測驗信度變化趨勢一致。

如前所述，當概化系數和可靠性指數均超過0.8時測驗可被視為信度水平較高。以題本一為例，繪制概化系數與可靠性系數隨題目數量增加的變化趨勢如圖1所示。題本一的兩個信度指標（概化系數和可靠性系數）都隨著題本一題目數量的增加而增大。當題目數量大于30時，概化系數和可靠性系數均超過0.80。隨著題目數量的不斷增加，信度指標增長速度降低。如題目數量從20提升到25時，概化系數提升0.04，可靠性系數提升0.04；題目數量從45提升到50時，概化系數和可靠性系數均只提升0.01左右。

可見，增加題目數量對提升測驗信度來說存在邊際效應，即題目數量達到一定數量之后，繼續增加題目數量對測驗信度的影響逐漸變小。綜合六個題本在概化系數和可靠性系數上的表現，本研究建議控制測驗題目數量在45左右，以保證各題本均具有較高的測驗信度。

（二）總測驗信度與題目數量的關系

1. 概化研究

對于小學科學質量監測總測驗層面的信度分析，研究依據BIB設計，采用分塊法對各題本進行方差分量合成，再進行概化系數和可靠性系數的計算，結果見表8和表9。

可以看出，合成的總測驗概化系數和可靠性系數都大于0.90，說明總測驗的信度狀況良好，可以較為準確地反映學生團體的科學素養水平。

2. 決策研究

為進一步探究題目數量對總測驗信度的影響，通過決策研究調整總測驗題目數量，觀測總測驗信度的變化趨勢。

其中題目數指根據BIB 將六個題本合并后的題目，剔除在各題本重復出現的題目。推論的題目數同理也是根據BIB方法，組合各組塊并分配到題本后實際的題目數，而非各題本題目數相加。

為有效反映和便于觀測題目數量與測驗信度的關系，題目數量值選取了當前測驗實際題目數（109題）。同時，研究采用可重復隨機抽樣選取了109題的0.25倍（27題）、0.5倍（54題）、0.75倍（81題）、1.5倍（163題）和2倍（218題）共6種題目數量水平，結果見表10和圖2。

由表10和圖2可以看出，總測驗信度隨題目數量增多而上升，但當題目達到一定數量之后，總測驗信度的增速降低。總測驗題目數為34時，概化系數和可靠性系數可大于0.80，題目數為77時，概化系數和可靠性系數超過0.90。

四、結論與建議

本研究以國家義務教育質量監測小學科學測驗為研究對象，采用概化理論分析方法，以概化系數和可靠性系數為信度指標，從題本和總測驗兩個層面，對測驗題目數量與測驗信度的關系進行了探究。

（一）小學科學測驗的信度狀況

在總測驗層面，研究發現總測驗的概化系數為0.933，可靠性系數為0.928，說明國家義務教育質量監測小學科學測驗的信度狀況良好，對學生科學素養水平的反映有較好的一致性、穩定性和可靠性。

在題本層面，其中五個題本的概化系數和可靠性系數均較高，只有題本五的信度指標低于0.80，研究結果與2017年國家義務教育質量監測科學學科的技術報告結果一致（該報告采用經典測驗理論，以內部一致性系數作為信度指標）。

根據BIB設計，信度最低的題本五是由題本四和題本六的各一半題目組合而成，題本四和題本六信度同樣也較低。題本四、五、六與其他題本的題目數量相當，但信度較低，說明這三個題本中個別題目質量較差。題本五分別吸收了題本四和題本六質量較差的模塊，因此信度指標更低。綜上，測驗編制時應加強對試題質量的審核，對質量較差的模塊和題目加以重點改良，從而提升信度。

（二）小學科學測驗的題目數量與測驗信度的關系

本研究利用概化理論，以題目數量為核心的編制條件進行決策研究，在大規模測驗背景下，尋找縮減測驗長度和提升測驗信度之間的平衡。研究參照對應測驗部分的信度指標變動趨勢和幅度，調整各題本和總測驗的題目數量，試圖尋找更優的題目數量設計方案。

在國家義務教育質量監測中，同一科目涉及知識內容眾多，一般采用BIB設計組合出若干包含較少題目的題本，每個考生只需完成其中一個題本即可。因此，單個題本的測驗信度是保證監測活動中準確評估考生總體水平的基礎要求。本研究關注2017年國家教育質量檢測小學科學測驗，首先研究其所包含的6個題本的測驗信度水平，以及測驗信度隨著題目數量變化的增長趨勢，探討小學科學測驗中適合的題本題目數量。其次，在總測驗層面研究測驗信度水平，以及測驗信度隨著題目數量變化的增長趨勢，以檢驗總測驗層面小學科學測驗的可靠性。

在單個題本的研究中，以每一個題本為研究對象，調整各題本的題目數量，觀察對應條件下題本測驗信度的水平和變化趨勢。研究發現，各題本信度會隨題本內題目數的增多而增長。同時，信度的增長出現了邊際效應，即隨著題目數的增多信度的增速不斷降低，題目增多帶來的收益不斷降低。最后，需重點關注信度不足的題本五，可以通過增加6道試題，即題本增加至42道試題，使概化系數和可靠性系數都超過0.80。總體來講，如果控制各題本題目數在45左右，且各題本內試題質量相當，可以有效保障各題本的高測驗信度。

對于在實際編制條件下信度水平較高的題本，從大規模測驗對縮減測驗長度的需要出發，研究試圖對其進行縮減。而在縮減其題目數量的同時，需要控制其信度指標不低于標準值。研究以題本一為例展示對高信度測驗的簡化。通過調整題目數，使其從實際編制條件的38題開始下降，題本一的信度值隨之下降，并隨著題目數的逐漸減少加速下降。當題目數水平為32題時，題本一的概化系數和可靠性系數仍可超過0.80；當題目數下降到31時，可靠性系數低于0.80，不應再減少題目。因此，題本內題目數最少應控制在31題以上。

從現有的題目設計出發，存在兩個提升信度的方法。一是提高試題的質量，尤其需要定位測驗內信度較低的模塊和試題，加以改良，并加強測驗編制時對題目質量的審核。二是增加題目數量，從現有題目質量的水平看，每個題本內有35題時基本能滿足信度要求，而每套試卷題目數設置到45題時更為穩妥，能夠保證每個題本都能準確反映個體科學素養水平。

另外，研究在總測驗信度狀況良好的結果基礎上，通過調整總測驗題目數量，探究總測驗層次題目數量對信度的影響。結果表明，總測驗信度會隨題目的增加而提升，且存在邊際效應。總測驗題目數降低至77題時，概化系數和可靠性系數仍可超過0.9；題目數降至34題時兩個信度指標仍超過0.8。但考慮到題目較少的總測驗下測驗內容過少、知識點覆蓋面不足，且各題本信度會大大降低，因此，在總測驗層面直接精簡題目并不可行。

綜上，國家義務教育質量監測小學科學測驗的各題本信度狀況良好，大部分題本概化系數和可靠性系數超過0.80，接近0.83。考慮到兼顧信度要求和對大規模測驗的時長、成本控制，各題本需要約31～35題。從總測驗層面看，測驗的概化系數為0.933，可靠性系數為0.928，測驗具有理想的信度，能夠準確反映學生的科學素養水平。但若要縮減總測驗題目數還需考慮測驗中各個內容維度的測量信度。本研究對測驗的三個維度進行額外的概化理論分析發現：科學理解維度題目數可由45降至36題；科學探究維度可由37降至29題；科學思維維度可由36降至33題（受限于篇幅，這里不再呈現具體圖表）。綜合考量總測驗以及總測驗內各維度題目數量，在總測驗層面題目數量可由109題降至98題。

（三）研究結果對其他學科教育質量監測的啟示

面對復雜設計的大規模測驗，基于對誤差的分解理念和方差分析方法，GT具有能夠辨別和估計各種測量誤差變異來源的優勢，有助于我國基礎教育質量監測中各學科測驗設計的分析和構建。本研究以小學科學測驗為例，尋找測驗長度和測驗信度的最佳平衡。在其他如數學、閱讀、英語等學科的教育質量監測中，同樣可以采用本研究中的分析步驟對測驗設計的可靠性進行檢驗，同時尋找適合本學科測驗長度與測驗信度的最佳平衡點，為實踐中的測驗編制工作提供數據支撐。

參考文獻：

[1] 柴省三.標準參照測驗長度研究方法探析[J].教育測量與評價（理論版），2013，（08）：9-14+8.

[2] 王俊民.核心素養視域下國際大規模科學學業評估框架與試題研究[D].西南大學，2018.

[3] 楊志明，張雷.測評的概化理論及其應用[M].北京：教育科學出版社，2003.

[4] 戴海崎，張鋒，陳雪楓.心理與教育測量[M].廣州：暨南大學出版社，2011.

[5] 黃慧靜，辛濤，李珍.矩陣取樣設計中的似真值能力估計方法[J].心理科學，2012，（05）：1233-1239.

[6] 何孟姐，楊濤，辛濤，等.大規模教育測評的多題本設計[J].中國考試，2017，（02）：33-39.

[7] 李凌艷，辛濤，董奇.矩陣取樣技術在大尺度教育測評中的運用[J].北京師范大學學報（社會科學版），2007，（06）：19-25.

[8] Black P，Wiliam D. Large-scale Assessment Systems Design Principles Drawn from International Comparisons [J]. Measurement，2007，5（1）：1-53.

[9] 戴海琦.基于項目反應理論的測驗編制方法研究[J].考試研究，2006，（04）：31-44.

[10] Lord F M. Estimating Norms by Item-Sampling [J]. Educational and Psychological Measurement， 1962，22（2）：259-267.

[11] Gonzalez J M，Eltinge J L. Multiple Matrix Sampling：A Review. Proceedings of the Section on Survey Research Methods [J]，American Statistical Association，2007：3069-3075．

[12] Thomas N，Raghunathan T E，Schenker N，et al. An Evaluation of Matrix Sampling Methods Using Data from the National Health and Nutrition Examination Survey [J]. Survey Methodology，2006，32：217-231．

[13] Childs Ruth A，Jaciw Andrew P. Matrix Sampling of Items in Large Scale Assessments [J]. Practical Assessment，Research，and Evaluation，2003，8（8），Article 16.

[14] 李凌艷，謝敏，辛濤.小學生數學成就測驗的編制：矩陣取樣設計的途徑[J].基礎教育研究，2009，（18）：25-27.

[15] 李凌艷，張平平.大規模教育測評中實際運用矩陣取樣技術的基本問題[J].中國考試，2011，（01）：16-21.

[16] Rutkowski L，Gonzalez E，Joncas M，et al. International Large-Scale Assessment Data：Issues in Secondary Analysis And Reporting [J]. Educational Researcher，2010，39（2）：142-151.

[17] 辛濤，李峰，李凌艷.基礎教育質量監測的國際比較[J].北京師范大學學報（社會科學版），2007，（06）：5-10.

[18] Shavelson R J，Webb N M.Generalizability Theory：A Primer [J]. Newbury Sage，1991，38（14）：1486-1494.

[19] DeMars，Christine. Estimating Variance Components from Sparse Data Matrices in Large-Scale Educational Assessments [J]. Applied Measurement in Education，2015，28（1）：1-13.

[20] Brennan R L. Generalizability Theory [M]. NewYork：Springer-Verlag，2001.

[21] Briesch A M，Swaminathan H，Welsh M，et al. Generalizability Theory：A Practical Guide to Study Design，Implementation，and Interpretation [J]. Journal of School Psychology，2014，52（1）：13-35.

[22] 趙軒，任子朝，陳昂.基于多元概化理論的高考數學文理科試卷質量分析與對比研究[J].數學通報，2018，057（001）：25-30.

[23] 陳維，何壯，趙守盈.高考語文模考試卷題型結構的多元概化分析[J].教學與管理，2016，（18）：116-118.

[24] Christopher T. Moore. gTheory：Apply Generalizability Theory with R. R package version 0.1，2016.

[25] 黎光明，張敏強.基于學生評教的多元概化理論分析[J].教育測量與評價（理論版），2013，（07）：4-6+17.

The Influence of the Quantity of Primary School Science Test Questions on the Reliability of the National Compulsory Education Quality Monitoring

Jiang Youxiang1" Cao Lang2" Wen Hongbo1

1 China Basic Education Quality Monitoring Collaborative Innovation Center，Beijing Normal University，Beijing，100088

2 RDFZ Sanya School，Sanya，Hainan，572014

Abstract：This study aims to investigate the impact of the number of test items in the National Compulsory Education Primary School Science Quality Monitoring Test on reliability. Using the Generalizability Theory and a complete crossover design，an analysis was conducted to examine the reliability of each test form and the effect of the number of test items on reliability through generalizability study and decision study. At the test form level，except for test form 5，the reliability of the 2017 primary school science test forms was generally high，with reliability values above 0.80. For the six test forms，increasing the number of test items improved the test's reliability，although the rate of reliability improvement gradually diminished. Once the number of test items reached a certain level，the impact of further increasing the number of items on reliability became minimal. When the number of items in each test form was around 45，the test form's reliability was maintained at a high level. At the overall test level，the generalizability coefficient and reliability coefficient were 0.933 and 0.928，respectively，indicating good test reliability. On the condition that the quality of test items is ensured，if a reduction in the number of items is necessary，the total number of test items could be reduced from 109 to 98.

Key words：Monitoring the Quality of Compulsory Education，Elementary Science，Number of Questions，Test Reliability

（責任編輯：吳茳）

作者簡介姜有祥，博士研究生，北京師范大學中國基礎教育質量監測協同創新中心。北京，100088。曹朗，教師，海南省三亞市中國人民大學附屬中學三亞學校。海南三亞，572014。溫紅博，博士，副主任，博士研究生導師，北京師范大學中國基礎教育質量監測協同創新中心。北京，100088。