向冠春
(教育部考試中心,北京 100084)
標準即衡量事物的準則,在心理與教育測量研究領域中,標準更多地涉及到受試者的表現。對于任何一種標準參照測驗而言,都必須根據受試者的表現,對其達標與否、合格與否、掌握與否進行判斷,這就需要確定分界分數/及格分數(cutoff score,passing score)。分界分數/及格分數將測驗分數分布劃分為兩類或兩類以上,兩類諸如達標與未達標、及格與不及格等,兩類以上則諸如等級A、B、C、D、E,或初級、中級、高級等,據此對受試者是否掌握某一具體的知識技能,是否勝任某一具體的職位等做出明確的判斷。整個確定分界分數的過程,就被稱為標準設定(standard setting),其目的在于確定一個能夠引導決策制定的準則。
對于高利害關系的考試來說,可信賴的分數線的設立是測試開發中最關鍵的問題之一。比較不同測試的通過分數是一個重要的效度問題。如果使用絕對通過分數,大家爭議的問題是使用測試分數等值以保持分數量表的穩定性,如果分數不進行等值處理,即使不同考試的試題難度有一個微小的差別就會造成通過分數的解釋力喪失,且對一些考生造成不公平。因此,大多數涉及到通過分數線的標準(Standards(AERA,APA,NCME))都會討論等值問題。關于劃定絕對分數線,標準要求標準設定專家的任務是清晰的,且標準設定專家能夠做出合理的、充分的判斷。標準強調了分數線劃定程序的公平性及制定出的分數線產生的影響。
無論是傳統的相對方法還是現代的絕對方法,不同的標準設定方法會產生不同的通過分數線和通過率。不能說哪個方法比其他方法更正確。內容專家使用絕對標準設定方法來制定通過分數,他們的目的不是發現一個真實的通過分數,而是通過專業判斷來回答掌握多少知識就足夠(通過)了。通過分數反映了一個社會的政策取向、人們的價值觀、專家判斷、政治制度等。與通過分數相關的效度證據的可靠性和強度依賴于所采取方法的合理性、方法的基本原理和研究基礎以及專家的心理特征。
因此,心理與教育測量學界一致認為,標準設定是相當重要、且涉及面很廣、爭議很大、十分棘手的一個議題,自20世紀70年代起國外涌現出大量關于標準設定方法的研究,而我國這方面的研究還比較欠缺。下面主要介紹標準設定通常涉及的步驟和一些比較經典的標準設定方法及其在等級劃分中的運用,以期對我們在確定考試及格分數線、劃分成績等級等方面有所裨益。
考試中,標準是考試目的和內容、應試者的能力以及廣泛的社會或教育環境中專業價值的體現,設定標準或切點的方法不是一種憑直覺推測正確解答的技術,而是一種系統性的方法,包括搜集判斷價值的依據、對標準達成共識以及對單個分數的共識。標準設定的方法很多,可以從一些經典標準設定方法中歸納出一般的標準設定步驟。
標準通常有兩種類型,即相對標準和絕對標準。相對標準是以一定數量或一定百分比的應試者來表示,以此來確定切點,例如以一次考試中前50名最優秀應試者的成績或按得分高低分成前15%和后85%作為切點。絕對標準是以一定數量或一定百分比的試題來表示,以此來設定及格標準,例如在100道試題組成的考試中答對70題為合格。
采用何種標準與考試的目的有關,有的考試項目主要服務于對特定群體的選拔,有的考試項目的目的在于測試受試者的能力。相對標準非常適用于選拔最高或最低錄取分數的考試,因為在這種情況下能夠被接受的學生數是有限的。絕對標準特別適用于以測試能力為目的的考試,包括終末考試、證書考試和執照考試等。
設定標準的方法有很多,大體上可分為四類:即相對方法、以試題評判為基礎的絕對方法、以對應試者個人的評判為基礎的絕對方法以及絕對相對折衷的方法。與上述四類方法相對應的具體方法很多,如Angoff法、Nedelsky法、對照組法等。各種標準設定方法各有其優缺點,在為某一項目考試選擇標準設定方法時,需要考慮某種方法設定的標準是否同該考試的目的一致。如果二者一致,并且這種標準是以專家們利用應試者的成績所做的判斷為依據,那么這種標準的可信度將得到提高。如果某種方法得到了學者們充分地研究,且在實踐中得到了檢驗,那么它就易于實施和做出解釋。選擇合適的標準設定方法是構成考試效度證據的重要來源。
在考慮考試項目的性質、考試的目的、標準設定方法的特點、標準設定的成本等因素的前提下,確定參加標準設定的專家人數。在邀請這些標準設定專家時,需要考慮各位專家的特點,如研究領域、所處的地理位置、性別、種族、年齡、經歷、觀點等。如為一項醫師資格考試設置標準,邀請醫學教師、執業醫生、全科醫生和??漆t生是必須的,同時還應邀請醫師資格考試命題專家、標準設定方面的教育測量專家。此外,專家構成中還需要考慮專家的區域分布、性別、年齡等因素,這樣可以保證考試項目的標準設定的信度要求,增加社會對該項考試的信任度。
為標準設定專家提供考試試卷、歷年考試分界分數線、相關統計數據等材料,舉行標準設定會議。在舉行標準設定會議時,不同標準設定方法所涉及的工作內容不盡相同。通常情況下,舉行標準設定會議的要求和要做的工作主要如下:(1)專家們應當非常熟悉考試內容和考試形式,討論處于邊界分數的考生對考試內容應該掌握的程度,可能部分工作在舉行標準設定會議前就需要做;(2)專家們應當討論考試的性質、目的、應試者的特點以及能力的特質,這種討論要服從于使小組定向于設定標準的演練,澄清怎樣做出評判的某些問題;(3)對參加標準設定的專家進行培訓,讓其熟悉所使用的標準設定方法的原理和步驟,并在培訓和演練過程中鞏固其對標準設定方法的掌握;(4)在整個過程中,專家們應當給予反饋,彼此知道其他人的判斷,尤其想知道他們所做出判斷的最后結果;(5)專家們應當自始至終參加標準設定會議,任何原因的缺席都會導致資料的缺失,在討論過程中,參加者的缺席也會對其他人產生不利影響。
合格標準的計算將隨著所采用的計算方法而有所不同,但是有些問題是相同的。常常碰到的問題是專家人數相對較少時,會出現一兩個局外人明顯影響到標準的可能性。在這種情況下,采用中位數來代替平均數,或者去掉一個最高分和一個最低分也許是合理的。刪去資料應當謹慎,只有當它的影響相當大時,例如對標準的信度具有負面影響時才不得不刪去某些資料。作為計算標準的一部分,重要的問題是確定設定標準的過程是否充分可信或者可重現??尚哦认禂祷蚩芍噩F性系數可以用許多種方法來計算,而這種計算會證明這一標準是否相似,如果不相似,就必須由可比較的評判組來重新計算。
設定考試標準是一項對專業價值達成共識的系統工程,涉及到方方面面的因素??荚囃戤呉院螅匾膯栴}是保證這種標準應產生合理的結果,在一種連續不斷進行的考試項目中,這一問題涉及到三個方面:首先應當由有重大利害關系的各方提出問題,保證他們從可靠性方面去檢查考試的結果;其次,合格率應當與同步進行的能力評分相比較,以保證它們之間具有預期的一致性;最后,采用某種標準的結果應當同將來的成績進行比較。
Johnson等(1998)在Rose(1992)的基礎上又進一步擴展了對DCT不同形式的研究。他們在情景描述后進行了三種處理:提供肯定答復、提供否定答復、不提供答復。研究結果呈現出一個更為復雜的局面:有無答復以及答復是肯定還是否定對被試的回答有不同程度的影響,其中對抱怨的影響最小,對道歉的影響最大,對請求的影響居中。該研究得出結論:運用不同形式DCT得到的結果可能不具備可比性,它們可能體現了被試對于是否有答復以及答復的不同性質的敏感程度(Johnson,1998:172)。
早期的標準設定方法常常是參照某個特定的團體來界定受試者的表現成就,因而我們稱其為相對方法(relative method)。如固定百分比法,這種方法是請每一位參與標準設定的專家提出一個他認為合格的應試者應占的百分比,然后將他們建議的百分比在全體專家中進行討論,專家可以接受其他人的合理意見,改變自己的評判,討論結束時,計算各專家的平均合格率,該合格率就是最低合格標準或切點。固定百分比法使用比較方便,可以相同地運用于不同形式和不同類型的考試之中。然而,這種方法只設定相對的標準,其獨立于考試內容,應試者都知道合格率是多少。另外,按這種方法設定的標準,根據應試者的能力,從本次到下一次考試將是不同的。因此,固定百分比法較適用于期望鑒別一定數量最佳或最差應試者的考試。
20世紀70年代,隨著標準參照測驗的迅猛發展,相對方法逐漸被絕對方法(absolute method)所取代。絕對方法不需要參照其他受試者的表現來界定某一特定的受試者,只需要專家對于特定受試者的知識和技能水平做出評判即可。下面介紹幾種典型的絕對方法。
這一方法是Nedelsky在1954年首先提出的,僅適用于多項選擇測驗。其基本理論假設是:最低能力受試者能夠區分多項選擇測驗中每個題目中明顯錯誤的選項,但是對于剩余的選項只能進行隨機的猜測。Nedelsky方法操作步驟具體如下:(1)要求專家考察測驗中每個題目的選項,評判最低能力受試者能夠排除明顯錯誤的選項;(2)計算出每個題目剩余選項個數,對剩余選項個數求倒,即得到每個題目的“最低通過水平”(minimum passing level,MPL);(3)對測驗中所有題目的MPL求和,即為一位專家評判測驗的MPL;(4)每位專家按照以上步驟得出測驗的MPL,然后求平均,即為整個測驗的最終分界分數。若結果為非整數,進位至整數。

表1 Nedelsky方法的一個實例
表1為一位專家運用Nedelsky方法,對由10個題目構成的一個多項選擇測驗進行標準設定的例子,每個題目由4個選項構成,每個題目1分,專家按照Nedelsky方法的操作步驟,得到的 MPL為6.41。其他專家按照上述同樣的步驟便可得出他們的MPL值,若共邀請了5位專家,其余4位專家的MPL值分別為 6.21、6.47、7.24和 7.56,5位專家MPL值的平均數為6.78,則測驗的最終分界分數為7。
這一方法是Angoff在1971年首先提出的,可適用于包括多項選擇測驗在內的多種測驗形式,且只需對每個測試題目進行考察即可,而不象Nedelsky方法,要對每個題目的每一選項進行考察。Angoff方法操作步驟具體如下:(1)專家考察測驗中每個測試題目,估計最低能力受試者能夠正確作答每個題目的概率,概率取值在[0,1]之間;(2)將一個專家對測驗中所有題目估計的概率求和,即為此專家評判的測驗分界分數;(3)每位專家按照以上步驟得出測驗分界分數,然后求平均,即為整個測驗的最終分界分數。若結果為非整數,進位至整數。
Angoff方法是到目前為止應用最廣、研究最多的一種方法。它擁有許多變式,一種變式是將每題的概率估計值限定為特定的幾種,如10%的倍數。另一種變式則要求專家進行多輪循環評定,除第一輪外其余幾輪允許專家參考他人的估計作相應的調整。

表2 Angoff方法的一個實例
表2為五位專家運用Angoff方法,對由10個題目構成的一個多項選擇測驗進行標準設定的例子。每個題目由4個選項構成,每個題目1分,專家按照Angoff方法的操作步驟,得到的測驗分界分數介于5.10至7.25之間,再求平均,得到整個測驗的最終分界分數為6.57,進位至7。
這一方法是Jaeger在1978年首先提出的,概念上如同yes/no的Angoff法,將可能判定的幾率值具體化為兩種選擇,但差別在于加入需反復執行的過程,即給予專家討論先前所評定結果的機會,以供調整時參考。與傳統的Angoff或Nedelsky法相比,Jaeger法強調對所有受試者作判定,專家則不需在心目中概念化所謂最低能力表現者。此外,在反復過程中額外提供三類參照信息:首次評定后其他專家建議的標準、專家本身先前評定結果、依學生真實表現得出的試題難度值。Jaeger方法操作步驟具體如下:(1)要求專家考察測驗中每個題目,并回答這樣一個問題“是否每一個受試者都能正確回答這一題目?”是,則賦值1;否,則賦值0。(2)將專家對測驗中所有題目的估計值求和,即為一位專家設定的測驗分界分數。(3)每位專家按照以上步驟得出測驗的分界分數,然后求平均,即為這一輪整個測驗的分界分數。若結果為非整數,進位至整數。

表3 Jaeger方法的一個實例
為彌補傳統方法的不足,Lewis,Mitzel,Green 三位學者于1996年提出了Bookmark法,它是基于項目反應理論(Item Response Theory,IRT)、以Angoff法為基礎的專家評定法,通過邀請有關學科專家以測驗材料的難度參數值為基礎,按照由易到難的順序討論每道題目,判斷“基本掌握該領域知識的考生”能否做對所討論的題目,在考生不能通過的題目上做出標識,以此作為設置劃界分數的依據。
由于Bookmark法融合了IRT與Angoff法原理,因此 Lewis,Green,Mitzel,Baum 和 Patz(1998)等學者又將其稱為修正的IRT-Angoff法。作為以IRT為基礎的方法,當不同測驗的樣本來自同一總體時,Bookmark法能將多個測驗的題目放在同一題目手冊中排序,然后合并為一個測驗,達到為多種類型的測驗設置單一劃界分數的目的。此外,在Angoff法的基礎上,Bookmark法能夠在一次測驗中設置及格、優良等多重劃界分數線。
Bookmark法的使用流程與Angoff法相似,但Bookmark法向學科專家呈現的是題目的難度值,其結果包括所有考生正確作答每道題目的比例和累積百分比,簡單步驟如下:(1)學科專家分組,對題目進行由易到難排序,同時提供學科專家一份試題圖(item map),說明試題在排序后與排序前在測驗卷中所處的位置和各試題所欲測量的內容或知識;(2)第一次放置書簽,將書簽放置在最低能力受試者有2/3(約67%)能正確作答的2個試題簽;(3)反饋并討論第一次書簽放置結果,再次放置書簽;(4)向所有學科專家呈現所有書簽放置結果,參照前兩輪步驟開展第三次討論,放置書簽,結束Bookmark程序。
此外,若加以延伸可按相同步驟設置多重分數線,如圖1所示(B:Basic,合格;P:Proficient,熟練;A:Advanced,優良)。

圖1 書簽法中已排序的題目手冊
這一方法是Ebel在1972年首先提出的。概念上是借助試題的特性來決定最低通過分數。相較于Nedelsky方法和Angoff方法,Ebel方法要求專家對測驗題目進行更加仔細的分析,因而在操作上具有一定的難度。Ebel方法操作步驟具體如下:(1)專家按照題目難度(difficulty)(低、中、高三個水平)和題目與內容的相關度(relevance)(高相關、中等相關、低相關、不相關四個水平)兩個維度對每個測驗題目的特性進行判定,分別將其置入各細格內,形成一個3×4的列聯表;(2)對于3×4列聯表的每一單元格(共12個單元格)賦予一個所有專家協商得出的概率,這個概率假定的是最低能力受試者能夠正確作答的可能性;(3)將各單元格的題目個數與各單元格被賦予的概率相乘,再求出所有單元格分數之和,即為測驗的分界分數;(4)每位專家按照以上步驟得出測驗的分界分數,然后求平均,即為整個測驗的最終分界分數。若結果為非整數,進位至整數。
表4為一位專家運用Ebel方法,對由15個題目構成的一個多項選擇測驗進行標準設定的例子。專家按照Ebel方法的操作步驟,得到的測驗分界分數為10.9。

表4 Ebel方法的一個實例
這一方法是Zieky和Livingston在1977年首先提出的,其依據的理論假設是分界分數應從一組邊界組受試者的測驗分數中產生。邊界組受試者的知識和技能水平介于掌握和不掌握之間的模糊狀態。從這個意義上說,邊界組受試者有點類似于前面幾種方法(項目中心模型方法)中提到的最低能力受試者,但并不完全相同。邊界組受試者是對受試者的實際知識和技能水平進行判斷,而最低能力受試者則是一個假想的概念。邊界組方法的操作步驟具體如下:(1)選拔內容學科專家和教育測量專家;(2)針對測驗所測內容,界定邊界組受試者具有的知識和技能水平;(3)根據界定,找出一組邊界組受試者;(4)向這組受試者實施測驗,獲得測驗分數;(5)求這組受試者測驗分數的中位數,即為測驗的分界分數(見圖2)。

圖2 邊界組方法示意圖
這一方法是Livingston和Zieky在1982年首先提出的,其依據的理論假設是根據受試者的知識和技能水平,可以將受試者劃分為掌握組和不掌握組,將兩組受試者的測驗分數分配曲線畫出,兩曲線的交叉點即為分界分數,認為此交叉點形成的分類錯誤是最小的。對照組方法的操作步驟具體如下:(1)選拔內容學科專家和教育測量專家;(2)針對測驗所測內容,界定掌握組和不掌握組受試者具有的知識和技能水平;(3)根據界定,找出兩組不同的受試者;(4)分別向這兩組受試者實施測驗,獲得測驗分數;(5)將這兩組受試者測驗分數的頻數分布繪制在同一坐標系中,這兩個頻數分布的交叉點就是測驗的分界分數(見圖3)。

圖3 對照組方法示意圖
等級劃分評定人員運用某種標準設定方法,設置一個或多個分界分數,將考生的考試結果劃分為兩個等級(如及格和不及格)或多個等級(如A、B、C、U等),這一過程稱之為等級劃分。對考生的成績進行等級劃分,向社會公布考生考試結果的等級,而不是考生的原始分數,這種分數處理方式在英國比較普遍。下面以劍橋評價劃分GCE考試的等級為例簡要說明等級劃分的過程。
進行正式等級劃分工作之前,為等級評定人員準備一些定性和定量的材料,如試卷(作業)和最終評分方案的復印件、相應學科領域的照片或影像證明材料、可獲得的公開的成績材料、先進事跡材料、試卷(作業)的分數分布狀況等內、外部評價材料。這些材料越充分,構成等級劃分效度證據越有說服力,社會可信度越高。
在劍橋評價,等級劃分評定委員會由主考官負責組織成立并展開工作,除主考官外,委員會的成員還包括執行考官、責任考官、課程專家、標準設定專家和項目經理等人員。從研究領域角度,他們有的是熟悉命題工作的命題專家、有的是熟悉課程內容的學科專家、有的是熟悉標準設定方法的教育測量專家。從地域分布的角度,他們遍布英國的南部、北部和中部。劍橋評價這種等級劃分評定委員會的成員結構也是構成考試效度的強有力的證據。
GCE考試將各學科的內容分為幾個模塊,一般一個學科分為3、4個模塊。各模塊的原始滿分可能是75分,也可能是60分或其他分數。GCE考試等級分為A、B、C、D、E和U六個等級,其中E/U和A/B是關鍵等級邊界。等級評定人員根據考生的內、外部評價材料,按照實施規程對關鍵邊界等級考生應該掌握相關知識、技能和能力的描述和界定,結合全體考生總體考試情況,運用邊界組法或Angoff法討論確定E/U和A/B是關鍵等級對應的原始分數,B/C、C/D和D/E的邊界分數是由A/B和E/U邊界間的分數區間除以4計算得出①。如果某一模塊的原始滿分是60分,假設E/U和A/B這兩個關鍵等級的邊界分數分別是20分和48分,則B/C、C/D和D/E的邊界分數分別為27分、34分、41分。
如上所述,每個模塊有六個等級,每個等級對應的標準分數已在實施規程中有所規定,可以按照一定的算法將原始分數轉化為標準分數,如表5所示。原始分為0轉化成標準分也必須為0,某模塊的最高原始分數轉化成標準分數時也是該模塊的最高分。

表5 模塊原始分數與標準分數對照表
在得到各模塊標準分數之后,將其加總得到學科的標準總分,參照實施規程設定的標準總分與學科等級對照表(如表6所示),確定學科等級。如果各模塊的等級均為A,則其學科等級必定為A;有些考生一部分模塊的等級為A、一部分模塊的等級為B,其最終學科等級也有可能為A,例如:某考生的模塊等級分別為A、A、B、B,對應的標準分分別為89、85、78 和 76,其學科總標準分為 328,則其學科等級應為A。

表6 標準總分與學科等級對照表
[1]曹怡,若干標準設定方法的心理計量學比較初探,[C]華東師范大學碩士論文,2003.
[2]申逸彬,設定考試標準的步驟和方法,[J]復旦教育論壇,2005,(3).
[3]American Educational Research Association,American Psychological Association,National Council on Measurement in Education.Standards for educational and psychological testing.Washington,DC:Author.1999.
[4]Angoff,W.H.(1971) .Scales,norms,and equivalent scores.In R.L.Thorndike (Ed.), Educational Measurement.Washington,DC:American Council on Education.
[5]Ebel,R.L..Essentials of educational measurement(2rd ed.).Englewood Cliffs,NJ:Prentice - Hall.1972.
[6]Jaeger,R.M..An iterative structured judgment process for establishing standards on competency tests:Theory and application.Educational Evaluation and Policy Analysis,4.1982.
[7]Lewis,D.M.,Mitzel,H.C.,& Green,D.R..Standard Setting:A Bookmark Approach.In D.R.Green(Chair).IRT-based standard-setting procedures utilizing behavioral anchoring.Symposium conducted at the Council of Chief State School Officers National Conference on Large-scale Assessment,Phoenix,AZ.1996.
[8]Livingston,S.A.&Zieky,M.J.Passing scores:A manual for setting standards of performance on educational and occupational tests.Princeton,NJ:Educational Testing Service.1982.
[9]Nedelsky,L.Absolute grading standards for objective tests.[J]Educational and Psychological Measurement.1954(14).
[10]Zieky,M.J.,&Livingston,S.A..Manual for setting standards on the Basic Skills Assessment Tests.Princeton,NJ:Educational Testing Service.1977.
【注釋】
①如果余數為1,這個分數將加到A-B分數區間;如果余數是2,A-B和B-C分數區間各加1;如果余數為3,在A-B,B-C和C-D分數區間各加1。