美國通用設計測評對我國教育測評的啟示

2011-12-31 00:00:00郭蘇晉

科教導刊 2011年11期

摘要在全納教育日益發展的背景下，通用測評設計(universal design for assessment)已經成為美國有效衡量學校教育質量，評估學生學業成績，提高教學質量的有力措施。從設計測驗的第一步入手，將所有學生群體考量在測試范圍內，力圖讓所有學生能在測試中充分展示真實能力，有效地節省了評量調整帶來的消耗。本文通過對美國通用設計測評的介紹，試圖為我國教育測評帶來新的啟示。

中圖分類號：G40-011 文獻標識碼：A

The Enlightenment to Our Education Evaluation from

Universal Design for Aassessment in America

GUO Sujin

(Educational Science School， Chongqing Normal School， Chongqing 400030)

AbstractAgainst the backdrop of growing inclusive education， universal design for assessment has become an effective measure to judge the quality of education， to evaluate students' academic performance， and to improve the quality of teaching. All student are included in the test from the start， try hard to let all student showing their real capability. The goal of universally designed assessments is to provide the most valid assessment for the greatest number of students. The purpose of this paper is to bring new inspiration to our education evaluation by introduction of universally designed assessments in America.

Key wordsuniversal design for assessment; inclusive education

1 全納教育環境下的教育測評

全納教育(Inclusive Education)的理念于1994年由聯合國教育科學文化組織在西班牙薩拉曼卡召開的“世界特殊需要教育大會”上正式提出。這一概念的提出主要是由于現有的教育體制不能公正地對待所有群體并且難以關注到每一個學生。

隨著我國經濟和教育的發展，全納教育的理念逐漸深入人心，越來越多樣的群體進入普通學校。（智力落后、肢體殘疾、視覺障礙和聽覺障礙學生，以及外籍學生、貧困學生、弱勢群體子女等等）我們的標準化教育測評并沒有對之作出應對。如何做到教育公平是我們努力解決的問題，在設計測驗之初是否也應該考慮到所有學生都有權在考試中展示學習成果。不僅是有特殊需要的學生，所有學生都應該受益于公平的考試。這也通用設計測評最根本的出發點。

2 通用設計測評

通用設計力求使設計出來的產品能夠為所有人服務。通用設計測評就是讓考試盡可能全面的服務與所有考試者，而且使在試卷設計之初就考慮所有因素（而不是設計完成之后再翻修）。在教育領域，通用設計測評促使大型標準化測驗適用于如今更加多樣的受試群體。這樣我們可以更清楚地了解學生的知識水平和能力。通用設計測評需要注意的包括：（1）結構可以測量；（2）尊重參加考試者的多樣性；（3）簡明易懂的試卷；（4）清晰的格式字體；（5）改變要以不改變原意和難度為原則。

通用設計測評是在不改變評估標準、不降低難度的前提下在增加考試的容納度，它不能取代評量調整和替代性評估。就算一個包含了所有通用設計元素的良好的測評，在考試地點、時間、作答方式等方面依然需要依據學生的具體情況作出調整。但是，考試在設計之初就應該把這些一般性調整考慮在內。通用設計測評并不是為了眷顧特殊學生而存在，所有學生都應該獲益于公平的考試。

3 通用設計測評原則

通用設計測評是一種教育測評方法，它的特點就是要盡可能適用于所有學生，包括有特殊需求的學生。因此，通用設計測評就是要全納的包括所有學生，對所測知識內容有清晰明確的界定同時測驗項目也要無偏見的呈現。而且在測驗設計之初就要考慮便于評量調整，具有簡單清楚和直觀的考試說明和步驟以及最大程度的實現易讀易懂。

3.1 包容性強

當測驗第一次被建構時，就要考慮到所有學生。(AERA， APA， NCME， 1999; National Research Council， 1999).雖然有時可以適當限制被測群體(例如就業安置測驗、選拔測驗)，但在公共教育問責制測驗中并不合適，所有學生都應該有機會獲得獎學金。隨著評估的目標群體的增加，評估需要對不斷增長的需求（多樣性的增加、普通課程中學生種類的增加、對學生更加重視和負責）做出反應。

通用測驗設計原則第一條——(Center for Universal Design， 1997)測驗要公平的發揮作用。當適用于大規模測驗時，這條原則要求所有所有學生都有權參與，無論他們有什么認知能力，還是什么文化、語言背景。評估需要測量學生在一個寬泛能力和技能上的表現，從而確保有不同學習任務的學生在同一個考察內容有機會展示能力。這并不意味著標準應該放寬或者考察內容應該有所改變。通用標準測驗設計必須權衡考量內容和成績標準制定出相同深度和廣度的測驗，并且針對認知的復雜性制定具體細節。運用不同的格式、技術和設計涵蓋所有學生。這在測驗設計的一開始就必須明確，為了做到公平，評估需要用同一個標準衡量所有學生的成績。1993年，Algozzine提出將全納的原則適用于評估，以避免被測組間的分離。“容性強”明確的含義是，試測應該提取所有希望參與到最終測驗的學生樣本。包括有各種障礙的學生、英語不熟練的學生和不同種族、民族、社會階層的學生。試測盡可能抽取廣泛的學生樣本不僅可以確定題項是否含糊不清、有誤導性或是導致某些特定群體的學生無法完成，而且還能確保測驗制作完成后適用于所有學生。

3.2 結構界定明確

好的測驗設計有一個重要的功能，就是確保測量到想要測量的內容。就像Popham 和 Lindheim1980年提出：“一個測試開發項目開始于對所測技能和態度特征的慎重思考?！本拖裢ㄓ媒ㄖO計為所有人消除公共和私人建筑的身體、感官、認知障礙，通用測驗設計消除測驗中所有非結構導向的認知、感官、情緒和身體的障礙。特定評量調整的運用是否使結構測驗設計無效，例如，不同的群體對于閱讀有不同的定義，有些人可能把它定義為通過書面文字建構意思，有的則可能有更廣泛的理解，而不是針對信息是如何獲得的。后者的說法是專為視障學生提出，很少有學生學習盲文，更多的學生適用技術設備閱讀文字，可以說這是視障學生閱讀的唯一方法。解決這個問題的難點在于如何把理解文本的能力界定的清晰，普遍被接受。國家考試的成績往往影響一個學生是否可以晉升等級或是從高中畢業。因此有明確的界定結構比以往更加重要。而且，一旦這些結構被確定，就要提供給管理如何測試的人。

另一個常見的測試爭論時關于數學測驗中需要的閱讀技能。幾項研究已經發現，如果把問題讀給閱讀困難的學生他們會取得較高成績(Calhoun， Fuchs， Hamlett， 2000; Harker Feldt， 1993; Koretz， 1997; Tindal， Heath， Hollenbeck， Almond， Harniss， 1998)。這一發現意味著，數學測驗的閱讀需求可能會阻止閱讀能力處于邊緣的學生在數學測驗中展現能力。然而，解決問題的方法往往需要大量誦讀。數學教師對這些題目和大量的誦讀負擔百感交集。Shorrocks-Taylor and Hargreaves (1999)提出，非語言測試中的問題用語要盡量透明盡可能簡潔清楚。雖然研究人員發現，我們很少關注語言文學測試中的語言測量，但這個問題將困擾測試開發一段時間。

3.3 無障礙，無偏見的項目

根據教育和心理測試標準(AERA， APA， NCME， 1999)，項目的質量通常是通過項目審查程序和試驗測試確定的。項目審查既包括所測內容的質量，清晰度和是否歧義，也包括考察性別和文化的命干問題。據國家研究理事會（1999）公布，偏見出現在：測驗自身的不足之處導致各樣本組在某一問題上得分不同。例如，一個測試旨在衡量口頭推理，應該適用一般用語。如果文字涉及特定文化和地點，那么就可能不公平的對待來自這些文化和地域的考生與其它群體考生。一種減少偏見的方法是研究項目是否對于來自特定亞群的學生更難。這可以通過現場試測來確定試題難度和不同學生在這道題上表現得不同能力。(AERA， APA， NCME， 1999， p. 39)

3.4 便于評量調整

在美國考試評量調整被應用于具有特殊需求學生和英語初學者的考試中。但是應該如何調整，標準化是否真正有助于提高調整的有效性，什么學生可以接受調整以及誰來決定給與他們調整等等這些問題在學術界引起激烈的討論。雖然經過通用設計的題項適合大多數學生，但是還是有一部分學生仍然需要評量調整。通用設計的目的在于降低來自評量調整的對分數有效性和可比性的威脅。舉例來說，避免以下情況的出現有助于減輕盲文調整的困難：（1）使用不相關的圖表。（2）出現垂直或傾斜的文字排版。（3）需要閱讀的圖表，沒有轉化成文字說明。（4）題目中出現純粹為了裝飾的圖案，給視力障礙考生帶來不必要的干擾。

通用設計測評無法考慮所有調整的可能性，但是可以為常見調整提供便利。例如在測驗設計之初就可以考慮有不少考生需要適當延長考試時間，在考試中途獲得休息的機會。那么測驗就要盡量避免考試進行的同步性，便于學生在考試時間上靈活安排或是更容易插入休息時間。

4 通用設計測評的實施建議

通用設計總原則：（1）通用設計測評不要降低執行標準，一些群體不愿降低測驗的操作難度。（2）通用設計測評不能代替評量調整，評量調整有必要存在于學生的出席方式，回答方式，環境，時間和流程安排中。（3）通用設計測評需要眾多專家討論考量不同設計要素的優缺點。（4）不光是英語初學者，所有學生將受益于更易懂的測驗。

4.1 組建測評設計團隊

由于美國的大型教育測評是承包給個人的，政府在需要設計測評時，提出要求、通用設計原則、承包者的資格和報告內容要求、報酬等一系列問題，向測驗公司、課程和教學專家、獨立研究者等各種團隊招標。這些團隊要向政府報告他們的能力、方法等參加競標。我國大型考試的設計是找一線教學能手和各個學科的專家學者參與其中。我們是不是也可以擴大這個團隊成員的專業類型，組建一個專業整合的團隊，也把心理學家、特殊教育教師和專家學者、以及各層學業水平的學生和家長（包括有特殊需要學生和他們的家長）吸納進來。

4.2 構建測驗

測驗題項設計是個耗時又富有挑戰的工作，我國在標準化測驗的經驗上有著多年的積累，這些來自實踐中的經驗可以幫助我們在測驗的設計上順利起步。我們還需要懂得通用設計測評觀念的測評專家，將無障礙、適應更廣群個體的觀念引入題項設計中。美國這些年在題項的通用設計方面積累了經驗，并且歸納出精華（大型標準化測驗通用設計參考辦法）。我們可以拿來借鑒。

5 結語

標準化測驗在現代社會中發揮重要作用，尤其是在選拔人才、評量成就方面。標準化測驗是我們獲得各種權益的重要途徑之一。考試的公平在很大程度上反映（下轉第19頁）（上接第12頁）了一個社會的公平。隨著社會的發展，教育研究者把通用設計理念帶入到教育測評中，力圖使測驗更加公平和人性化。在我國社會的迅猛進步下，通用設計測評是適合我國教育發展的新觀念，是值得我們去嘗試的。

通用設計測評充分尊重了受試群體的多樣性，結合多領域專家的智慧力圖尋找一個最適合所有學生的標準，減低由于個體差異帶來的調整消耗，更好幫助學生在教育測評中無障礙的展示能力，更好的促進教育工作者的教學和管理。

參考文獻

[1]Abedi， J.， Leon， S.， Mirocha， J. (2001). Validity of standardized achievement tests for English language learners. Paper presented at the American Educational Research Association Conference， Seattle， WA.

[2]Center for Universal Design (n.d.). What is universal design? Center for Universal Design， North Carolina State University. Retrieved January， 2002， from the World Wide Web: www.design.ncsu.edu.

[3]Johnstone， C. J.， Bottsford-Miller， N. A.， Thompson， S. J. (2006). Using the think aloud method (cognitive labs) to evaluate test design for students with disabilities and English language learners (Technical Report 44). Minneapolis， MN: National Center on Educational Outcomes.

[4]Johnstone， C. J.， Thompson， S. J.， Moen， R. E.， Bolt， S.， Kato， K. (2005). Analyzing results of large-scale assessments to ensure universal design (Technical Report 41). Minneapolis， MN: University of Minnesota， National Center on Educational Outcomes.

[5]Thompson， S. J.， Johnstone， C. J.， Anderson， M. E.， Miller， N. A. (2005). Considerations for the development and review of universally designed assessments (Technical Report 42). Minneapolis， MN: University of Minnesota， National Center on Educational Outcomes.

[6]Thompson， S. J.， Johnstone， C. J.， Thurlow， M. L.， Altman， J. R. (2005). 2005 State special education outcomes: Steps forward in a decade of change. Minneapolis， MN: University of Minnesota， National Center on Educational Outcomes.

[7]ADDA (Attention Deficit Disorder Association). (2001). Accommodations for testing. Retrieved January， 2002， from the World Wide Web: www.adda.org.

科教導刊2011年11期

科教導刊的其它文章: 認知心理學未來發展趨勢; 對外漢語教學中常遇到的問題及解決策略; 如何提高我國公共行政管理效率芻議; 網絡環境下體驗式教學在ERP沙盤模擬課程中的應用; 淺談自然語境中的英語音變; 從到課率入手,提高航海類“兩年制”職業教育質量