一、內容效度及其重要意義
內容效度是教育測量學中的一個重要概念。它是衡量測驗與評價質量的重要指標。要理解它的內涵與重要意義,得先從開展測驗與評價的目的說起。
通常來說,我們開展測驗與評價的核心目的是考查學生實現預期學習目標的程度。但是,學生的學習目標涉及知識與技能、學科共通能力、情感態度與價值觀等多個領域,每個領域又包含十分廣泛的內容,即便是一次學科專項測驗,要測量的任務也是一個相當大的范圍。所以,我們通常無法對某一范圍或領域中的所有內容和任務進行考查,只能從中抽取一個有代表性的樣本去評價學生,然后依據學生在樣本上的表現推測其發展狀況,做出有關解釋與決策。在測驗中,題目樣本對所要評價內容范圍的代表程度反映了內容效度的高低。從測量學角度來說,內容效度指的就是測驗題目有效測量了特定目標并從整體上反映了所要測量領域的程度。
題目樣本的代表性越好,內容效度越高;反之,題目樣本的代表性越不充分,內容效度則越低。我們可以結合語文學科來做進一步的分析。新課標已明確規定,語文學習包括識字與寫字、閱讀、寫作、口語交際和綜合性學習等方面,這幾個大的學習領域及其具體的學習要求就是語文評價的內容范圍。作為一個完整的語文評價,只有評價任務或測驗題目均勻地取自整個內容范圍,具有充分的代表性,才能真實、有效地反映學生學習的實際狀況。而如果題目僅選自少數領域,或者有些題目根本沒有落在評價范圍之內,評價方案的內容效度就不夠理想。
高內容效度是良好測驗與評價最重要的特征之一。從某種意義上來講,內容效度比其他幾個測量學指標更重要。拿語文學科來說,如果沒有依照課程標準明確要評價內容的范圍,或者范圍明確了但沒有找到能充分代表這一范圍的合適樣本,簡而言之,就是說一套評價方案或測驗題目的內容效度不理想,那么它就無法準確反映學生在語文學習方面的成就水平,也無法細致診斷學生在語文學習方面存在的優勢與問題,而依據學生分數所做的解釋、推論和決策也不會合理和有效。這樣的測驗或評價,即使精心施測與客觀評分,且實際獲得的信度、難度和區分度指標都可以接受,也不能被認為是好的測驗。所以,在測驗與評價實踐中,我們要有意收集有關證據,重視內容效度的分析和審查。
二、當前語文測驗與評價實踐中常見的內容效度問題
內容效度分析與審查最常用的方法是專家審查,通常由多個學科專家或評價專家對測驗題目與所涉及內容范圍的符合程度進行判斷。具體程序是先明確測驗所涉及的內容范圍,也就是測驗要測量什么,然后對測驗題目是否屬于這一范圍、能否測量到要評價的特質、影響測驗成績的無關因素是什么、能否從整體上有效代表評價范圍,以及各種內容和類型的題目比例是否適當等做出評判與分析。嚴格來說,在較大范圍內統一使用的高利害學業成就測驗(如初中畢業生學業考試),必須經過專家審查和改進之后才能正式投入使用。
采用專家審查方法,我們對近年來語文單元測驗、期末語文評價以及初中畢業生語文學業水平考試進行分析,發現在內容效度方面存在一些不容忽視的重要問題。幾種典型的情況分別是:
1.題目樣本取自評價范圍中的局部領域
語文課程旨在全面提高學生的語文素養。如前文所述,新課程實施以后的語文學習主要包括識字與寫字、閱讀、寫作、口語交際和綜合性學習等領域。那么,終結性評價意義上的期末語文評價,應該全面評估學生在各個領域中的發展與變化,選取能代表整個評價范圍的題目樣本。但實際上,不少地區仍然固守傳統的命題取向,片面強調那些容易通過紙筆方式測量的知識與技能,題目集中在少數領域,而對那些重要卻難以客觀評價的特質或領域,如語文課程中的口語交際與綜合性學習領域,卻很少涉及。有些教師反映,他們在新課程實施之初以飽滿的熱情參與到教學改革之中,教師角色以及學生的學習方式發生了很多積極的改變,學生的口語交際能力和綜合應用能力也有了比較明顯的提高,但到了學年末,地區性統考卻只考知識與技能,甚至按照舊的教學大綱來命題,“逼”得他們只好走回頭路。
2.有的題目超出了語文學習的評價范圍
在評價范圍內命題,是保證測驗與評價內容效度的基本要求。這與傳統命題實踐中所強調的“不超綱”是一個意思。但在綜合性學習受到廣泛重視的背景下,有些測驗題目卻超出了語文學習的評價范圍。比如,某地區在中考閱讀題中,讓學生閱讀《走近納米技術》之后,回答這樣一個問題:“納米技術廣泛的應用前景就連想象力極強的人也無法全部想到。請結合對本文內容的理解,聯系生活實際,發揮聯想和想象,設計一個運用納米技術的科技小制作。”與此類似,另一個地區在中考閱讀題中,讓學生閱讀有關材料后回答:“要使建筑物防震,除文章介紹的方法外,還可有其他許多方法,請發揮你的想象力,為建筑抗震房屋想一個辦法。”設計運用納米技術的科技小制作和設計抗震房屋都是創造發明,雖然體現了課改精神,但所考察的內容卻是非語文的。這無形中降低了語文評價的內容效度,我們不能由分數準確推論學生語文學習情況。換句話說,就是如果學生得分高,我們不能簡單說他們語文學習效果好;而如果學生得分低,我們也不能簡單說他們語文學習得不好。
3.測驗題目不能有效測量要評價的特質
有些地區和學校在語文測驗中關注了新課程十分重視卻難以評價的某些特質,加強了題目的開放性、綜合性與實踐性,但所創設的情境卻不能有效證明學生在所測特質上的成就水平。如,某市期末語文測驗中有這樣一道評價口語交際能力的題目:“我們每個人都有自己心底的秘密,今天晚上回家后,請你和你的父母說說你心底的秘密。你會如何說呢?請你把它寫下來。”姑且不說讓學生與父母說自己心底的秘密合不合適,題中要求學生將想說的話寫下來,而不是真正與父母進行交流,實際上能測量到的主要是寫作能力,而不是口語交際能力,內容效度十分不良。應該說,題目不能有效測量所要評價特質的情況,在綜合性學習、審美情趣、情感態度等方面的評價中都不同程度地存在。探索新課程所強調的各種素質與能力的評價,從方向上值得提倡,但如果要評價的特質實際上根本沒有評價到,內容效度不理想,不僅不能發揮積極的導向作用,還可能誤導我們的學生與教師,使我們離教育目標越來越遠。
4.題目形式更新導致內容效度下降
有些教師在評價改革中提出要革新測驗題目形式,增加選擇性和趣味性,使學生在輕松、愉快的氛圍中參加考試,既樂學,又樂考。但這種努力如果處理得不好,可能反而導致內容效度的下降。比如,很多實驗區在語文期末測驗中采用如下的題目形式:“本學期,我們一共學習了8首古詩,你最喜歡其中的哪一首呢?請你把它寫下來。”學生實際默寫下來的古詩,未必是他真正喜歡的那一首;再說,如果學生喜歡其中的多首或一首也不喜歡,又如何作答呢?通過這道題,我們并不能對學生古詩文學習成果形成準確、可靠的評判。學生答對了這道題,我們卻不能就此下結論:他們的古詩文學習達到了課程標準的要求。如果教師在其他內容領域也這樣評價學生,杜撰一個夸張點的例子:“本學期我們學習了300多個生詞,你最喜歡哪幾個呢,請寫出5個。”恐怕我們曾經引以為豪的語文“雙基”會受到意想不到的沖擊。
5.某些無關因素也在影響題目的內容效度
學生在測驗作答中通常需要多種知識、經驗與能力。如果某些經驗與能力不是測驗意圖評價的重點,但對學生測驗結果卻構成重大影響,這就會降低測驗的內容效度。比如,某市中考語文考試出了這樣一題:在讓學生閱讀完一段關于母親的散文之后,問學生“你們是否意識到,我們的母親已經人到中年,請你寫一段文字,說說母親人到中年后發生的變化”。學生母親是否健在、學生是否與母親長期生活在一起、母親的實際年齡、學生與母親的真實情感等很多與寫作能力無關的因素,可能會引發學生的情緒困擾,影響學生的回答,導致內容效度下降。心理學研究已經發現,在成就測驗中,指導語含混不清、測驗時間不夠、題目編排不合理、答案有規律、評分標準主觀性大等許多因素,都可能在不同程度上阻止測驗發揮應有作用,降低測驗結果解釋的效度。
三、給語文教育工作者的相關建議
內容效度問題已經成為當前語文測驗與評價實踐中的一個突出問題,需要語文教師和研究人員給予足夠的重視。為了改變這種局面,針對存在的具體問題以及初步原因分析,我們建議:
1.加強對命題人員乃至一線教師的測量學培訓
我國目前尚未建立起一個完整、嚴密的學業成就評價體系。把三五個教研員集中在一個相對封閉的環境中大約兩三個星期,然后編出一套卷子,這大概是我們國家現在比較通行的一種形式。命題人員素質參差不齊,特別是缺乏正式的測量學培訓,是導致測驗與評價內容效度出現問題的重要原因。很多參加過命題的教師或教研員不能準確把握內容效度的內涵,沒有掌握內容效度的一般性審查方法,有的甚至根本沒聽說過或只是望文生義地理解內容效度。有關機構要加強對命題人員乃至一線教師(因為每個教師在日常教學過程中,都要通過編制與實施單元測驗來評價學生的學習)的測量學培訓,時間可長可短,主要目的是讓他們認識內容效度以及其他測量學指標的重要意義,并掌握測驗編制與審查的基本技術。
2.重視對評價方案進行內容效度審查
測驗與評價方案的編制是一件科學性很強的工作。命題者編制完成就投入使用,是一種不負責任的做法,尤其是大規模使用的高利害測驗,如果測驗中存在內容效度不良或其他問題,很可能會引發一些消極后果。在國外,嚴格的命題程序要求組織者在題目編制完之后,還要進行題目審查、預試、題目分析、試卷定稿和編寫使用手冊等相關工作。為了確保語文測驗與評價具有良好的內容效度,必須高度重視內容效度的審查。通常情況下,在高利害學業成就測驗(如中考、期末統考)中,要另外成立專門的審查小組,憑借經驗與專業知識仔細評判每一道題以及整體測驗題目的代表性,必要時還要采用復本法或再測法進行統計學分析,以不斷增加題目樣本對評價內容范圍的代表性,改進測驗的內容效度。即便是在一般性的教師自編測驗(如單元測驗)中,教師也要有意識地進行自我審查,或請同事對內容效度進行非正式的評議。只有測驗的內容效度合乎要求,才能有效評估學生的學以及教師的教,才能真正發揮成就測驗導向、激勵、診斷和發展的多重積極作用。
3.將終結性評價與形成性評價結合起來
新課程背景下的語文課程要全面培養學生的語文素養,提出了包括知識與技能、品德修養、審美情趣等多個方面的多元化學習目標,想全面、客觀、準確、有效地考察學習目標的實現程度,就要將終結性評價與形成性評價有機結合起來。因為單純依賴在學期末或學段末開展的終結性評價,我們很難對學生語文學習整體情況形成準確評判。拿口語交際來說,它本身涉及言語理解、聲音特點、言語表達、非言語表達、傾聽、溝通、自信心等多種素質和能力,是一種復雜的活動,僅通過終結性紙筆測驗方式來評價是不科學的。即便在終結性評價方案中也采取了表現性評價,如主考教師單獨與每個學生就不同話題展開真正意義上的口語交流,或觀察學生在無領導小組討論中的表現,但僅憑一兩次表現性評價就下結論,其行為樣本的代表性也是有限的,內容效度并不理想。最好的辦法就是教師在教學過程中通過正式或非正式的形成性評價,即時、多次、動態地評價學生的口語交際能力,獲得豐富、有代表性的行為樣本,再結合終結性評價中所收集的信息做出評判,這樣才能更好地保證口語交際表現評價以及整個語文評價的內容效度。
主要參考文獻:
〔1〕李方《現代教育科學研究方法》,廣州:廣東高等教育出版社,1997年,第80頁。
〔2〕[美]吉爾伯特·薩克斯《教育與心理的測量與評價原理》,王昌海等譯,南京:江蘇教育出版社,2003年,第314頁。
〔3〕[美]W. James Popham《促進教學的課堂評價》,國家基礎教育課程改革“促進教師發展與學生成長的評價研究”項目組譯,北京:中國輕工業出版社,2002年,第44頁。
〔4〕鄭日昌、漆書清、馬世曄《考試的教育測量學基礎》,北京:高等教育出版社,1990年,第82頁。
〔5〕教育部初中畢業與高中招生制度改革項目組《中考命題指導·語文》,南京:江蘇教育出版社,2005年,第118頁。
〔6〕辛濤《新課程背景下的學業評價:測量理論的價值》,《北京師范大學學報(社會科學版)》2006年第1期。