謝敏++++劉娟
摘要:在大規模教育測評中,經常會遇到測評內容的全面性與測評時間過長影響學生測評結果之間的矛盾,本文嘗試從簡化工具入手,選擇有代表性的、敏感度高的題目來達到測評目標。
關鍵詞:大規模教育測評;工具簡化;敏感度
一、問題提出
在大規模的教育測評中,經常會遇到以下問題,導致測評效果受到嚴重影響。
1.為全面考察學生、教師和學校發展狀況,在大規模教育測評中,往往要求同時測評較多的內容,以全方位對區域整體教育質量狀況進行評估。例如,對學生的評估中經常少不了對學業成就的測評、對社會性發展(含情緒情感、行為、自我、價值觀等)的考察、對家庭環境的了解等,這些內容都需要由學生來進行作答,這樣每個學生的測評內容就會很多。
2.測評內容多也就意味著一個學生要完成測評的時間長。尤其是在社會性發展方面,涉及到情緒情感、親社會行為、不良行為、自我、價值觀等方方面面的內容,且多是量表類的題目,考察學生在各方面的表現和感受。雖然對某個方面來說題量并不多,但將方方面面的內容放在一起的時候,題量就大了。為滿足區域測評需求,基本上社會性發展問卷的測試時間都在60~80分鐘,包括幾百道題,而且各個題目之間沒有太多的起伏,均要求學生根據真實情況作答,這對于學生來說是個不小的負擔。不少的學生堅持不下來,大部分學生在二十分鐘之后就會感到疲勞和不耐煩,開始隨意答、繞花答、不看題目統一選一個選項,甚至干脆不作答。例如,我們在兩個區進行測評都發現,測評二十分鐘后,已有近20%的學生開始亂答。導致大家辛苦收集上來的數據實際上是不真實、不可靠的,提供不了準確的信息。
3.測評內容多卻不意味著每一個結果都能充分展開分析,造成資源浪費。最終報告使用數據時,是有側重的,并不是每一個變量都展開來進行深入分析,有的變量只作為關聯變量使用,但測評的時候卻有幾十道題,這樣不僅花費了大量時間作答,造成學生疲勞,影響作答效果,還浪費了很多成本,如題本印刷、運輸、數據錄入和清理等,消耗了大量人力、金錢和時間。
鑒于上述問題,為了在保證測評內容的全面性,達到測評目標的同時,提高測評效果,節約成本,我們在努力思考有什么辦法可以很好地解決這個問題。
二、解決辦法
上述情況若是從成本各環節再節約,從作答環節再激發學生作答熱情,效果都會是有限的。工具作為整個測評過程中的核心內容,應從其本身入手解決這個問題。我們有如下思考:一方面,在確定測評目標和測評內容時,應考慮細致,明確哪些因素是要重點分析的,哪些因素是要做關聯分析的,做到每個因素都有“用武之地”,而不一味地貪多求全。另一方面,對于經常作為關聯變量使用的和可作為關聯變量使用的工具進行簡化,可分為兩種情況:
一是挑選敏感度高的題目,作為在某方面的典型表現進行分析。這一分析至少包含下面幾項內容:題總相關、因子載荷、選項分析、專家判斷或典型被試判斷題目對主題內涵的代表性。
1.首先要保證題目所代表的行為表現或感受能較好地、直觀地反映該方面的內涵。常用的方法是專家判斷(專家團隊最好能包含領域專家、教育學專家、測量學專家等)或是典型被試口頭報告作答思考過程,可以用評分或評定等級的方式,把需要簡化的各題目對主題內涵的代表性進行排序。
2.選項分布應較為合適。計算各題各選項的人數百分比,看是否有人數分布很偏的情況,選項分布可以說明這道題所代表的行為表現或感受在學生中是否常見。若人數分布集中在某1~2個選項上,則說明在這道題上獲得的信息是很少的,對于評價來說就失去意義了。
3.區分度應較高。對于分布偏正態的內容可使用鑒別力指數D值來計算區分度,選擇D值至少在0.3以上的題目,對于分布偏態的內容可使用題總相關來作為區分度指標,選擇r值至少在0.6以上的題目。
4.因子載荷應較高。通過Mplus等軟件進行驗證性因素分析,根據擬合指數等各項指標的結果,選擇因子載荷至少在0.5以上的題目。因子載荷值從測量學的角度說明了該題對整個維度(主題內涵)的反映程度。
二是制訂簡版工具(Smith等,2000;Taylor等,2002)。制訂簡版工具的要求非常嚴格,在上述分析的基礎之上,還需要至少包含以下內容:簡版與完整版之間的相關程度及簡版與剩余題目之間的相關程度(如相關不高需重新挑題)、簡版量表的內部一致性、簡版量表的題總相關、挑選效標資料分析簡版量表的區分效度和同時效度(在條件允許的情況下可分析重測信度)。只有當上述指標達到統計學要求時方能建立簡版工具,簡版工具與完整版工具的理論假設、維度結構等需保持一致,僅在題量上進行了縮減。
制訂簡版工具需要有更專業、更復雜的工作,這一工作尚未完成。作為嘗試,本文要重點講述的是第一種簡化測評工具的方法和結果。
三、分析過程
1.修訂內容
考慮到“中國6~15歲兒童青少年心理發育特征調查”項目中有全國代表性的樣本且項目成果要進行推廣,以及近幾年來一線測評工作需求,本次進行簡化的內容選擇“中國6~15歲兒童青少年心理發育特征調查”項目的社會性題本,涵蓋五個方面,分別是情緒、行為、自我、價值觀和社會信念,各方面主要包含的內容如下:
模塊
測評內容
情緒
生活滿意度、孤獨感、焦慮
行為
親社會行為、攻擊行為、校園被欺負行為、網絡成癮傾向
自我
自我認識、自尊、自信、自制力
價值觀
金錢觀、環境保護、國家認同、權力觀、學習觀、集體主義
社會信念
公正世界信念、積極社會信念
2.數據來源
數據主要來源于兩方面:一是“中國6~15歲兒童青少年心理發育特征調查”項目的4~9年級學生的全國代表性數據庫,二是北京師范大學腦與認知科學研究院心理與學習評價中心近兩年來的幾個區域測評數據。考慮到數據的全國代表性、區域數據不完全包括上述五方面的內容且不包括所有4~9年級,兩方面的數據以“中國6~15歲兒童青少年心理發育特征調查”項目為主,心理與學習評價中心的數據結果作為輔助和驗證。
3.分析方法
首先,通過查閱五個方面最近幾年的最新研究成果,明確“中國6~15歲兒童青少年心理發育特征調查”項目社會性題本在這七個方面的內容仍較為前沿。
其次,重點進行了數據分析。分成三個階段進行:
第一階段是進行年級差異的分析,考慮到樣本量較大,確定差異是否顯著是以效應值>0.2為標準的,有差異的年級分開計算,沒有差異的年級合并計算。
第二階段是對上述五個方面的內容進行選項分析、區分度分析、題總相關分析、一致性分析和驗證性因素分析,根據各題的內容和統計結果挑選內容合適、敏感度高的
題目。
第三階段是對挑選出來的題目進行統計計算,包括一致性分析、對原工具的解釋率、與原工具的年級發展趨勢的一致程度等。
4.挑選結果
以焦慮量表和孤獨感量表為例。
焦慮量表有28道題,包含生理焦慮、對人不安/恐懼、擔憂/過度敏感三個維度,經過第二階段統計計算后,發現在生理焦慮和對人不安/恐懼兩個維度上區分度較高且因子載荷較高的題目是:“我總是感到不舒服。”“就算與別人在一起,我仍感到孤獨。”“別的孩子比我幸福。”“我很難把心思放在功課上。”我們認為,這四道題目所代表的行為表現和感受不能很好地說明是否焦慮,因為還存在其他可能引發這四種表現的因素,而且,縱觀這兩個維度上的所有題,均有這方面的情況。因此,我們把挑題的重點放在擔憂/過度敏感維度上,在這個維度上,挑選出來較為合適的有五道題:“我很多時候都在擔心。”“我感到緊張。”“我害怕很多事情。”“我時常擔心糟糕的事情會落到我頭上。”“我擔心將來會發生什么。”區域數據也支持這一選擇。這五道題的一致性系數為0.693,對原量表的解釋率為67%。在四個區域的初二年級學生數據中,這五道題的一致性系數在0.76~0.84之間,對原量表的解釋率在71.2%~79.9%之間。這五道題的年級發展趨勢與原量表的對比如下,挑選后的五道題計算得到的年級發展趨勢更具合理性。
孤獨感量表有16道題,為單維度。經過統計計算和內容選擇,挑選出了六道題:“沒有人跟我玩。”“沒有人跟我一塊說話。”“我很難交朋友。”“在我需要幫助時,我找不到人來幫我。”“我感到寂寞。”“我覺得孤單。”區域數據也支持這一選擇。這六道題的一致性系數為0.839,對原量表的解釋率為83.6%。三個區域的初二年級學生數據中,這六道題的一致性系數在0.84~0.93之間,對原量表的解釋率在82.5%~83.9%之間。這六道題的年級發展趨勢與原量表的對比如下:
在所有5個方面19項內容中,挑題后的一致性系數在0.54~0.84之間,對原工具的解釋率在53%~94%之間,總體較好。挑題前這五個方面的總題量為215道,挑題后是70~75道,這些題對各項內容的內涵有較好的反映,且區分度、因子載荷均較高。若同時進行測試,測試時間將大大節省。
在這19項內容中,校園欺負行為、自制力、公正世界信念在小學和初中有不同的表現,分為小學和初中兩個版本;自尊、自信、國家認同和環境保護在4~5年級、6~9年級的表現有所不同,分為4~5年級、6~9年級兩個版本。
四、結論與討論
可見,經過挑選之后的題目對原工具仍有較好的代表性,可以滿足測評所需,對提高大規模教育測評的效果有較好的促進作用。第一,節省了測評時間,減少了被試疲勞和不耐煩情緒,提高了獲得真實、客觀數據的可能性;第二,節約了成本,題本印刷、數據錄入等成本都會因題量的減少而降低;第三,提高了結果報告的時效性,因各題的測量目標明確且敏感度高,數據清理、數據分析等過程的時長減少且正確率提高,節省了中間過程的時間,也就為出具結果報告節省了時間,測評結果能更快地得到反饋,這就提高了結果報告的時效性,這對教育一線開展工作來說是非常重要的。
后續我們擬根據本次挑題的結果再次分析各項工具制訂簡版工具的可能性,并通過一系列的統計計算和專家論證工作,制訂可能的簡版工具。
不同的工具形式、工具內容可以有不同的處理方法,本文是其中的一種嘗試。挑題之后并不代表原工具就可以不用了,使用哪個版本的工具需要根據測評目的來定,當我們要重點分析該方面的表現時,我們需要使用完整工具,當我們只是將該方面作為關聯變量或簡單的現狀調查時,可使用簡化的工具。
注:本文得到“中國6~15歲兒童青少年心理發育特征調查”項目辦公室支持。本文得到成都市錦江區“建立教育質量評價監測體系,促進區域教育質量全面提升”項目、“沈陽市教育質量監測與評估”項目和杭州市上城區“基于學生發展的區域教育質量提升”項目的數據支持。
[1]Joanne Taylor, Frank P Deane. Development of a short form of the test anxiety inventory[J]. The Journal of General Psychology, 2002, 129(2),127-136.
[2]Jeffery M Stanton, Evan F Sinar, William K Balzer, Patricia C Smith. Issues and strategies for reducing the length of self-report scales[J]. Personnel Psychology, 2002,55,167-194.
欄目編輯 / 任玉丹.終校 / 黃才玲