潘璋榮
一次考試的試題難度如何,通常的衡量標準是以考生考試之后的得分情況,即得分高低來衡量的,也就是以所謂的試題“難度系數”來衡量。但是,這樣的衡量標準在筆者看來是不恰當的。因為,考生的得分情況,往往只是考生自身的解題能力和知識掌握程度等的一個反應,它雖然也跟試題的難度有關,但是卻絕對不等于試題本身的難度。而且,很多時候由于被試者或被試群體的學習素養和學習效率太低,不管試題的本身的客觀難度多小,被試者考試結果顯示的得分“難度系數”總是很小的,總是達不到有關的測試管理部門所預期出現的“難度系數”結果。譬如,現在很多的教育會考,如初中畢業會考,一般的教育行政管理部門總是要求各學科的考試命題要保證鄉鎮一級初中畢業生的考試所得總平分顯示出“難度系數”在0.70以上,或者要讓90%以上的鄉鎮學生考試及格。然而,由于我國教育資源的實際分布特別是學生資源分布的嚴重不均,一般的優秀學生都向城鎮重點初中和私立中學集中,鄉鎮中學的學生素質普遍偏低,加之學校管理者素質的低下,于是鄉鎮一級的學生在數學、外語等學科的考試中,總是無法達到上級的規定要求。造成這種情況的原因其實根本不是命題者的試題難度過大,而是測試群體的學習素質和學習效果太低。
換句話說,長期流行的“試題難度系數”只是一種主觀的試題難度系數,其本質只是考生的考試“得分系數”,而不是試題本身的難度系數,它基本是由被測群體的得分結果決定。按照這種“難度系數”的思路,同一套題目,如果使用于不同的測試群體,它的難度系數就會表現出不同的結果。譬如,拿一套相同的數學試題,分別去測試省級重點中學的初中生、市級重點中學的初中生、縣級重點中學的初中生、一般鄉鎮中學的初中生,再分別計算它們的難度系數,其“難度系數”就會表現出天壤之別。它們極可能出現分別是0.90、0.80、0.70、0.20這樣四個差距懸殊的難度系數。那么面對這樣四個差距懸殊的難度系數,我們如何認定這套試題本身到底是難是易呢?當然,如果有人愿意將這四個不同的測試群體所獲得的“難度系數”進行平均,則其結果為0.65。但是,這樣的結果本質上仍然只是由測試對象的答題結果來決定試題的難度。筆者認為,它是不科學的,是主觀的和偶然的。
這種主觀的、不科學的“難度系數”法,對于考試,尤其是對于衡量一個國家的教育和文化發展水平與潛力,對于衡量一個國家和民族的智力發展態勢,是極其不利的,甚至是十分有害的。因為,它抹殺了考試試題難度本身的客觀性,從而就會導致我們從小處說是沒法衡量一個學生是否達到基本的教育培養目標要求,沒法衡量一個學校是否達到了基本的辦學效益要求;從大處說,是沒法把握一個國家的教育質量是在走向不斷提高還是走向不斷低落,沒法準確地衡量和把握一個國家和民族智力發展的歷史趨勢。因此,探索一套客觀的試題難度系數衡量標準和檢測辦法,是十分必要和重要的教育科研課題。它對于我們科學地把握受教育者個人、學校、民族和人類的教育文化水平和質量以及智力發展水平、趨勢及其成效,具有重大理論意義和現實意義。
筆者認為,任何試題,在其尚未交給考生考試及閱卷之前,我們應該可以判斷其難度大小,也就是可以判斷其客觀的難度系數。
當然,要確定各種文化考試試題的客觀難度系數,這本身是一個巨大的課題,它本身需要做許多繁復的研究、論證和實驗。本文不可能得出一個簡單思路或公式來確定各種文化考試試題的客觀難度系數。本文只是將個人在這方面多年的思考做些初步的整理,以期引起教育界、學術界對這個問題的重視,并為這方面的研究提供一些初淺的思路。
由于文化考試一般都是以一套試題的形式出現,而一套試題一般又是由許多單獨的試題組成的。因此,一套試題總的客觀難度將由所有組成該套試題的單個試題的客觀難度共同決定。因此,要衡量一套試題的客觀難度,實際上關鍵就是要衡量出這套試題每個獨立試題的難度。本文因此只討論單個試題難度的確定問題。
要確定每個試題的客觀難度,我認為主要應從如下這些方面去思考。
一、試題的邏輯層次愈多則試題的難度愈大
每個試題都包含幾個邏輯層次,一般來說,包含邏輯層次越多的試題,它的難度就愈大。而不同的試題涉及的邏輯層次往往不同。
譬如,很多試題中的部分填空題、選擇題、簡答題往往只涉及學生的記憶問題,只要學生能記憶相關內容,就可以根據前后文,或者根據題干,想到答案,不用作任何其它的思考。譬如,語文題目中的根據課文內容填空,補充空缺部分的課文內容,歷史題中的我國人物、年代、歷史事件的填空題,數學中的兩個個位數直接相加等。當然,記憶也是一種某個層次的思考,但這種思考是十分機械的思考,甚至從某種意義上說不是思考,而是簡單的心理學中的“再現”。在這里姑且把它認定為一種只包含一個層次的“思考”習題。
再如,數學中“a+b=?”這樣的試題可以看作是只有1個邏輯層次的試題;“(a+b)×c=?”可以看成2個邏輯層次的試題;而“[(a+b)×c]n=?”則可以看作是3個邏輯層次的試題。
如果我們假定一個邏輯層次試題的客觀難度系數是0.1,那么包含兩個邏輯層次的試題客觀難度系數就是0.2(注:此處試題的客觀難度系數跟流行的主觀難度系數的計數方法相反,客觀難度系數值越大則試題難度越大,以下同)。包含三個邏輯層次的試題難度系數就是0.3……以此類推,一個試題包含的邏輯層次愈多,則其試題的難度系數愈大。
二、試題構成的并列意義單元越多則試題難度愈大
有些試題的題干內容或題目內容是由單一的意義單元組成,而有些試題的內容或題干是由幾個意義單元組成,那么由幾個意義單元組成的試題其難度就高于單一意義單元組成的試題。譬如,材料閱讀分析題材料,有些試題的材料只是由一個比較單純的意義材料組成,而有些題目則出現“材料一”、“材料二”兩個獨立的意義材料。那么這樣的兩個試題,在其它條件相當的情況下,后者的難度顯然大于前者的難度。因為,構成試題的意義單元或組成部分越多,則考生要統籌思考的內容越多,難度就越大。假定試題的組成意義單元只有1個,其難度系數為0.1,那么組成試題的意義單元有2個的難度系數就是0.2……試題的難度系數可以以此類推,試題組成意義單元越多,則難度系數越大。
三、試題的語言特色也是決定難度系數的因素之一
在試題的邏輯層次和組成意義單元等其它各種因素不變的情況下,如果使用不同特色的語言來表述試題,其試題難度會因此發生變化。
例如,對于同樣一個材料閱讀分析題,如果將材料部分用古文的形式來表述和用現代文的形式來表述,其難度顯然區別很大;再如,同樣是用現代文來表述,用直白淺顯的說明方式來表述的材料,跟用幽默風趣的文學語言來表述的材料,后者的難度系數又要大于前者的難度系數;又如,同樣是用文學語言來表達的材料,用一般的通俗文學語言來表達的材料,跟用一些不常見的文學修辭手法來表達的材料,后者的難度又大于前者的難度。
四、試題的篇幅長短也是決定試題難度的因素之一
一般來講,在其他因素相當的前提下,試題的篇幅或試題所涉及內容的篇幅越長,則試題的難度系數越大。
五、試題內容涉及的知識面也是試題難度的重要決定因素
如果一個試題只涉及單獨一個學科,在其它因素不變的條件下當然難度系數最少。如果它涉及兩個以上的學科,則難度系數隨涉及學科數目的增加而增大,因為它要求被試者所掌握的知識更多。同樣,即使只是涉及同一學科,如果它涉及同一學科的不同知識領域的內容越多,則難度系數也越大。譬如,同樣是物理試題,如果一個物理試題的內容既涉及力學又涉及光學,那么這個題目較之僅涉及力學或光學的試題難度顯然要大。
六、試題是否存在表述上的差錯和問題也是決定試題客觀難度系數的重要因素
在長期的學習、教育和研究實踐中,筆者發現,任何學科的考試試題和平時的作業,都存在一定比例的問題試題或差錯試題。這類試題,由于表述上的語句錯誤,或者由于試題本身設計的缺陷,導致試題本身無法解答,或者造成理解上的歧義,這樣的試題難度系數也就自然增大了。這種情況是屬于試題難度系數的錯誤性增大或不正常增大,在命題中是應該避免的。但是,在命題和審題的程序不夠民主、科學、嚴謹的情形下,是容易出現的。
七、各個學科要根據自身學科的特點制定自身試題客觀難度系數的衡量標準與細則
由于各學科有著各自本身的許多特點,這就需要將之前所講的六點標準具體落實到各個學科中去,結合各個學科內容的特點制定一個詳盡的難度系數衡量標準。要按年級、按學段、按不同的考試性質等制定不同的難度系數標準。然后拿這套細致的標準去衡量每個試題、每套試題的客觀難度系數。
總之,我們可以根據以上幾個標準,對任何學科命制出的試題在尚未用于考試前,就進行試題難度的定量分析和定位,確認每個試題的難度系數,并進而確定全卷的難度系數。