論語言測試的效度／信度關系和難度／區分度

2008-12-31 00:00:00李延林

跨世紀 2008年8期

【摘要】本文提出了與測試種類相關的測試目的的老概念，試圖從語言測試需求的角度，從Bachman提出的系統連續體的角度重新審視效度和信度之間的關系。

【關鍵詞】語言測試;效度/信度關系

【中圖分類號】 G640

【文獻標識碼】 B

【文章編號】 1005-1074(2008)08-0120-02

1 語言測試標準項回顧

談到語言測試的標準，大凡都不能不談到效度（validity）、信度（reliability）、難度（difficulty level）與區分度（differentiation）。各種語言測試，無論是在語言試題設計的前期的控制，或者是對其設計產品的評估，再或者是對后期測試工作流程結束后的評估分析，都有一個傾向，既要考慮主要影響前期操作的三大標準項，又需考慮考慮主要影響后期操作的兩大標準項。即便是對于效度（語言測試的目的性）和信度（語言測試的可信程度）之間的關系的處理上，也經常呈現出一種必須以語言的真實使用來犧牲語言測試的客觀量化的結果，具體體現在各類語言測試主觀題量的增加和客觀題量的降低方面。

究其原因，主要在于對各個語言測試標準項關系的不同理解。對于效度和信度的關系，一般的觀點都認為他們是一對矛盾，即是一種蹺蹺板（seesaw）的關系：提高信度便意味著損失效度，反之亦然。李筱菊從影響因素以及構成因素的角度具體討論了效度和信度，并在包括效度-信度關系在內的七大關系方面進行了深入的討論（見李延林2005），并列舉了常見的四大關系處理方案，然而，似乎并沒有從根本上解決效度和信度的矛盾關系問題。中國大學英語四、六級英語考試和英語專業四、八級的改革似乎也主要停留在主觀試題的增加、口語的增加和對測試結果的所謂解釋方面（有借鑒IELTS考試的傾向）。語言測試并不只針對高校學生，從覆蓋面上講，中學乃至小學和幼兒語言教育在語言測試方面，尤其是測試標準方面的討論在當前更應當受到重視。而對于測試效度和信度的普遍性處理方法和對難度與區分度的簡單偏執顯然不利于基礎語言教育的改革，只能使考教越發分離，使教學與考試脫離的現象愈加嚴重。毫無疑問，如果難度和區分度對于高考而言還有一定意義，選拔研究生考試和出國考試應當考慮加大一些試題的難度，以造成一定的區分度，達到選拔人才的目的的話，那么，在任何考試中都必須讓考生分出來個一二三的主觀想法顯然是幼稚的；僅僅認為主觀題是高效度而客觀題是低效度的看法也是偏激不合實際情況的。

2 效度和信度的關系

語言測試的效度必須首先考慮。因為它決定語言測試是否達到其目的。簡單地說，聽說技能的測試效度必須由聽說試題來反映；讀寫試題的效度也必須由讀寫來實施。從這個道理上講，它和我們漢語里的‘效果’雖然不存在對等關系，但還是有著不可分的內在關系。另外，期中考試作為一種提供信息的考試（informative），和主要目的在于總結語言學習的期末測試應當有相同點和不同點共存的特點，也會對語言測試的效度有影響。如果期中考試僅僅是以一篇作文甚至是一次作業作為考察的手段，那么期末考試理應在作文方面占據相當的比例。追求高信度是統計學的一大特點。把語言分解成若干單元從語言使用的角度看似

乎不可思議，但語言學習不可能是一蹴而就的，對于語境（這里指使用語言的情景而非語言學語境或上下文）也不可能是空中樓閣，它需要我們對語言的單句上下文掌握的前提下再進一步考慮，對于語言測試而言更是如此。一般認為，沒有信度的測試是無用的；沒有效度的測試談不上信度。我們以為，這種理論上的關系討論對于語言測試實踐沒有任何的意義。沒有信度是零的語言測試，除非是大面積的作弊。也沒有完全缺少效度的測試，除非出題人完全不懂語言教學規律和語言測試技術。因此，單個看待語言的效度和信度要比這種武斷的矛盾一元論理論觀點更加實在一些。李筱菊對于效度和信度的關系處理給我們提供了一個視角，即不僅僅從這兩個詞的定義入手，而是從其構成和影響因素著手。從她的討論不難看出，影響信度的因素遠比影響效度的因素要多。這樣，從追求雙高，即高效度和高信度的角度看，我們似乎看到了一絲希望。對于某些影響因素的改善如果可以提高效度或者信度而不至于影響到整體平衡（語言測試畢竟不同于蹺蹺板，不會稍有差異就會出現天壤之別的現象），那么語言測試實踐就會減輕很多壓力。解決這一對看似矛盾的另外一個辦法在于從上一層系統來看待他們的關系，也就是需我們從一個系統角度而不是從對抗角度（trade-off）來關注這種關系。如果語言學習輸入和輸入強化對于初學者起到很大作用的話，如果學習者輸入（learner input）在學習初期根本沒有可能或者不現實的話，那么，語言測試的首要標準項就不應當以所謂的語言輸出（或者稱作語言生產）為主，而應當考慮以聯想和激發回憶為主的語言識別的能力。這樣，我們就可以借鑒應用語言學家給我們提供的連續體（continuum）的模式(見Bachman:1990)來考慮語言測試中效度和信度的關系（見表1）。在連續體的一端是高效度，在另外一端是高信度。對其不同的需要決定試題是高信度或者高效度，或者居中，但不存在好與不好的問題，或者，確切地說，它的好壞完全由測試的目的（不同于效度）和種類決定。

A 語言輸入語言識別 B

高信度—————┼———————高效度

C 語言輸出語言生產 D

以上圖表顯示，比較理想的試題應當在D區和A區。雖然語言學習者終身都離不開語言輸入，但對于初學者和低年級學習者而言，語言的識讀能力的培養應當重于組織能力；體現在語言測試中，其高信度應當重于高效度。而對于語言水平較高的學習者而言，其語言組織能力的培養應當是重中之重，應當體現在語言生產的試題之中。當然，這里面還牽扯一個語言測試種類的問題和與教學課本相關的教學內容以及測試內容效度的問題，鑒于不是本文討論的焦點，在此不再贅述。

3 難度與區分度的關系

語言測試在設計方面有一個常規，即試題在內容及試題題型方面應遵從從‘易’到‘適合’再到‘難’的規則。這在理想測試結果圖上也有體現：兩頭小，中間大的弧形模式。這樣做的目的在于讓參加測試的語言學生能夠熟悉、適應測試過程并最終形成所謂的理想弧度。

語言測試技術有一個原則，即不給考生設定陷阱。難度作為一個相對的概念，不應體現在試題的題型上，而更應體現在學生的所學內容方面。為了降低難度而將主觀題變更為客觀題的做法如果還算可以理解的話，那么，通過這種辦法增加難度的做法就不可思議了；而為了增加難度將很少出現或使用的語言項目大量納入試題的做法就更顯得荒唐（除非是語言稟賦測試，即aptitude測試）。對于普通語言測試而言，應當和所學掛起鉤來。只要課本選擇合適，只要教學內容與方法合適，平時的小測驗也好，期中考試也好，或者期末考試也好，都應當反映平時所學，以檢測學生在該門課程方面的學習情況，更多地反映學習者的進步程度（progress或achievement），而不完全是其語言水平（proficiency test），更不是通過語言測試在學習者之間進行比較，形成競爭壓力甚致于引起負面學習焦慮情緒。增加難度的目的在于區分，而區分度的本質在于把學習者分為不同等級，如果因此而進行動態班級調整施行分班或者分級教學的話還有一定的道理，但僅僅為了區分而忽略語言學習中競爭帶來的負面影響，強化常模測試（norm-based testing）的作用，忽略語言標準測試（criteria-based testing）的存在，則對于語言教學與測試實踐都不會帶來很大的益處。對于語言試題難度和區分度，對于分數分布曲線的考慮或者對于偏態值和峰值的考慮在分班/級測試和常模測試的情況下必須涉及外，僅從標準測試角度看沒有必要一定要考慮。另外，為了區分而影響到語言測試的反撥效度（wash-back effect），則在很大程度上會影響到語言學習這一主要矛盾，會損失語言學習和語言測試的主要方面。

語言測試的標準一致是應用語言學家關注的事情。對效度和信度之間的關系研究長期以來一直在語言教學與實踐中徘徊，不是偏左就是偏右，再就是折中。我們認為，除了在平衡方面想辦法，如可以考慮提高信度的完型填空題，還可以考慮從不同的角度分別考慮。本文在這個基礎上提出了與測試種類相關的測試目的的老概念，試圖從語言測試需求的角度，從Bachman提出的系統連續體的角度重新審視效度和信度之間的關系。至于語言的難度和區分度，本文以為，應當視需求而實施，而不應當盲目地甚至是無限制地推廣，使之成為‘放之四海而皆準’的準繩。

語言教育教學和語言測試理論及實踐的研究不會停止，對于語言測試的標準也會繼續。如果我們在語言教學和測試方面能夠找到一個好的契合點，如果我們能夠逐步解決高考英語測試指揮棒和四/六級或四/八級指揮棒的問題，那么我們所倡導的減負和減壓等措施便能真正落到實處，培養創新人才，而不是應試能手。無論對于語言教學或者對于語言測試實踐而言，Leech在2001年第三屆中國英語教學國際研討會上所提交的主題報告Teach the Frequent before the Rare(教授常用語言項先于罕見語言項)無疑都具有一定的啟發意義，而這也是包括中國在內的英語教學的一大癥結所在。

4 參考文獻

1 Bachman， L. Fundamental Considerations in Language Testing[M]. OUP， 1990.

2 Leech. G. Teach the Frequent before the Rare: A neglected principle in language teaching. In The Third International Symposium on ELT in China: Program and Abstracts

3Li， Xiaoju. The Science and Art of Language Testing[M]. Hunan Education Press， 1990.

4 Li， Yanlin. Validity and Reliability: Seven Perspectives Revisited[A]. In Journal of China Education. 2005/12

5Li， Yanlin. Principled differences in language testing. In 王揚. 語言文化交際(下).華文出版社，2001

6 Li， Yanlin. On the reliability of subjective tests. In 王揚. 語言與交際研究(下).中國大地出版社，2002

7 Li， Yanlin. On the validity of cloze-tests: can cloze tests meet our needs[A]. In 袁錫興.研究生英語教學研究論文集. 科學技術文獻出版社，2002

跨世紀2008年8期

跨世紀的其它文章: 大地藝術創作中的生態審美轉向; 試論大眾傳媒科普功能的問題及應對; 淺談中國傳統文化電視傳播的意義及其發展策略; 如何培養電視新聞編輯的創新意識; 淺議廣播體育新聞如何謀求自身的一席之地; 如何解決路面結構設計中存在的問題