《Routledge語言測試手冊》評介

2015-03-29 15:08:03徐鷹

當代外語研究 2015年10期

關鍵詞：語言研究

徐鷹

（華南理工大學，廣州，510641）

《Routledge語言測試手冊》評介

徐鷹

（華南理工大學，廣州，510641）

Fulcher，G．＆F．Davidson．2012．The Routledge Handbook of Language Testing．London ＆New York：Routledge．ISBN：978－0－415－57063－3（hbk）．pp．■＋536．

1．引言

自2010年以來，Routledge出版公司陸續推出了一系列應用語言學手冊叢書，其中《語言測試手冊》于2012年出版。該手冊的兩位編者都是國際語言測試界的權威學者。Fulcher現為英國萊斯特大學教授，擔任國際語言測試界權威期刊《語言測試》（Language Testing）的主編；Davidson現為美國伊利諾伊大學教授。他們曾經一起合作撰寫過一本教材《語言測試與評估：高級讀本》（Fulcher ＆Davidson 2007）。該教材由Routledge出版公司于2007年出版，屬于該公司應用語言學系列教材之一。它的出版產生了巨大反響，被譽為語言測試專業師生必讀教材（Brown 2011）。《語言測試手冊》是《語言測試與評估：高級讀本》的延續，面向語言測試的開發者、使用者、研究者以及相關政策制定者，是一本語言測試研究的必備參考書。

2．內容簡介

全書共分為九大部分，每部分包括三到五章，共三十四章。

第一部分主題是效度以及效度驗證，這是所有語言測試研究的核心。第1章首先對效度概念的變遷進行了回顧和批判，然后從哲學本體論和認識論的角度對效度、構念、語言能力發展等核心問題進行了闡述。第2章對基于論證的效度驗證模式進行了系統闡述，并以做事測試為例演示了如何構建解釋性論證，以及如何在效度論證中檢驗其推理和假設的“連貫性”（coherence）和“或然性”（plausibility）等關鍵問題。第3章對測試和評估中對弱勢考生的“調節幫助”（accommodation）的效度問題進行了探討。

第二部分討論課堂評估和反撥效應。第4章認為，課堂評估與傳統測試研究在方法論和哲學背景上有顯著差異，課堂評估的目的在于促學，其理論框架是社會文化理論和建構主義理論。第5章對反撥效應的研究現狀進行了分析，發現考試影響是多因素共同作用的結果，其中教師態度和信念作用明顯。但目前相關實證研究之間欠缺連貫性和系統性，亟待理論化。第6章對學習二／外語的小學生的評估進行了分析，并提出了“幫助任課教師成為評估者”的觀點。第7章對建立在社會文化理論框架下的動態評估理論進行了詳細介紹，認為該理論旨在實現評、教結合，未來研究重點在于如何實現評估過程的標準化。第8章對基于課堂的診斷評估進行了闡述，介紹了診斷評估的目的、診斷推理的來源以及評估后效等特征，并對評估標準的詳細度、診斷信息內容類別、認知診斷建模以及診斷評估中的師生主體性等內容進行了探討。

第三部分討論語言測試的社會使用。第9章以美國航空英語考試為例，說明如何設計具有特定目的和高風險的語言測試。第10章介紹語言測試研究中的一個冷門領域：對交際障礙考生的語言測試。第11章從人類遷徙、公民身份政策的歷史變遷出發，探討了語言測試如何服務移民、入籍以及避難等政治目的。第12章討論了語言測試的社會維度，重點分析了語言知識構念如何影響測試開發和分數解釋，以及測試使用對個人、機構和組織產生的后果。

第四部分涉及測試設計細則。第13章以準則參照測試為例，強調了測試設計細則的重要性，認為它是測試開發和效度論證的核心組件，是生產試題的“模具”（mould）。第14章以TOEFL iBT考試和TOEIC口語和寫作考試為例，詳細說明了以證據為中心的測試設計（ECD）的關鍵原則、主要成分以及操作流程。第15章以口語能力面試（OPI）任務為例，對做事測試中的主張、證據和推理進行了討論，重點論述了測試目標域分析和抽樣、任務難度分析、評分標準構建以及評分人差異處理等問題。

第五部分介紹試題命制和任務設計。第16章從心理測量學、真實性、系統性、批判性等視角出發，回顧了試題編寫的不同方法，描述了命題者的情況，認為有必要加強對他們的研究。第17章對綜合性寫作任務從任務對比、任務特征、綜合性寫作任務和語言能力之間關系以及該任務所測構念進行了評述，重點是寫作構念界定、綜合性寫作任務類型、閱讀文本選取、任務指令編寫和評分標準開發等問題。第18章闡釋了考試策略和測試任務設計的關系，核心問題是確定考試策略是否屬于所測構念。

第六部分主題是原型題實驗和現場實驗。第19章認為原型題實驗是大規模前測或試測前的必要階段，能有效解決新題型開發中的許多問題。第20章以某個學術寫作測試為例，在“測試使用論證”（Bachman ＆Palmer 2010）的框架下討論了“實際使用前測試”（Pre－operational testing），具體包括考題試測和現場實驗兩個階段。第21章以詞匯測試為例，詳細說明了試測的過程。

第七部分討論測量理論和實踐。第22章對經典測試理論進行了回顧，重點是項目分析、信度計算、測量的標準誤以及效度分析等內容，并對測試研究者提出了七點忠告。第23章通過一份樣本數據介紹了項目反應理論的基本觀點以及各種參數模型，并重點介紹了多層面Rasch模型。第24章從哲學高度對信度概念進行了重新審視，重點是信度同一致性、誤差、概推性（generalizability）、可靠性（dependability）之間的關系，并從“特質說”（traitbased reasoning）出發闡述了信、效度之間的關系。第25章對概化理論及其常用工具進行了詳細介紹，并對分數差異的本質進行了深入探討。第26章從歷史和哲學的視角對評分標準的類型、構建方法和特點進行了全面、細致地分析，重點探討了基于不同方法的評分標準的優、缺點，同時論述了評分標準和語言習得的關系、評分標準描述語的模糊性、測試重點以及推理在評分標準解釋中的核心地位。

第八部分的主題是施測和培訓。第27章從質量管理視角（包括質量控制和質量保證兩種活動）討論了如何對測試循環的各個階段控制誤差，從而強化測試的效度論證。第28章在效度理論的框架下討論了口語測試中的對話人培訓以及做事測試（包括口語測試和寫作測試）中的評分人培訓。第29章對計算機輔助語言測試（CALT）進行了探討，并以TOEFL iBT和CBT考試為例重點討論了計算機的強大功能和提高分數意義的關系。第30章對計算機作文自動評分的效度進行了充分而深入的回顧，并從分數的準確性、概推性、意義性和有用性等角度提出了關于自動評分效度驗證的一系列關鍵問題。

第九部分的主題是道德和語言政策。第31章深入討論了道德規范的概念和作用。第32章闡述了測試中的“公正”（fairness）的含義。第33章在回顧歐洲語言能力等級共同量表（CEFR）和美國外語教學委員會（ACTFL）語言能力量表／美國外交學院（FSI）口語能力等級量表的基礎上，對現有語言能力量表的優、缺點進行了深入的闡述。第34章對測試的誤用現象進行了剖析。

3．評論

本手冊對語言測試與評估領域的主要研究內容做了全面審視。兩位編者通過精心選擇各章主題界定了語言測試的研究范圍，進而確立了語言測試作為一門獨立學科的地位。縱觀全書，本手冊具有以下幾個鮮明特點：

（1）內容豐富，結構嚴謹

本手冊既包括當前語言測試領域討論的常規話題，也包括一些相對非主流，但卻意義重大的研究分支，如第3章關于測試中對弱勢考生的調節幫助的效度問題；第10章關于交際障礙癥考生的語言測試以及第27章關于試題命制和施測過程中的質量管理等。這些主題的選取結合了國際語言測試界的研究現狀，體現了學科發展的前沿和動態，有效地界定了語言測試作為一門獨立學科的研究范圍和研究范式，為廣大語言測試研究者提供了重要參考和有益啟示。需要特別指出的是，就國內語言測試研究現狀而言，本手冊中的不少主題（例如第三、六、八和九部分）的研究還相對單薄，國內權威學術期刊難以見到相關的文章。因此，本手冊有助于拓展國內語言測試研究者的學術視野。

本手冊一共由38位國際語言測試界的頂尖學者共同完成，他們中既有權威學者（如Michael Kane、Alan Davies、Dianne Wall等），也有在某個領域作出重大突破的后起之秀（如Eunice Jang、Xiaoming Xi等）。每一章體例大致相同，包括導入、前期研究視角、重點研究問題、當前研究及貢獻、未來研究方向、深度閱讀文獻以及核心參考文獻等七部分。從結構上看，每一章的作者在回顧前期研究的基礎上，首先提出了該領域的關鍵問題，并對當前研究中的熱點、難點、不足和主要研究方法進行了討論，然后對未來該領域的發展進行了展望，最后提供了該領域深度閱讀文獻和核心參考文獻，為讀者清楚地描繪了學科發展方向。此外，各章節的安排也體現了編者們的獨具匠心，基本沿襲了《語言測試與評估：高級讀本》的體例，以效度和效度驗證為中心，由內而外，一步步向語言測試學科的各相關領域推進。各部分和各章節環環相扣、邏輯嚴密。這種編排也反映了該手冊的編寫理念同《語言測試與評估：高級讀本》一脈相承，反映了語言測試研究的實用主義（pragmatism）和效果驅動（effect－driven testing）理念（Brown 2011：146）。兩位編者明確指出，本手冊第一部分對效度和效度驗證的討論是所有語言測試設計和研究活動的核心，以目標驅動（purpose－driven）的測試研究就是要確定和研究能構建某一測試的證據，從而保證該測試的分數解釋同目標決策相關。因此，在具體安排上，首先由第1章作者Carol Chapelle深入細致地回顧了當代效度理論的四種主要觀點：Lado（1961）對效度的原初定義、Messick（1989）的整體效度觀、Bachman和Palmer（1996）的測試有用性以及Kane（2006）的效度論證。然后，第2章作者Michael Kane對解釋性論證在效度論證中的重要作用進行了闡述。毋庸置疑，這兩章為整個手冊奠定了扎實的理論基礎，從而將看似千差萬別的不同研究主題有機編排成脈絡分明的章節。

（2）觀點鮮明，互為補充

本手冊每一部分至少包括三章。作者們從各個獨特視角對同一個主題進行闡述，為深化讀者對該領域的認識提供了寶貴材料，滿足了語言測試作為一門新興學科亟需建立統一學科集體意識的迫切需求，充分體現了兩位編者的理念：“通往知識與進步的唯一途徑是通過討論并測試不同的觀點”（16）。以第二部分課堂評估和反撥效應為例，作者們選取了不同的理論視角，圍繞課堂評估“促學”的作用和定位進行闡述。相關各章節聯系緊密，如第5、7、8章在不同的理論框架下都對反撥效應展開了討論。這種安排既為讀者全面深刻地理解課堂評估和反撥效應奠定了堅實的基礎，同時也為其汲取百家之長，培養自身創造性、批判性思維提供了條件。

（3）立論深刻，例證翔實

本手冊各章作者站在哲學和歷史的高度，對語言測試各個領域的發展進行回顧和展望，因此得出的結論富有洞見和啟發，如第28章作者Annie Brown在對評分人培訓研究進行展望時提出，未來研究應包含不同培訓方法效果對比以及評分人如何處理反饋信息等內容。這種敏銳的視野體現了學者們扎實的理論基礎、清晰的學科發展思路以及豐富的科研實踐經驗。此外，為了更好地詮釋核心觀點，各章節都提供了具體實例，增強了全書的可讀性和實用性。總而言之，本手冊的作者們對某一話題專業論述以及提供的豐富信息對廣大語言測試研究者提供了絕好的學習典范。

本手冊也有少許遺憾。（1）本手冊包括九部分，基本對應《語言測試與評估：高級讀本》的導入部分的十個單元，唯獨缺少第三單元（構念和理論模型）。由于語言使用具有復雜性和多變量特征，目前學界對于語言能力的本質屬性仍存在爭議。盡管Kane的解釋性論證能在某種程度上規避構念定義這個棘手的問題，但是鑒于語言能力在語言測試中的核心地位以及手冊和教材的緊密聯系，這部分應該在手冊中占有一席之地。（2）部分章節安排的位置不太恰當，如第12章作者Richard Young對于語言測試社會維度的探討關涉的內容繁多，既對語言測試所測的構念從社會語境視角進行了細致分析，又對語言測試如何在社會活動中對個人以及社會整體產生的作用進行了描述。這一章可以視為第一部分效度和效度論證的內容。（3）某些研究熱點如二語語用能力測試沒有提及，有興趣的讀者可參考Roever（2011）。此外，對于英語作為通用語（English as a Lingua Franca）、英語的各類變體以及非英語的其他語言（如漢語）的測試也只字未提。對于一個學科的手冊而言，有必要對這些重要新興領域的研究現狀和進展加以描述。

總而言之，本手冊學術價值極高，值得向廣大讀者推薦。

Bachman，L．F．＆A．S．Palmer．1996．Language Testing in Practice［M］．Oxford：Oxford University Press．

Bachman，L．F．＆A．S．Palmer．2010．Language Assessment in Practice：Developing Language Assessments and Justifying Their Use in the Real World［M］．Oxford：Oxford University Press．

Brown，A．2011．Book review of Language Testing and Assessment：An Advanced Resource Book．［J］．Language Testing（1）：145－48．

Fulcher，G．＆F．Davidson．2007．Language Testing and Assessment：An Advanced Resource Book［M］．London＆New York：Routledge．

Kane，M．T．2006．Validation［A］．In R．L．Brennan（ed．）．Educational Measurement［C］．Westport：Praeger．17－64．

Lado，R．1961．Language Testing［M］．New York：McGraw－Hill．

Messick，S．1989．Validity［A］．In R．L．Linn（ed．）．Educational Measurement［C］．New York：Macmillan．13－103．

Roever，C．2011．Testing of second language pragmatics：Past and future［J］．Language Testing（4）：463－81．

（責任編輯甄鳳超）

徐鷹，華南理工大學外國語學院副教授、博士。主要研究方向為語言測試。電子郵箱：xuying＠scut．edu．cn

＊本文系廣東省教育科研項目（編號2013JK013）、廣東省哲學社科規劃學科共建項目（編號GD14 XWW21）、廣東教育教學成果獎（高等教育）培育項目以及華南理工大學校級教改項目（編號X2 WY－Y1141940）的部分研究成果。