王佶旻
現代教育理念已經從以教師為中心轉向以學生為中心,學習者應該學什么,怎么去學成為語言學習的核心問題。在學習過程中,評價學習成就的方法主要有三種:測驗、教師評價和學生自我評價,Mats Oscarson(1989)認為進行自我評價對學習有益,學習者有意識地評價自己的交際效果是習得過程的重要組成部分,它可以幫助學習者提高學習意識,明確學習目的,是評估領域的拓展。
語言能力自評量表是學生自我評估語言能力的評價工具,它可以幫助學習者對自己的語言水平做出判斷,從而對進一步學習產生正面的影響。同時自評量表還能告訴學習者要提高語言能力應該學會哪些語言知識和技能,這樣學習者就會有意識地去獲得這些能力。
語言能力自我評價量表具有很廣泛的實用價值,但自我評價量表必須建立在可靠性和有效性的基礎上,因而對所編制的量表進行質量檢驗是十分必要的。
最早的語言能力量表是美國政府部門在1955年制定的FSI(Foreign Service Institute)量表,制定該量表的初衷是為了規范測驗的操作和評分,因此它不是自評量表而是測驗的評分標準。其后,歐洲、美國、加拿大、澳大利亞及其他地方出現了多個語言能力量表,如美國的ACTFL大綱、澳大利亞的ISLPR量表、加拿大的CLB量表以及歐洲的ALTE量表等。其中ACTFL量表和ALTE量表是最具影響力的語言能力量表。
ACTFL大綱是美國教育測驗服務中心(Educational Testing Service,ETS)和美國外語教學委員會(American Council for the Teaching of Foreign Language,ACTFL)于20世紀80年代制定的語言能力量表。該量表把語言水平分為10個小級別,并對聽、說、讀、寫四項分技能做了等級描述。ACTFL大綱對學習者的評估側重于真實的能力,而不細究學習者在何時何地以何種方式學習語言。ACTFL大綱是一個對語言教學、學習、測試以及語言政策都產生了長遠影響的能力量表。它對能力等級的劃分、等級標準的界定和語言表現的描述都為以后的能力量表的制定提供了參考。
ALTE量表是歐洲語言測評中心協會(Association of Language Testers in Europe)制定的關于語言應用能力的評估量表,是歐洲語言共同參考框架(CEF)的重要組成部分。ALTE量表是以語言使用者為中心的評估機制,因而也可以作為學習者的自我評估量表。該量表把語言水平分為六個等級,并從聽、說、讀、寫四個方面對語言能力進行了詳細的描述。描述采用“能做(can-do)”的形式,從社會生活與旅游、工作和學習三個方面對語言能力進行描寫。
上述這些語言能力量表有三個主要特點:一是以聽、說、讀、寫四項語言技能為綱來描寫語言能力;二是以特定的任務或語言使用者能夠做什么來描述具體的語言能力,也就是用行為表現來進行評估;三是對能力等級的劃分都以初、中、高三個主要等級為基礎。
本研究的自評量表以中級漢語學習者為評估對象,分為聽、說、讀、寫四個分量表。在每一個分量表中,我們都從三個層面進行描述,第一個層面是能力概說,以概括的語言對每一水平等級進行描述,描述的主要任務是找出每一水平等級的區別性特征。例如聽力理解的能力概說為:“在日常生活、工作和學習中可以比較順利地實現和母語者的交流,能夠比較準確地把握說話人的態度,觀點,聽懂重要的問題、指示,可以在較短的時間內參與到討論中,不僅能聽懂自己熟悉話題的大部分觀點,在較陌生的話題上,也具備一定的跳躍障礙的能力,從而獲取需要的關鍵信息。”
第二個層面是“能做描述”,通過語言任務的形式對不同水平等級的學習者能夠做什么進行詳細描述。能做描述也要從不同的子能力維度展開,以典型的作業任務為描述的依據,而非隨意描述。比如在閱讀能力量表中,“能做描述”分為文本說明和閱讀過程兩個子維度。文本說明部分主要根據閱讀材料的體裁和篇章來對學習者進行區分。例如“能讀懂會議議程。”閱讀過程關注閱讀時所涉及的各種技能,包括總結和概括、尋找細節、查找段落關系、推論、與目的語文化背景的結合、閱讀技巧以及使用參考書和詞典的能力。例如“能將一篇文章里不同部分的信息,或者不同文章里的信息歸納匯總,以完成特定的交際任務。”
第三個層面是量化指標,主要從字、詞掌握數量,閱讀和聽力的速度等方面來區分不同水平的學習者。例如“能在30分鐘內寫出300字以上的信或短文。”
中級漢語學習者語言能力自評量表采用李克特5級量表(Likert scale)來采集數據,學生在完成量表時需要對每一條描述語和自己實際語言水平相符的程度進行評價,如果完全符合選擇5,完全不符合則選1。量表的結構和題目數量如表1所示。
本研究的被試為報名參加2011年6月舉行的漢語水平考試HSK(初中等)考試的考生,共165名。被試在報名當日完成量表調查,并于一周后參加HSK考試。因此被試完成量表時的語言水平與其參加HSK考試時的水平基本一致。被試的具體情況如表2所示。
題目的難度和區分度與量表的質量密切相關,難度適中,區分度良好的題目所組成的量表具有較好的測量精度。由于題目采用5級量表記分而非0/1記分,因此難度的求得采用公式P=所有被試該題得分的平均數/該題滿分分數。區分度用被試在該題上的得分與其量表總分之間的相關來表示,同時檢驗高分組和低分組的得分差異。根據測量學的一般做法,高分組指的是得分從高到低排列,前27%的人,低分組則是后27%的人,高分組和低分組的得分有顯著差異代表題目的區分度良好。我們按上述辦法計算了每個題目的難度、區分度以及高分組和低分組得分的平均數差異檢驗(T檢驗)。結果表明,題目難度中等偏易,區分度良好,高分組和低分組得分的平均數差異顯著。具體情況如表3所示。
我們使用α系數檢驗總量表以及各分量表的內部一致性信度,結果如表4所示。

表4 總量表及各分量表的內部一致性信度
從表4可以看出,中級漢語學習者自評量表以及聽力、閱讀、口語和書面分量表的內部一致性信度(α系數)都較高,說明量表的測量信度較好。
2.5.1 效標的選取
信度和效度是測驗的兩大質量標準,也是測驗研究的重要問題,其中效度又是重中之重。正如Dieterish&Freeman(1979)所談到的,如果脫離了效度問題,那么包括信度在內的一切有關測驗標準或質量的討論都會顯得毫無意義。Bachman(1990)也指出,在測驗的開發、解釋及應用中,需要考慮的最重要的問題就是效度。在建立效度的過程中,我們需要收集一種證據,這種證據表明測驗分數和某個標準之間的關系,而我們相信這個標準同樣表現了所測的能力。使用這種方法建立的效度就是效標關聯效度(criterion-related validity)。在效標關聯效度的檢驗過程中,最重要的步驟就是尋找合適的效標。一個好的效標必須具備以下幾個條件:

表2 被試的具體情況
(1)同質性,即與研究對象的測量特質相同。
(2)有效性,即能真正反映所要測量的特質。
(3)可靠性,也就是要有較高的信度。
(4)客觀性,即沒有“效標污染”。個人的效標成績可能由于評定者知道其預測源分數而受到影響,從而降低了客觀性,這稱為“效標污染”。
(5)實用性,最佳的效標測量應該用法簡單、省時、花費少。(鄭日昌等,2001)
本研究采用被試參加的漢語水平考試(HSK)作為效標。HSK是專門測試母語非漢語者的漢語水平的國家級標準化考試,具有二十幾年的歷史,在海內外享有很高的學術和市場聲譽,是一個比較可靠的效標。本次HSK(初中等)考試的結構、題型與信度系數如表5所示。

表5 HSK(初中等)考試的結構、題型與信度系數
在效標選取上,我們采取考察內容近似的原則,以HSK總分作為總量表的效標,以HSK聽力理解測驗的成績作為聽力理解分量表的效標,以HSK閱讀理解測驗的成績作為閱讀理解分量表的效標。由于HSK考試的綜合填空部分考查書面表達和漢字書寫能力,因而可以作為書面表達分量表的效標。口語分量表的效標也選用HSK聽力理解測驗的成績,這是因為聽和說具有十分密切的關系,在沒有口語測驗作為效標的情況下,選擇聽力測驗成績作為效標也是可行的。
2.5.2 檢驗結果
效標關聯效度的檢驗結果如表6所示。

表6 效標關聯效度的檢驗結果
從表6可以看到,總量表以及四個分量表與各自的效標的相關都在0.05水平上顯著,相關系數在0.40~0.50,屬于中等程度的相關。
語言能力自評量表中對能力的劃分和界定主要依靠各種描述語來完成,因此描述語的質量直接影響到量表的信、效度。描述語的產生有不同的方法,比如向專家征集對學習者語言能力的評述語,根據確定的語言能力結構及其參數體系來編寫描述語等。我們采用的方法是收集國內外已有的語言能力量表和大綱,把其中的描述語挑選出來,然后根據確定的語言能力維度和參數體系將合適的描述語放進去,最后再進行描述語的修訂。
通過對每一條描述語的難度、區分度以及選項分布等題目質量參數的評估,我們歸納了挑選和修訂描述語的幾條基本原則:(1)描述語的單維性,即,除總說部分外,每條描述語只描述一個參數或一項能力;(2)描述語的排他性,即任意一條描述語中都不含有其他描述語所描述的內容,描述語之間不重復;(3)描述語都采用正向描述的方式,不使用否定詞語;(4)盡量避免大量使用程度詞來修飾描述語,如比較準確等;(5)描述語在表達上做到準確、簡潔。
評價量表的質量主要從題目質量、量表信度和效度三方面著手。從研究結果來看,中級漢語學習者語言能力自評量表質量優良。題目平均難度為0.66,屬于中等偏易,說明問卷中的題目與被試的實際語言水平比較相符。在分量表中,聽力和口語的難度略低于閱讀和寫作。這可能是因為題目大多描寫課堂外實際運用語言的場景,而學生在現實生活中運用聽和說的機會多于讀和寫,因而他們對聽力和口語的場景熟悉程度高,傾向于給出較高的分數。從題目的區分度來看,所有題目在高分組和低分組中都有很好的鑒別力,平均數差異顯著,題目與總分的相關較高,說明題目具有較好的區分度。量表的信度檢驗表明題目的內部一致性很好,信度較高。
從量表的效度檢驗來看,總量表和效標(HSK總分)之間的相關為0.46,這在自我評價的研究中是相對較高的。Bachman&Palmer(1989)的研究計算了自我評價和面試以及多項選擇題的相關,分別為0.47和0.46,他們認為這樣的相關已經是相當可觀了。其他一些研究,如Powers,D.,Roever,C.,Huff,K.L.,&Trapani,C.S.(2004)得到了0.3的相關,而Anne-Mieke Janssen-van Dieten(1989)的研究僅得到了0.19的相關。因而我們可以說本研究的語言能力自我評價量表的效標關聯效度還是比較高的。從各個分量表來看,聽力、閱讀、口語和寫作分量表與它們各自的效標之間的相關都在0.40以上,其中閱讀分量表的效標關聯效度系數達到了0.50,說明各個分量表的效標關聯效度都比較好。
在分析四個分量表與HSK各個分測驗的相關關系的過程中,我們發現了一些有意思的現象。雖然四個分量表與它們各自的效標之間的相關最高,但它們同時都和語法分測驗具有較高的相關。這種現象暗示著語法知識在聽、說、讀、寫四項技能中都占有很重要的位置,反過來說,也暗示著語法不是一個需要獨立測量的子能力,而是作為一種語言使用的必備要素體現在聽、說、讀、寫各項語言技能中。這一點張凱(1997)和郭樹軍(1997)在研究HSK的構想效度時已經有所發現。
另外,我們還發現,口語分量表與HSK各個分測驗的相關是最低的,與自評量表中其他分量表的相關也是相對最低的。這一方面是因為我們選擇的效標中沒有口語測驗,另一方面也說明口語能力是一種相對獨立的語言技能。這一現象在周聰(2010)以及原鑫(2011)的研究中曾經得到了證實。這就提醒我們在對語言技能進行評估時要采取分開評價的模式,特別是對于口語能力。
[1] 郭樹軍.漢語水平考試(HSK)項目內部結構效度檢驗[J].漢語水平測試研究.北京:北京語言大學出版社.1997.
[2] 高級水平漢語學習者聽說讀寫四項技能的關系研究[D].北京語言大學碩士論文.2011.
[3] 周聰.綜合式測試方法對初級水平漢語學習者的適用性研究[D].北京語言大學碩士論文.2010.
[4] 張凱.漢語水平考試結構效度初探.見:漢語水平測試研究[M].北京:北京語言大學出版社.1997.
[5] 鄭日昌,蔡永紅,周益群.心理測量學[M].北京:人民教育出版社.2001.
[6] Bachman,L.F.,Fundamental Considerations in Language Testing.Oxford University Press.1990.
[7] Bachman,L.F.&Palmer,A.S.,The Construct Validity of Self-rating of Communicative Language Ability.Language Testing.1989,V6 N1:14-29.
[8] Anne-Mieke Janssen-van Dieten.The Development of a test of Dutch as a Second Language:the validity of self-assessment by inexperienced subjects.Language Testing.1989,V6 N1:30-47.
[9] Dieterish&Freeman.A Guide to English Proficiency Testing in School.Center for Applied Linguistics.1979.
[10] Mats Oscarson.Self-assessment of Language Proficiency:rationale and applications.Language Testing.1989,V6 N1:1-13.
[11] Powers,D.,Roever,C.,Huff,K.L.,&Trapani,C.S.Validating LanguEdgeTM Courseware scores against faculty ratings and student self-assessments.ETS Research Report.2004.