呂亮平



摘要:文章通過介紹浙江水利水電學院二外德語期末考試的試卷設計情況,并且對其進行信效度驗證,嘗試為德語教師在二外德語命題方面提供建議。
關鍵詞:語言測試;信度;效度;實證分析
中圖分類號:G642.0? ? ?文獻標志碼:A? ? ?文章編號:1674-9324(2020)10-0114-03
一、引言
德語作為第二外語在我國發展很快,但是對德語作為第二外語的測試研究卻不多。浙江水利水電學院商務英語專業從2015級學生開始實行二外德語教學,為期兩個學期。由于目前還沒有針對二外德語的專門測試,開發能夠體現二外德語水平,向企業及高校提供真實二外德語水平的測試成為當務之急。本文將介紹浙江水利水電學院二外德語期末考試的試卷設計情況,并對其進行信效度驗證,嘗試為德語教師在二外德語命題方面提供建議。
二、研究方法
1.研究的理論基礎。語言測試的信度即“測試結果的一致性”,即測試結果的可信度和可靠度(Bachman,1990)。語言測試的效度是指考試是否考查了所要考查的內容,是否達到了所要達到的目的(Morrow,1986)。語言測試的效度包括內容效度、表面效度、結構效度等。信度和效度作為評判測試能否真正體現測試者水平的標準,既相互獨立又相互制約。沒有信度就不可能存在效度,而具有信度的測試也不一定有效度。一個測試只有同時具備這兩個因素,才能真正體現測試者的實際水平。
2.研究對象。本研究的調查對象為浙江水利水電學院2016級商務英語專業1—3班的學生。這些學生來自全國各地,全部為統考統招生,大部分來自浙江省,英語基礎良好。這些學生學習二外德語的時間為1年。1班學生為24人,參加考試23人,有效試卷數23份;2班學生26人,參加考試26人,有效試卷數26份;3班學生23人,參加考試23人,有效試卷數23份。我院為了規范期末考試,每門課程采用A、B卷命題,每卷附有評分標準,來保證閱卷的一致性和公正性。而本研究的72份有效試卷均來自A卷。該測試定位為診斷考試,目的是測試學生的語言能力,看他們是否掌握了課程大綱所規定的內容和目標。鑒于測試對象尚處于德語學習初期,測試主要為語言知識能力,說、讀、寫的能力,尚未涉及口語測試部分。
3.研究方法。本研究采用定性、定量的方法來檢驗測試的信效度。借助SPSS軟件來進行數據分析,用α指標來檢驗測試信度;從測試的內容效度、結構效度和表面效度等來檢驗測試效度。
三、結果分析
1.信度。從試題的量看,一共8個大題,共39個小題,考試時間為120分鐘。考試形式為開卷。經過考試后的抽樣詢問,大部分學生表示能在規定時間內完成試卷,說明時間分配和試題量是相符的,具體見表1。
從圖1的分數分布來看,優秀率(90分及以上)占9.7%,良好率(70—89分之間),占57%,及格率(60分及以上)占84.7%,不及格率(60分以下)占15.3%。數據基本符合正態分布的兩頭小、中間大的要求。
從試題的集中趨勢來看,結合圖2和其他數據,如均值為75分,中位數為76.75,眾數為70,可以看出眾數、均值和中位數存在一定的差距,說明本次測試結果總體分布存在一定的負偏態。
從試卷的離散程度看,從全距、四分位全距和標準差來看,本次測試結果的離散程度較大。
利用α系數來計算信度,計算出該試卷的信度系數為0.752。通常Cronbach系數的值在0—1之間。如果α系數不超過0.6,一般認為內部一致信度不足;達到0.7—0.8時表示量表具有相當的信度。由此可見,該測試的信度較高。
2.效度。(1)內容效度。內容效度指測量工具內容上(包括材料、題材、題目)的代表性或所選內容樣本的充分性(Bachman,1990)。檢測試卷的內容效度要看其考查內容是否達到了它的考查目標。從考題范圍上看,該試卷的內容覆蓋了該學期教學大綱所涉及的內容,考查了學生基本日常對話的口語能力以及自學能力。如對情態動詞、第三格和第四格、完成時和過去時等語法的掌握,對Essen und Trinken、Wohnen in Deutschland、Kaufen und Schenken、Freizeit und Ferien主題下詞匯和句式表達的運用,對以上主題的日常交際的掌握,所有材料的內容覆蓋面廣,不過分集中于某一主題。從被測試的技能上看,測試了說、讀、寫的能力以及查閱文獻和自主學習的能力,都基本符合該門課程的測試目標。所選材料和技能都在大綱規定的范圍內,具有內容的關聯性,與教學大綱高度契合,說明了測試內容的有效性。(2)結構效度。在結構效度上,采用了分項與整體分組之間的相關系統的計算進行評價的方法。將學生總分和各個部分的成績輸入SPSS,計算出各部分之間的相關系數,得出表2。從表2可以看出,學生總體得分幾乎與部分得分存在顯著相關性。編寫對話與其他題型相關程度不高,表明該題型與其他題型考查的語言能力存在較大差異,進一步的研究發現編寫對話的短語和句式全部是課文對話練習中的句子,加上開卷考試的原因,那這部分考查的便不再是口語能力,而是運用和改寫的能力。詞匯填空、語法選擇題、改寫句子之間存在高度相關,說明這兩個題型考查的都是同一種能力,即基礎語言知識。對話填空和閱讀理解相關度不低,說明考查的能力存在一致性。(3)表面效度。該試卷干凈整潔、印刷清晰;試題編排從易到難;篇幅長短合適,布局合理;主客觀題分開,便于改卷;試題題型常見,試題指令明確。因此,從卷面來看,具有表面可信度和公眾的可接受度,具有良好的表面效度。(4)真實性。真實性是指某一語言測試任務與實際語言運用任務在特征方面的對應程度。在討論語言測試時,真實性永遠是一個重要方面(Carroll,1980)。在本測試中涉及說、讀、寫的任務的設置,需要符合交際性測試的要求。在測試中,說、讀、寫的詞匯都是《大學德語課程教學要求》規定的范圍,內容為日常生活范圍中句子結構比較簡單和情節不太復雜的對話和場景等,具有真實性。但是口語能力是以編寫對話的形式出現,有所欠缺;閱讀材料雖然來源于現實的語言內容,但是考慮到學生的詞匯和語法掌握程度,做了部分改編。
四、對試卷的改進建議
1.調整題型。試卷中客觀部分占了約60%,雖然是出于語言知識有限的考慮,但是適當增加主觀題數量和分值,能使主客觀題分布更合理,也可以避免閱卷的主觀性和偏頗性。
2.增加綜合性考試題型。雖然目前階段沒有針對二外德語的專業測試,但是無論是德語中的德福考試、DSH考試還是大學德語登記考試,都明確要求學生具備在篇章層面上的理解和閱讀能力,考查考生對語言的整體掌握情況,而不是把某些知識作為單獨的部分進行分散測試(翁震華,2016)。因此綜合性考試題型應該作為語言考試中的主體,研究既有高效度又客觀的綜合性考試題是二外德語測試中必須加強的一方面。
3.增加口語考試。雖然口語考試組織的難度比較大,但是口語表達能力是反映學生整體語言能力的重要方面。口語考試部分的增加,會促進學生對口語的重視,促使他們主動練習,從而全面提升語言應用能力。
通過分析可以得出,該測試的信效度高,可以為其他二外德語測試提供借鑒。但是,測試本身在題型分布、設置上還存在欠缺,對口語部分的測試也需要增加。希望能夠有統一的二外德語的測試標準出現,能指導教師在二外德語測驗中的實踐。
參考文獻:
[1]Bachman L.F.Fundamental COnsideration in Language Testing[M].Oxford,UK:OUP,1990.
[2]Carrol,B.J.Testing communicative competence[J].Annual Review of Applied Linguistics,1980.
[3]Morrow K.The evaluation of tests of communicative performance[A].In Mportl(Ed).Innovations in Language Testing[C].Londeon NFER/Nelson,1986.
[4]翁震華.德國“德語作為外語”測試的研究及其啟示——以入學德國高校德語考試為例[J].中國考試,2016.
[5]全國大學德語四、六級考試委員會.大學德語四級考試大綱[M].上海:上海外語教育出版社,2010.
[6]教育部高等學校大學外語教學指導委員會德語組.大學德語課程教學要求[M].北京:高等教育出版社,2010.
[7]施俊,楊勇.基于統計軟件SPSS的試卷質量分析[J].電腦知識與技術,2017.
An Empirical Analysis of the Reliability and Validity of the German Language Test
—Taking the Final Examination of German as an Example
LV Liang-ping
(Zhejiang University of Water Resources and Electric Power,Hangzhou,Zhejiang 310018, China)
Abstract:This paper introduces the design of the final examination paper of German as a second foreign language in Zhejiang University of Water Resources and Electric Power,and verifies its reliability and validity,trying to provide suggestions for German teachers in the field of German as a second foreign language proposition.
Key words:language test;reliability;validity;empirical analysis