常誠 陶希雅 景艷燕
內容效度又稱邏輯效度,是指項目對預測的內容或行為范圍取樣的適當程度。內容效度也經常用于檢測教學質量 ,目的是通過從大量的試題中取樣檢測學生對于某科知識的掌握情況。而一份準確的樣題將全面檢測該學科內容并且占據適當的比例。本文的研究對象是德語專八測試卷翻譯試題(中譯德,德譯中);語言測試的內容效度就是檢測試題內容是否符合考試大綱的要求。
而考試大綱是闡述考試目的,定義試題內容,結構以及形式的官方文件;它對參加考試的人員來說起著參考的作用。上文提及,語言測試的內容效度就是檢測試題內容是否符合考試大綱的要求,那么,考試大綱也是充當著檢測內容效度的標準。
1.1主題與大綱
關于翻譯試題主題,大綱中并沒有給出明確的定義;大綱指出,翻譯內容試題內容多來自中德兩國報紙、雜志、書籍和網頁上德文章;根據大綱所定義的選材原則,測試內容相當于各校翻譯課教學內容平均水平的譯文。根據筆者對2007-2018年專八翻譯試題的統計,有關于民族文化的主題有5篇,有關于各國社會事件主題有9篇,有關于兩國國家政治體制經濟的主題有8篇,有關于兩國交流合作主題有2篇。
1.2文章類型與大綱
該試題的主題則多涉及國家政治,外交經濟,社會生活等內容,其他方面的內容設計較少。相對應的文章類型多是說明文,新聞報刊為主。根據大綱對試題類型的描述,翻譯內容試題內容多來自中德兩國報紙、雜志、書籍和網頁上德文章。而考試試題多是從某篇文章中截取,并且試題尾部無文章來源,所以無法判斷其屬于說明文或是屬于報刊;但是根據文章內容形式,大體可以判斷出其來自于應用型文章。
1.3 翻譯長度與大綱
據大綱描述,漢譯德每篇約120個字,德譯漢每篇約150個字。從2007-2018試題統計表中,其中有兩篇字數不超過100,有6篇字數在100—110,有1篇字數為112,有9篇字數在120-130,有5篇字數在130-140,還有3篇字數超過150。大體上,翻譯試題的長度與大綱基本符合。
2.1信度與成績
信度(reliability)即可靠性,它指的是采取同樣的方法對同一對象重復進行測量時,其所得結果相一致的程度。
考生在專八考試中的得分能在一定程度上客觀反映出德語專八考試翻譯試題的信度與評卷時的閱卷信度,信度的高低便能體現出試題是否能檢測出考生的真實水平,與閱卷老師的評分是否能公平的評判考生的能力。我們收集到17,18屆三所學校(南京大學、南京大學金陵學院、南京師范大學)的學生們的各項成績(聽力、詞匯、語法、閱讀、概況和翻譯總分)
2.2實驗分析
本章的數據分析所運用的主要方法為單因素方差分析法。
在方差分析中,我們將要考察的對象的某種特征稱為試驗指標,影響試驗指標的條件稱為因素。下面所討論的因素都是指可控制因素。每個因素又有若干個狀態可供選擇,因素可供選擇的每個狀態稱為該因素的水平。如果在一項試驗中只有一個因素在改變,則稱為單因素試驗。
該研究中,唯一的改變因素就是各個學生的能力,我們將17,18屆三所學校的學生們的各項成績都進行了分別統計和歸納分析,并由此得出結論。
首先,我們將所得到的各項分數數據進行整合,為了使數據體現得更清晰,我們將17屆和18屆兩屆同學分開,并且分成了17屆合格同學各項得分、17屆不合格同學各項得分、18屆合格同學各項得分、18屆不合格同學各項得分。
我們將數據分成六列,本別為:聽力得分、詞匯得分、語法得分、閱讀得分、社會概況得分和翻譯總分,并用excel表格中的單因素方差分析得出下面數據:(數據選取小數點后兩位)
(1)17屆總分合格同學各項得分的方差:
聽力:11.50;詞匯:6.27;語法:2.77;閱讀:15.07;社會概況:2.02;翻譯:37.02
(2)17屆總分不合格同學各項得分的方差:
聽力:19.41;詞匯:4.53;語法:3.32;閱讀:22.42;社會概況:1.91;翻譯:37.72
(3)18屆總分合格同學各項得分的方差:
聽力:11.91;詞匯:7.38;語法:4.26;閱讀:13.23;社會概況:2.06;翻譯:15.99
(4)18屆總分不合格同學各項得分的方差:
聽力:14.84;詞匯:5.91;語法:7.12;閱讀:22.97;社會概況:2.73;翻譯:59.65
以上四組數據中,都是翻譯得分的方差最大,便可直接說明翻譯得分是所有單項得分中最不穩定的一項。
在總分合格和不合格的翻譯方差相對穩定的17屆同學中,我們挑選了10位客觀題得分相當,但是翻譯得分差距較大的同學,為了更加清晰地反映出數據差距,我們將其得分做成了折線圖。
由折線圖便可看出,聽力、詞匯、語法和概況這種客觀題和主觀閱讀的得分相對穩定,即這10位同學們的能力應是大體相同的,可是折現波動最大的便是翻譯題得分,這也充分證明了這10位同學的翻譯能力差異較大,這便與之前的客觀題測試出的能力水平形成了較大的矛盾。
2.3實驗結論
單因素方差實驗中,我們可以清晰地看出專八翻譯試題中學生們得分的不穩定性,這也從側面說明試題不能很好的反映出學生們真實的翻譯能力,我們亦或者可以解讀為閱卷老師針對翻譯試題部分的評分不能很好地反映出學生的真實語言能力,即閱卷信度。折線圖的實驗更是能說明這一點,客觀題得分相對相似的10位同學在翻譯題中的得分卻是大相徑庭,得分高低之間的差距很顯然與考生的真實水平不符,所以試題信度與閱卷信度在此處都需打一個大大的問號。
同時,我們也整理了2007年至2018年的翻譯考試的內容范圍,我們發現專八考試中的翻譯題目的選題范圍也較單一且與生活的關聯度較弱,所運用的語言多是官方且復雜難懂的語言。
對比分析試題與考試大綱的過程,不難發現,大綱中對于試題主題,文章類型都沒有詳細進行說明。這樣就必然導致考生在復習過程中,抓不住重點,找不到復習方向。
根據對試題分析,可以總結出試題的主題大多涉及國家政治,外交經濟,社會生活等內容,其他方面的內容設計較少;文章類型偏實用性文章,相對應的文章類型多是說明文,新聞報刊為主;諸如散文,小說,書信之類的文學體裁基本不涉及。注重實用性文章的翻譯必然會導致學生對文學性文章的忽視。
而文章的長短是符合考試大綱,大多是在90-130字范圍。值得注意的是,專八考試大綱并沒有明確給出詳細的評分準則。
信度方面,翻譯試題的信度與老師閱卷的信度都有進步的空間,現階段的翻譯試題與評分并不能很好的反映出學生的真實語言能力,我們在此建議,之后的德語專八考試的翻譯試題可以嘗試多元化出題,并且增加試題信度,使試題能真正地反映出考生的真實水平。
該論文受“2018年江蘇省大學生創新訓練計劃項目”資助支持。
(作者單位:南京大學金陵學院)