基于ＰＥＴＳ口語測試語料的客觀評分研究

2007-12-31 00:00:00項軍平

考試周刊 2007年18期

摘要：本研究通過轉寫PETS-3口試錄音，依據評分標準，從其語料中提取25個量化因素，然后運用多元逐步回歸的方法建立PETS-3口試客觀評分的預測模型，并用同一實驗的其他數據驗證該模型的可靠性。結果證明，該方法可行，而且對PETS-3口試分數的解釋具有很好的意義。

關鍵詞：全國英語等級考試口語考試客觀評分

前言

全國英語等級考試（PETS）是一項標準參照考試，共有五個等級。由于該考試系統是一個包括了寫作和口語的交際測試，因而其效度很高，越來越受到歡迎。如同其他許多口語考試的評分方法，其口語考試采取評分員等級評分方法。這種評分方法是目前眾多口語測試中比較流行的評分方法。但同其他口語考試一樣，PETS主觀評分信度有時不是很理想。

影響口語考試信度的因素較多，其中主要是評分員自身評分的一致性（intra-rater consistency）問題及評分員之間評分的一致性（inter-rater consistency）問題。而這些不一致問題之所以出現，是因為這些評分標準都是描述性的文字，是定性的標準。而評分員對評分標準把握和理解不盡相同。有些人認為語音重要，有些人認為語法重要，也有些人認為內容重要等。此外，PETS是一項標準參照考試，但其標準也是定性的。這些定性的標準很難起到真正統一評分思想和行為的作用。因此，評分標準的客觀量化顯得極為有意義。

評分的客觀化不僅是對考試信度（reliability）的貢獻而且也是考試效度（validity）的保證。美國心理測量學會章程把效度定義為“由測驗分數作出的推斷的恰當程度、有意義程度和有用程度”。這說明效度是與根據測驗分數作出的推斷緊密地聯系在一起的，它最終要落實到對分數的解釋上，而評分方法直接影響得分和對分數的解釋。因此，如果我們對PETS口試進行客觀評分研究，這對提高其信度和效度都是十分有意義的（王佶文 2002）。

實驗設計

為了解決主觀評分帶來的問題和更好的解釋分數的意義，同時也為了給下一步計算機輔助口語測試自動評分研究打基礎，我們開展了基于PETS口試語料的客觀評分嘗試。在本研究中，為了方便采集數據，我們只研究PETS-3口試，因為它適合于在校大學生。我們主要想探討以下幾個問題：是否能從PETS-3口語測試分項評分標準中提取一些可量化的因素？PETS-3口語測試客觀評分方法是否可行？

44名學生參加了基于計算機網絡的PETS-3口試。其錄音先由兩位考官按傳統方法評分。在回顧了影響評分因素和當前主要幾種口語評分方法后，我們提出了一種口語客觀評分的方法。經過對其進行理論和操作意義上的定義，我們設計并開展一項基于自建的語料庫的實證研究實驗。我們從PETS-3口試分析性評分表中共提煉出25個量化了的指標。然后將從30個應試者的語音和轉寫的文本中提煉的數據與主觀評分結果一起輸入到SPSS中與主觀評分結果一起進行多元逐步線性回歸分析，得出相應的預測模型。然后，我們用同一實驗的另外14個樣本的數據來檢驗預測模型的效度和信度（項軍平 2005）。

實驗過程

口試錄音轉寫

我們使用音頻處理和分析軟件Goldwave和Praat對錄音進行播放、合成、處理和分析。在轉寫過程中，我們使用寫作中的標點符號體系對轉寫文本進行斷句。為了便于準確地進行自動分析，我們對其稍做調整，如我們使用破折號代替省略號。我們也用破折號對聲音模糊的錄音部分進行標注。對于那些發音錯誤，但仍然能聽出來的單詞，我們還是轉寫成其正確的形式。如果某個單詞發音完全錯誤，或發成另一個單詞，那我們就用紅色將其標為錯誤。如果某些發音聽起來缺少后綴，如“ed”， “ing” 等，我們將其標為語法錯誤。每個考生有兩個錄音轉寫文本文件。一個是所有內容的轉寫文本；一個是去掉了語法錯誤和重復等內容，只含有有效T-Unit的轉寫文本（Gaies 1980）。這樣便于我們使用WordSmith軟件提取相應的因素。我們運用Word 2000的查找功能來計算正確的T-Unit。

評分標準客觀因素提取和量化

PETS-3口語測試分項評分標準有四項：語法與詞匯；話語運用；語音；互動交際。根據這些評分標準的文字描述和相關理論，我們從口試語料中提取了25個量化因素。他們分別為：wds/CTUs（單詞數/正確的T-Units數）；CT/AT（正確的T-Units數/所有的T-Units數）；T-Unit（T-Unit數）；C T-unit（正確的T-Units數）；V Ratio（有效的類符/有效的形符）； V type（有效的類符）；V token（有效的形符）；C Ratio（正確的類符/正確的形符）；C type（正確的類符）；C token（正確的形符）；Pronunciation（語音得分）；Time（有效口語表達時間）； Fluency（有效口語表達的流利性）；letter/wd（有效口語表達單詞的平均長度）；其他11個因素分別為含有1-10個字母及含有10個以上字母的單詞數量。在所有的25個因素中，除Pronunciation（語音得分）外，其他24個因素都是通過軟件提取的。

結果與討論

在進行回歸分析之前，我們首先對考生口試得分的信度和正態分布情況進行驗證。結果表明，兩位評分員之間的評分信度達到了0.864。這說明本次口試主觀評分成績信度較理想。而且考生口試得分也基本趨于正態分布。這就為我們進行回歸分析提供了必要的條件（秦曉晴 2003）。

然后，我們采用多元逐步回歸的方法對數據進行統計分析。在回歸分析過程中，25個提取的因素為自變量，主觀得分為因變量。我們得出以下結果：

Table 1．Coefficients

aDependent Variable： FINAL

由于25個自變量數據沒有進行標準化處理，所以我們回歸模型中采用非標準化系數。例如，在模型4中，常數為“-0.288”；CTYPE系數為 “0.02095”；Fluency系數為“0.02057”；CTUNIT系數為 “-0.06432”；Pronunciation系數為“0.122”。其最后預測模型公式為：

Model 4：

Final Score=CType*0.02095+Fluency*0.02057-CTUnit*0.06432

+Pronunciation*0.122-0.288

同理，預測模型3公式為：

Model 3：

Final Score=CType*0.02801+Fluency*0.01728-CTUnit*0.06099+0.307

接著，我們用同一實驗中的另外14個樣本數據投入到兩個模型中檢驗該模型的穩定性。結果證明，Model 3的結果與主觀評分相關度為0.714； Model 4 為0.786。因此，Model 4為最佳預測模型。由于Model 3中沒有包含語音的主觀評分，其他均為客觀因素，因此，模型3為客觀評分預測模型。

模型3表明，正確的類符、有效口語表達的流利性和正確的T-Units數可以有效地預測口試成績。讓我們感到驚奇的是正確的類符最先進入模型，其預測能力最強；讓人費解的是正確的T-Unit數在模型中的系數卻是負值。盡管在其他試驗中也有過類似發現（張文忠），但人們還沒能對其進行很好的解釋。

本次實驗數據表明，人們在判斷考生口語水平能力時，最關心的是其準確性、流利性、詞匯量及語音等。這為我們今后培訓學生英語口語具有很好的指導意義。

結束語

該項實證研究的意義在于它證明了口試客觀評分的可能性；它能讓人們理解該口試分數的含義；而且該試驗所建立的模型將有助于下一步的口試自動評分研究的開展。其他口試系統可借用本研究方法來發現其口試分數的含義。與此同時，我們也意識到本研究所存在的問題和局限性。例如，本研究樣本少，又沒有經過分層抽樣，因而其樣本的代表性受到質疑。而且，這也影響到預測模型的穩定性。此外，一些較為重要的因素由于技術原因沒有提取出來，如文章內容、邏輯思維能力等。因此，我們將在今后的研究中，通過自建相關語料庫或使用已出版語料庫，擴大語料選擇范圍和提高抽樣的科學性，進一步提取更多因素進行因子分析、回歸分析和采用結構方程模型等，通過改進統計手段，采用新技術等來提高口試客觀評分模型的穩定性。

參考文獻：

［1］Gaies， S. J. T-unit analysis in second language research： Applications， problems and limitations. TESOL Quarterly，1980.Vol.1：53-60.

［2］秦曉晴.外語教學研究中的定量數據分析［M］.武漢：華中科技大學出版社，2003.

［3］王佶文.三類口語考試題型的評分研究［J］.世界漢語教學，2002年，第4期，63-77.

［4］項軍平.全國英語等級考試三級口試客觀評分研究M.D. Dissertation， 2005.

［5］張文忠，吳旭東.第二語言口語流利性發展的定量研究［J］.現代外語，2001年第4期：341-351.

本文系湖北師范學院2003年青年科研項目“計算機輔助PETS口語測試”項目成果之一.

考試周刊2007年18期

考試周刊的其它文章: 翻譯策略重“功能”; 語言藝術在舞蹈中的運用; 試談小學語文教學中思維品質的培養; 激情與冷靜; 網絡教學信息資源系統的建設分析; 職業中專英語寫作教學與研究