教師自行構建校內英語聽力題庫的有效性研究——以保山學院為例

2017-04-06 07:50:42蘭娟

湖南科技學院學報 2017年1期

蘭娟

蘭娟

（保山學院外國語學院，云南保山 678000）

建立高信度和效度的試題庫，有利于保證測試安全。出于教學和研究需要，各個學校往往結合自身實際自行構建試題庫。試題庫的有效性檢測，成為各個學校都會面臨的問題，筆者以所在的保山學院為例，從校本英語專業聽力測試題庫中隨機抽取出來五套聽力試卷，基于對其測試結果的分析，以測試學的專業手段對該試題庫的有效性做出了科學評估。

聽力測試；試題庫；信度；效度

建立試題庫對語言測試有很多好處，最顯著的就是以較少的時間精力投入，即可讓構卷者制作出多套較高質量的平行試卷。因此，國內外很多大型高風險測試，如托?？荚?、大學英語考試、大學漢語考試等都充分利用了試題庫組卷的方式；同時，一些大學也紛紛致力于試題庫建設。但是，在各類研究中，筆者很難發現針對英語專業學習者聽力測試題庫的研究；另一方面，作為一名多年從事聽力課程教學的教師，筆者深深體會到此類試題庫建設的必要性。因此，筆者及團隊自行構建了符合所在院校實際教學情況的英語專業聽力測試題庫，并希望通過一系列的實驗和研究驗證其有效性，以為廣大高校解決此類問題提供一種方式。

一　試題庫構成情況

根據《高等學校英語專業教學大綱》的要求，結合筆者所在學校的實際情況，筆者初步建構了英語專業聽力測試題庫。題庫中同時包括了選擇類答題方式和建構類答題方式兩種題型10項不同類別的聽力測試任務，共計1266道試題。2010年，王建忠等人針對試題庫中題量與考試中試題量的關系進行了研究，建議試題庫中題量與考試中抽取的試題量比例為30:1。而筆者構建的試題庫題量與預測聽力試題題量比例為26:1，基本能夠滿足抽取試題的需求。

試題庫構成詳細情況如下：

表1.試題庫題型題量構成情況一覽表

題型單詞辨音響應評價釋義識別對話篇章復合式聽寫總結/提綱總量短長選擇題正誤判斷題簡答題每套試題抽取量1010101023111149 理想題庫量3003003003006090303030301470 實際題庫量21220127130066120363830221266

二　測試實施

為了對試題庫進行量化效度研究，筆者在EasyPaper 4.0軟件的輔助下從試題庫中抽取了5套試題分別發放給英語專業一、二年級的學生。依據Henning(2001:128)的建議，每套試題的受試者都達到了100人以上。試題構成情況如下：

表2.抽取試題的構成情況

部分測試一測試二測試三測試四測試五 Phonemic Discrimination510000 響應評價50000 釋義識別1010101010 對話短對話10107810 長對話00110 篇章正誤判斷(篇)11 111 選擇(篇)02 222 簡答(篇)20000 復合式聽寫(篇)01011 總結/提綱0101 總量3334 22 2325

五套試題的構成差異是由其針對的不同受試者決定的。測試一和測試二的測試對象是英語專業一年級的學生，因此，測試重點是音素、結構的識別和短對話、短篇文章的理解。而測試四、測試五和測試六的測試對象為英語專業二年級的學生，測試重點強調長短對話、篇章的理解以及記筆記的能力。

五套測試題滿分均為100分，最長的一套測試音頻材料時長為43分鐘，最短的一套為30分鐘。針對同一測試樣本的測試在語速相似，每一道選擇題后都有15秒的間隙，間隙的長短與大學英語等級考試或英語專業等級考試等高風險測試一致。

五套測試均在語音室環境進行，測試對象的基本情況如下：

表3.受試者基本情況

測試樣本一（一年級）樣本二（二年級）一二三四五受試者男生1111131416 女生9999111110114 合計110124124130

測試結束后，筆者使用SPSS軟件對測試結果進行了分析。

三有效性驗證

（一）信度

信度被看做是一項優秀測試的必要但不充分條件(Bachman,1999;Davies et al.2002;Moss,1994)。Henning(2001:74)認為信度檢測的是測試實施之后受試者分數的準確性、一致性、可靠性、以及公平性，換句話說，一套信度較高的測試，不管受試者是誰或者測試了多少次，所得到的結果都是穩定且一致的。

1.外部信度。在測試設計中針對同一個樣本進行了平行試卷的測試，外部信度可以通過計算測試結果的相關系數進行驗證，測試結果相關性越高，則信度越好，相關系數是一個在+1到-1之間的數值，+1意味著絕對正相關，-1則代表了絕對的負相關，0表示兩個變量沒有關系（楊端和，2004:278）。因此，筆者針對測試一和測試二，測試三和測試四，測試四和測試五，測試三和測試五四組數據，采用皮爾遜相關系數分析公式，進行了相關性分析，分析結果如下：

表4.測試一與測試二相關性分析

ONETWO ONEPearson Correlation1.739(**) Sig. (2-tailed)..000 N110110 TWOPearson Correlation.739(**)1 Sig. (2-tailed).000. N110110

** Correlation is significant at the 0.01 level (2-tailed).

表5.測試三、測試四和測試五相關性分析

THREEFOURFIVE THREEPearson orrelation1.527(**).590(**) Sig. (2-tailed)..000.000 N118118118 FOURPearson orrelation.527(**)1.514(**) Sig. (2-tailed).000..000 N118118118 FIVEPearson orrelation.590(**).514(**)1 Sig. (2-tailed).000.000. N118118118

分析結果表明，測試一與測試二的相關系數為0.739，測試三與測試四的相關系數為0.527，測試三與測試五之間的相關系數為0.590，測試四與測試五之間的相關系數為0.514。張厚粲等（2004）指出，當兩個變量之間的相關系數大于0.4，這意味著這兩個變量之間有較強的正相關。因此，可以判斷，本項研究中的四組數據之間的正相關都是成立的。進一步分析的話可以看出，四組數據的相關即使在顯著水平為0.01時依然是顯著的。因此可以推斷，從試題庫中提取的五套試題都具有較強的外部信度。

2.內部信度。內部信度體現了一套完整的測試試題中各個部分之間的內部一致性，也就是說，一套測試題中的不同任務是否測試了同樣的構念。內部信度的計算可以采用克倫巴赫阿爾法系數計算公式通過SPSS進行運算。運算結果如下：

測試一：

Reliability Coefficients ? ? 5 items

Alpha = .6629 ? ? ? ? ? ? Standardized item alpha = .7618

測試二：

Reliability Coefficients ? ? 5 items

Alpha = .7709 ? ? ? ? ? ? Standardized item alpha = .7762

測試三：

Reliability Coefficients ? ? 4 items

Alpha = .5924 ? ? ? ? ? ? Standardized item alpha = .6090

測試四：

Reliability Coefficients ? ? 4 items

Alpha = .5165 ? ? ? ? ? ? ? Standardized item alpha = .5047

測試五：

Reliability Coefficients ? ?5 items

Alpha = .6355 ? ? ? ? ? ? Standardized item alpha = .6248

楊端和（2004:278）建議，在進行內部信度相關性檢驗的時候，0.60應該被視為臨界值，也就是說，當一套測試的信度系數大于0.60時，這套測試卷可以被視為具有較強的實用性。在本項研究中，通過克倫巴赫阿爾法系數運算，五套測試卷的標準信度系數平均值為0.6553，這一平均值大于0.60，由此可以判斷，五套測試的內部信度是可以接受的。但是，當分別看這五套測試時，標準信度分別為0.7618,0.7762,0.6090,0.5047和0.6248，測試四的標準信度系數低于0.60，仍然存在一些問題。但是，正如Henning(2001)和Bachman(1999)所指出的，測試的信度會受到很多因素的影響，例如測試的長度、測試項目的區分度等等，因此針對測試四的信度還需要在日后從這些方面進行進一步地探討。

（二）效度

1.表面效度和內容效度。表面效度和內容效度是語言測試效度的兩個基本證據。一些測試專家，如Henning，Bachman等，傾向于把它們看做一組同義詞；也有一些專家把這兩者區分對待。根據測試專家的觀點，表面效度指一套測試在表面上看起來有沒有測試了它計劃要測試的東西(Davis et al.2002:59;Heaton,2000:160;Henning,2001:94)。因此，當進行表面效度驗證時，構卷人、受試者、專家等大眾的看法都可以作為參考。盡管這樣的證據看起來很主觀，它同樣可以為構卷提供快速且有用的參考。內容效度雖然也包含一些主觀的評判，但強調評判需要在專家評判的基礎上，或是量化分析的基礎上進行(Heaton,2000:160;Henning,2001:95;Shepard,1993)。

本項研究中，在實施聽力測試之前，筆者向本學院的三位英語資深聽力任課老師詳細介紹了五套試卷的構成，包括試卷的組成部分、內容、時長、分值、停頓等細節，并同時請三位教師請他們就五套測試的內容與課程教學大綱進行比對，從而對五套試題的表面效度和內容效度做出評價，看五套試題是否能夠達到測試的目的。三位專家均認同了五套測試卷的表面效度和內容效度。

2.構念效度。構念效度假設在語言能力和語言習得過程中構念的存在(Heaton,2000:161)，它同樣是效度驗證的重要證據。就技能測試的效度而言，Guerrero(2000)建議檢驗構念效度時可以通過對一套試題進行基本的統計分析，來了解其試卷內部一致性，各組成部分之間的一致性和試卷與其它測試的關系。

在本項研究中，由于試卷內部一致性和試卷與其它測試的關系在1.1和1.2中已經進行了探討，因此，筆者從試卷內部組成部分的一致性角度對五套試題的構念效度進行檢驗。檢驗結果如下：

Correlation Matrix of Test One

ONE ? ? TWO ? ? THREE ? ? FOUR ? ? FIVE

ONE ? ? 1.0000

TWO ? ? .3691 ? ? 1.0000

THREE ? ? .3412 ? ? .5435 ? ? 1.0000

FOUR ? ? .3197 ? ? .3599 ? ? .5093 ? ? 1.0000

FIVE ? ? .3947 ? ? .3144 ? ? .3385 ? ? .4104 ? ? 1.0000

Correlation Matrix of Test Two

ONE ? ? TWO ? ? THREE ? ? FOUR ? ? FIVE

ONE ? ? 1.0000

TWO ? ? .2150 ? ? 1.0000

THREE ? ? .2220 ? ? .4837 ? ? 1.0000

FOUR ? ? .3513 ? ? .4728 ? ? .3724 ? ? 1.0000

FIVE ? ? .3862 ? ? .4914 ? ? .5130 ? ? .5874 ? ? 1.0000

Correlation Matrix of Test Three

ONE ? ? TWO ? ? THREE ? ? FOUR

ONE ? ? 1.0000

TWO ? ? .2758 ? ? 1.0000

THREE ? ? .2989 ? ? .3147 ? ? 1.0000

FOUR ? ? .1805 ? ? .3027 ? ? .3090 ? ? 1.0000

Correlation Matrix of Test Four

ONE ? ? TWO ? ? THREE ? ? FOUR

ONE ? ? 1.0000

TWO ? ? .3361 ? ? 1.0000

THREE ? ? .0890 ? ? .0488 ? ? 1.0000

FOUR ? ? .2236 ? ? .3471 ? ? .1737 ? ? 1.0000

Correlation Matrix of Test Five

ONE ? ? TWO ? ? THREE ? ? FOUR ? ? FIVE

ONE ? ? 1.0000

TWO ? ? .2329 ? ? 1.0000

THREE ? ? .2411 ? ? .0099 ? ?1.0000

FOUR ? ? .3775 ? ? .2545 ? ? .0004 ? ? 1.0000

FIVE ? ? .5524 ? ? .1926 ? ?.1204 ? ? .3351 ? ? 1.0000

從以上數據中可以看出，相關性最差的是測試五的第三和第四部分，相關系數低至0.0004，而相關性最好的是測試二的第四部分和第五部分，相關系數達到了0.5874。而從五套測試的整體情況看來，可以說構念效度并沒有預期的那么理想。首先，就測試一而言，數據顯示各項相關系數值均高于0.20，這也就是說，測試一內的各個部分之間有一定的聯系，在第二部分和第三部分，第三部分和第四部分，以及第四部分和第五部分之間的相關系數都高于0.40，可以被看做是具有相關性的。然而，在第一部分和其它部分，第二部分和第四、第五部分，第三部分和第五部分則幾乎不相關。與測試一相似的是，測試二中的第二和第三部分，第三和第五部分，第四和第五部分可以被看做相關，而其它部分幾乎不相關。在測試三、測試四和測試五中的內部關系問題更大，只有測試四中的第二和第三部分，測試五中的第一和第五部分可以被看做相關，而其它部分的相關性都非常低，更有甚者，有一些部分直接不相關，如測試四的第一和第三部分，第二和第三部分，測試五的第二和第三部分，第三和第四部分。

盡管從數據中無法判定從試題庫中抽取的測試卷內的各個部分測試了同樣的構念，但是，還是可以做出以下兩個推斷。第一，某些英語聽力課程中所要求培養的聽力技能，其發展是獨立的，這在測試分析中它們和其它技能的關系里可以體現出來。例如測試五中第三部分與第五部分相關性非常弱，由此可以推斷，學習者理解對話的能力發展與概括總結能力的發展是各自進行的。其次，英語聽力課程中要求的某些聽力技能，其發展是互相促進的，也就是說，某一技能的發展會同時帶動另外一項技能的改善。例如，在測試五中第一部分和第五部分的相關系數為0.554，由此可以推斷，單詞和句子聽寫的能力發展與概括總結能力的發展密切相關。

四結論

但就測試的信度和效度這兩項基本要素而言，從該教師自行構建的聽力測試題庫中隨機抽取出來的五套試卷的質量是基本令人滿意的。從信度上來看，即使是在0.01的顯著性水平上，五套試題的外部信度都非常理想，而五套試題的內部信度平均值達到了0.66，這一數值也超過了0.60的臨界值，在分別討論這五套試題時，只有測試四還有待進一步的分析。就效度而言，在表面效度和內容效度這兩項形成性測試中較為關鍵的效度證據方面，五套試題都是理想的，然而所測試的構念方面，每套試題內部各個部分的一致性并不理想，筆者推斷這可能是由于英語聽力課程中所要求的各項技能的發展各有特點，有些技能的發展相互依賴，相互促進，而某些技能的發展各自獨立這一原因造成的，而這一觀點的驗證，需要深入聽力課堂教學中。

在本項研究中，筆者從信度和效度兩個方面對教師自行構建的英語聽力測試題庫進行了有效性驗證，從這一角度證實了英語聽力測試試題庫的可靠性和實用性。但是，聽力測試題庫的構建是一個動態的、長期的過程，要想真正使其在教師日常的形成性測試中發揮其作用，首先還需要對試題庫中的試題難易度、區分度進行深入的項目分析，以保證試題項目的質量；其次還需要對試題庫進行不斷的擴充，以滿足試題抽取的需要；再次，由于聽力測試不單需要文本試卷，還需要配套音頻的這一特點，還需要加強適用于英語聽力試題庫的軟件的開發。

[1]Bachman,L.F.Fundamental Considerations in Language Testing[M].Shanghai:Shanghai Foreign Language Education Press,1999.

[2]Davies,A.Three heresies of language testing research[J].Language Testing,2000,(20):355.

[3]Gueerrero,M.D.The unified validity of the four skills exam[M].Applying Messick’s framework.Language Testing,2003,(17):397- 421.

[4]Heaton,J. B.Writing English Language Tests[M].Beijing: Foreign Language Teaching and Research Press,2000.

[5]Henning,G.A Guide to Language Testing:Development,Evaluation and Research[M].Beijing:Foreign Language Teaching and Research Press,2001.

[6]Moss,P.A.Can there be validity without reliability[J].Educational Researcher,1994,(2):5-12.

[7]Shepard,L.A.Evaluating test validity[J].Review of Research in Education.1993,(19):405-450.

[8]王建忠,等.考試系統中題庫量與試題量的關系研究[J].計算機應用研究,2010,(2):611-613.

[9]楊端和.語言研究應用SPSS軟件實例大全[M].北京:中國社會科學出版社,2004.

[10]張厚粲,徐建平.現代心理與教育統計學[M].北京:北京師范大學出版社,2004.

（責任編校：張京華）

2016－11－12

保山學院2014年立項校級質量工程項目“專業英語聽力教學團隊”（項目編號14B001TJ）。

蘭娟（1982－），女，云南保山人，保山學院外國語學院講師，研究方向為語言測試與評價。

H319

1673-2219（2017）01-0128-05

湖南科技學院學報2017年1期

湖南科技學院學報的其它文章: 高校治理結構優化與治理阻力化解探析; 大學生軟技能“兩協同、三途徑”培養體系構建; 基于U-S合作的生涯主題課程范式設計及平臺開發研究; 甲午戰爭對晚清湖南慈善事業發展的“拐點”作用分析; 提升高校學生黨支部組織生活實效性研究; 陳雁谷致劉迪耕論柳宗元書

教師自行構建校內英語聽力題庫的有效性研究——以保山學院為例

一 試題庫構成情況

二 測試實施

三 有效性驗證

四 結 論

一　試題庫構成情況

二　測試實施

三有效性驗證

四結論