張晉軍 張慧君 張鐵英 符華均 黃賀臣
新漢語水平考試HSK(六級)是新HSK筆試難度最高的等級。為使不同次考試的分?jǐn)?shù)具有可比性,使參加不同次考試的考生得到公平對待,HSK(六級)拼卷人員采取“內(nèi)容均衡、形式統(tǒng)一、篇幅控制”等措施,努力使不同試卷在難度上保持一致。通過預(yù)測,可以更好地控制試卷難度。但預(yù)測有試題曝光的風(fēng)險,須投入一定的人力物力,同時其準(zhǔn)確性受各種條件的限制。如果不預(yù)測,試卷難度控制就更為關(guān)鍵。考試結(jié)束后,統(tǒng)計人員還要對分?jǐn)?shù)進(jìn)行等值處理。
HSK(六級)在試卷難度控制方面效果如何?試卷難度信息能為等值提供什么借鑒?我們擬通過對2011年全球8次HSK(六級)考試的數(shù)據(jù)進(jìn)行統(tǒng)計分析,來嘗試回答上述問題。
2011年,HSK(六級)在全球組織了8次考試,使用了8套試卷,考生共計36 484人,其中韓國籍考生25 939人,占全體考生的71.10%。具體信息見表1、表2。

表1

表2
要考查HSK(六級)不同試卷的難度差別,有兩種方法。一是正式考試時,在不同試卷中安置共同題,通過不同次考生在共同題上的表現(xiàn)來推測不同試卷的難度差。但是為應(yīng)對應(yīng)試沖擊,新HSK試題的使用是一次性的,不同試卷中不包含相同的試題。二是組織一批考生,將多套試卷都考一遍,考生是相同的,考生的水平?jīng)]有發(fā)生變化,那考生在不同試卷上的分差就是試卷難度差。這基本上也不具有可操作性。
通過表1可以看出,HSK(六級)每次考試,全球考生數(shù)量都在2 700人以上。如果將不同次考試的考生看做是總體考生的若干個隨機(jī)樣本,我們就可以假設(shè)他們具有相同或近似的漢語水平。這樣的話,不同次考試的考生在不同試卷上的得分差異就可視為試卷難度差。由此,在一定程度上,我們就可以對HSK(六級)不同試卷難度控制的質(zhì)量做出評價。
通過表1、表2可以看出,每次考試,韓國籍考生數(shù)量都在2 400人以上。因此,我們還可以韓國籍考生為統(tǒng)計對象,評價HSK(六級)不同試卷難度控制的質(zhì)量。
HSK(六級)含聽力、閱讀、書寫三部分。本文使用的是這8次考試的原始分?jǐn)?shù)據(jù),只對客觀題聽力分、閱讀分進(jìn)行統(tǒng)計分析,未對主觀題書寫分做統(tǒng)計分析。
HSK(六級)聽力50題,閱讀50題。我們統(tǒng)計了HSK(六級)2011年8次考試全球考生、韓國籍考生的聽力、閱讀平均分。具體信息見表3。

表3
HSK(六級)聽力、閱讀原始分滿分都是50分。通過表3可以看出,全球考生聽力平均分普遍高于閱讀平均分。聽力平均分在34.36~40.60分波動,波動范圍為6.24分,均值為37.36分。閱讀平均分在30.63~34.34分波動,波動范圍為3.71分,均值為32.34分。聽力平均分均值為37.36分,閱讀平均分均值為32.34分,相差5.02分。
韓國籍考生聽力平均分普遍高于閱讀平均分。聽力平均分在34.17~38.55分波動,波動范圍為4.38分,均值為36.76分。閱讀平均分在29.00~32.48分波動,波動范圍為3.48分,均值為31.35分。聽力平均分均值為36.76分,閱讀平均分均值為31.35分,相差5.41分。
8次考試全球考生相關(guān)數(shù)據(jù)如圖1所示,8次考試韓國籍考生相關(guān)數(shù)據(jù)如圖2所示。

圖1

圖2
新加坡考生漢語水平普遍較高。統(tǒng)計顯示,4月考試,新加坡考生占全體考生的11.62%;6月考試,新加坡考生占全體考生的20.84%;其他6次考試的比例則都在2%以下。新加坡考生對4月、6月考試全球考生平均分有拉高的影響,會造成對4月、6月使用試卷難度系數(shù)的高估。
根據(jù)上述統(tǒng)計分析可以發(fā)現(xiàn),HSK(六級)8次考試,聽力分普遍高于閱讀分,相差5分左右。聽力分在35~40分波動,閱讀分在30~35分波動。這種波動較為穩(wěn)定,反映了HSK(六級)試卷難度控制的現(xiàn)有水平。評價HSK(六級)試卷難度控制的質(zhì)量,可以韓國籍考生為統(tǒng)計對象,也可以剔除新加坡籍等特殊考生群體的全球考生為統(tǒng)計對象。
新HSK最初采用“共同題等值法”實現(xiàn)等值,但很快就在應(yīng)試培訓(xùn)的沖擊下放棄了這種等值方法。“共同組等值法”則因缺少可操作性,一直未能派上用場。在對HSK(六級)難度控制的研究過程中,我們發(fā)現(xiàn),新HSK可以嘗試使用“平均分等值法”來實現(xiàn)等值。其假設(shè)是,在每次考試有足夠數(shù)量、足夠代表性考生的前提下,不同次考試考生群體的漢語水平相同或相似。如果某次考試聽力平均分偏高,意味著聽力分測驗可能偏易,需要減分;閱讀平均分偏低,意味著閱讀分測驗可能偏難,需要加分。結(jié)合圖1來看,如果下次考試,聽力平均分在35~39分,可能就不做調(diào)整。但如果在這個區(qū)間之外,我們就須加分或減分,調(diào)整幅度由相關(guān)人員集體討論確定。這是一種粗略的等值方法,但它簡便易行,可操作性強(qiáng)。
在聽力均值線和閱讀均值線的確定上,“平均分等值法”有兩種選擇。一是將其固定,比如選擇近三年來的20次考試,獲得聽力、閱讀平均分均值線,今后的考試圍繞這兩條均值線做調(diào)整。二是將其動態(tài)化,每次考試都圍繞之前所有考試形成的均值線做調(diào)整。
[1] 謝小慶.對15種測驗等值方法的比較研究[J].心理學(xué)報,2000.
[2] 謝小慶.關(guān)于HSK等值的試驗研究[J].世界漢語教學(xué),1998(2).
[3] 謝小慶.HSK和MHK的等值[J].考試研究,2005(4).
[4] 謝小慶.考試分?jǐn)?shù)等值的新框架[J].考試研究,2008(2).
[5] 謝小慶,任杰.關(guān)于HSK等值改進(jìn)的一項實驗研究[J].世界漢語教學(xué),2006.
[6] 謝小慶,任杰.HSK等值方法的改進(jìn).對外漢語教學(xué)的全方位探索[M].商務(wù)印書館.2005.
[7] 約瑟夫·M·瑞安(美).基于經(jīng)典測量理論和項目反應(yīng)理論的等值與連接(一)[M].考試研究.2001(1).
[8] 約瑟夫·M·瑞安(美).基于經(jīng)典測量理論和項目反應(yīng)理論的等值與連接(二)[M].考試研究.2001(2).
[9] 約瑟夫·M·瑞安(美).基于經(jīng)典測量理論和項目反應(yīng)理論的等值與連接(三)[M].考試研究.2001(3).
[10] 張晉軍.關(guān)于漢語水平考試(HSK)等值設(shè)計的新思考[J].中國考試,2008(8).
[11] 張晉軍.國家職業(yè)漢語能力測試(ZHC)拼卷工作介紹[J].中國考試,2007(1).