HSK[高級]客觀卷的構想效度初探

2012-01-03 09:21:00龔君冉

中國考試 2012年8期

龔君冉

HSK[高級]客觀卷的構想效度初探

龔君冉

本文通過因素分析的方法來檢驗HSK[高級]客觀卷的構想效度，同時比較了用相關矩陣和協方差矩陣進行主成分分析，以及用Promax方法和Direct Oblimin方法進行斜交旋轉的結果。從5份試卷共1 343名被試所得的數據顯示，HSK[高級]客觀卷可能測到了“綜合的語言能力”和“長閱讀能力”。

HSK[高級]；構想效度；因素分析

HSK是為測試母語為非漢語者的漢語水平而設立的一種標準化考試。HSK（改進版）是在原版HSK的基礎上進行的改進，包括初級、中級和高級三個等級。一個語言測驗的構想效度如何，是否測出了它假設要測的語言能力，是測驗編制者非常關心的問題。關于原版HSK的構想效度，已經有了大量的研究，如張凱（1995）、郭樹軍（1995）、陳宏（1999）、李慧、朱軍梅（2004）和王小玲（2006）等，大部分研究認為原版HSK（初、中等）主要考了“聽”“讀”兩種能力。[1]-[5]HSK（改進版）問世之后，對其構想效度的研究也逐步展開。李桂梅（2009）認為HSK[中級]客觀卷未能考查“聽”和“讀”的能力，而是考查了“聽、讀的綜合能力”。[6]趙琪鳳（2010）考查了HSK[高級]客觀卷的聽力理解分測驗，認為該分測驗考查出了“聽力能力”。[7]

本文希望通過因素分析的方法來全面考查HSK[高級]客觀卷的構想效度，檢驗其是否達到了設計目標。

1 HSK[高級]的理論模型和試卷構成

《漢語水平考試（HSK）改進方案》中明確指出，HSK（改進版）每個等級的客觀卷，均只有“聽力理解”和“綜合閱讀”兩種分測驗，目的是要讓被試分別從“聽”和“讀”兩個通道來接受刺激，并對刺激做出反應。[8]HSK[高級]客觀卷的試卷構成如表1所示。

表1 HSK[高級]客觀卷的試卷構成

與改進版HSK[初級]和HSK[中級]不同的是，HSK[高級]客觀卷分成了卷一和卷二兩部分，卷二在卷一收回后再發，目的是確保被試只能用10分鐘來答題。因此本文首先假設HSK[高級]客觀卷希望考查被試在“聽力理解”、“綜合閱讀”和“速度”三個方面的潛在能力，并將這一構想操作性地定義為：

聽力理解能力——在L1、L2、L3三種題型上的表現。

綜合閱讀能力——在R1、R2、R3三種題型上的表現。

速度——在R4一種題型上的表現。

2 統計分析

因素分析是一種統計技術，它的目的是從為數眾多的可觀測的“變量”中概括和推論出少數的“因素”，用最少的“因素”來概括和解釋最大量的觀測事實，從而建立起最簡潔、最基本的概念系統，揭示出事物之間最本質的聯系。[9]

本文采用因素分析方法來檢驗HSK[高級]的構想效度，所有數據均由SPSS11.0統計軟件產生。

2.1 觀測變量

對HSK[高級]客觀卷的觀測變量為L1至R4共7個題型。

2.2 材料

截至2011年6月，HSK[高級]正式考試一共使用了5份試卷，如表2所示。

表2 5份試卷的主要技術指標

由表2可見，5份試卷的樣本量差距較大，也不太接近正態分布，但α系數都在0.8以上，有較高的信度。

2.3 因素分析操作過程

2.3.1 因素分析適合性檢驗

首先應進行KMO和Bartlett球形檢驗，以確定是否適合進行因素分析。

結果顯示只有A82的KMO值是0.891，其他4份試卷都在0.9以上，Bartlett球形檢驗結果也都顯著。說明采樣充足，且變量間的相關素數矩陣適合進行因素分析。

2.3.2 用主成分分析法提取公共因素

由于樣本不太接近正態分布，所以本文采用主成分分析法來提取公共因素。

2.3.2.1 用相關矩陣還是用協方差矩陣之辯

對于應該使用相關矩陣還是用協方差矩陣來提取公共因素，存在一些不同的看法。一種觀點是應從變量的性質角度來看，也許最好的方法是只使用原始分數，就是說，把協方差矩陣作為分析的基礎，除非有很好的理由支持標準化……如果變量均屬于同一類型，例如不同語言測試的一組分數，分析的對象就應該是原來的形式。[10]（筆者按：“原來的形式”指用“協方差矩陣”）

而很多人從變量的數值角度考慮，認為在利用協方差矩陣進行主成分分析時，一種心照不宣的假定是：變量的方差不應相差太大。否則前幾個主成分將朝著那幾個有較大方差的變量的方向被抽取……一般對于這種方差相差很大的情況，為了防止主成分分解趨向方差大的變量，應該先將數據標準化，然后從相關矩陣出發來進行主成分分析。[11]

那么對于本文所使用的材料來說，其變量從性質看是屬于同一類型，應該用協方差矩陣；但是從數值上看，各變量的方差又有很大差距，如5套卷子R3的方差在38.20到64.19，而R4的方差在3.77到4.95，則應該用相關矩陣。鑒于這種情況，本文兩種矩陣都用，以便進行綜合分析。

2.3.2.2 第一次提取公共因素

通過用兩種矩陣對5份試卷分別提取3個公共因素發現，不論用哪種矩陣，5份試卷按照Kaiser原則都只能抽一個特征值＞1的因素，之后第二個因素基本在0.7左右，第三個因素基本在0.5左右。按照Jolife原則，特征值＞0.7也是可以接受的公共因素，那么只能接受前兩個因素，而排除第三個因素。

出現這種情況，或者理論假設不對，或者測驗不是對理論的好的操作性定義，或者理論假設和測驗都有問題。[12]那么問題究竟在哪兒呢？我們初步認為問題可能出在理論假設和操作性定義上。

再次分析HSK[高級]客觀卷的試卷構成（見表1）可以發現，R4只有10道題目，占全部試題的6.7%；而L1、L2、L3共有60道題目，占40%；R1、R2、R3共有80道題目，占53%。這種試題比例上的不均衡，很可能造成即使有“速度”因素，也會由于主成分分析法是計算所有變量共同解釋的變異量，而使變量在“速度”上的負荷不顯著。

因此我們重新按照試卷構成假設HSK[高級]客觀卷的理論模型，認為HSK[高級]客觀卷主要考查被試在“聽力理解”、“綜合閱讀”兩個方面的潛在能力，并重新操作性地定義為：

聽力理解能力——在L1、L2、L3三種題型上的表現。

綜合閱讀能力——在R1、R2、R3、R4四種題型上的表現。

2.3.2.3 第二次提取公共因素

按照新的操作性定義，我們再次用兩種矩陣對5份試卷分別提取2個公共因素，得到了各自的初始負荷矩陣（Component Matrix），見表3和表4。為了方便進行比較，本文用協方差矩陣算出的負荷值都顯示標準化后的，并將絕對值大于0.4視為有較大負荷，以*號表示。

通過比較表3和表4可以發現：

（1）不論使用哪種矩陣，總的看來，2個因素在5份試卷上的特征值、方差貢獻率和累計方差貢獻率差別不大。

表3 用相關矩陣進行主成分提取后的初始負荷矩陣

表4 用協方差矩陣進行主成分提取后的初始負荷矩陣

（2）不論使用哪種矩陣，5份試卷的7個變量在F1上都有較高的負荷，但在F2的負荷上有一些不同。用相關矩陣只有R4在F2上有高負荷，用協方差矩陣L1、R1、R2、R3都有至少1份試卷在F2上有高負荷，R4在F2上卻沒有高負荷。

2.3.3 旋轉初始負荷矩陣

由于語言測驗的因素之間可能相互有關聯，所以多采用斜交方法進行旋轉。前人的研究多用Pro?max方法或Direct Oblimin方法，因此我們這兩種旋轉方法都使用，以便分析比較，具體結果見表5～表8：

下面我們用三個標準對表5～表8進行分析比較：

（1）超平面數

旋轉的目的在于使經過旋轉的因素負荷矩陣中的每一個變量都只負荷于少數的因素上，而矩陣中0或接近于0的負荷量則越多越好。這樣，就會使對各因素的解釋工作變得簡單易行。[13]超平面數是指一個因素或一組因素中接近于0（-.10＜W＜+.10）的負荷數目，這是評價不同旋轉方法的客觀指標。[14]超平面數在負荷矩陣所有元素中所占的比例可以作為一種評價因素分析結果的標準。[15]該比例越高越好。

（2）正負荷數

旋轉后的負荷矩陣應呈現盡可能多的正負荷。這一點在關于能力的測量中尤為有用。因為能力變量與能力因素的負荷一般應是正的。[16]我們用整個矩陣中正負荷數與全部負荷的數目的比例來衡量這一標準，比例越高越好。

（3）非顯著負荷數

我們認為非顯著負荷數可以近似地看成超平面數的擴大化。

表5 用相關矩陣提取后用Direct Oblimin方法旋轉后的負荷矩陣

表6 用相關矩陣提取后用Promax方法旋轉后的負荷矩陣

表7 用協方差矩陣提取后用Direct Oblimin方法旋轉后的負荷矩陣

由于因素負荷就是變量與因素間的相關系數，那么矩陣中的一些負荷雖然不接近0，但是小于相關系數顯著性水平的臨界值，那么也不能說明變量與因素之間的相關有統計上的顯著性，在分析時就可以忽略掉，符合因素分析的簡單原則。可以用矩陣中非顯著負荷數和與全部負荷數的比例來衡量這一指標，比例越高越好。

由于5份試卷的樣本量不同，在雙尾α=.01的檢驗水平下，因素負荷在統計上顯著的值也不同，通過查顯著性水平相關系數表，得到5份試卷各自的臨界值見表9：

表9 雙尾α=.01的檢驗水平下5份試卷各自的臨界值

使用上面3個標準對使用兩種矩陣和兩種旋轉方法進行比較，見表10：

總的看來，用協方差矩陣提取公共因素后用Promax方法進行旋轉是最優的選擇。

但是使用哪種矩陣和哪種旋轉方法不僅有量上的區別，更有質上的差異。把表5～表8綜合成表11，可以看得更清楚：

表10 用3個標準比較兩種矩陣和兩種旋轉方法

通過表11可以發現：

（1）總的看來，5份試卷不論用哪種矩陣和哪種旋轉方法，從L1到R2都基本負荷在F1上，R3基本負荷在F2上。

（2）不論用哪種矩陣，兩種旋轉方法間的差異不大，在顯著程度上不一致的只占5.7%，（在表11中用黑框標出）。

（3）R4比較特殊，用相關矩陣時比較顯著地負荷在F2上，而用協方差矩陣時并沒有顯著地負荷在F2上。

（4）A71卷也有一些特殊，用相關矩陣時與其他4份試卷相比，在因素負荷上有較大差別。

因此可以說，如果一次檢驗只用A71卷的相關矩陣，另一次檢驗只用A01的協方差矩陣，來檢驗HSK[高級]客觀卷的構想效度，會得出很不同的結論。

2.3.4 結果對理論模型的擬合程度及因素的命名

總的來看，因素分析的結果與理論模型擬合得并不十分理想。

由于從L1到R2都基本負荷在F1上，所以不能認為F1就是理論假設的“聽力理解能力”或“綜合閱讀能力”。由于整套試卷都用多項選擇作為答題方式，所以聽力理解分測驗也會不可避免地有閱讀因素，尤其是L3，被試在答題時需要閱讀一段一二百字的摘要。這在A82卷上有明顯的體現，其L3部分在F2上也有較高負荷。由于F1可能涉及聽力理解、語法和短閱讀等能力，因此我們暫且將其命名為“綜合的語言能力”。

綜合5份試卷使用兩種矩陣和兩種旋轉方法的結果來看，可以近似地認為R3、R4負荷在F2上，那么這兩種題型可能單獨考查了一種能力。這種能力當然不是理論假設的“聽力理解能力”，而且也不能認為是“綜合閱讀能力”，因為R1、R2在這個因素上的負荷都不高。研究R3、R4這兩種題型可以發現，它們都是通過長段閱讀的刺激來進行反應。那么我們暫且將F2命名為“長閱讀能力”。

3 討論

3.1 關于因素分析方法

首先，從本次研究的數據來看，用相關矩陣和用協方差矩陣的差異并不主要體現在提取主成分時，而是在旋轉之后有了更明顯的不同。如果使用同一種矩陣提取主成分，兩種旋轉方法的差異僅在用協方差矩陣提取時R3、R4負荷的正負上有表現。

總的看來，提取主成分時矩陣的選擇，會影響到旋轉后的結果，而且其影響可能要大于選擇不同的旋轉方法。這也可以說是從一個側面支持了“只有主成分提取是可靠的，因素的旋轉不是很可靠，變數較大”[17]的觀點。

其次，本文的研究過程顯示，因素分析方法需要用不同的樣本多次進行檢驗，如果只進行一次分析不一定能得出可靠的結論。

3.2 關于HSK[高級]客觀卷的構想效度

僅就本文的研究數據而言，我們只能謹慎地認為HSK[高級]客觀卷可能測到了一個至少包含了聽力理解、語法和短閱讀等的“綜合的語言能力”，并或許測到了一種“長閱讀能力”。這一結果與前人對原版HSK和改進版HSK所進行的研究都有一定區別。HSK[高級]客觀卷的構想效度究竟如何，還有待于用其他方法、用更多的樣本進行進一步的檢驗。

表11 5份試卷用兩種矩陣和兩種旋轉方法結果對比（只顯示顯著負荷）

[1]張凱.漢語水平考試結構效度初探.首屆漢語考試國際學術研討會論文選.北京：北京語言學院出版社.1995.

[2]郭樹軍.漢語水平考試（HSK）項目內部結構效度檢驗.漢語水平考試研究論文選.北京：現代出版社.1995.

[3]陳宏.語言能力測驗的結構效度檢驗及其意義.世界漢語教學，1999（1）.

[4]李慧，朱軍梅.漢語水平考試J324卷構想效度的驗證研究.考試研究文集(第2輯).北京：經濟科學出版社.2004.

[5]王小玲.HSK初中等效度研究報告.語言教學與研究，2006（6）.

[6]李桂梅.HSK[中級]主觀卷構想效度研究.考試研究，2009（1）.

[7]趙琪鳳.HSK[高級]聽力理解分測驗新題型檢驗.中國漢語水平考試HSK（改進版）研究.北京：北京語言大學出版社.2010.

[8]北京語言大學漢語水平考試中心“HSK改進工作”項目組.漢語水平考試（HSK）改進方案.世界漢語教學，2007（2）.

[9][14][15][16]謝小慶，王麗.因素分析.北京:中國社會科學出版社.1989：2，146，114，115.

[10][17]Anthony Woods，等.陳小荷，等，譯.語言研究中的統計方法.北京：北京語言文化大學出版社.2000：298，298.

[11]柯惠新，沈浩.調查研究中的統計分析法（第2版）.北京：中國傳媒大學出版社.2005：433.

[12]張凱.語言測驗理論與實踐.北京：北京語言文化大學出版社.2002：154.

[13]袁方，王漢生.社會研究方法教程.北京：北京大學出版社.1997：604.

A Constructive Validity Research in Chinese Proficiency Test HSK(Advanced)

GONG Junran

This paper uses the factor analysis to test the constructive validity of HSK(Advanced)subjective test papers,and also makes comparison between using correlation matrix and covariance matrix for extraction,and makes comparison between using promax and direct oblimin for rotation.According to the result from all together 1343 test takes on five sets of HSK(Advanced)subjective test papers,the paper indicates that“general language competence”and“long paragraph reading comprehension competence”probably are tested in the test.

HSK(Advanced)；Constructive Validity;Factor Analysis

G405

1005-8427(2012)08-0003-8

本文為北京語言大學青年自主科研支持計劃資助項目（中央高校基本科研業務費專項資金資助）（項目批準號09JBG01）階段性成果，同時受到北京語言大學校級項目（中央高校基本科研業務費專項資金資助）（項目批準號：12YBG039）資助，謹致謝忱！

北京語言大學