李光澤
(福建師范大學 外國語學院,福州 350007)
典型相關分析及其在外語教育研究中的應用
李光澤
(福建師范大學 外國語學院,福州 350007)
定量實證研究在我國外語教育研究領域取得了長足的進步,但也暴露了方法論方面的一些問題,因而加強外語教育研究方法論的訓練仍是一項長期而艱巨的基礎性工作。通過介紹典型相關分析(Canonical Correlation Analysis)并結合實例詳細討論其在外語教育研究中的具體應用表明,作為研究兩組變量相關關系的多元統計分析方法,典型相關分析在處理兩組變量的相關性問題上明顯優于簡單相關分析、多元回歸分析和因素分析。而且,由于外語學習過程的多因素特征,典型相關分析在外語教育研究領域具有廣闊的應用前景。
典型相關分析;基本原理;SPSS軟件操作;外語學習;外語教育研究
桂詩春和寧春巖曾對我國《外語教學與研究》《外國語》《外語界》《現代外語》等四本外語類核心期刊中的755篇文章加以統計和分析,結果發現80%的文章不依賴數據,大多使用簡單的思辨方法[1],而同一時期西方應用語言學的主流研究方法卻是定量研究或者說是基于數據的[2]。我國外語研究者的成果難登大雅之堂,其中最為根本的原因是缺乏方法論,尤其是研究設計與統計分析方面的訓練。隨著一些高校研究方法及統計學課程的陸續開設,以及相應的研究方法和統計教材的出版(如桂詩春、寧春巖的《語言學方法論》,劉潤清的《外語教學中的研究方法》,文秋芳的《應用語言學研究方法與論文寫作》,李紹山的《語言研究中的統計學》等),我國外語教育的定量實證研究取得了長足的進步,對外語類核心期刊(2000—2009年)的最新統計顯示定量實證研究在我國外語教育研究中處于主導地位[3]。然而,一些研究也暴露了嚴重的統計誤用或亂用現象,其中有統計方法運用不恰當問題[4-5],甚至出現虛構統計推斷結果問題[6]。可見,加強我國外語教育研究方法的教學與訓練依然任重道遠。
典型相關分析(Canonical Correlation Analysis)是研究兩組變量之間相關關系的多元分析方法。早在1936年,Hotelling就首先提出這種方法的基本思想和分析框架[7]。然而,典型相關分析的實際應用是直到統計軟件的問世之后才開始的。雖然,典型相關分析目前已經在教育學、心理學、行為科學和社會學等領域得到廣泛的應用,但在外語教育研究領域的具體應用屈指可數。不過,隨著外語教育研究的深入,需要納入考察的因素將不斷增加,典型相關分析的應用也會越來越廣泛。外語學習不僅涉及語言能力和語用能力的中介語系統,還受到智力、年齡、性別、學能、動機、策略、風格等學習者內部因素以及包括社會環境、家庭環境、學校環境、課堂環境和教學方法的學習者外部因素的影響[8],這就意味著外語教育研究必然要考察這些因素和它們之間可能存在的關系,及其對外語學習者語言能力發展的影響??梢灶A見,涉及多個因素或多個變量的典型相關分析在外語教育研究領域具有廣闊的應用前景。本文的目的在于介紹典型相關分析的基本思想、適用對象和范圍以及具體的SPSS統計軟件操作,并結合一項有關外語學習的研究案例剖析典型相關分析的實際應用。
在外語教育研究中,需要研究兩組變量之間關系的情況頗為常見,例如外語學習的學習觀念與學習動機的關系研究[9],其中,學習觀念包括語言學習的價值與性質、講話的自信心、正式的結構學習、語言學習能力等4個維度,學習動機含有自我效能、功利性行為目標、工作-回避目標傾向、掌握目標傾向、自我與社會行為目標、控制焦點等6個維度。又如英語學習者學習策略與課堂行為之間的關系研究[10],同樣涉及兩組變量,其中,學習策略包括記憶策略、認知策略、補償策略、元認知策略、情感策略、社會策略等6個方面,課堂行為包括口頭參與、學習取向、爭強好勝、尋求幫助、自我表露、自信、與同學交往等7個方面。
要探討上述研究中兩組變量之間的關系,哪種數據分析方法最為合適呢?根據 Cooley和Lohnes《多元數據分析》一書的相關討論[11],可以嘗試以下幾種統計分析方法。第一種是使用簡單相關分析(simple correlation)來確定兩組變量中各個變量之間的相關程度,兩組中各變量之間的相關程度可能很高,但其結果無法使我們理解兩組變量之間的整體性、實質性關系。第二種是多元回歸分析(multiple regression),即以第一組變量為預測變量,另一組中的一個變量為被預測變量。這種分析方法需要多次運行回歸分析,不足之處是多次操作多元回歸分析難以避免統計中一類錯誤(TypeⅠerror)的產生,同時也僅僅考察了兩組變量在一個方向上的關系。第三種分析方法是先分別進行組內的因素分析(factor analysis),然后用產生的因素分數做相關分析。這種分析方法也有較大局限性,因為因素分析只關心抽取組內的共同變異(common variance),對于可能出現確定兩組變量關系至關重要的特定變異(specific variance)沒有抽出,因此有可能導致構成兩組變量共同變異的一些重要成分的喪失。
典型相關分析能夠克服以上統計分析方法的諸多不足,凸現分析這類變量組之間關聯程度的優越性。典型相關分析方法探究的是兩組變量之間整體的線性相關關系,即將每一組變量視為一個整體加以考察而不是分析組內各個變量。從理論上講,典型相關分析借用了主成分分析(Principal Components Analysis)降維的思想,分別對兩組變量抽取主成分,然后使得兩組變量所抽取的主成分之間的相關程度最大化,而同一組內抽取的各主成分互不相關。典型相關分析正是利用其中兩組變量所抽取的主成分的相關系數描述兩組變量整體的相關關系。
在具體分析過程中,盡管兩組變量之間的關系是雙向的,人們通常把兩組變量分別稱為預測變量組(predictor variables set)和效標變量組(criterion variables set),所包含的變量也相應被稱為預測變量(predictor variable)和效標變量(criterion variable)。從兩組變量中抽取產生的主成分之間的相關就是典型相關,主成分也相應被稱為典型變量(canonical variates),它們之間的簡單相關系數為典型相關系數(canonical correlations)。第一對典型相關的相關程度最高,隨后的典型相關系數依次變小。典型相關分析產生的典型相關的對數(pairs)與兩組中較少的變量數相一致。具體說來,典型相關分析可以實現三個層次的分析[12](見圖1):
(1)探討各對典型變量是否顯著相關,如典型變量P1與C1,P2與C2;
(2)探討每個原始變量與他們相對應的典型變量之間的相關程度,如原始變量X1、X2、X3與典型變量 P1,原始變量 Y1、Y2與典型變量 C1,等等;
(3)探討各典型變量對兩個原始變量組整體的變異解釋程度,如典型變量P1對原始變量組P的變異解釋,以及對原始變量組C的變異解釋,等等。

圖1 變量組P與變量組C的典型相關分析
典型相關分析可以通過SPSS、STATA和SAS等統計軟件實現,本文僅介紹常用的SPSS統計軟件操作。在SPSS中,有兩種方法可進行典型相關分析,第一種是采用MANOVA分析,第二種是使用專門的典型相關分析宏程序。這兩種方法都是運行簡單的命令來完成分析。兩種命令程序分別如下(前面是MANOVA分析,后面是CANCORR宏程序):

在輸入命令語句的過程中要注意幾點。關于MANOVA分析,效標變量(Y1和 Y2)應置于WITH之前,而預測變量(X1,X2和X3)則緊跟其后。在CANCORR宏程序里,INCLUDE命令用于讀入典型相關的宏程序,宏程序所處的位置可能隨著SPSS的安裝目錄變化而有所不同。此外,INCLUDE和CANCORR兩個命令均應以實句點(.)結束。輸入上述程序后,選擇菜單Run→all運行程序,即可獲得典型相關分析的統計結果。
兩種方法分析所輸出的結果指標略有不同,本文只列舉CANCORR宏程序分析的結果。運行宏程序后,輸出的結果指標包括:
①第一組(預測變量組)組內變量之間的相關系數;②第二組(效標變量組)組內變量之間的相關系數;③第一組和第二組變量之間的相關系數;④典型變量之間的相關系數;⑤ 典型相關系數顯著性檢驗;⑥ 第一組的標準化典型相關系數(Standardized Canonical Coefficients);⑦ 第一組的原始典型系數(Raw Canonical Coefficients);⑧ 第二組的標準化典型相關系數(Standardized Canonical Coefficients);⑨第二組的原始典型系數(Raw Canonical Coefficients);⑩第一組的典型負載系數(Canonical loadings);? 第一組的交叉負載系數(Cross loadings);? 第二組的典型負載系數(Canonical loadings);? 第二組的交叉負載系數(Cross loadings);? 第一組各典型變量對第一原始變量組的變異解釋程度;? 第一組各典型變量對第二原始變量組的變異解釋程度;? 第二組各典型變量對第二原始變量組的變異解釋程度;?第二組各典型變量對第一原始變量組的變異解釋程度。
在上述的結果中,④、⑤、⑥、⑦、⑧和⑨屬于第一層次的典型變量之間相關情況分析;⑩、?、?和?屬于第二層次的原始變量與典型變量相關程度分析;?、?、?和?屬于第三層次的典型變量對原始變量組的變異解釋程度分析。另外,上述中有三個術語常見于典型相關分析:一是“標準化典型系數”,反映原始變量在典型變量中所占典型權重的大小;二是“典型負載系數”,是指原始變量與典型變量之間的簡單相關系數,反映原始變量與典型變量的共同方差;三是“交叉負載系數”,是指一個組中的原始變量與另一組中的典型變量之間的簡單相關關系,反映一組的原始變量與另一組典型變量的共同方差。
以典型相關分析為關鍵詞在中國期刊網查詢,結果發現目前國內應用典型相關分析開展外語教育實證研究僅有三例[10,13,14]。本文以高一虹等(2002)的《大學本科生英語學習動機類型與自我認同變化的關系》為例解析典型相關分析在外語教育研究領域的實際應用[13]。在這項研究中,動機類型包括7個維度(變量):內在興趣、成績動機、情景動機、出國動機、社會責任動機、個人發展和信息媒介動機。自我認同變化類型則包含了6個維度(變量):自信心變化、削減性變化、生產性變化、附加性變化、分裂性變化和零變化。如果要把握動機類型與自我認同類型的整體關系,或者要弄清哪些動機類型與哪些自我認同類型相關最大化,正如Cooley和Lohnes(1971)一書所指出的,簡單相關分析和多元回歸分析難于勝任,而典型相關分析使得回答這樣的問題成為可能[11]。
通過典型相關分析所獲得的結果可以粗略分為三大部分,即典型相關的三個層次分析:一是典型相關系數及顯著性檢驗,典型相關系數反映典型變量之間的相關程度;二是標準化典型系數和典型負載系數,它們反映原始變量(觀測變量)對典型變量的解釋力;三是典型冗余分析,冗余系數反映典型變量對原始變量組的貢獻力。
這項研究一共抽取了6對典型相關(動機類型的典型變量由X1到X6表示,自我變化的典型變量由Y1到Y6表示),隨后的顯著性檢驗表明,只有前4對典型變量顯著相關(P=0.000),見表1。英語學習動機與自我認同變化的關系主要反映在這4對典型相關關系上,因而它們是主要考察分析的對象。4對典型相關系數依次為:0.681(X1 - Y1),0.367(X2 - Y2),0.317(X3 - Y3),0.232(X4-Y4)。

表1 典型相關系數及顯著性
這部分主要反映了原始變量和典型變量之間的關系,即權重和相關程度(見表2)。典型負載系數反映原始觀測變量對典型變量的總影響,而標準化典型系數則反映原始觀測對典型變量的直接影響,即扣除與其它變量的共同作用后,原始變量對典型變量的影響。在第一對典型相關(X1-Y1)中,典型變量X1主要代表的觀測變量是內在興趣(典型負載系數(簡稱CL)為0.86,標準化典型系數(簡稱SC)為0.674),而典型變量Y1主要代表的觀測變量是生產性變化(CL為0.883,SC為0.577)。在第二對典型相關(X2-Y2)中,典型變量X2主要代表個人發展動機(CL為0.846,SC為0.897),典型變量Y2主要代表的原始觀測變量則是自信心變化(CL為 -0.784,SC為 -0.997)。
在第三對典型相關(X3-Y3)中,典型變量X3主要代表的原始觀測變量包括成績動機(CL為 -0.565,SC為 -0.429)、情景動機(CL為-0.61,SC為-0.52)和出國動機(CL為0.593,SC為0.601),典型變量Y3主要代表的觀測變量包含削減性變化(CL為-0.718,SC為-0.530)和分裂性變化(CL為 -0.748,SC為 -0.483)。在第四對典型相關(X4-Y4)中,典型變量X4主要代表的觀測變量是社會責任動機(CL為0.755,SC為0.834),典型變量Y4主要代表的觀測變量是分裂性變化(CL為0.459,SC為0.683)和生產性變化(CL為0.409,SC為0.836)。
根據上述分析,可進一步構建典型相關分析路徑模型[13],見圖2。在圖2中,每個典型變量根據自身的特點賦予了相應的名稱,以便分析和理解。典型相關模型清晰地展現了大學生英語學習動機與自我認同變化的內在關系,尤其是哪些學習動機類型與哪些自我認同類型密切關聯,例如內在興趣動機越強的學生在生產性、附加性自我認同方面的變化就越大,個人發展動機主要對學生的自信產生影響,等等。

表2 標準化典型系數和典型負載系數

圖2 英語學習動機與自我認同變化的典型相關分析路徑模型
冗余分析反映典型變量對原始變量組整體的變異解釋程度,即典型相關的第三層次分析,分為組內變異解釋和組間變異解釋。由表3可見,來自動機類型的典型變量X1、X2、X3、X4分別可以解釋動機變量組的31.95%、13.91%、21.58%和9.41%,4個典型變量累積可以解釋動機變量組的76.85%。同時,這4個典型變量分別還可以解釋自我認同變化變量組的14.81%、1.88%、2.17%和0.508%,累積解釋為19.36%。同樣,來自自我認同變化的典型變量Y1、Y2、Y3、Y4分別可以解釋自我認同變量組的22.33%、13.59%、15.75%和12.69%,累積解釋達64.37%,還可以分別解釋動機類型變量組的10.35%、1.83%、1.58%和0.69%,累積解釋為14.45%。通過冗余分析可以看出典型變量對原始變量組的整體影響,而其解釋程度則說明還存在沒有納入分析但發生作用的一些其它因素。

表3 典型冗余分析
顯而易見,上述的典型相關分析使得涉及13個變量的英語學習動機類型與自我認同變化的深層關系和整體圖景變得清晰,易于把握,最終得出兩個重要的研究發現:內在興趣動機與生產性、附加性變化聯系密切;個人發展動機與自信變化相關聯。
從以上有關典型相關分析的介紹和實例剖析,可以得出:(1)作為研究兩組變量相關關系的多元分析方法,典型相關分析容許包含多個預測變量和多個效標變量;(2)在處理兩組變量的相關性時,典型相關分析明顯優于簡單相關分析、多元回歸分析和因素分析;(3)由于外語學習過程的多因素特征,典型相關分析在外語教育研究領域具有良好的應用前景;(4)典型相關分析的SPSS統計軟件操作簡單易學,有利于外語研究者的掌握和應用。另外,有一點需要指出的是,典型相關分析的實質是探索性的,這就限定它的適用范圍,主要用于揭示多個變量之間的關系。因此,在發現了變量之間的基本關系,同時有了比較完善的理論框架之后,應該考慮換用更加精確的統計分析工具,如具有理論模型驗證性質的結構方程模型等。
[1]桂詩春,寧春巖.語言學研究方法[J].外語教學與研究,1997(3):14-20.
[2]高一虹,李莉春,呂珺.中、西應用語言學研究方法發展趨勢[J].外語教學與研究,1999(2):8-16.
[3]王靜.中國大學英語教學研究近況及展望[J].語文學刊:外語教育與教學,2009(11):91-92.
[4]吳旭東,張文忠.我國外語教學實驗研究質量調查[J].外語教學與研究,2001(1):86 -97.
[5]楊軍.關于我國外語教學研究中統計分析運用的討論[J].四川外語學院學報,2005(1):133-138.
[6]張少林.科學形式下的“不科學”——析外語科研論文中虛構統計推斷結果現象[J].國外外語教學,2004(4):48-54.
[7]Hotelling U.Relations between two sets of variables[J].Biometrika,1936(28):321 -377.
[8]文秋芳,王立非.二語習得研究方法35年:回顧與思考[J].外國語,2004(4):18-25.
[9]Hyeonokh Kim-Yoon.Learner beliefs about language learning,motivation and their relationship:A study of EFL learners in Korea[D].Texas:The University of Texas at Austin,2000:49 -153.
[10]肖德法,袁鳳識.學習策略與課堂行為關系的典型相關研究[J].四川外語學院學報,2007(3):130-132.
[11]Cooley W W,Lohnes P R.Multivariate data analysis[M].New York:Wiley,1971.
[12]Harlow L L.The essence of multivariate thinking[M].London:LawrenceErlbaum Associates,2005:177-198.
[13]高一虹,趙媛,程英,等.大學本科生英語學習動機類型與自我認同變化的關系[J].國外外語教學,2002(4):18-24.
[14]李淑靜,高一虹,錢岷.研究生英語學習動機類型與自我認同變化的關系[J].外國語言文學,2003(2):14-19.
Conducting and Interpreting Canonical Correlation Analysis in Foreign Language Education Research
LI Guang-ze
(School of Foreign Languages,Fujian Normal University,Fuzhou 350007,China)
This article introduces the statistic principles,SPSS operations and an applied example of Canonical Correlation Analysis(CCA).CCA is a multivariate statistical model that facilitates the study of interrelationships among multiple independent variables and multiple dependent variables.In CCA,there are three layers of analysis:(1)to explore whether pairs of canonical variates are significantly related;(2)to find out how the predictor variables relate to their respective canonical variates,and how the criterion variables relate to their respective canonical variates;and(3)to see how the variables on each side relate to the canonical variates on the other side.The article concludes by pointing out the implications and applicability of CCA for foreign language education research.
Canonical Correlation Analysis;basic principles;SPSS operations;foreign language learning;
G64
A
1674-8425(2012)03-0113-07
2011-11-17
福建省教育廳社科項目(JA10108S)。
李光澤(1975—),男,福建德化人,博士,講師,研究方向:心理語言學。
(責任編輯 魏艷君)
foreign language education research