孟顥光 游秀峰 李為爭
摘要對應分析圖可揭示多個多類別變量的關系,包括同一變量不同類別的相似性、不同變量類別的關聯性和類別關聯性排序等。然而,網上大量轉載的對應分析圖解讀方法是錯誤的。作者分析了前翅主色和特征色不同組合出現的蛾類物種數,揭示了“四象限”“相鄰點”“共垂線”“角余弦”和“同心圓”解讀結果的矛盾,結合對應分析算法步驟給出了正確解讀方法,即只有“共垂線”法和“角余弦”法才是正確的。
關鍵詞 對應分析 解讀 變量 類別
中圖分類號:O212.1文獻標識碼:ADOI:10.16400/j.cnki.kjdk.2021.27.020
Analysis of Interpretation Methods of Correspondence Analysis Diagram
MENG Haoguang, YOU Xiufeng, LI Weizheng
(College of Plant Protection, Henan Agricultural University, Zhengzhou, Hunan 450002)
AbstractThecorrespondence analysis chart can reveal the relationship ofmultiplemulticategory variables,including the similarityofdifferentcategoriesofthesamevariable,therelevanceofdifferentvariablecategoriesandtherankingofcategory relevance.However,theinterpretationmethodofcorrespondenceanalysischartreprintedontheInternetiswrong.Theauthor analyzes the number of moth species in different combinations of front wing main color and characteristic color, reveals the contradiction between the interpretation results of "four quadrants", "adjacent points", "common vertical line", "angular cosine" and "concentric circle", and gives the correct interpretation method combined with the corresponding analysis algorithm steps, that is, only the "common vertical line" method and "angular cosine" method are correct.
Keywordscorrespondence analysis; interprets; variable; categories
對應分析(Correspondence analysis)是Jean-PaulBen ecri等開發的多元協變變量統計技術,是主成分分析的拓廣。[1]其基本思想是在低維空間以散點的形式展示列聯表行變量和列變量中各類別的結構,以定位圖展現同一變量中各類別的相似性,及不同變量類別點之間的伴隨性。[2-4]已廣泛用于古生物學、社會學、經濟學、語言學、生態學、醫學和心理學等領域。[5]然而,網絡上被大量轉載的解讀方法是錯誤的!這種錯誤的知識不加甄別地轉載,勢必對統計教學帶來困擾,甚至某些統計教師也通過“百度一下”以其作為典型案例寫入了課件。因此,本文辨析對應分析圖的解讀方法。
1數據來源
昆蟲綱是全球生物多樣性最豐富的類群。其中,蛾蝶類是仿生服裝設計的重要源泉,也是地理生態學和進化的重要研究素材。本文關注蛾類前翅主色和特征色的關系。首先登錄生命探索網(https://www.discoverlife.org/),沿下述路徑進入檢索數據庫:all living things(所有生物)—insects(昆蟲)—Lepidoptera(鱗翅目)—Lepidoptera(鱗翅目)—Butterflies;Moths;Skippers(蝶類、蛾類和弄蝶類)—Moth(蛾類)。進入界面后可以看到月份、休息姿勢、前翅主色、前翅特征色、前翅圖案、前翅長度、翅緣圖案、前翅形狀、后翅形狀、大小、科、屬共12個勾選項。以前翅主色和前翅特征色的每個勾選項相結合作為搜索條件,查看蛾類物種數,檢索結果如表1所示。

2對應分析步驟及結果
步驟:(1)在Excel中把上述交叉表數據整理成3列,列標題分別是前翅主色、前翅特征色和蛾類物種數,并對前翅主色和前翅特征色的類別進行連續性數值編碼;(2)在SPSS 19.0變量視圖中定義3個變量:前翅主色、前翅特征色和蛾類物種數。前二者設置為名義型變量,蛾類物種數設置為度量型變量;(3)返回數據視圖,將整理的數據導入,并對蛾類物種數加權;(4)點擊分析—降維—對應分析,將前翅主色作為行變量,前翅特征色作為列變量,分別定義其最大類別數。點擊“更新”后確定,返回主對話框;(5)點擊“模型”,將解的維數限制為“2”,采用卡方距離度量。點擊確定,輸出結果如圖1。

3網上常見解讀方法
四象限:同一象限中不同變量的類別有關聯性,不同象限中類別沒有關聯性。圖1上方(象限1和象限2)是冷色調,下方(象限3和象限4)是暖色調。解讀結論是,灰色前翅的蛾類通常沒有特征色(象限1),黑、綠色前翅的蛾類通常有藍色或綠色特征色(象限2),橙色前翅的蛾類常具有紅、橙或黃色特征色(象限3)。第4象限就難以自圓其說了,“無特征色”也是特征色類別之一,不能認為第4象限具有白色、棕色前翅的蛾類“沒有特征色”。
相鄰點:根據不同類別點的距離判斷關聯性。如前翅主色“黑色”與前翅特征色“藍色”距離很近,關系密切??墒菑谋?看出,前翅主色為黑色且特征色為藍色的蛾類只有683種,在行變量各類別中排名倒數第二,在列變量的各類別中其頻次也遠遠不如前翅主色為灰色、棕色的物種數。
共垂線:從原點出發連接一個變量的任一類別點構成“正向矢量”,將另一變量各類別分別做“正向矢量”的垂線。根據垂點位置(不是垂線長度)獲得類別相關性強弱順序。圖2說明,前翅主色為綠色的蛾類,與不同特征色結合的順序是:綠色>藍色>紅色>黃色>橙色>無特征色。當然,做出前翅特征色某類別的正向矢量,以每個前翅主色的類別點向這個正向矢量做垂線,分析方法相同。

角余弦:做同一變量任意兩類別的“正向矢量”,根據其夾角判斷兩類別相似性,夾角越小兩個類別越相似。如圖3,前翅主色為黑、綠色的蛾類,前翅特征色非常相似(兩條正向矢量接近重合);前翅特征色為黃、橙色的蛾類,前翅主色非常相似。

同心圓:以某變量任一類別點為圓心做一組同心圓,觀察每個圓中另一變量的類別,分析其伴隨性強弱。圖4中以黑色前翅為圓心,內圓涵蓋的特征色是藍色,外圓還涵蓋了紅色、綠色特征色。
4不同解讀方法的矛盾
上述解讀結果明顯矛盾。例如,圖1“棕色前翅主色”在第4象限,“無特征色”在第1象限,按“四象限”解讀法二者不相關;但按“同心圓”或“相鄰點”解讀法二者密切相關。按“共垂線”解讀法,黑色前翅主色與綠色的前翅特征色關系最密切,但按照“同心圓”或“相鄰點”的解讀方法,很顯然關系最密切的是“藍色前翅特征色”。矛盾的原因,源于錯誤的解讀方法。

5對應分析圖正確的解讀方法
對應分析的基礎是主成分分析。其算法途徑是:首先根據交叉表數據計算卡方期望值和標準化單元格殘差,然后根據單元格殘差計算任意兩行之間和任意兩列之間Pearson相關系數,構建相關系數矩陣;第三步是針對兩個矩陣各做一次主成分分析,將原類別凝練為2個上位概念的類別(即主成分,一般解的維數限制為“2”);最后根據主成分因子載荷繪制2組散點圖,疊加在同一坐標系中。
“共垂線”是最重要的解讀方法。所謂“正向矢量”,指的是從坐標原點出發并連接某個類別點的有向射線。注意:“正向矢量”的出發點是坐標原點。反向延長線一側的類別散點,不要再嘗試解讀與該類別散點的任何聯系,因為它們沒有相關性或相關性不顯著,也就無所謂排序問題了。圖2正確解讀結果是,前翅主色為綠色的蛾類具有的特征色順序是:綠色>藍色>紅色。
對應分析圖是從“整體”出發繪制的。如果共垂線法得到的順序和實際頻次發生顛倒,是因為交叉表中縱向和橫向類別的交互影響所致。如表1中前翅主色為黑色且具備藍色或綠色特征色的蛾類分別有683種和589種,遠不如這種主色和“無特征色”組成的物種數目(1965種)。但是如果我們觀察“無特征色”這一列時,發現該顏色性狀和“棕色前翅”的組合形成的蛾類物種數高達10445種,與“灰色前翅”的組合形成的物種數目為8015種。在對應分析的過程中,“無特征色”這種性狀被“棕色前翅”和“灰色前翅”分走了太多的載荷,因此在單獨抽取“黑色前翅主色”的類別點關系時,“無特征色”的優先性順序便不如“藍色前翅主色”和“綠色前翅主色”,因為這是蛾類中普遍存在的性狀。
“角余弦”是另一種重要解讀方法,但不僅局限于分析相同變量不同類別點之間的相似性,也用于分析不同變量兩個類別點之間的伴隨性。例如,圖3中的“綠色前翅主色”和“綠色前翅特征色”,“棕色前翅主色”和“無特征色”,這兩組類別點的關系是非常密切的,不能認為“棕色前翅主色”和“無特征色”的散點出現在不同象限就認為它們不相關。
“相鄰點”和“同心圓”解讀法都是通過分析各類別散點的絕對距離實現的,結果完全等價。遺憾的是,散點之間的距離不是交叉頻次表原始數據的簡單翻版,而是通過上述標準化單元格殘差計算、相關分析、主成分分析等許多中間步驟實現的。對應分析的開發者和SPSS軟件的開發商,從未提及“四象限”的解讀方法(盡管在某些案例中這種分析比較有趣,但僅限于從主成分分析的角度看待,不能解釋類別點之間關系的強弱)。
6結語
對應分析圖的用途包括:(1)分析不同類別點的“特征性”。如果兩個類別點分別來自兩個不同變量,且二者正向矢量夾角呈銳角,那么二者離坐標原點越遠,伴隨出現的頻次越高;(2)分析同一變量不同類別點的相似性;(3)分析不同變量的類別點之間的伴隨性。正確解讀方法只有共垂線法和角余弦兩種方法。
*通訊作者:李為爭

參考文獻
[1]Beh EJ, Lombardo R. Correspondence analysis: theory, practice and new strategies. Hoboken: John Wiley & Sons,2014,130-186.
[2]曹玉茹.基于SPSS對應分析的定性數據分析方法研究[J].福建電腦,2018,34(10):4-6,20.
[3]孫道志.統計分析中對應分析方法應用[J].黃山學院學報, 2006,(03):13-16.
[4]高妍,張慧,李蓮蓮,等.計量資料對應分析在SAS和SPSS軟件中的實現[J].中國衛生統計,2019, 36(02):302-305,308.
[5]Freudenthal M,Martνn-Suαrez E,Gallardo JA, Daroca AG, MinwerBarakat R.The application of Correspondence Analysis in palaeontology.Comptes Rendus Palevol,2009,8:1-8.