李瑞閣 萬冰蓉 張恒 曠永鑫
摘 要:多元統計分析是統計學專業的核心課程之一,該課程實踐性極強,需要學生多學、多練,多實踐、多總結。文章針對該課程案例教學中若干統計分析方法存在的一些誤區,教師在反思學生出錯的原因是概念問題,軟件使用問題,還是對實際問題背景理解的偏差問題的基礎上,有針對性地引導學生走出誤區,學會不斷反思,提出問題;不斷創新實踐,發散式研究學習,多渠道解決問題等方面展開探討。
關鍵詞:教學實踐誤區;方差分析;主成分分析;對應分析
中圖分類號:G642 文獻標志碼:A 文章編號:2096-000X(2018)05-0097-03
Abstract: The multivariate statistical analysis is one of the professional core courses of statistics. As the most practical course, it needs students to learn, practice and summary. Based on the case teaching of some misunderstanding in some of the statistical analysis method, the teacher should reflect firstly whether the cause of the error of students is the problem of concept, of using software, or understanding deviation problem to the actual problem. Teacher should aim at leading students to walk out of the erroneous zone, and teaching them to think, ask question, practice innovatively, study by divergent thinking, and solve the problem through various channels.
Keywords: teaching practice myth; analysis of variance; principle component analysis; correspondence analysis
前言
多元統計分析是統計學專業的核心課程之一,包含諸多多維數據統計分析的方法,案例教學實踐中要求學生依據問題采取適當的方法,做出合理分析、推斷、預策等。由于案例的復雜性,教學實踐中常存在一些誤區。出現問題時教師首先應反思,學生出錯的原因是什么?是概念問題,軟件使用問題,還是對實際問題背景理解的偏差問題?然后有針對性地采取有效的策略解決問題。以下就如何有針對性地引導學生走出誤區,學會自主學習、創新實踐、提出問題并解決問題做些嘗試性探討。
一、有交互方差分析中單因素水平間的均值比較誤區
教學過程中教學時間長度有限,但課堂中教會學生學習的方法,養成良好的學習習慣將終生受用。同樣教科書和軟件教材內容有限,不可能解決所有的問題,比如,SPSS軟件的菜單操作命令簡單且實用,但教學中僅要求學生會操作是不夠的,同時還要求學生了解程序命令甚至自覺學習編程,這是培養學生創新思維的有效途徑。比如在解決兩因素有交互效應的方差分析問題時,固定一因素水平,另一因素水平間的均值比較問題,一般SPSS軟件教材,會給出判斷交互效應顯著性判斷,但交互比較就沒有現成答案。為此向學生提出問題,提醒并鼓勵學生查資料,一方面要弄清概念,另一方面通過自己編程去解決。
案例1 有三種降低轉氨酶的藥物,為了考察他們對甲型肝炎和乙型肝炎患者轉氨酶降低程度之間的差異是否有統計學意義,收集試驗數據(略),即從兩型患者的總體中各隨機抽取30例,然后分別隨機分到3個藥物組中。假定資料滿足參數檢驗的條件,問不同藥物種類之間是否有顯著差異?不同的肝炎類型之間是否有顯著差異?不同藥物與肝炎類型之間的交互作用是否顯著?教材文獻[1]中使用SAS軟件,課堂上鼓勵學生用多種軟件解題。如利用SPSS解決前兩個問題很容易,最后一個問題不易,有學生查到文獻[2-4],通過學習用SPSS方法編寫程序;也有學生用MATLAB編程的辦法解決,最終將結果公之于眾,讓學生討論,起到很好的教學示范效應。然而學生在訓練的過程中,仍會出現運行的問題,進一步讓大家共同查找原因,并總結程序輸入的兩條注意事項:
(1)語句編寫應為全英文符號,若有中文符號輸入算錯誤指令,代碼不會變色。
(2)所有代碼輸入完成后應在語句結尾劃上英文句號,若沒有句號,表示該腳本不完整,SPSS會不承認這個函數結構,代碼開頭會是紅色,正常應是藍色等。其中編寫的SPSS程序如下:
UNIANOVA 緩解時間 BY 成分A 成分B
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PLOT=PROFILE(成分A*成分B 成分B*成分A)
/POSTHOC =成分A(BONFERRON)
/EMMEANS=TABLES(成分A)COMPARE ADJ(LSD)
/EMMEANS=TABLES(成分B)COMPARE ADJ(LSD)
/EMMEANS=TABLES(成分A*成分B)
/EMMEANS=TABLES(成分A*成分B)COMPARE (成分A)ADJ(BONFERRON)
/EMMEANS=TABLES(成分A*成分B)COMPARE(成分A)ADJ(BONFERRON)
/PRINT=HOMOGENEITY DESCRIPTIVE PARAMETE
R
/CRITERIA=ALPHA(0.05)
/DESIGN=成分A 成分B 成分A*成分B.
二、主成分分析中主成分表達誤區
主成分分析中,SPSS軟件輸出的Component Matrix陣,往往被學生誤讀為主成分系數陣,直接以此為依據寫出樣本的主成分,實際上它是因子載荷陣,寫主成分時,需在原系數的基礎上除以相應特征根的平方根,得真正的主成分系數。針對這一情況,教學中,如何強調?才能引起學生重視?一方面課堂上應講清楚概念,另一方面有意識讓學生暴露問題,發現問題后讓學生研討,并通過MATLAB等軟件實踐確定特征根及特征向量的辦法驗證結果。
案例2某研究單位測得20名肝病患者的4項肝功能指標數據(略):轉氨酶,肝大指數,硫酸鋅濁度,甲胎球蛋白,試做主成分分析。
利用菜單命令,分析(Analyze)→降維(Data Reduction)→因子(Factor),按shift 鍵將x1至x4全部選入因子分析對話框,單擊抽取(Extraction)選項,默認公因子提取方法(Principal components),默認相關陣(Correlation matrix)出發做主成分分析,因子數按特征根大于(Eigenvalues over)0.9保留,確定(OK)。得到輸出部分結果如下表1-2:
從表1可見前三個主成分的方差解釋率為94.828%,盡管第三個特征根小于1,但接近1,于是可選取前三個主成分,僅損失較少的方差信息。表2可見第一個主成分主要包含原變量轉氨酶及肝大指數的信息,可作為急性肝炎的診斷指標;第二主成分主要包含硫酸辛濁度的信息,可作為慢性肝炎的診斷指標;第三個主成分主要包含甲胎球蛋白的信息,可作為原發性肝炎的診斷指標。根據表2可寫出選取的三個主成分分別為:
然而也有同學選取的三個主成分均未除以相應特征根的算術平方根。哪個主成分表達式正確?鑒于此,提出問題,讓學生自己去找答案,一方面查找教材或文獻弄清概念做出判斷,另一方面可通過編程,或用其他軟件來加以驗證。
本題中采用相關矩陣出發進行主成分分析,為什么呢?為此引導學生總結三種情形:各指標變量的量綱不同;各指標變量類型不同,如絕對指標,相對指標等;各指標變量的方差差異過大,前兩種情形比較明顯,第三種情形就需先確定協方差陣,再做決定。如何求協方差陣?鼓勵學生積極思考,踴躍回答。有學生利用可靠性分析法,工具欄分析→尺度→可靠性分析,點選變量,點擊設置統計,選擇項間組內的選項,包含輸出項間相關矩陣和項間協方差矩陣;也有同學任給分類,利用判別分析選項確定協方差矩陣。
為了訓練學生,提出問題,能否通過編程直接求出呢?于是有學生幾經嘗試,修改,編出如下程序:
(1)打開文獻[5]中案例6.1數據集,復制下面第一語句粘貼至打開數據集的新建語法窗口,運行下列程序生成相關矩陣(以數據集的形式存在)
CORRELATION MATRIX OUT('C:\Documents and Settings\Administrator\桌面\相關矩陣.sav')/VARIABLES=x1 x2 x3 x4。
(2)打開已生成相關矩陣數據集,再復制粘貼下述語句至語法窗口,運行,生成協方差陣,打開已有的相關陣數據集可見。
GET
FILE='C:\Documents and Settings\Administrator\桌面\相關矩陣.sav'。
MCONVERT/MATRIX=OUT('C:\Documents and Settin
gs\Administrator\桌面\協方差矩陣.sav')。
從輸出的相關系數矩陣可見,各變量的相關性較強;從協方差陣可見,四個變量的方差差異很大,適合于從相關矩陣出發做主成分。
三、對應分析圖中對應關系表達誤區
對應分析圖識別問題,主要是軟件使用問題。課堂上利用論文健康教育與兒童呼吸道感染的關聯性研究,研究兒童類(A類)受教育頻次與住院頻次的關聯分析,采用的對應分析的操作步驟為:單擊數據(Data)→加權(Weight Cases)→選入頻數(num)加權,確定(OK)。接著單擊分析(Analyze)→降維(Data Reduction)→對應分析(Correspondence Analysi
s),將兒童住院頻次選入行,定義范圍1到4,兒童受教育頻次選入列,定義范圍1到3,更新(Update),確定(OK)。對應分析圖如下。
對應分析圖1中兒童住院頻次與兒童受教育頻次對應的二維點除了顏色區別外,形狀無區別,標識數字的類別關系不明朗,于是啟發學生從多角度,多層面嘗試實踐,改變點的標識、形狀,大小等。具體可點擊圖形區域,右擊編輯內容Edit Content,或雙擊該窗口,選中特殊窗口In Separate Window,在編輯窗口中,分別點擊兒童住院頻次、兒童受教育頻次,在新窗口中選擇圖標的形狀、大小、寬度等,甚至可畫出坐標軸方便找對應關系。數字替換為文字稍顯復雜。引導學生從數據集的變量視圖入手,定義變量兒童住院頻次、兒童受教育頻次的各個分類取值及名稱,添加,確定形成圖2,標識既清楚、醒目,可視化效果又好。
總之,多元統計分析是統計專業課中的教學實踐性很強的課程,需要在案例教學實踐過程中及時發現問題,分析原因,針對不同類型采取措施引導學生走出誤區,及時糾偏并解決問題,有意識培養學生自主學習,創新實踐能力,提升學生的綜合素質。
參考文獻:
[1]梅長林,范金城.數據分析方法[M].北京:高等教育出社,2012:111-112.
[2]傅德印.應用多元統計分析[M].北京:高等教育出版社,2008:159-161,130-134,212-220.
[3]項涇渭,傅德印.基于SPSS的二次開發直接求解主成分[J].統計研究,2006(4):73-75.
[4]宇傳華.SPSS與統計分析[M].北京:電子工業出版社,2014:617-619.
[5]張文彤,董偉.SPSS統計分析高級教程[M].北京:高等教育出版社,2004:277-290.
[6]李瑞閣,連冬艷,柳德學.健康教育與兒童呼吸道感染的關聯性研究[J].南陽理工學院學報,2015,7(2):108-110.
[7]王芬.案例教學法在概率論與數理統計教學中的應用[J].高教學刊,2016(20):74-75.