裴磊磊,趙亞玲,康軼君,朱永生
(西安交通大學醫學部: 1.公共衛生學院;2.法醫學院,陜西 西安 710061)
隨著醫學研究深度和廣度不斷發展,新的疾病預防及診療模式不斷涌現,數據來源更加多元,包括臨床數據、多組學數據、環境暴露、遺傳信息、生活習慣、地理空間信息、社交媒體及其他多種與個體健康和疾病狀態相關的高維數據,要從看似復雜無序的數據中發掘隱含的內在規律, 以指導醫學決策,對統計學提出了新的挑戰[1]。而醫學基本統計方法僅限于單變量描述和推斷,無法深度挖掘多個相依因素(變量)之間的關系或具有這些因素的樣本(個體)之間關系。因此,醫用多因素統計分析方法(Medical multivariate statistical analysis)應運而生,它是一種可以最大程度利用既有信息進行模型構建的方法,達到簡化復雜數據結構,闡明主要研究問題的目的,目前已成為醫學統計學的重要組成部分,在公共衛生學、臨床醫學、藥學、護理學等領域的數據分析中發揮了不可替代的作用[2]。
多因素統計分析是數理統計學的一部分,其中包含了抽象的概念及理論、煩瑣的矩陣代數計算、復雜的數學推導論證等,對于數學功底薄弱的醫學生而言,學習難度相對較大。同時多因素統計分析也是一門實踐性和應用型非常強的課程,需要借助計算機軟件才能完成計算驗證過程,統計理論學習需要與計算機軟件教學同步進行。目前可供選擇的統計軟件有SPSS、SAS、STATA、R語言等,其中SPSS致力于簡便易行,尤其適合臨床醫學、藥學、護理學等專業統計學基礎薄弱的科研工作者,其操作能夠快速上手、基本滿足科研需求。筆者所在教學團隊基于多年教學實踐,針對醫學專業研究生總結編寫了《醫用多因素統計分析及SPSS操作》[2],旨在提升醫學生對醫學相關數據的綜合分析應用能力,本文基于學生的實際情況和該課程的特點,探討了醫學多因素統計分析課程的教學方法并總結了以下教學經驗,以達到拋磚引玉的作用,提高學生學習的積極性和解決實際問題的能力。文章所涉及的統計分析例題均來源于筆者團隊編寫的教材《醫用多因素統計分析及SPSS操作》,統計分析均在SPSS 18.0中實現[2]。
多因素統計分析理論復雜抽象,方法種類繁多,不同方法之間前后緊密相連,學習當前統計方法同時緊密結合前面已學的統計理論,相互比較,相互印證,前后貫通,幫助學生形成貫通式的統計思維[3]。例如在學習多因素方差分析方法時,可以結合多重線性回歸分析理論,利用線性模型的原理闡述多因素方差分析的思想[4]。方差分析的研究設計包括了析因設計、協方差設計、重復測量設計等多種形式,各種類型的方差設計形式都可以利用回歸模型表示。以兩因素析因設計(即I×J析因設計)為例,表示有兩種處理因素,第一種處理因素A有I個水平,第二種處理因素B有J個水平,析因設計線性模型表示為Y=α+β1X1+β2X2+β3X1X2+ε,其中α是截距,β1、β2和β3為待估的回歸系數,ε為獨立且服從正態分布的殘差。以教材中例3-1析因設計方差分析數據為例,采用多重線性回歸分析,研究藥物治療X1和給藥時間X2對小鼠肝臟組織鐵濃度的影響。當X1=1時表示試驗組,X1=0時表示對照組;當X2=1時表示給藥后30min,X2=0時表示給藥后60min。
首先建立析因設計方差分析SPSS數據文件,藥物表示實驗組和對照組,時間表示給藥后30min和60min,鐵濃度表示肝臟組織鐵濃度,執行 Analyze→General Linear Model→Univariate命令,選擇藥物和時間的主效應、交互效應,單擊對話框下方的OK按鈕,即可得到析因設計方差分析結果。
然后建立多重線性回歸分析數據庫,藥物治療X1和給藥時間X2分別為二分類變量,設置兩個啞變量及交互效應引入模型中。首先考慮Analyze→Regression→Linear,打開Linear模塊后,依次選擇因變量和自變量,單擊對話框下方的OK按鈕,獲得相應結果。
例3-1中數據進行多重線性回歸分析和析因設計的方差分析的結果完全一致,線性回歸引起的變異可以進一步分解為藥物、時間及交互作用三部分變異。將兩種方法的結果列于表1中,可見多因素線性回歸中回歸變異SS等于藥物、時間、交互效應三部分SS之和,即多因素線性回歸中回歸變異可以進一步分解為析因設計方差分析中藥物、時間、交互效應三部分,兩種方法總變異完全相等。

表1 例3-1多重線性回歸和析因設計方差分析比較
將原始數據的4組數據的均數整理成表2,得出藥物處理不同水平、時間效應不同水平的單獨效應、主效應和交互作用。當藥物固定在實驗組時,時間的單獨效應為0.492;當藥物固定在對照組時,時間的單獨效應為0.233。同理,時間固定在30min時,藥物的單獨效應為0.244;時間固定在60min時,藥物的單獨效應為0.503。依次得到藥物治療和給藥時間的主效應分別為(0.244+0.503)/2=0.374和(0.492+0.233)/2=0.363。藥物治療和給藥時間的交互效應為(0.503-0.244)/2=(0.492-0.233)/2=0.129。
多重線性回歸系數估計結果見表3,藥物治療在60min時的單獨效應為α+β1+β2+β3-α-β2=0.503,藥物治療在時間30min時的單獨效應為α+β1-α=0.244,因此得到藥物治療主效應為(2β1+β3)/2=(0.244+0.503)/2=0.374,同理得到給藥時間的主效應為(2β2+β3)/2=0.363,藥物治療與給藥時間的交互效應為β3/2=0.258/2=0.129,P值都小于0.001,說明藥物治療和給藥時間對小鼠肝臟組織的鐵濃度都有影響而且存在交互效應,與析因設計方差分析結果一致。

表3 例3-1線性回歸系數結果
此外,重復測量設計、協方差分析、交叉設計等都可以采用多重線性回歸分析的思路進行分析,各部分方法前后相互聯系,相互印證,培養貫通式思維能力,基于教材示例數據,講授每一種統計分析方法可以緊密聯系所學統計理論方法,前后內容相互銜接,既可以幫助學生回顧梳理統計學基本理論方法,又能加深對新的統計理論方法的理解。
在醫學研究中,研究者有時會盡可能多地收集信息,數據來源更加多元,包括門診信息、住院信息、常規體檢數據、居民健康檔案管理數據等,這樣涉及更多的研究指標和變量,造成數據維度災難,數據分析更加復雜。多因素統計分析中聚類分析、主成分分析和因子分析既能實現不同變量的聚類,達到降維的目的,簡化數據結構,又能發現不同變量之間的整體效應。因此,在分析此類高維數據時,可以選用不同的多因素降維方法相互比較,培養統計學類比的思維能力,理解掌握統計學精髓。以教材中例9-1數據為例,分析500名青少年的健康相關結局,由于變量包括了總智商(Full scale intelligent quotient, FSIQ),行為問題總分(Total scores of Problem, Problem_ts),收縮壓(Systolic blood pressure, SBP),舒張壓(Diastolic blood pressure, DBP),按WHO標準化的身高性別、年齡別Z評分(Height-for-age and -sex Z score, HAZ),和體質指數性別、年齡別Z評分(Body mass index-for-age and -sex Z score, BAZ)等指標,采用適當多因素統計分析中的降維方法分析青少年人群的健康現況。
可以首先采用K-means聚類分析,考慮到不同變量有不同的量綱,在數量級上存在較大的差異,為了消除各變量量綱和數量級不同對聚類結果可能的影響,需要先對變量進行標化處理。變量的標化可以采用SPSS中 Analyze→Descriptive Statistics→Descriptives功能將標化后的變量另存為新變量。然后選擇菜單Analyze→Classify→K-Means Cluster Analysis,打開K-Means Cluster Analysis模塊后,將6個標化后的變量選入Variables框。將變量pc選入Label Cases by即個案標注依據框。將聚類亞組數Number of Clusters改為3。單擊對話框下方的OK按鈕,得到相應結果。
表4給出了聚類分析最終的類別中心點,該值為各個類別中各變量的均值。類別1人群的特征是智商水平在人群平均水平,行為問題發生率較低,而其他體格特征如BAZ、血壓等均處人群較高水平;類別2人群的收縮壓和舒張壓低于人群水平特征,智商和體格相關指標高出平均水平,尤其是行為問題最為突出;類別3在所有健康指標的均值都低于平均水平。結果提示在改善青少年健康狀況的干預政策的制定過程中,要重點關注類別1人群的心血管健康,類別2人群中的精神衛生健康,類別3中所有的青少年。

表4 聚類分析不同類別中心點
之后采用主成分分析和因子分析再次分析,依次選擇主窗口主菜單中的Analyze→Dimension Reduction→Factor,在打開的主對話框中選左邊變量名列表中的6個變量到右邊的Variables(變量)框中,最后單擊主對話框下方的OK按鈕,即可獲得相應結果。
KMO(Kaiser-Meyer-Olkin)統計量為0.497,Bartlett’s球形檢驗P<0.001,提示這6個指標數據適宜進行主成分分析。按照特征根從大到小列出了所有的主成分。其中,第一個主成分的特征根為1.815,解釋了30.25%的總變異;第二個主成分的特征根為1.332,解釋了22.19%的總變異;第三個主成分的特征根為0.971,解釋了16.18%的總變異,前三個主成分共解釋了68.62%的總變異,因此,最終選擇三個主成分作為結果。
表5主成分特征向量結果顯示,第一主成分的特征是智商水平和行為問題影響較小,而其他體格特征如BAZ、血壓等均處人群較高水平,與聚類分析類別1相似;第二主成分對所有健康指標具有影響,與聚類分析類別3相似;第三主成分對收縮壓和舒張壓影響較小,尤其是行為問題最為突出,與聚類分析類別2相似。結果也說明了在改善青少年健康狀況的干預政策的制定過程中,不同類別應關注不同的指標,比如第一主成分的心血管健康,第二主成分的精神衛生健康,第三主成分所有的健康指標。該例題說明聚類分析和主成分分析都能夠實現數據或變量降維,簡化數據結構,本質上是相同的。

表5 主成分分析相關矩陣的特征向量
基于以上例題的分析,提示我們在教學過程中,針對多因素統計分析方法的學習,可以根據已學統計理論知識,從不同角度類比聯想,采用新舊不同方法由淺入深,同時進行結果分析比較,既能幫助學生理解掌握新知識,又能進一步復習鞏固舊知識,可以取得事半功倍的教學效果。


多因素統計分析方法研究的是多個因素間的相互關系或彼此影響,不同方法不是孤立的,有著密切的聯系。例如本教材中多重線性回歸和Logistic回歸可以抽象為廣義線性模型的一種,而聚類分析、主成分分析和因子分析可以抽象為數據降維方法,整體性思維意味著應對不同方法進行比較歸類,明確他們之間的區別和聯系,抽象概括統計規律性,這樣既幫助學生鞏固了所學知識,又加深了學生對多因素統計分析理論的理解和記憶。
多因素統計分析應從醫學研究生和科研工作者的實踐應用出發,在適當掌握一定理論的基礎上,開展以問題為中心的學習模式,以學生為主體,在教師的指導下,由學生圍繞身邊的相關醫學問題進行科研選題。根據研究目的進行科學的研究設計、現場調查、數據收集,甄選多因素分析方法形成統計分析方案;在研究實施過程中和完成后收集原始研究資料、整理資料、量化資料,建立分析數據庫,要求數據完整、準確,樣本量足夠;選用合適的多因素分析方法利用SPSS軟件對數據資料進行全面分析,對結果進行解讀闡述,與文獻的分析過程進行比較,對其分析做出評價。
例如妊娠期糖尿病(Gestational Diabetes Mellitus,GDM)是由于妊娠后母體糖代謝異常而首次發生的糖尿病,是妊娠期常見的并發癥之一,與胎兒畸形、宮內發育遲緩、新生兒窒息、早產、巨大兒等多種新生兒不良出生結局存在密切關聯[7-8]。針對該問題,要求學生采用病例對照研究設計,自行設計問卷調查某醫院孕6~13+6周的單胎孕婦,進行孕期體檢,愿意且能夠簽署知情同意書。收集數據包括孕婦的文化程度、孕期飲用咖啡和飲茶、孕前體重指數、糖尿病家族史、年齡胎次、孕期糖化血紅蛋白等7個因素的資料,要求學生收集數據后,整理資料、量化資料,建立分析數據庫,使用合適的統計分析方法進行分析,并給出臨床建議。
根據研究目的和數據特點,本研究可以采用Logistic回歸進行多因素分析,確定孕婦孕期并發糖尿病的主要影響因素。多因素分析結果發現高齡初產婦、糖尿病家族史、糖化血紅蛋白、超重、肥胖與孕期并發糖尿病正相關,從臨床角度看,減少高齡初產婦、控制體重及糖化血紅蛋白等指標,對預防孕期并發糖尿病具有重要意義。本例以解決實際醫學問題為突破口,引導學生帶著問題有針對性地了解多因素Logistic回歸分析的數學模型和分析的基本思路,既提高了學生多因素統計分析知識的運用能力,又能激發學生參與課堂的熱情,滿足了醫學生理論聯系實際的需求。
醫用多因素統計分析方法在醫學研究中具有重要的作用,是醫學科學研究中不可或缺的重要分析工具,同時極大地促進了醫學科學發展。如何高效組織醫用多因素分析課程教學,如何提高教學效果和學生學習的積極性是非常值得討論研究的問題。本文基于前期教學經驗,并結合團隊編寫的《醫用多因素統計分析及SPSS操作》探討了教學過程中的基本規律和特征,總結運用了貫通式思維、類比的思維、整體性思維和實踐的思維等,將多因素統計分析理論前后有機結合,明確不同方法的區別和聯系,抽象整合不同的統計學理論方法,緊密聯系醫學實際問題,既能幫助學生掌握多因素統計分析的精髓和內涵,又能提高學生解決實際問題的能力。同時對教師也提出了更高的要求,需要不斷學習新理論,不斷總結經驗,進一步提高教學質量。