國家醫學考試中心(100097) 楊芳麗 何 佳
多水平分析在調查問卷結果分析中的應用
國家醫學考試中心(100097) 楊芳麗 何 佳△
目的探討應用兩水平分層logistic回歸模型分析調查問卷二分類結局變量資料的影響因素,對影響因素做出正確的評價和解釋。方法以學生的調查問卷作為分析對象,運用兩水平分層logistic回歸模型,擬合一系列零模型、隨機截距模型,識別學生水平和學校水平因素的影響大小。結果學生對所研究問題的看法受到學生個體特征和學校特征的影響,學生層面中學生成績影響較大。結論多水平分析方法是處理分層嵌套數據的有用工具,利用兩水平分層logistic回歸模型可以同時探討學生層面和學校層面解釋變量對結局變量的效應,對于分析嵌套數據結構資料結局變量的影響因素有優越性。
多水平分析 二分類資料
觀察對象對事物或現象的看法并不是一種穩定不變的個人特質,會受到對所處環境感知和認識的影響。也就是說,在不同的環境,觀察對象有可能表現出不同的看法。因此,當研究環境設定在學校,觀察學生對研究指標的應答,就不能忽略學校的教育教學環境影響。而這樣的數據往往具有層次性,即學生嵌套于各自的班級,班級又嵌套于不同的學校。這樣學生個體之間就不是相互獨立的,而是受到其所嵌套單位特征的影響。以往對這類數據的分析常在個體水平或較高水平的單一水平上分別進行數據分析,分析時忽略了數據的多層結構。傳統的回歸分析假設各個觀察單位是相互獨立的,但是這不符合多層結構數據的實際情況,因為在多層結構數據中,同一組內的個體與其他組的個體比較有更大的相似性,各組內的觀察單位不是相互獨立的,如果仍然使用傳統回歸模型進行分析,可能出現錯誤拒絕有統計學意義差異的真假設[1-2];在使用較高水平的數據進行分析時又會因為樣本量的減少,導致統計效能降低。
本文以調查問卷的調查指標為例,采用兩水平分層logistic回歸模型,在綜合考慮學生個體和學校層面特征影響的前提下,以定量方式探討學生個人特征和學校環境因素對調查指標的影響。
本文所用數據為2015年14所醫學院校臨床醫學專業4年級(5年制)和5年級(長學制)的4396名在讀本科學生參加的國家醫學考試中心統一組織的臨床執業醫師資格分階段考試實證研究考試,以及考后學生填寫的調查問卷。問卷全部收回后進行仔細甄別,剔除回答不完全的問卷,共獲得有效問卷3937份,有效回收率為89.56%。
本文對數據使用MLwiN 2.02擬合兩水平分層logistic回歸模型,分析調查指標的結局變量在不同層次間的分布,并嘗試檢驗學生和學校不同層次變量的影響。
兩水平分層logistic回歸模型的完整公式為:

pij為調查指標的結局變量為“是”的概率,“ij”代表第j所學校第i名學生,β0j為水平1的隨機截距,βqj是水平1的隨機斜率,γ00是結局變量選擇”是”與選擇”否”總平均概率比的自然對數值,u0j代表第j所學校的平均概率比自然對數值與總平均概率比自然對數值間的差異。βqj為學生水平解釋變量xqij的隨機效應參數,Wsj是水平2變量。
本研究主要通過擬合一系列兩水平模型探討研究問題。首先,利用零模型分析14所院校之間調查指標的結果是否存在顯著差異;其次,通過一系列隨機截距模型確定哪一些學生層面和學校層面的指標納入分析,最后,擬合出最終的模型分析學生個體變量對調查指標的影響,以及這些影響在不同學校之間的變異。
調查問卷共設計了20個問題,既包含學生對考試客觀特性方面的感受和了解,如對考試難易程度的感受;也包括學生對考試的主觀性判斷,如對試題覆蓋面的理解等;還對考試前的準備、感受以及考試時的感受等進行調查。本研究采用問卷調查結果,對四個問題進行分析:①對本次考試內容是否熟悉;②本次考試所考查的內容80%以上是否與教學重點內容一致;③是否認為本次考試試卷整體難度較大;④是否認為使用臨床場景的病例型試題考查基礎醫學知識增加了試題難度。結局變量為學生對以上問題的回答(1:是/0:否)。
本研究收集學生層面(即水平1)的變量有學生性別、學制、年級、所學專業(均為臨床醫學)、本次考試成績在全體學生中百分等級;學校層面(即水平2)的信息包括學校類型、學校所處的地區、學校此次考試平均成績在14所院校所處位置、學校中女生比例。使用虛擬變量編碼類別變量,其中性別中男性=0,女性=1;學制分為5年制、6年制、7年制和8年制,以5年制為對比組;年級中4年級=1和5年級=0;本次考試成績在全體學生中百分等級分為處于下25%、中間50%、上25%三種,以下25%為對比組。學校類型分為“985/211”院校和其他本科院校;根據地理位置和經濟發達程度把學校所處區域分為東部、中部和西部,以東部為對比組;學校此次考試平均成績在14所院校所處位置分為處于下25%、中間50%、上25%三種,以下25%為對比組。
本研究共有14所院校3937名學生,女性學生(55.80%)多于男性學生(44.20%)。以5年制學生為主,占到總人數的90.40%。學生中4年級最多,占到94.79%。14所院校中985/211院校共4所,占28.57%,其余10所院校是一般本科院校。院校分布地區在東部的最多,為8所,占總數的57.14%,中部和西部各3所。
零模型是模型分析的第一步,此模型僅有一個隨機截距而沒有任何解釋變量。是否有構建多層模型的必要性,可以結合專業判斷,以及使用VPC(variance partition coefficient)進行度量。多水平模型的組內相關系數可以測量組內個體是否獨立[3]。兩水平分層logistic回歸模型的VPC,因為水平1的方差依賴于模型中解釋變量的值,因此不能使用組內相關系數來計算。本研究中采用公式估計VPC。對所分析的4個調查指標分別擬合零模型,表1為擬合結果。從表1可知,四個調查指標零模型的水平2方差P值均小于0.05,表明同一學校內學生的回答情況比不同學校間學生的回答情況更為相似,各學校間學生平均回答情況有顯著差異,學校層次結構不能忽略,因而需要采用多水平模型。4個調查指標的 VPC值分別為 0.050、0.037、0.033、0.043,結果顯示各調查指標平均回答情況總變異中分別有5.0%、3.7%、3.3%、4.3%來源于學校之間的差異。雖然學校層面的方差占總方差的比例不是很大,但是有研究顯示,即使是很小的組內相關系數也可能增加犯第一類錯誤的概率,加之研究問題具有明顯的層次特征,因此有必要進行分層logistic回歸模型分析[5]。

表1 兩水平零模型參數估計結果
在零模型分析后,擬合了一系列隨機截距模型,確定學生個體層面的哪些變量影響同一學校學生對調查指標回答情況,哪一些變量的回歸系數在學校之間可能不同。經過分析發現,學制與結局變量沒有關系,故最終模型中不納入學制。另外,與結局變量沒有關系的變量,問題1是性別,問題2是年級,問題3與問題2相同;問題4是性別、年級,但是本研究的目的不是預測,而是觀察解釋變量對結局變量的影響,故在最終模型中納入性別、年級、成績百分等級變量。學校層面的變量中僅納入“是否985/211院校”變量,學校中女生比例、學校所在地區、學校此次考試成績在14所院校所處位置的類別不納入模型。表2是最終的兩水平回歸模型結果。
由表2可知,在控制其他因素不變的情況下,對本次考試的熟悉程度方面,學生成績的回歸系數有統計學意義,學生成績百分等級處于上25%學生和中間50%學生分別與下25%學生相比熟悉程度的OR估計值為1.483和1.281(P<0.05);上25%學生比中間50%學生的熟悉度的OR值是1.157(P>0.05);性別和年級的回歸系數均無統計學意義(P>0.05)。學校層面上,985/211院校學生比一般院校對于本次考試的熟悉度OR值為0.593,呈邊際統計學意義(marginally significant)(P=0.048)。
對于本次考試所考查內容80%以上知識點是否與教學重點內容一致,性別和學生成績百分等級的回歸系數有統計學意義(P<0.05)。女生比男生認為一致的OR值是1.181,學生成績百分等級處于上25%的學生和中間50%的學生比下25%學生認為一致的OR值分別是2.197和1.654、上25%的學生比中間50%學生認為一致的OR值是1.328;年級的回歸系數均無統計學意義(P>0.05)。學校層面上,學校類別的回歸系數無統計學意義(P>0.05)。

表2 最終的兩水平模型參數估計結果
關于是否認為本次考試試卷整體難度較大方面,性別、年級的回歸系數差異沒有統計學意義(P>0.05);學生成績的回歸系數差異有統計學意義,學生成績百分等級處于上25%的學生和中間50%的學生比下25%學生認為試題難度大的OR值分別是0.302和0.558,上50%學生比中間50%學生認為試題難度大的 OR值是0.541(P<0.05);學校層面上,985/211院校比一般院校認為試卷“難度大”的 OR值是1.548,呈邊際統計學意義(P=0.053)。
對于是否認為使用臨床場景的病例型試題考查基礎醫學知識增加試題難度,性別、年級的回歸系數無統計學意義(P>0.05);學生成績的回歸系數有統計學意義,上25%學生和中間50%學生比下25%學生認為難度增大的 OR值分別是0.816和0.829(P<0.05);上25%學生比中間50%學生認為難度增大的OR值是0.984,但是差異無統計學意義(P>0.05)。學校層面上,學校類別的回歸系數無統計學意義(P>0.05)。
在擬合隨機斜率模型的過程中,斜率的方差和協方差均為零,說明目前的數據不能很好估計解釋變量的隨機斜率,不適宜采用隨機斜率模型,因此本研究的最終模型是隨機截距模型。
本研究以實例采用兩水平分層logistic模型分析的方法,探索了學生層面和學校層面不同特征對調查指標的影響。研究結果表明,調查指標回答的不同主要源于學校內部學生之間的差異,學校之間的差異較小。學生成績對調查指標有正面影響。在控制其他變量的條件下,不同考試成績的學生在所研究問題的回答上有顯著差異,成績越好的學生對考試越熟悉,對考試難度的感知上也覺得越容易,考查知識點與教學重點內容一致性的認知上也更高,越不認為采取情境型試題會增加試題難度。性別之間僅在考查知識點與教學重點內容一致性的問題上差異有統計學意義,其余三個問題差異均無統計學意義。年級之間相比,問題的回答沒有差異。不同學校類別在四個調查指標的看法略有不同,但是差異較小,無實際意義。本次調查中不同學校類別之間表現出的差異可能與本次研究不同學校類型在組織動員學生參加考試的做法不同,有的學校有激勵機制、在考前對學生進行充分的講解動員有一定關系。
對大多數學生而言,學習態度與考試成績之間有很強的相關關系[6]。學習態度越正確,考試成績越高。考試之前,學生對考試的認知起主導作用,是增強其學習動機的來源之一。執業醫師法正式實施后,考取執業醫師資格證是醫學生能否成為臨床醫師的門檻,給醫學畢業生的順利就業帶來不小的壓力,學生意識到執業醫師資格考試對畢業后順利就業的重要意義。本次考試屬于醫師資格考試實證研究的一部分,因此,在校本科生特別是臨近畢業的學生對考試的形式、題型等有所了解。本研究中68%的4年級和5年級學生對考試內容熟悉,高年級學生面臨畢業,因此對于考試更為熟悉,男生和女生之間的熟悉程度差異較小,沒有統計學意義。本次問卷結果也印證了學生的學習態度與考試成績相關的觀點。
本次研究中大多數學生認為考試內容與教學內容一致。70%的學生認為本次考試考查的內容80%以上是教學中必須掌握的重點內容。學生對于試題和試卷難易度的認識上,性別之間和年級之間的差異較小,且差異無統計學意義。學生的能力水平與其對考試難度的態度有一定的關系,考試成績較差的學生對試題和試卷難度持消極否定的態度。控制了其他因素后,相比一般院校,985/211院校的學生認為試卷的難度較大,原因可能是本次考試兩類學校的學生在備考方面有區別。
對基礎醫學知識使用臨床場景的病例型試題考查難度影響上,一般院校認為增加了試題難度,原因可能是我國大部分醫學院是以基礎課程和臨床課程分離的教學方式為主,4年級和5年級主要是進行臨床教學,那么這部分學生的基礎醫學部分的知識因為沒有及時復習而有所遺忘,如果考前沒有充分的準備,必然會感到難度大,而整合課程是近年來國內醫學院校教學改革的熱點方向,特別是985/211院校,在課程整合方面進行了積極探討。中國醫科大學喬敏等以實驗研究法對整合課程的教學效果進行了研究,結果顯示整合課程提高了學生分析問題和解決問題的能力,基礎醫學課程的整合有助于學生學習臨床課程[7]。因此,985/211院校的學生對于基礎知識在臨床場景下的靈活運用有優勢。
本研究雖然取得了一些有意義的結果,但也存在有待進一步改進的地方:首先,本研究以學生在某個時間點測得的成績來考察對調查指標的影響,可能會影響學校變量對學生影響的估計;其次,由于學校的樣本量較小,會導致統計效能減小,同時,學校一級變量的解釋能力有限,可能與數據本身有關,今后的研究應從擴大樣本量與增加多個時間點的測量、篩選學校層面的變量入手,追蹤探討學校變量的影響。
[1]Leeuw JD,Kreft I.Random coefficient models for multilevel analysis.Journal of Educational Statistics,1986,11:57-85.
[2]Snijders TAB,Bosker R.Multilevel Analysis:An Introduction to Basic and Advanced Multilevel Modeling.CA:Sage Publications,1999:20-62.
[3]王濟川,謝海義,姜寶法,著.多層統計分析模型——方法與應用.高等教育出版社,2010.
[4]Rasbash J,Steele F,BrowneW,etal.A User′s Guide to MLwiN,v2.33.Centre for Multilevel Modelling,University of Bristol,2004.
[5]Barcikowski R.Statistical Power with Group Mean as the Unit of A-nalysis.Journal of Educational&Behavioral Statistics,1980,6(6):267-285.
[6]王振英.大學生考試態度研究.大家,2012:160.
[7]喬敏,張云,楊澤禮,等.基礎醫學整合課程教學效果的實驗性研究.醫學教育,2005(4):26-29.
△通信作者:何佳
(責任編輯:郭海強)