李觀海趙麗鄧凱升張瑛宮曉郜艷暉
(廣東藥科大學公共衛生學院流行病與衛生統計學系,廣東 廣州510310)
醫學、社會學和心理學等領域所關注的很多熱點問題都與抽象概念有關,如行為模式、滿意度等[1-2]。 由于抽象概念難以直接測量,通常用多個與抽象概念相關的調查條目間接測量,稱為潛變量(latent variable),而反映這些概念的相關調查條目稱為顯變量(manifest variable)。 潛變量模型是一類通過顯變量來度量潛變量信息的統計分析方法[3],如顯變量和潛變量均為定量變量時的因子分析,以及顯變量和潛變量均為分類變量時的潛在類別分析(latent class analysis,LCA)。 LCA 也稱以模型為基礎的聚類分析,能將異質性人群進行有效分類。 和因子分析類似,當異質性來源于多個維度時,LCA可引入因子分析的思路,擴展為包含多個潛在類別變量(或稱因子)的潛在類別因子分析(latent class factor analysis,LCFA)模型,從多個維度對觀測進行分類[4]。 本研究通過模擬實驗對LCA 和LCFA 的分類效果進行比較,并用實例進行說明,為分類問題的統計分析方法選擇提供科學依據。
假設N個觀測均含有K個二分類顯變量,Yh表示第h個觀測的反應模式,潛變量x具有T分類,顯變量的聯合概率可表示為:

式(1)中,P(x=t)表示第t類別的潛在類別概率;P(Yh|x=t)表示類別t內對應K個顯變量聯合的條件概率。 LCA 的基本假設為顯變量組合的概率分布可以由互斥的潛變量來解釋,每個潛類別對應顯變量的反應有特定的傾向選擇。
仍為N個觀測的K個顯變量,x1,x2,…,xL表示L個離散的潛變量x,第l個潛變量的分類數為Il,顯變量的聯合概率可表示為:

式(2)中,觀測反應模式的概率函數P(Yh)是多個潛變量分類下概率函數P(Yh|x1,x2,…,xL)的加權,權重大小為所屬的L個潛變量聯合分布條件下的概率。 研究表明P 個相互獨立的二分類因子的LCFA 模型(基本P 因子模型)可看作2P個類別的LCA 的特例,基本P 因子模型和P +1 個類別LCA 簡潔性相當[5]。
LCA 和LCFA 均可通過最大似然估計法(maximum likelihood estimate,MLE)估計參數。 模型評價可用AIC(Akaike information criteria)、BIC(Bayesian information criteria)和L2等指標,其值越小意味著模型擬合越好。 模型建立后,利用貝葉斯理論,即最大后驗概率法,可將觀測歸為后驗概率最大的某一類別以實現分類。
目前模型可在Mplus、Latent Gold 等軟件中實現。
本研究模擬群體異質性假設由兩個維度F1和F2構成,探討樣本量、維度間關聯性對LCA 和LCFA 分類效果的影響。 模擬數據集在兩因子(F1和F2)兩水平LCFA 模型(記2-Dfactor(2,2))的理論分布下構建,定義F1的邊際概率和F1條件下F2的條件概率來控制F1和F2之間的關聯(關聯系數τ=0:無相關;τ=0.3:弱相關;τ=0.5:中度相關;τ=0.7:高度相關);設置5 個二分類顯變量y1、y2、y3、y4和y5,根據各類別條件下顯變量的條件概率(見表1)產生5 個服從二項分布的隨機變量。 總樣本量設置為200,500 和1000 三種。 設置不同的種子數,每種樣本量條件下重復試驗20 次,分別產生20 個模擬數據集。
對模擬數據集分別采用LCA 和LCFA 模型分析,其中LCA 擬合的模型包括1-5 類別(1-Cluster 到5-Cluster)模型;LCFA 擬合的模型包括一因子兩水平模型(1-Dfactor(2))、兩因子兩水平模型(2-Dfactor(2,2))和三因子兩水平模型(3-Dfactor(2,2,2)),其中兩因子兩水平模型包括指定因子間關聯的模型(2-Dfactor(2,2)?)。 由于2-Dfactor(2,2)模型是模擬研究的理論模型,為和LCA 比較,將LCA的4-Cluster 模型作為對比模型。
每個數據集根據各個模型擬合的BIC、AIC、L2等統計量選出最優模型,計算按各擬合指標選擇4-Cluster模型和2-Dfactor 模型的次數及比例。 利用選擇模型對觀測進行分類,將分類結果和理論模型的觀測類別情況進行比較,計算正確分類率(%)。 正確分類率(%)定義為正確分類的觀測占總觀測的比例,平均正確分類率(%)為20 次試驗的平均。 根據BIC、AIC、L2選擇最優分類模型數的比例越大,表明模型擬合效果越好;模型平均正確分類率越大,表明模型分類效果越好。

表1 理論模型各類別顯變量(二分類)的條件概率Table 1 Conditional probabilities of all kinds of distinct variables (dichotomies) in theoretical models
當模擬數據兩維度無相關時,選擇2-Dfactor(2,2)模型的比例和平均正確分類率均高于4-Cluster模型;當兩維度弱相關時,則選擇4-Cluster 和2-Dfactor(2,2)模型的比例高于2-Dfactor(2,2)?模型;當兩維度中度相關時,隨著樣本量的增加,選擇2-Dfactor(2,2)?模型的比例逐漸增加,且選擇2-Dfactor(2,2)?模型的比例和正確分類率高于4-Cluster和2-Dfactor(2,2)模型;當兩維度高度相關時,LCFA 則傾向于選擇的最優模型為1-Dfactor(2),結果見表2。
實例來自廣州市某年居民社區衛生服務滿意度調查資料。 共包括55 個社區衛生服務中心所屬街道的2992 份有效問卷。 社區衛生服務滿意度調查條目包括尊重患者、責任感、服務態度、隱私保護、解釋交流、提供知識、技術水平和可信任度等8 項服務,每項服務的滿意度均為5 個等級,即很不滿意、不滿意、一般、比較滿意和非常滿意。 分析前先將5個等級轉換為2 個等級,即將非常滿意和比較滿意合并為一類,很不滿意、不滿意和一般合并為一類。經關聯性分析,解釋交流和提供知識的關聯最強(τ=0.563 4),尊重患者、責任感和服務態度間的關聯中等(兩兩列聯系數τ分別為0.522 2、0.503 7和0.513 8),其他反應條目間的關聯程度為弱相關(τ∈(0.267 2,0.409 1))。
模型擬合結果見表3,對于LCA,根據BIC,模型5-Cluster 為最優;根據AIC 指標,模型8-Cluster 最優;根據L2,類別數大于5 以上模型L2減少的百分比均大于95%。 綜合考慮模型評價指標及模型簡潔性,選擇模型5-Cluster 為最優模型。 對于LCFA,根據BIC 指標,三因子相關模型為最優;根據AIC指標,四因子相關模型為最優模型;從L2來看,則四因子模型和四因子相關模型最優。 綜合考慮選擇三因子相關模型(3-Factor(2,2,2)?)為最優模型。 和LCA 的5 類別模型相比,3-Factor(2,2,2)?的BIC、AIC、L2均較低,且估計的參數(Npar=38)較少。
模型5-Cluster 和模型3-Factor(2,2,2)?的類別概率和條件概率分布見表4。 表中最左側標目表示5-Cluster 模型的類別,最右側標目表示3-Factor(2,2,2)?模型的類別組合。 對比2 個模型的分類結果可看到,LCFA 的(111) 類,(112) 類,(122) 類,(212)類和(222)類分別類似于LCA 的類別1-類別5 人群。 但LCFA 除發現LCA 中的5 個類別外,還發現3 個類別(121)、(211)、(221)人群。 其中(121)類人群和類別1 人群相比,8 項服務滿意度均較低,運用LCA 模型容易將該類人群歸為類別1;(211)類除尊重患者、責任感、服務態度較為滿意外,還對技術水平和可信任度較為滿意,LCA 模型易把該類人群歸為類別2;(221)類人群對8 項服務的條件概率均在0.30 ~0.64 之間,可認為此類人群對8 項服務均不滿意。
分析LCFA 的3 個因子與8 項服務滿意情況間的因子載荷(見表5),分析結果和各顯變量間關聯系數結果基本吻合。 進一步計算三因子間的列聯系數分別為0.344 2、0.318 8 和0.382 0,因子間存在關聯。
本研究通過計算機模擬對LCA 和LCFA 模型在處理分類問題時的效果進行比較,兩種方法均可對異質性群體進行分類,前者僅從單維度對人群分類,后者則從2 個或多個維度分類。 模擬研究結果表明:在兩因子兩水平的理論模型抽樣條件下,當模擬數據兩維度不相關或弱相關時,LCFA 選擇理論模型作為最優模型的比例和正確分類率均高于LCA;當兩維度中度相關時,隨著樣本量的增加,選擇兩因子兩水平且相關的LCFA 比例逐漸增加,且正確分類率較高。 當兩維度高度相關時,LCFA 模型傾向于選擇單因子模型。 這可由兩維度相關性太強,因而可用一個公共因子表示來解釋。 實證分析結果表明,應用LCA 模型可得到5 類異質性亞組人群,但忽略了顯變量間的維度特征,結果缺乏進一步的解釋價值。 但采用LCFA 可從多角度對異質性群體進行分類,分類結果更細化精確。

表2 維度關聯下LCA 和LCFA 擬合指標選擇理論模型的次數(%)和平均正確分類率(%)Table 2 Frequency (%) of selecting theoretical model and the average correct classification rate (%) for LCA and LCFA fitting indicators under dimensional correlation

表3 社區居民對社區衛生服務專業技術的滿意度LCA 和LCFA 模型結果Table 3 Results of LCA and LCFA model on the satisfaction of community residents to the professional technology of community health service

表4 5 分類LCA 和三因子LCFA 分類對滿意度分析的結果比較Table 4 Comparison of the satisfaction analysis results between 5-cluster LCA and 3-factor LCFA

表5 社區服務滿意度的LCFA 分析因子與條目間的因子載荷Table 5 LCFA analysis factors of community service satisfaction and factor load between items
作為LCA 的擴展,LCFA 模型既可用于分類顯變量,也可擴展到有序、連續或計數變量,應用范圍也較為廣泛,而目前對LCFA 的應用研究多針對顯變量為分類變量的情況,如McGrath[6]對精神分裂癥的維度進行探討,Moors[7]對反應模式行為進行分析,而連續型顯變量研究較少。 Magidson[5]通過實例數據對LCFA 和因子分析進行了比較,表明LCFA能很好地擬合數據,且提供的結果比因子分析更容易解釋。 和因子分析相比,LCFA 的參數相對難以解釋,針對此問題,Vermunt[7]等提出了線性近似的最大似然估計法。
LCFA 結合了LCA 和因子分析的思想,不僅可以達到傳統因子分析降維的目的,而且還能對異質性群體進行分類,克服因子分析中顯變量和潛變量均要求正態分布的假設,更擴充了潛在類別模型不滿足局部獨立性假設時的處理方式,具有模型精簡和容易被識別等優勢,在應用上具有廣泛的擴展空間。 此外,類似于因子分析,LCFA 從多個角度來確定異質性群體,使分類維度得以多元化,充分利用了數據的信息。 特別是當因子之間在專業上存在關聯時,可對因子與因子之間的關聯做出估計,有著重要的學術應用價值。