喬欣宇 馮詠琳 潘俊豪
(中山大學心理學系,廣州 510006)
在心理學和管理學等領域,研究者通常使用問卷測量人格和智力等不能直接觀測的潛變量。針對這些變量,研究者可以使用潛變量建模的方法進行統計分析。用于反映潛變量的若干個可觀測變量,如問卷中的多個測量條目,被稱為外顯變量。基于結構方程模型的方法,研究者可以分析潛變量之間的關系。結構方程模型在建模分析過程中考慮了外顯變量的測量誤差,可以獲得更準確的變量間關系的估計。常用的驗證性因子分析模型、中介效應分析模型和增長曲線模型等都可以使用結構方程模型的形式表征。
結構方程模型的估計主要有頻率學派方法和貝葉斯方法兩類。貝葉斯結構方程模型是貝葉斯估計在結構方程模型中的應用,在2012年由Muthén和Asparouhov提出,是相對于傳統極大似然方法更加靈活的一種新方法。van de Schoot等(2017)的統計結果顯示,自2012年以來,貝葉斯結構方程模型得到了越來越多應用研究者的青睞。
本文首先簡單介紹貝葉斯分析的基本概念和優勢,隨后針對貝葉斯結構方程模型估計中的先驗設置、敏感性分析、后驗分布的計算、模型收斂判斷以及模型擬合評估等問題進行基本的介紹,最后采用一個例子演示貝葉斯結構方程模型的建模過程,有助于國內心理學研究者了解貝葉斯結構方程模型在處理交叉載荷、局部依賴性和小樣本等問題的建模優勢,并將其用于解決自己的研究問題。
對比傳統的頻率學派的方法(如極大似然估計方法),貝葉斯估計方法的優勢在于可以在參數估計的過程中結合已有的知識或背景信息。基于貝葉斯估計框架,研究者可以得到模型未知參數的分布,而非具體的點估計值。貝葉斯估計方法與傳統的頻率學派的方法的本質區別在于如何定義模型中的未知參數。
頻率學派使用樣本估計參數對總體參數進行估計,將模型的待估計參數視作常數,基于模型得到的參數點估計值在最大程度上代表樣本數據,被認為是總體參數的最佳估計值,不同模型得到的參數的估計值不同(王孟成等,2017;Depaoli,2021)。在使用頻率學派的方法時,研究者使用標準誤或者置信區間量化參數點估計值不確定性。
與頻率學派的方法相同,貝葉斯估計方法也認為樣本數據隨機來自一個特定分布的總體。但不同的是,貝葉斯估計方法認為參數是隨機的,研究者可以通過先驗分布表示參數取不同值的可能性(王孟成等,2017;Depaoli,2021),并基于參數的后驗分布得到貝葉斯95%可信區間。貝葉斯可信區間的解釋與頻率學派的方法不同,它被解釋為該區間包含參數總體真值的可能性(Depaoli,2021)。
貝葉斯定理是貝葉斯估計方法中的一個重要部分,對于觀測到的樣本數據y以及模型參數θ,貝葉斯定理如公式(1)所示,其中p(θ|y)表示在該樣本數據中,模型參數值出現的概率,即參數的后驗概率;p(y|θ)表示該參數值下的樣本數據出現的概率;p(θ)表示該參數的先驗概率信息,反映了在總體樣本中,參數不同取值的可能性。
在貝葉斯估計中,研究者需要基于已有的信息對參數的分布形態和可能的取值范圍進行估計,即設定模型參數的先驗分布以及相應的超參數。基于公式(1),研究者可以得到參數的后驗分布,并基于后驗分布的均值、中位數或眾數等得到參數的后驗點估計值。
以包含p個測量條目和q個潛因子(p>q)的驗證性因子分析模型為例,具體介紹貝葉斯結構方程模型。該驗證性因子分析模型如公式(2)所示。
其中yi為代表p×1的連續觀測數據向量;μ為表示p×1的截距向量;Λ為一個p×q的因子載荷矩陣,表示觀測變量與潛變量之間的關系;ωi表示一個q×1的因子分數向量;εi為一個p×1的測量誤差(殘差)向量,服從均值為0,方差為Ψ的多元正態分布。在傳統頻率學派估計方法中,交叉載荷以及殘差協方差參數被嚴格限制為0,因此,Ψ為一個對角矩陣,Λ中一個條目僅對應一個因子。
在貝葉斯結構方程模型中,研究者可以將根據已有理論或者研究結果為驗證性因子分析中的未知參數θ=(μ,Λ,Ψ,ω)設定有信息的先驗分布、弱信息先驗分布或方差很大的無信息先驗分布,并結合樣本信息以及先驗信息使用馬爾科夫鏈蒙特卡洛算法(Markov Chain Monte Carlo;MCMC)估計方法得到未知參數的后驗分布。
對比頻率學派的估計方法,貝葉斯結構方程模型可以有效估計參數較多的復雜模型以及釋放嚴格的模型假設。例如,在傳統的極大似然方法中,不重要的交叉載荷或者殘差協方差參數通常都被嚴格固定為0。而這種嚴格的限制一方面并不能真實反映實際的測量情景,另一方面也可能會導致模型擬合不佳以及參數估計不準確(Asparouhov &Muthén,2009;Marsh et al.,2013)。已有研究者指出,這種針對交叉載荷以及殘差協方差參數的嚴格限制是不合理的,即使在一個單維的量表中,題目之間仍然可能存在除共同的潛變量外的其他因素導致條目之間存在較小的相關關系(Zyphur&Oswald,2013)。如 Golay等(2013)使用貝葉斯結構方程模型自由估計了被嚴格限制為0的交叉載荷參數,結果發現,與4因子結構和高階模型相比,包含5個因子加上一般智力因子的直接分層CHC模型(Cattell-Horn-Carroll model,CHC)更能代表韋氏第四版兒童智力量表的結構。Guo等(2019)的文章使用了 CFA、以及針對殘差協方差參數設置先驗的 BSEM(Bayesian Structural Equation Model with Residual Covariance Priors,BSEM-RC)方法重新擬合了大五人格問卷,研究結果發現使用BSEM-RC方法所得到的因子間的相關更低。因此,有必要對可能存在的交叉載荷以及殘差協方差參數進行建模。
傳統的頻率學派的估計方法處理該問題時存在較多局限,如使用模型修正指數方法一次只能修正一個參數,如果模型中存在多個交叉載荷或殘差協方差參數,使用該方法較為繁瑣且耗時較長,模型修正結果依賴模型中的參數修正順序及數量,且沒有一個較為明確且通用的停止模型修正的規則,研究者通常基于自己的主觀經驗確定是否停止修正(Hill et al.,2007)。此外,如果釋放較多的參數自由估計,模型可能無法識別,從而不能進行參數估計,導致不能得到結果(Asparouhov et al.,2015)。
而貝葉斯結構方程模型在處理該問題上具有一定的靈活性。它通過設置均值為0、方差較小的先驗,放寬將不重要的參數嚴格設置為零的假設,如允許小交叉載荷或殘差協方差的出現,并允許這些參數自由估計,嘗試解決在傳統方法下模型的限制條件過于嚴格的問題,兼顧了模型的可識別性與靈活性(Muthén&Asparouhov,2012)。相較于傳統頻率學方法,這種靈活性使得貝葉斯方法能夠處理更加復雜的數據類型和模型,比如數據缺失和殘差動態結構方程模型等。此外,貝葉斯結構方程模型也可以得到關于交叉載荷參數以及殘差協方差參數的后驗分布信息。
此外,貝葉斯結構方程模型在小樣本中的表現更好,有利于緩解統計時樣本量不足的問題。傳統極大似然估計通常假設需要大樣本,Lee和Song(2004)的研究發現,當對結構方程模型使用極大似然估計時,樣本量與模型參數數量的比值需高于5:1時才能得到準確的參數估計;而實際應用中對樣本量的要求往往更加嚴格,可能需要樣本量與模型參數數量的比值達到10:1或20:1。而貝葉斯分析不像頻率學方法那樣假設大樣本,在相對較小的樣本量下也能得到比較高的檢驗力(Lee &Song,2004;van de Schoot et al.,2015)。并且與先驗信息相結合是貝葉斯估計的一大亮點,先驗信息和樣本數據信息共同影響參數的后驗分布。小樣本情況下,樣本數據提供的信息較少并存在抽樣誤差,而對感興趣的參數設置具體的先驗信息可以為模型估計提供一部分信息,且此時先驗信息對參數后驗分布的影響程度強于樣本信息,從而解決有偏的參數估計問題和低檢驗力的問題(McNerish,2016;van de Schoot et al.,2015;Zondervan-Zwijnenburg et al.,2019)。
Smid等(2020)系統綜述了貝葉斯結構方程模型在小樣本在參數估計上相對頻率的優勢。樣本量與模型未知參數數量的比值小于2:1時通常被認為是小樣本。綜述結果發現當樣本很小時,頻率方法確實可能導致嚴重的有偏估計和不收斂的解的問題,而貝葉斯估計可以是一個可行的替代方法。具體而言,貝葉斯估計相比頻率估計表現出更優的覆蓋率和檢驗力,在結構參數的后驗分布點估計上也有更準確的表現。但是作者也強調研究者在使用先驗解決小樣本問題時最好不要使用軟件的默認無信息先驗。因為默認先驗可能導致有偏的方差參數估計,而這個問題只能通過結合先驗信息來解決。研究者應該更加積極地思考先驗超參數,設置有信息先驗以解決小樣本帶來的問題。
總的來說,貝葉斯方法對樣本量的要求更低,在小樣本條件下能夠避免嚴重的參數估計偏差,能夠處理更加復雜的數據,可以分析傳統頻率學派下無法實現的復雜模型,能夠提供更多關于參數估計和模型擬合的信息(張瀝今等,2019;McNeish,2016;Muthén &Asparouhov,2012;Smid &Winter,2020)。此外,BSEM建模可以檢測傳統的CFA模型所忽略的交叉載荷與殘差協方差問題,同時避免了由于估計參數較多、模型過于復雜而不可識別的難題(Guo et al.,2019)。
與貝葉斯結構方程模型處理模型中的交叉載荷參數、殘差協方差參數嚴格為0的假設的思路一致,針對多組結構方程模型,研究者同樣可以對參數的跨組差異值設置合適的先驗(如均值為0,方差較小的正態分布),從而放寬在多組結構方程模型中參數嚴格跨組不變的限制,得到更為準確的參數估計結果(Asparouhov &Muthén,2014)。張瀝今等(2019)的文章中介紹了其他類型的貝葉斯結構方程模型,宋瓊雅等(2021)的文章針對貝葉斯漸近測量不變性,詳細介紹了該方法的原理及優勢,感興趣的讀者可以參考他們的文章深入了解貝葉斯結構方程模型。
模型中未知參數的先驗分布是貝葉斯結構方程模型中的重要組成部分。先驗信息包含了先前的結論或前人研究的經驗與結果,反映了研究者對待估計參數的了解程度,先驗信息的豐富程度可以通過不同的超參數設定呈現。常見的超參數有先驗分布均值和先驗分布方差,前者反映了研究者基于已有的研究結果和理論知識對特定參數所確定的估計值,后者反映了研究者對其估計均值的相信程度,方差越小表示研究者對先驗均值的信心越多(Liang et al.,2020)。
van de Schoot等(2013)認為可以在研究理論、先驗信息的豐富程度以及研究者對先驗的確信程度的基礎上為參數設置不同類別的先驗分布。基于所包含的信息程度,先驗可以分為有信息先驗、弱信息先驗和無信息先驗。在傳統方法中,每個研究的假設總是基于當前研究者的信念,而前人研究的結果未能在新的研究中起到最大的指引作用。貝葉斯分析中先驗信息與觀測數據的結合有效改進了這一點,真正將前人研究的結果運用在后續研究的分析之中,體現了知識的累積和與理論的進步,相較于傳統方法更具優勢(王孟成,畢向陽,2018;Muthén &Asparouhov,2012)。
對于貝葉斯結構方程模型中不同的參數,為保證模型可以被識別并估計,研究者在考慮有關模型參數已有信息的同時,對于不同類型的參數通常會選擇不同的先驗分布形式。Mplus(Muthén &Muthén,1998—2017)和R語言中的blavaan軟件包(Merkle &Rosseel,2015)是在進行貝葉斯結構方程模型建模過程中常使用的工具,表1總結了這兩個工具中不同參數的默認先驗形式與默認先驗超參數。

表1 Mplus 與blavaan 軟件包中不同參數的默認先驗形式與默認先驗超參數
對于貝葉斯結構方程模型中的因子載荷、截距、斜率與回歸系數,正態分布先驗最為常用,表示為N[μ,σ2],μ其中為平均超參數,決定了先驗分布的中心,而σ2為方差超參數,方差越小表明研究者對參數值的確信程度越高,信息量越大,而大方差表明研究者對參數值的確信程度更低,信息量較小。Mplus中默認的超參數設置為N[0,1010],為無信息先驗;blavaan軟件包相較于Mplus中的默認先驗形式有所不同,測量截距的默認先驗為N[0,1000],截距、載荷以及回歸系數的默認先驗則為N[0,100]。
對于貝葉斯結構方程模型中的方差協方差矩陣,常用的先驗形式為逆Wishart分布,可以表示為IW[s,df],即當存在q個因子(測量條目)時,s是一個大小為q×q的正定矩陣,df則是一個表示自由度的整數,通過改變df的大小可以為先驗分布指定不同豐富程度的信息量,df越大表示對先驗的確信程度越高(Barnard et al.,2000)。在軟件Mplus中,對于連續變量以及類別變量的方差協方差矩陣,所使用的默認先驗不同,連續變量的默認先驗為IW[0,-p-1],類別變量的則為IW[0,p+1],其中p為變量的數量,I為單位矩陣(Muthén &Muthén,1998—2017)。
對于殘差方差,常用的先驗分布形式為逆Gamma分布,表示為IG[α,β],其中α為形狀超參數,不同的α表示分布曲線形狀不同;β為尺度超參數,在α大小不改變的條件下,不同大小的β會使得曲線以等比例放大或縮小。在Mplus中,默認先驗為IG[-1,0]。相較于正態分布先驗和逆Wishart分布先驗的超參數設置,逆Gamma分布先驗的超參數設置顯得不那么直觀。根據Gelman等(2013)的建議,為確定這些超參數的值,可以使用來自先前研究(前人觀察樣本、前人研究或試點研究)的信息,以通過先前研究樣本量的作為超參數α,而超參數β可以被計算為先前研究樣本量的乘以先前研究的方差估計。假設研究者在試點研究中收集了20個參與者的數據并對模型進行評估,對于某個條目的殘差方差估計為2,這時超參數,超參數,即可以在后續研究中對該條目的殘差方差設置IG[10,20]的先驗。如果研究者對于先驗不是十分確信,可以通過用較小的值代替先前研究的樣本量來增加先驗中的不確定性,如將α設置為編碼樣本量里的,而將β設置為編碼樣本量的乘以先前研究的方差估計。根據這種情況,在上述例子中,超參數,超參數,可以在后續研究中對該條目的殘差方差設置IG[5,10]的先驗。對于殘差方差的倒數形式,即殘差精度,常用的先驗形式則為Gamma分布,表示為G[α,β],α和β同樣分別為形狀超參數與尺度超參數。
對于相關系數,通常會為其設置均勻分布先驗,表示為U[l,u],其中超參數l和u分別表示上界和下界,這些超參數通常以±1為界(van Erp et al.,2018)。除Mplus與blavaan外,還有如Stan,Amos,WinBUGS等軟件可以實現貝葉斯結構方程建模,其默認先驗的設置可以參考van Erp等(2018)的研究。
綜上,在各種軟件中一般都默認是無信息先驗,當對參數設置該類型先驗時,參數的后驗分布更多取決于數據中包含的信息,這使得研究者們不用為參數的先驗設置而煩惱,提供了便捷使用貝葉斯結構方程模型的方式(Smid&Winter,2020;van Erp et al.,2018)。根據van de Schoot等(2017)的綜述,在1990年到2015年的近25年中,研究者們在使用貝葉斯方法進行心理學領域研究時經常依賴于軟件的默認先驗(26.3%),在已發表的文章中使用無信息或弱信息先驗的研究占42.1%。然而,也有很多研究者指出,使用默認的無信息先驗并不能最大程度地發揮貝葉斯方法相較于傳統方法更加靈活的優勢,因為前人研究的背景知識并不能有效通過默認先驗納入當前分析,并且在小樣本情況下,軟件的默認先驗分布可能并不合適,希望默認先驗能最大限度體現數據信息的想法可能會在小樣本中導致參數估計存在嚴重偏差(Smid &Winter,2020;Smid,McNeish,et al.,2020;van de Schoot et al.,2018)。
基于以上使用默認先驗可能導致的偏差,許多研究都推薦在貝葉斯結構方程模型中對部分參數設置有信息的先驗(Depaoli,2014;Gelman et al.,2013;McNeish,2016;Smid,Depaoli,et al.,2020)。Smid和Winter(2020)為研究者提供了選擇正確先驗的指導,了解未知參數值的合理范圍是避免使用不合理先驗的關鍵。研究者可以考慮從前人文獻的結果中提取信息,或是考慮研究中讓所使用的問卷與量表能夠得到分數的合理范圍,亦或是詢問相關領域專家的專業建議,從而為參數設置正確的先驗分布。例如,根據Muthén和Asparouhov(2012),對于正態分布先驗,設置均值為0的小方差正態分布先驗能夠更加準確地反映出實質性的理論,當對于因子載荷設置N[0,0.01]的先驗分布時,因子載荷后驗分布的95%可信區間將在-0.2與0.2之間;而對于逆Wishart分布先驗,推薦選擇自由度df≥p+4,其中p為變量的數量,以保證獲得可識別的后驗分布。當對于殘差協方差,設置IW[l,p+6]的先驗分布,在該先驗下殘差協方差的兩個標準差范圍為-0.2至0.2。
在使用貝葉斯結構方程模型分析數據時,研究者需要謹慎選擇先驗,因為不同的先驗設置可能會影響MCMC算法的性能;錯誤的先驗設置甚至會導致得到具有嚴重偏差的后驗分布結果,影響參數估計的準確性與模型的收斂率(Baldwin &Fellingham,2013;Depaoli&Clifton,2015;MacCallum et al.,2012;van Erp et al.,2018;Yuan &Mackinnon,2009;Zondervan Zwi-jnenburg et al.,2017)。例 如,Tong和Ke(2021)的研究結果表明,在貝葉斯非參數增長曲線建模中,信息量水平不同的精度參數先驗會影響模型的收斂速度、模型估計以及計算時間。Lee等(2020)發現,在使用貝葉斯潛類別分析時,如果選擇了與參數的真實分布差異顯著的有信息先驗,可能會導致一類錯誤率升高。此外,偏離參數真值分布的先驗還會對貝葉斯模型擬合指標判斷模型擬合情況的表現與選擇正確模型的能力造成影響,且不同的模型擬合指標對先驗分布的敏感性存在差異,越來越多的研究關注到頻率學派中模型擬合指標的截斷值是否依舊適用于貝葉斯方法(Liu et al.,2021;Winter &Depaoli,2022)。
因此,盡管與先驗分布相結合使得貝葉斯結構方程模型相對于傳統模型具有更加靈活的優勢,但如何設置參數的先驗分布是使用該方法最大的挑戰之一(van Erp et al.,2018)。對于判斷在貝葉斯結構方程模型中選擇的先驗是否合適,Smid和Winter(2020)提出了四種方法:
一是計算有效樣本量,即在后驗鏈中有效獨立抽取的樣本數量,當有效樣本量小于1000時,可能說明先驗的選擇存在問題。
二是看軌跡圖,當軌跡圖中多條鏈大部分重合時,可能可以說明先驗的選擇是合適的,但依舊要注意后驗分布中是否存在現實中不可能出現的數值,在這種情況下即使多條鏈出現了重合,但依舊可能表明先驗是不合適的,而當多條鏈之間完全缺乏重合時,很有可能說明選擇的先驗是非常不合適的。
三是比較先驗分布、似然分布與后驗分布,當他們之間存在實質性差異時,需要注意設置的先驗是否合適,當似然與先驗偏差很大時,尤其是在小樣本的情況下,后驗分布可能受先驗分布影響很大,從而導致結果的偏差。
四是檢查后驗標準差與95%的可信區間,當標準差過大與可信區間范圍過寬時,先驗的選擇可能存在問題。此時,研究者可以使用敏感性分析,進一步了解先驗分布對結果的影響,從而選擇正確的先驗(Smid &Winter,2020)。當研究者想要探討某個特定的先驗的影響時,可以對該先驗的均值超參數或方差超參數進行敏感性分析,具體來說可以對增大或者縮小均值超參數或方差超參數,得到具有不同均值或方差超參數的先驗,并使用這些不同的先驗進行參數估計;隨后,研究者可以通過比較幾個不同先驗下模型的收斂率、計算速度、效應量、模型擬合指標的表現以及模型參數估計結果,從而檢查先驗的超參數設置對于參數的估計是否具有實質性的影響(Depaoli &van de Schoot,2017;Liu et al.,2021)。
van Erp等(2018)根據模擬研究的結果建議,如果希望在研究中使用默認先驗,可以考慮包含軟件默認無信息先驗與多個水平的弱信息先驗的敏感性分析。如果敏感性分析結果顯示在不同先驗下模型分析的結果十分穩定,可以認為使用默認先驗得到的結果是可靠的;如果在研究中希望使用有信息先驗,可以對有信息先驗與默認無信息先驗進行敏感性分析,比較不同先驗分布下模型的結果以考慮有信息先驗分布下的研究結果是否可靠(Depaoli&van de Schoot,2017)。R語言中的MplusAutomation軟件包(Hallquist &Wiley,2018)可以通過調用Mplus生成多個先驗條件下貝葉斯結構方程模型的輸入文件,并對其進行運算,得出模型分析的結果,可以有效運用于完成先驗的敏感性分析。
研究者主要借助MCMC算法估計后驗分布,該方法通過在參數的概率空間中隨機重復抽樣從而得到參數的近似分布(Gelfand &Smith,1990)。MCMC算法可以分為馬爾科夫鏈和蒙特卡洛兩個部分。其中馬爾科夫鏈過程確定每一次隨機抽樣的規則,即下一次迭代中參數估計值僅依賴當前迭代中的參數估計值,而與之前的迭代過程無關;蒙特卡洛方法是通過在分布中抽樣的方式確定模型參數的近似值及其后驗分布,蒙特卡洛抽樣過程中的樣本均來源于特定的馬爾科夫鏈(Depaoli,2021;Van Ravenzwaaij et al.,2018)。
MCMC在不斷的迭代過程中,針對每一個參數都會形成馬爾科夫鏈,而鏈中的每一個值都是基于蒙特卡洛抽樣方法實現的(Depaoli,2021)。具體而言,在進行MCMC的過程中,研究者首先需要給出模型參數的初始值,基于樣本數據、參數的先驗信息以及模型參數的初始值,在每一次迭代中,研究者可以基于蒙特卡洛抽樣方法得到參數當前的估計值;基于當前迭代中的參數估計值,研究者可以得到下一次迭代中的參數估計值,多次重復該過程,每一次迭代中得到的參數估計值最終構成了穩定的參數后驗分布。在構成參數后驗分布的過程中,并不是每一次迭代中基于蒙特卡洛得到的參數估計值都會被保留用于構成參數后驗分布。研究者可以使用不同的算法調整是否保留基于當前的參數估計值確定的下一次迭代中的參數估計值的規則。常用的兩種算法為Gibbs抽樣和MH算法(Metropolis-Hastings algorithm;Depaoli,2021),具體關于該算法細節的介紹可以參考Bos(2004)以及Depaoli(2021)。
在使用MCMC算法進行貝葉斯估計時,隨著迭代的增加,模型參數的后驗分布逐漸趨向穩定,即模型達到收斂。判斷模型參數迭代收斂是評估模型后驗參數估計的重要問題之一。在實際應用中,研究者可以基于多個不同的評價指標判斷貝葉斯結構方程模型是否已經達到收斂。
(1)收斂圖或蹤跡圖。當樣本的參數估計在蹤跡圖中的波動較小,相對穩定時,表示該參數已經達到收斂。這種基于蹤跡圖的方式較為直觀,因此并不能說明是否該參數真正達到了收斂。但總的來說,該方法可以作為模型參數尚未達到收斂的標準(Mengersen et al.,1999)。如果模型參數的蹤跡圖表現出較大的波動或者出現極端值,則該參數有較大的可能性尚未達到收斂。
(2)Geweke收斂診斷。該收斂診斷方法主要用于判斷單條鏈的第一部分是否與該鏈的最后一部分之間存在顯著差異,常用于判斷單條鏈是否達到了收斂。研究者需要設定一定的迭代比例作為鏈的開始以及鏈的結束。Geweke(1992)最早指出可以比較鏈前10%以及后50%的部分的結果進行收斂性判斷。研究者可以基于實際情況調整用于比較的鏈的比例,確保用于比較的每一個部分足夠大從而保證基于兩次抽樣過程得到的均值彼此獨立。基于一條鏈的兩個部分彼此獨立的假設,研究者可以使用z檢驗的方法判斷是否達到收斂,即若z檢驗顯著則說明該參數的迭代并未達到收斂(Smith,2007)。研究者可以使用R工具包coda完成Geweke收斂診斷(Plummer et al.,2006)。
(3)潛在尺度縮減因子(Potential Scale Reduction,PSR)或Gelman-Rubin法。PSR通過比較參數估計的鏈內和鏈間的變異性判斷參數是否達到收斂,當鏈間的變異性小于鏈內的變異性時,不同鏈得到的參數估計結果接近一致,則說明該參數估計達到收斂(Gelman &Rubin,1992)。針對PSR,Mplus軟件使用的默認標準為1.05,當PSR小于1.05則認為模型達到收斂(Muthén &Muthén,1998—2017)。Vehtari等(2019)的文章中針對該指標的使用提出了更多的建議。
(4)自相關圖。在MCMC算法中,基于馬爾科夫鏈,每一次的抽樣過程僅依賴前一次的抽樣。理論上每連續兩次抽樣之間都會存在自相關系數,而非連續兩次抽樣之間則相互獨立。但是在實際場景中,該假設很難得到滿足。因此,研究者通常會計算一定抽樣間隔的抽樣相關。當自相關數小于0.1,則認為抽樣樣本之間彼此獨立(Depaoli,2021)。
當模型在迭代過程中尚未達到收斂時,研究者可以通過修改模型參數估計的初始值以及增加迭代次數的方式提高模型的收斂。此外,當模型的先驗設置不正確時,模型參數也會存在不收斂的情況,因此研究者也可以基于實際情況對模型參數的先驗做出調整。研究者可以使用R工具包coda繪制參數的自相關圖(Plummer et al.,2006)。
在貝葉斯結構方程模型的模型擬合評估方面,貝葉斯近似擬合指標和模型選擇指標的數量以及關于這些指標的研究深入程度都遠遠不及頻率學方法(West et al.,2012)。對于貝葉斯模型擬合指標,許多研究在早期僅局限于后驗預測p值(Posterior predictivep-values,PPp,Gelman et al.,1996)。與傳統的顯著性檢驗的p值不同,PPp中的p值是指觀測數據產生的卡方值比模型生成的樣本數據產生的卡方值小的比例,該值接近0.5則表示模型擬合越好,越偏離0.5則表示模型擬合越差,研究者通常使用0.05作為模型評估的標準,若PPp值小于0.05,一般認為模型擬合不佳。相應地,研究者同樣可以獲取后驗預測檢驗的95%區間,用于表示樣本數據與模型生成的數據之間的統計檢驗量差異,當該區間的下限為負數,且0位于該區間內時,則表示模型擬合良好(Muthén &Asparouhov,2012)。
Hoofs等(2018)首次提出了近似均方根誤差的貝葉斯變體,并命名為貝葉斯近似均方根誤差(Bayesian root mean square error of approximation,BRMSEA),Garnier-Villarreal和Jorgensen(2020)由此進一步拓展了貝葉斯框架下的近似擬合指標,包括貝葉斯比較擬合指數(Bayesian Comparative Fit Index,BCFI)、貝葉斯Tucker-Lewis指數(Bayesian Tucker-Lewis Index,BTLI)。對于新提出的貝葉斯近似擬合指標,由于其與使用極大似然方法的近似擬合指標具有相似的表現,研究者推薦使用傳統近似擬合指標的截斷值作為貝葉斯框架下的近似擬合指標對模型的評價標準(Asparouhov &Muthén,2021)。因此,根據Hu和Bentler(1999)提出的極大似然方法的近似擬合指標的截斷值,可以使用BRMSEA=0.06,BTLI=0.95,BCFI=0.95作為截斷值。貝葉斯模型擬合指標相對于傳統模型擬合指標的一個優勢在于可以計算模型擬合指標的可信區間,而不是單純地使用點估計進行模型擬合判斷,這可以給判斷模型擬合是否良好提供更豐富的信息(Asparouhov &Muthén,2021)。我們可以通過比較貝葉斯近似擬合指標的可信區間和截斷值來判斷模型擬合是否良好。當截斷值高于可信區間的最大值(對于BRMSEA而言是截斷值低于可信區間最小值)時,可以判斷模型擬合不佳;當截斷值低于可信區間的最小值(對于BRMSEA而言是截斷值高于可信區間最大值)時,則判斷模型擬合良好;當截斷值被可信區間所包含,則不能明確判斷模型擬合不佳或模型擬合良好。舉例來說,假設BCFI的截斷值為0.95。(1)當BCFI的點估計為0.892時,可信區間為[0.873,0.902],截斷值高于可信區間的最大值,BCFI表明模型擬合不佳;(2)當BCFI的點估計為0.961,可信區間為[0.958,0.976],截斷值低于可信區間的最小值,BCFI表明模型擬合良好;(3)當BCFI的點估計為0.950,可信區間為[0.872,0.963],截斷值被可信區間所包含,則不能明確判斷模型擬合不佳或模型擬合良好。
在貝葉斯結構方程模型框架下,模型選擇指標的數量相對更多,常用的指標有偏差信息準則(Spiegelhalter et al.,2002)、貝葉斯因子(Bayes factor,BF;Kass &Raftery,1995)、貝葉斯留一法(Bayesian leave-one-out,LOO;Gelfand et al.,1992)等,Lu等(2017)在CFA的框架下詳細對比了這些指標。
對于上述貝葉斯模型選擇指標以及貝葉斯近似擬合指標在模型選擇過程中的應用,各指標也存在不同的截斷值來表明兩個模型之間存在顯著差異。對于DIC,在模型比較中,兩個模型中DIC更小的模型擬合得更好,通常會使用兩個模型的DIC相減,得到ΔDIC。Cain和Zhang(2019)一項研究的結果表明,選取ΔDIC=7為截斷值能較好降低選擇錯誤模型的概率。
對于貝葉斯近似擬合指標在模型選擇的應用,目前的研究依舊參照的是傳統極大似然方法下近似擬合指標的截斷值。但是由于近似擬合指標被用于模型選擇的情況相較于模型選擇指標更少,不同研究者針對不同近似擬合指標給出了模型選擇的不同截斷值。有研究者認為當CFI的差異值大于0.005,TLI的差異值大于0.005和RMSEA的差異值大于0.010時,則說明模型之間存在顯著差異;但也有研究者認為當CFI和TLI的差異值大于0.01,RMSEA的差異值大于0.015時,則說明模型之間存在顯著差異;并且在樣本量的不同水平,應該選取不同的截斷值以保持近似擬合指標進行模型選擇判斷的敏感性(Chen,2007;Sokolov,2019)。
貝葉斯框架的模型擬合指標已被證實與傳統極大似然方法中的近似擬合指標合理近似,并已經被Asparouhov和Muthén(2021)運用在軟件Mplus中。由此,越來越多的研究者關注貝葉斯框架下的近似擬合指標,并展開了關于先驗設置敏感性的研究(Cain &Zhang,2019;Liang,2020;Winter &Depaoli,2022)。目前,關于近似擬合指標進行模型選擇的研究較少,對于貝葉斯近似擬合指標的截斷值尚存在爭議。McNeish和Wolf(2021)的研究基于模擬的方法來針對特定數據和結構構建特定的驗證性因子分析模型動態截斷值,并開發了一個RStudio附帶的Shiny應用程序(https://dynamicfit.app/),目前也可以通過名為“dynamic”的R包計算不同驗證性因子分析模型的動態截斷值,給研究者提供了能獲得更加精確的頻率學派結構方程模型框架下的模型擬合指標截斷值的方法。未來研究或許可以拓展該研究的發現,進一步探索用于貝葉斯近似擬合指標的動態截斷值。然而,盡管貝葉斯方法如今在心理學領域仍未如頻率學方法一般得到廣泛應用,但其優點已在各種研究中逐漸顯現,進一步了解和探索新提出的貝葉斯模型擬合指標進將是普及使用貝葉斯結構方程模型的重要課題與方向。
在本研究中,我們將使用一個實證數據展示和說明貝葉斯結構方程模型針對交叉載荷參數的建模過程。本文用于展示的軟件為Mplus,該軟件為最常用的潛變量建模軟件之一。其他的可以使用貝葉斯估計方法構建結構方程模型的軟件有WinBUGS、Stan、R軟件包blavaan等,關于這些軟件的介紹可以參考張瀝今等(2019)的文章。
本研究選用 Holzinger 和 Swineford的經典數據集進行展示,原有Holzinger和Swineford的智力測試中共包含了26個變量,本研究選擇了包含9個變量的數據子集。該數據子集同樣是R 語言的lavaan工具包和 blavaan工具包中的內置數據。該數據集包含了來自Pasteur 學校和Grant-White 學校的 301 名七年級和八年級兒童的智力測試分數,為避免學校不同帶來的影響,本研究僅考慮來自Grand-White學校的145名兒童的數據。
智力測試子集中的九個變量分別為視覺感知、立方體、菱形、短文理解、句子填空、詞義理解、加法、點計數與直曲線大寫字母,其中前三個變量用于測量空間能力,中間三個變量用于測量語言能力,最后三個變量用于測量反應速度,具體的模型如圖1所示。該訓練子集包含了來自Pasteur和Grant-White兩所學校的301名七年級和八年級兒童的智力測試數據。該智力子集的Cronbach’s α為0.760,各潛變量的Cronbach’s α分別為0.626、0.883、0.688。
為更加直觀地體現貝葉斯結構方程模型的靈活性,本研究同時展示使用頻率學派的極大似然估計方法和貝葉斯結構方程模型得到的結果。在貝葉斯結構方程模型建模估計的例子中,本文著重體現貝葉斯結構方程模型在處理交叉載荷參數問題上的優勢,因此,針對主要的因子載荷參數以及因子間相關參數,均使用Mplus軟件的默認先驗;針對交叉載荷參數,以均值為0,方差為0.01的正態分布先驗N(0,0.01)為例展示建模過程及模型參數估計結果。隨后將展示默認先驗以及強信息先驗的結果,以模擬在實際研究中研究者進行敏感性分析的過程。
在使用Mplus進行貝葉斯結構方程模型建模時,研究者在進行模型設定前,需要在ANALYSIS語句中先設定模型使用的估計方法以及方法的細節。如針對本研究的例子,需要使用貝葉斯估計方法進行貝葉斯結構方程模型建模,則對應的估計方法需要選擇BYAES,對應的語句為“ESTIMATOR=BAYES”。當研究者使用頻率學派的方法進行估計時,對應的估計方法可以選擇極大似然估計方法或經過均值和方差校正的最小二乘法等。針對貝葉斯估計方法,研究者同樣需要設置模型中的馬爾科夫鏈的數量和模型迭代次數等信息。
由于使用貝葉斯結構方程模型對數據進行建模的過程中,對比傳統的頻率學派方法,研究者需要基于已有的經驗給出模型中參數的先驗信息,且針對模型參數也會存在不收斂以及參數后驗分布準確性等問題,因此,圖2結合Depaoli(2021)對貝葉斯估計方法的結果報告的建議以及Depaoli 和 van de Schoot(2017)提出的 WAMBS 清單對估計結果的報告步驟進行整理,本文的示例也將參考該過程報告結果。

圖2 貝葉斯結構方程模型結果報告流程梳理
(1)樣本數據相關的人口學信息。與傳統頻率學派估計方法的結果報告一致,在報告參數估計結果前,研究者需要報告樣本數據的基本信息,如樣本量的大小、性別比例、正態分布情況和變量之間的相關信息等。如果對樣本數據進行了拆分,如使用一部分被試用于確定模型中參數的先驗信息,另外一部分用于估計模型的參數結果;或存在多個樣本數據時,研究者需要分別報告多個樣本數據的相關信息,以及數據拆分的具體步驟和規則。在本文的示例中,總樣本量為145,其中男性被試72人,女性被試73人。變量均不存在嚴重的非正態情況,峰值范圍為2.520~5.164,偏度范圍為-0.544~0.721。
(2)貝葉斯結構方程模型估計的軟件使用以及相關參數的設置。參數先驗信息是貝葉斯估計中較為重要的一部分,研究者在報告貝葉斯結構方程模型的參數估計結果前需要報告不同參數先驗設置的理論背景和參數先驗設置的細節。本研究的目的在于展示貝葉斯結構方程處理交叉載荷問題時的效果,因此僅對模型中的交叉載荷參數設置先驗。考慮到在問卷設置過程中,一般不假設模型中存在交叉載荷的情況,且針對交叉載荷參數常用正態分布作為先驗,因此,本研究中針對交叉載荷參數設置均值為0,方差為0.01的正態分布先驗,允許交叉載荷參數在[-0.2,0.2]范圍內波動。
另外,在報告結果時,研究者需要報告貝葉斯估計中相關參數的設置,如模型中參數估計的初始值、模型迭代次數及模型中MCMC鏈的數量等。在示例展示中,我們使用Mplus軟件中的默認初始值進行估計,并設置2條MCMC鏈。為保證模型參數估計更加準確,在模型估計中使用50000次固定迭代。
(3)貝葉斯結構方程模型的收斂情況。在實際應用中,研究者可以通過“BCONVERGENCE=0.05;”語句修改PSR收斂判斷的標準,其中0.05為Mplus默認值。當PSR<1+CONVERGENCE*factor則表示該參數已經達到收斂。其中factor的取值范圍為[1,2],取值的標準為參數數量(Muthén&Muthén,1998~2017)。當研究者使用單條MCMC鏈進行估計時,Mplus默認使用第3/4和最后1/4鏈的迭代結果進行計算。在本文中,BCONVERGENCE使用Mplus默認值。
另外,通過在Mplus的輸入input文件(.inp)中,研究者可以使用“PLOT:TYPE=PLOT2;”語句輸出參數估計的后驗分布結果圖;并在對應output(.out)文件中,研究者可以通過PLOT→View Plot查看參數的后驗分布、后驗參數蹤跡圖、自相關圖和后驗預測檢驗圖得到模型的收斂情況。有關基于蹤跡圖、自相關圖等判斷模型收斂的介紹可以參考王孟成等(2017)的文章。
以測量條目Y9和因子空間能力之間的交叉載荷參數為例,圖3(a)表示該參數的蹤跡圖。本文僅考慮了兩條MCMC鏈,因此,圖中使用黑色和灰色分別表示了不同鏈的估計結果,其中橫坐標表示對應的迭代次數,縱坐標表示后驗參數估計值,研究者可以基于蹤跡圖的方式直觀評估兩條鏈的參數估計值是否收斂到相同的、平穩的分布。其中圖中最長縱線之前的部分表示burn-in階段,后半部分的結果用于判斷模型是否達到收斂,從圖3(a)可以看出該參數逐漸迭代過程趨于平穩。

圖3 條目Y9 與因子空間能力之間的交叉載荷參數估計的蹤跡圖和自相關圖
圖3(b)為測量條目Y9和因子空間能力之間的交叉載荷參數的自相關圖,其中縱坐標表示相關系數大小,橫坐標表示不同的迭代間隔次數或步長。如圖3(b)所示,隨著迭代的增加,自相關系數逐漸低于0.1,趨于0,說明模型收斂良好。結合TECH8的結果顯示,當達到2500次迭代時,PSR=1.008,已經達到收斂的標準。這些結果均顯示模型的參數估計收斂良好。當模型尚未達到收斂時,研究者可以選擇增加迭代次數或修改模型估計的初始值。
(4)貝葉斯結構方程模型模型擬合評估。在進行貝葉斯結構方程模型建模時,Mplus會輸出關于模型擬合的相對應的結果,所使用的指標有PPp、CFI、TLI、RMSEA等。在本研究中,模型擬合良好,其中PPp=0.436(后驗預測檢驗95%CI為[-25.85,31.81])、CFI=0.99、TLI=0.99、RMSEA=0.04。
(5)模型參數估計結果。在模型結果部分,Mplus會基于參數后驗分布的中位數得到對應參數的點估計值,并基于后驗分布得到參數的95%的可信區間。表2展示了在本研究中,針對交叉載荷參數使用均值為0、方差為0.01的正態先驗分布后對應得到的模型因子載荷參數的結果。貝葉斯結構方程模型檢測出一個顯著的交叉載荷參數。

表2 針對于交叉載荷參數設置N(0,0.01)先驗的BSEM 模型的因子載荷參數估計結果
在進行貝葉斯結構方程模型建模時,為進一步避免先驗設置錯誤導致的參數估計偏差,研究者可以進行敏感性分析,比較設置不同先驗的模型參數估計結果(Depaoli &Van de Schoot,2017)。為進一步展示敏感性分析及其結果,本文修改了貝葉斯結構方程模型中交叉載荷參數的先驗作為展示,分別為:(1)Mplus默認的先驗信息;(2)強信息先驗,即均值為0,方差為0.0001的正態分布先驗,該先驗設置交叉載荷參數的變化范圍為[-0.02,0.02]。相比均值為0,方差為0.01的正態分布先驗,該先驗對交叉載荷參數變化范圍的限制更高。除交叉載荷參數的先驗設置不同外,其他模型設置參數均與均值為0、方差為0.01的正態分布先驗時的模型參數設置相同。
數據分析結果顯示,當使用Mplus默認的先驗設置時,模型中方差協方差矩陣不正定,模型不收斂。當對交叉載荷參數使用強信息先驗時,結合參數的蹤跡圖以及自相關圖的結果均顯示模型收斂。在模型擬合評估中,PPp=0.023,小于0.05,即該結果顯示模型擬合不佳。在模型參數估計中,強信息先驗BSEM模型未識別出交叉載荷參數。在強信息先驗條件下,該先驗條件限制交叉載荷參數在較小的范圍內波動,且樣本量小,樣本數據能為模型參數估計提供的信息相對有限。因此交叉載荷參數估計值多在0.01附近波動。綜合來看,雖然強信息先驗的貝葉斯結構方程模型達到了收斂的標準,但是擬合不佳,尚未識別出其中可能存在的交叉載荷參數。而這也進一步反映了當處理小樣本的情況時,先驗條件的設置會對模型的參數估計產生較大的影響,研究者對此需要慎重考慮。
通過對比不同先驗的貝葉斯結構方程模型結果發現,先驗信息設置對模型的參數估計具有較為重要的影響。且在實際研究中,先驗信息是基于已有的理論或結果,存在一定的主觀性,有必要嘗試使用不同的先驗驗證結果的穩健性。
本研究同樣使用頻率學派的極大似然估計方法對數據進行驗證性因子分析,并基于模型修正指數MI釋放嚴格的模型假設,優先修正MI較大的交叉載荷參數,估計可能存在的交叉載荷參數。參考CFI>0.95,TLI>0.95,RMSEA<0.08,SRMR<0.08的模型擬合良好的標準(Hu &Bentler,1999)判斷是否停止修正。如果模型擬合良好,則結束修正過程。
具體的模型修正過程及每一次修正后的模型估計結果如表3所示。該結果顯示,最終基于模型擬合良好的標準確定的模型中存在一個交叉載荷參數,結果如圖4所示,該交叉載荷與貝葉斯結構方程模型得到的結果一致。

表3 使用頻率學派極大似然估計方法進行模型修正過程所得到的模型擬合結果
貝葉斯結構方程模型在模型擬合和識別、參數估計、處理復雜模型以及小樣本問題中都有較大優勢。基于先驗信息的設置,研究者可以釋放原有傳統測量模型中較為嚴格的參數限制,同時也可以將已有信息整合在當前研究中,從而得到更準確的模型參數估計結果。本研究示例所展示的結果表明,對比傳統頻率學派的估計方法,貝葉斯結構方程模型可以準確地檢測出模型中可能存在的交叉載荷參數,得到相對準確的參數估計結果。
國內學者王孟成等在2017年簡要介紹了貝葉斯統計在潛變量建模過程的應用,隨后張瀝今等(2019)介紹了貝葉斯結構方程模型的方法基礎以及常用的貝葉斯結構方程模型的研究現狀,為更多研究者了解新的研究工具提供了一定的基礎。但截至2023年5月,基于中國知網的檢索發現,國內心理學領域有關貝葉斯結構方程模型的應用研究仍相對較少。希望本文可以幫助更多國內心理學研究者了解貝葉斯結構方程模型在處理小樣本、嚴格的模型參數假設和復雜模型等問題上的優勢,基本掌握貝葉斯結構方程模型解決實際研究問題的操作。
在貝葉斯結構方程模型建模中,模型參數的先驗設置具有一定的主觀性,對參數的估計具有一定的影響。本文示例展示的結果同樣表明,先驗設置可能會導致模型不收斂或者模型參數估計不準確等問題。因此,研究者在實際使用過程中有必要基于已有知識選擇多個先驗條件建模,從而得到更為穩健的參數估計結果。此外,由于貝葉斯估計方法在對參數的解釋上與傳統的頻率學派的方法存在一定差異,因此不可避免地可能會錯誤解讀模型估計結果。Depaoli和Van de Schoot(2017)提出了WAMBS清單,該清單描述在應用貝葉斯估計時需要重視10個點,主要包括對先驗的理解、模型收斂性的檢驗以及模型估計結果的解釋三個方面。研究者在實際進行貝葉斯結構方程模型建模時,也可以參考該清單完善自己的建模過程。
由于不同的軟件使用不同的抽樣方法進行貝葉斯結構方程模型的參數估計,且當研究者在使用默認先驗時,不同軟件默認的先驗設置不同,這些都會影響最終的模型參數估計結果(Jak et al.,2021;van Erp et al.,2018)。因此,研究者需要注意不同軟件可能會導致不同的估計結果。
本文旨在簡要介紹貝葉斯結構方程的原理及其在心理學的應用,更多關于貝葉斯結構方程的方法基礎、原理以及在Mplus軟件上的應用的相關信息,感興趣的研究者可以參考張瀝今等(2019)、王孟成等(2017)、Depaoli和Van de Schoot(2017)的文章以及Depaoli(2021)或王孟成(2014)主編的書籍。