404 Not Found

nginx 404 Not Found

404 Not Found

nginx

貝葉斯因子及其應用

2023-09-25 13:04:53朱訓?顧昕

心理技術與應用 2023年9期

朱訓?顧昕

摘要貝葉斯因子檢驗是零假設顯著性檢驗的替代方法，心理學研究者可使用貝葉斯因子評估數據支持或反對理論模型的證據。但是，貝葉斯因子的原理較為復雜，在實踐中正確使用和解釋貝葉斯因子存在一定難度。為此，本文介紹貝葉斯因子的定義、用法和解釋，結合案例展示貝葉斯因子在評估零假設、區間假設、信息假設時的具體應用，并討論貝葉斯因子在統計模型和實證研究中的應用進展。研究者在使用貝葉斯因子時應重點關注先驗分布的設置、貝葉斯因子的解釋、后驗模型概率。

關鍵詞貝葉斯因子；先驗分布；后驗模型概率；發表偏差

分類號 B841

DOI：10.16842/j.cnki.issn2095-5588.2023.09.001

1 引言

零假設顯著性檢驗是當前心理學數據分析的傳統方法。然而近二十年來，基于p值的零假設顯著性檢驗受到了廣泛的批評（王珺等， 2019; 溫忠麟等， 2022; 鐘建軍等， 2017; Hoijtink et al.， 2019; Masson， 2011; Wagenmakers， 2007）。首先，顯著性檢驗是在假定零假設為真的情況下進行的，因此無法獲得支持零假設的證據（許岳培等，2022; Wagenmakers et al.， 2018）。其次，研究者將p值與預先設置的顯著性水平作比較，推斷是否拒絕零假設。二分的統計推斷可能導致發表偏差和研究不可重復的問題，獲得顯著性結果的心理學實證研究論文更容易被發表（胡傳鵬等， 2016; Open Science Collaboration， 2015）。例如，同一研究問題的十項研究可能僅一項結果顯著并被發表，其余九項得到非顯著性結果的研究被忽略。此外，顯著性檢驗結果無法簡單地進行數據證據的更新，多重假設檢驗需要校正顯著性水平（Rouder， 2014）。零假設顯著性檢驗的缺點使得研究者重新思考它的使用和替代方法。比如，Wasserstein和Lazar（2016）強調何時、何故以及如何正確地使用p值。Benjamin等（2017）提出將常用的顯著性水平從0.05改為0.005。但是，更嚴格的顯著性水平無法解決發表偏差的問題，甚至可能使更多的非顯著性結果被忽略。Trafimow和Marks（2015）則建議研究者不使用統計推斷決策，僅考慮描述統計來呈現數據分析結果。但是，描述統計通常無法直接回答研究問題。

零假設顯著性檢驗的另一種替代方法是貝葉斯因子檢驗（吳凡等， 2018; Heck et al.， 2023）。首先，貝葉斯因子量化了數據支持零假設或備擇假設的證據，這為統計推斷提供了更多信息。為了控制發表偏差問題，貝葉斯因子可不作二分統計推斷，僅報告研究假設得到的數據證據（Hoijtink et al.， 2019）。其次，貝葉斯因子可以同時評估多個假設或模型，且無需多重檢驗調整。原因是貝葉斯因子不預先控制I類錯誤，不需要調整顯著性水平。最后，貝葉斯因子可以通過數據的不斷收集更新支持或反對假設的證據，即貝葉斯更新。盡管貝葉斯因子不控制I類和II類錯誤率，但研究者仍可以通過先驗分布的設置調整貝葉斯因子檢驗的I類和II類錯誤率（Gu et al.， 2016）。此外，研究發現貝葉斯更新使得貝葉斯因子檢驗相比零假設顯著性檢驗有相同或更小的I類和II類錯誤率，意味著相同的統計功效，貝葉斯因子檢驗的樣本容量要求更低（Sch?nbrodt et al.， 2017）。

貝葉斯因子檢驗需要設定假設模型下的參數先驗分布，不同的先驗分布會影響貝葉斯因子的統計推斷結果。Rouder等（2009）使用Jeffreys-Zellner-Siow先驗，開發了R軟件包BayesFactor用于t檢驗、方差分析和回歸分析等模型的零假設和備擇假設評估。Mulder等（2012）使用最小訓練樣本定義先驗，開發了BIEMS軟件用于假設檢驗和模型評估。Gu等（2018）使用部分樣本似然函數設置先驗，開發了R軟件包bain用于零假設、區間假設、次序假設等的評估與比較。該軟件的適用模型廣泛，包括多元正態線性模型、廣義線性模型、隨機效應模型、結構方程模型等（Hoijtink et al.， 2019; Van Lissa et al.， 2021）。當然，能夠計算貝葉斯因子評估假設或模型的軟件工具還有很多（JASP Team， 2020）。

目前，已有許多文獻從不同視角介紹貝葉斯因子，推廣了其在心理學研究中的應用（Hoijtink et al.， 2019; Schmalz et al.， 2023; Wagenmakers et al.， 2010）。在國內心理學研究中，胡傳鵬等（2018）介紹了貝葉斯因子的原理、解釋及其在特定軟件JASP中的實現。吳凡等（2018）重點闡釋了貝葉斯因子的原理、優勢和計算。但是，以往研究未涉及貝葉斯因子在零假設、區間假設、次序假設檢驗中的具體應用，也沒有討論貝葉斯因子在具體統計模型中的研究進展。為此，本研究結合數據分析實例，闡述貝葉斯因子的基本方法和實際應用，并討論貝葉斯因子在統計模型和實證應用中的進展。

2 貝葉斯因子

本節將借助一個簡單的例子介紹貝葉斯因子的相關概念，關于貝葉斯因子更詳細的理論介紹可參考Kass和Raftery（1995）。樣例數據來自Bem（2011）提出的關于超感知覺（ESP）是否存在的實驗。實驗共有n=40名被試，每人先看兩張卡片，一張正面有數字，另一張正面有特殊圖片，然后猜測哪張卡片上有特殊圖片。實驗得到x=26人選擇了正面為圖片的卡片。根據研究問題，構建零假設表示被試猜對的概率為50%，即ESP不存在；備擇假設表示被試猜對的概率不等于50%，即ESP存在。更具體地，在零假設下可建立模型

M1：x～Binomial（n=40，θ=0.5）

模型假設成功的次數服從二項分布，并且猜測正確的概率為θ=0.5；在備擇假設下可建立模型

M2：x～Binomial（n=40，θ≠0.5）

該模型表示正確選擇的概率θ不等于0.5。頻率統計通常通過估計參數θ，并計算p值或置信區間進行推斷。比如在上述例子中參數估計值為=26/40=0.65，95%置信區間為[0.48，0.79]，p值為0.096，因此在α=0.05的顯著性水平下，模型M1不能被拒絕。此時，由于顯著性檢驗無法接受零假設，研究者無法得到任何結論。

貝葉斯統計推斷使用貝葉斯因子量化數據對兩個競爭假設或模型的支持程度，計算貝葉斯因子需要指定各模型下參數θ的先驗分布。先驗分布反映了觀測數據之前各模型下參數θ的可能取值及概率。模型M1指定θ恰好等于0.5，相應的先驗分布也指定θ=0.5是唯一的取值。然而，模型M2并沒有指定θ，參數θ≠0.5需要設定先驗分布量化預期效應大小的不確定性。

先驗分布的設定是貝葉斯統計的重點和難點。研究者既可以指定主觀的先驗分布，也可以設置默認的先驗分布（Heck et al.， 2023）。主觀先驗反映研究者的主觀信念，比如相信ESP的研究者可以指定均勻分布θ～Uniform（0.5，0.6），表示θ的取值在[0.5，0.6]之間且可能性相等。該先驗反映了如果ESP存在，正確選擇卡片的概率略大于隨機選擇的概率0.5。一般來說，主觀先驗分布是模型的擴展，將M1與M2的比較變為θ=0.5與θ～Uniform（0.5，0.6）的比較。默認先驗分布通常在先驗信息不存在時使用，研究者將得到客觀的、完全基于數據的貝葉斯推斷。比如，當研究者不知道θ的可能取值時，可設定θ～Uniform（0，1），即概率θ在0到1區間內取任何值的概率相等。

在指定先驗分布后，貝葉斯因子需要計算每個模型下數據的邊緣似然函數（marginal likelihood，ML）。比如，邊緣似然ML（x=26|M）是給定特定模型的情況下，在n=40次試驗中觀測到x=26次正確猜測的概率。邊緣似然值越大，模型結合先驗對數據的預測效果越好。在計算兩個模型的邊緣似然函數后，其貝葉斯因子可由下式計算：

因此，貝葉斯因子直觀地比較了兩個模型對數據的預測能力。

貝葉斯因子可以解釋為數據支持兩個模型的相對程度。如果貝葉斯因子等于1，說明數據對模型M1和M2的支持程度相等；如果貝葉斯因子等于5，表明數據對模型M1的支持程度是M2的5倍；如果貝葉斯因子等于0.2，意味著數據對模型M2的支持程度是M1的5倍。已有研究給出解釋貝葉斯因子的一般準則（胡傳鵬等， 2018; Kass & Raftery， 1995），并推薦使用3或1/3作為閾值推斷模型是否得到數據的支持。若BF12>3，則存在證據表明數據支持模型M1；若BF12<1/3，則數據支持模型M2；若1/3<BF12<3，則沒有足夠的證據表明數據支持任一模型。但是，以3或1/3為閾值的貝葉斯因子同樣會產生引言中提到的發表偏差和研究不可重復的問題（Tendeiro & Kiers， 2019）。比如，當M1是所期望的模型時，貝葉斯因子BF12>3的研究結果更有可能被發表。

為此，統計學者提倡不使用貝葉斯因子作二分推斷，僅呈現貝葉斯因子量化數據支持模型的程度（Hoijtink et al.， 2019）。與顯著性檢驗不同的是，貝葉斯因子相比于p值有更具體的含義，故不需要形式上的閾值。如果BF12=2.5，研究者僅需報告M1得到的數據支持程度是M2的2.5倍。當然，如果BF12=100，那么研究者自然地認為數據支持M1的證據是可信的。如果BF12在1附近，則通常認為貝葉斯因子不偏向任何模型。

貝葉斯因子的另一種表達是后驗模型概率比與先驗模型概率比的比值：

因此，貝葉斯因子可以隨著數據的收集不斷更新研究者對模型的信念。在沒有先驗信念時，研究者可以設置相等的模型先驗概率，即P（M1）=P（M2）=0.5。這時，貝葉斯因子等于模型后驗概率的比值。后驗模型概率表示在觀測數據后，研究者對模型選擇的信念。比如P（M1|x=26）=0.6表示M1是最佳模型的概率為60%。另外，后驗模型概率也可表示貝葉斯錯誤概率（Bayesian error probability）。與頻率統計的I類和II類錯誤率不同，貝葉斯錯誤概率是在真實模型未知的情況下，分析數據后選擇模型的錯誤率。若P（M1|x=26）=0.6，則表示選擇模型M1可能出錯的概率為1-0.6=0.4。因此，后驗模型概率評估了貝葉斯因子檢驗的不確定性。

3 貝葉斯假設檢驗

3.1 應用案例

貝葉斯因子可用于檢驗零假設、區間假設、信息假設等。本節引入應用案例，并在之后的3.2、3.3、3.4節結合案例展示貝葉斯因子在以上假設檢驗中的具體應用。

案例采用兒童教育電視節目《芝麻街》（Sesame Street）數據（Pituch & Stevens， 2016）。《芝麻街》是教授3～5歲兒童學前技能的動畫片，該數據包含N=240名年齡在34到69個月的兒童，其中男孩115名，占比47.9%。變量包括兒童觀看節目后的數字測驗得分（均值M=29.45，標準差SD=12.59）、觀看節目前的數字測驗得分（均值M=20.76，標準差SD=（10.62）、詞匯測驗得分（均值M=46.80，標準差SD=16.08）、年齡（均值M=51.01，標準差SD=6.29）等。該數據集可在R軟件包bain中找到。圖1給出了變量的相關系數矩陣熱圖。

研究假設包括：（1）男孩和女孩的數字測驗后測平均得分不存在差異。（2）兒童在觀看《芝麻街》后的數字測驗平均得分高于前測平均得分。（3）兒童數字測驗前測得分對數字測驗后測得分的影響比詞匯測驗得分大，而詞匯測驗得分的影響又比年齡大。

3.2 貝葉斯零假設檢驗

研究者通常通過證偽零假設獲得支持研究理論的證據。零假設是對總體參數的精確表述，比如零假設H0∶μ1=μ2表示實驗組與對照組的均值完全相等。檢驗零假設需要將其與備擇假設相比，備擇假設與零假設對立互斥，比如備擇假設H1∶μ1≠μ2表示實驗組與對照組的均值不相等。這里的一個問題是，零假設是具體的，可使用μ1-μ2=0的先驗分布定義，但是備擇假設非常模糊，我們并不知道均值的具體差異是多少。頻率統計推斷常以概率的方式表達備擇假設，如μ1-μ2是服從正態分布的隨機值。類似地，貝葉斯統計推斷通過設置參數的先驗分布定義備擇假設，如設置μ1-μ2的正態先驗分布。在定義零假設和備擇假設下μ1-μ2的先驗分布后，即可計算貝葉斯因子比較數據對零假設與備擇假設的相對支持程度。

貝葉斯零假設檢驗相較于傳統零假設顯著性檢驗有著諸多優點。首先，貝葉斯檢驗可以量化數據對零假設的支持，而顯著性檢驗只能拒絕或不拒絕零假設，不能得到支持零假設的證據。其次，在收集數據的同時，貝葉斯檢驗可以不斷更新對所關注假設的支持程度。當計劃和執行一項研究時，如果所關注的理論假設沒有得到令人信服的數據證據支持，在貝葉斯范式中，研究者可以選擇繼續收集更多的數據并更新對假設的評估。最后，貝葉斯零假設檢驗不控制I類和II類錯誤率，即在觀測數據前，從總體中重復抽樣的決策錯誤率（I類和II類錯誤在觀測數據之前被確定）。相反，貝葉斯檢驗控制貝葉斯錯誤概率，即在觀測數據后，根據數據信息做出錯誤決策的概率（貝葉斯錯誤概率不考慮從總體中重復抽樣會發生什么，而是完全取決于數據本身）。因此，研究者在實驗設計時無需設置顯著性水平、統計功效閾值等與I類和II類錯誤率相關的指標。

當然，貝葉斯零假設檢驗對使用者提出了更高的要求。貝葉斯檢驗需要思考備擇假設的實際含義是什么（Heck et al.， 2023）。與傳統顯著性檢驗只需指定零假設不同，貝葉斯檢驗比較兩個實實在在的假設，因此必須明確備擇假設的含義。如在H0∶μ1-μ2=0的零假設和H1∶μ1-μ2=0.5的備擇假設下，貝葉斯因子BF01=5表示總體效應為0的模型受到數據的支持程度是效應為0.5的模型的5倍。然而，如果將零假設與H2∶μ1-μ2=0.2進行比較，我們可能得到BF02=0.5，說明備擇假設H2受到的數據支持更多。這一現象表明貝葉斯零假設檢驗比零假設顯著性檢驗更為復雜，研究者需要指定備擇假設下效應的先驗分布來定義備擇假設是什么。當然上面兩個例子中的備擇假設都是不合適的，與零假設相對的備擇假設應該包括參數或效應的所有可能取值。為此，心理統計學者提出默認先驗定義備擇假設，如標準化均值差異的柯西分布（Rouder et al.， 2009）、近似正態分布（Gu et al.， 2018）等。此外，根據心理學研究的實際情況，出現在零假設周圍的效應取值更有可能出現，比如對于標準化均值差異，μ1-μ2=0.2顯然比μ1-μ2=20更有可能出現。在備擇假設下，若預期的效應量較小，則先驗分布的方差較小，可能的取值在零假設附近；若預期的效應量較大，則先驗分布的方差較大，可能的取值遠離零假設。

研究者已開發出方便心理學者使用的貝葉斯檢驗軟件，包括SPSS、JASP、R、Python在內的諸多軟件均支持貝葉斯零假設檢驗。本文以R軟件包bain（Gu et al.， 2019）為例，分析3.1節應用案例中的研究假設（1）：男孩和女孩的數字測驗后測平均得分不存在差異。根據研究問題確定零假設H0∶μ男=μ女和備擇假設H1∶μ男≠μ女，其中μ男和μ女分別表示男孩和女孩的數字測驗后測平均得分。隨后，使用兩獨立樣本t檢驗分析數據，得到樣本均值差為男-女=1.24，95%置信區間為［-1.97， 4.45］，t值為0.76。零假設顯著性檢驗的結果為p=0.447，在α=0.05的顯著性水平下無法拒絕零假設，沒有得到任何結論。貝葉斯因子可以作為顯著性檢驗p值的替代，在呈現統計量t值后，報告貝葉斯因子以及模型的后驗概率，解釋假設被支持的數據證據和不確定性。在案例中，貝葉斯零假設檢驗的結果為BF01=11.58，表明數據支持零假設H0的證據是備擇假設H1的11.58倍，即男孩和女孩的數字測驗后測平均得分不存在差異的數據證據是存在差異的11.58倍。通過BF01又可以計算零假設的后驗模型概率為BF01/（1+BF01）=0.92，表示在觀測數據后，零假設正確的概率為92%，也表明錯誤接受零假設的概率為8%。該數據分析的R代碼見附錄。

3.3 貝葉斯區間假設檢驗

貝葉斯檢驗通常比較零假設和備擇假設（Wagenmakers et al.， 2018）。但是，研究者應該思考零假設是否能準確反映研究理論。例如，均值相等的兩個總體是否真的存在？零假設所描述的“沒有任何差異”“沒有任何效應”能否準確反映真實總體（Cohen， 1994）。人們更接受總體參數“接近于零”或者不大于指定的效應量的假設。這時，區間假設更能反映研究理論，即總體差異或效應是否在某個區間范圍內（Heck et al.， 2023）。

常見的涉及區間假設的設計類型是優效性設計，在這種設計中，零假設（例如，藥物或干預沒有效果）與備擇假設（例如，藥物或干預有一些積極的效果）形成對比。經典頻率統計推斷通常使用單側t檢驗分析此類設計下的實驗數據。比如檢驗零假設H0∶μ=0與備擇假設H1∶μ>0。與優效性設計相對的是非劣效設計，該設計的目標是證明新的治療藥物或干預方法不比現有的差，需要在觀測數據之前設置非劣效臨界值，如μ0。同樣通過單側t檢驗比較“零假設”H0∶μ<μ0與備擇假設H1∶μ≥μ0。使用區間假設的另一種設計類型是等價設計，零假設被定義在0附近的小區間［-μ0，+μ0］，即H0∶-μ0≤μ≤μ0，備擇假設與區間假設對立，即H1∶μ<-μ0或μ>μ0。

以上三種設計下的區間假設都可以使用貝葉斯因子評估（Van Ravenzwaaij et al.， 2019）。區間假設的范圍大小根據總體效應大小指定，備擇假設的先驗分布可選取以零為中心的柯西分布（Rouder et al.， 2009）或正態分布（Hoijtink et al.， 2019）。具體而言，對于優效性設計的備擇假設，先驗分布可使用截斷柯西分布，使得負值的分布概率為0，進而計算零假設與單邊假設的貝葉斯因子。與顯著性檢驗類似，貝葉斯單邊檢驗比雙邊檢驗更容易拒絕零假設，具有更大的統計功效。對于非劣性設計和等價設計，兩種假設都是區間假設，都可使用以零為中心的截斷柯西先驗，并計算兩個互補假設的貝葉斯因子。

考慮3.1節應用案例，根據研究假設（2）：兒童在觀看《芝麻街》后的數字測驗平均得分高于前測平均得分，構造區間假設H0∶μ后>μ前和H1∶μ后≤μ前，其中μ前和μ后分別表示兒童數字測驗前測和后測平均得分。使用配對樣本t檢驗分析數據，得到樣本均值差為后-前=8.69，95%置信區間為[7.48，9.90]，t值為t=14.15。貝葉斯區間假設檢驗的結果為BF01=2.29×1014，H0的后驗模型概率約等于100%，選擇H0的貝葉斯錯誤概率約等于0。研究者可以很確信地給出兒童數字測驗后測平均得分高于前測平均得分的結論。數據分析的R代碼見附錄。

3.4 貝葉斯信息假設檢驗

第3.2、3.3節討論了零假設和區間假設檢驗的貝葉斯方法。正如前文所述，研究者不應該不假思索地使用零假設。很多情況下即使拒絕了零假設，也只能說“發生了一些事情，但不清楚是什么”。因此，研究者應該直接評估能夠準確反映研究期望的假設。研究期望可能是“男孩和女孩的數學自我概念不存在差異”，可能是“接受藥物治療的患者疼痛感輕于接受安慰劑的患者”，也可能是“自我意識是影響大學生幸福感的最重要因素，其次是學校學習和人際交往”。以上研究期望可以用H0∶μ男=μ女、H1∶μ藥<μ安、H2∶μ自>μ學>μ人等假設表達。這里，H0是零假設，H1是區間假設，H2被稱為次序假設，表示效應的大小排序。零假設、區間假設和次序假設都可以納為信息假設的范疇（Hoijtink et al.， 2019）。信息假設與無信息的備擇假設對應，用來精確表達研究理論與期望。

信息假設使用等式和不等式（“等于”“小于”或“大于”）對現有模型參數進行約束，模型參數可以是總體均值、方差、回歸系數、因子負荷等。例如，若μ代表四個連續的測量平均值，則μ1-μ2>μ2-μ3>μ3-μ4說明平均值的差異隨著時間的推移而減小；若μ代表兩因素方差分析的均值，則μ11-μ12>μ21-μ22表示存在特定的交互效應；若μ代表標準化回歸系數，則μ1>μ2>μ3表示自變量對因變量影響的大小排序；若μ代表因子負荷，則μ1>0.5，... ，μ5>0.5表示每個因子負荷都大于0.5。此外，信息假設也可包含非線性約束（Klugkist et al.， 2010），比如若μ代表列聯表中的概率，μ11μ22/μ12μ21>1表示優勢比大于1，即兩個分類變量存在關聯。信息假設還可以表述變量的相對重要性，即變量對模型擬合的重要性大小（朱訓，顧昕， 2023; Gu， 2021）。總之，各類明確的研究理論與期望都可以用信息假設表達。

信息假設既可以使用傳統頻率統計p值評估（Silvapulle & Sen， 2004），也可以使用貝葉斯因子評估（Gu et al.， 2014）。p值可以檢驗零假設與備擇假設、零假設與其他信息假設，但是無法比較除零假設以外的相互競爭的信息假設。而貝葉斯因子則可以評估兩個信息假設得到的相對數據證據。當只評估一個信息假設時，貝葉斯因子可將其與互補假設相比較。例如μ1>μ2>μ3的互補假設為包含μ2>μ1>μ3、μ2>μ3>μ1等其他五個次序約束的假設，記為互補假設HC。信息假設的先驗分布可設置截斷先驗，與無約束的備擇假設具有相同的先驗形式。比如，若設定備擇假設下μ1，μ2，μ3的先驗為多元正態分布，則信息假設μ1>μ2>μ3下的先驗分布為限制在該約束條件下的截斷多元正態分布。

回顧3.1節應用案例，評估研究假設（3）：兒童數字測驗前測得分對數字測驗后測得分的影響比詞匯測驗得分大，而詞匯測驗得分的影響又比年齡大。先建立回歸模型

數字后測得分=β0+β1數字前測得分+β2詞匯測驗得分+β3年齡

其中β0表示截距，β1，β2，β3表示相應的回歸系數。隨后根據研究假設構建信息假設H1∶1 >2>3，其中代表標準化回歸系數。注意，比較自變量影響大小需使用標準化系數。分析數據得到標準化回歸系數1，2，3的估計值分別為0.57，0.15，0.06，95%置信區間分別為[0.46，0.67]，[0.04，0.26]，[-0.04，0.16]。將信息假設H1與互補假設HC相比較，計算貝葉斯因子得到BF1C=38.77，表明數據支持信息假設H1的證據是其互補假設的38.77倍，意味著有很強的證據表明在數字測驗后測得分的影響因素中，前測得分的影響大于詞匯測驗得分，又大于年齡。數據分析R代碼見附錄。

4 貝葉斯因子的應用進展

研究者使用t檢驗驗證正態總體均值是否等于預設值、兩個正態總體均值是否存在差異等研究問題。貝葉斯t檢驗已有完善的統計方法和軟件工具。在心理學領域，研究者提出設定t檢驗的效應量服從柯西先驗分布（Rouder et al.， 2009），但是基于柯西先驗的貝葉斯因子無顯式表達式，計算較為困難。為此，Morey等（2011）在柯西先驗分布下，使用馬爾科夫鏈蒙特卡洛（MCMC）抽樣方法有效估計t檢驗的貝葉斯因子。此外，在該方法的基礎上研究者提出有信息的貝葉斯t檢驗，展示如何根據效應量的先驗信息設定柯西先驗分布（Gronau et al.， 2019）。需要指出的是，柯西先驗分布不是貝葉斯t檢驗的唯一選擇。事實上，對于t檢驗的總體均值和方差，正態-逆伽馬共軛先驗也應用廣泛。Gu等（2016）比較了不同先驗分布下，貝葉斯檢驗的I類和II類錯誤率，并指出可通過調整先驗參數控制錯誤率。

方差分析用于三個及以上總體均值的比較，是實驗心理學常用的統計方法。在貝葉斯方差分析中，Rouder等（2012）將柯西先驗分布拓展到多正態總體均值，并使用MCMC抽樣方法估計貝葉斯因子。該方法可用于固定效應、隨機效應、混合效應的方差分析，同時允許連續協變量的存在。而Wetzels等（2012）基于正態-逆伽馬先驗，介紹了貝葉斯方差分析，并討論了貝葉斯因子的計算、性質和應用。此外，對于比較多個正態總體均值大小的次序假設，貝葉斯方差分析的優勢更為明顯。Klugkist等（2005）最早提出均值次序假設的貝葉斯因子檢驗，將貝葉斯因子表示為次序假設限制下的模型擬合度與復雜度之比。

回歸分析是推斷多變量關系必不可少的統計方法。一方面，貝葉斯回歸分析需指定回歸系數和殘差方差的先驗分布，最常用的g先驗設置回歸系數β在殘差方差σ2給定的條件下服從正態分布β|σ2～N（0，gσ2（X'X）-1），其中X表示自變量矩陣，g為超參數（Liang et al.， 2008）。在g先驗分布下，貝葉斯因子有顯示表達式，計算方便。Rouder和Morey（2012）將g先驗下的貝葉斯因子推廣到心理學研究應用中，為貝葉斯因子檢驗提供了軟件工具。另一方面，變量選擇是回歸分析的關鍵步驟，旨在找出對因變量有實際影響的自變量，排除干擾或冗余變量。與假設檢驗不同，變量選擇需要比較多個模型，貝葉斯評價指標為后驗模型概率。后驗模型概率表示為貝葉斯因子和先驗模型概率的乘積，因此在進行貝葉斯變量選擇時，除了要計算貝葉斯因子，先驗模型概率的設置也至關重要。當研究者無任何偏好，且自變量數目較少時，可設置各模型的先驗概率相等；當自變量數目較多時，則建議使用全貝葉斯（Fully Bayes）方法校正模型先驗概率（Gu et al.， 2022）。

除了t檢驗、方差分析、回歸分析等經典模型，貝葉斯因子檢驗也已應用到列聯表模型（Klugkist et al.， 2010），重復測量模型（Mulder et al.， 2009），結構方程模型（Van Lissa et al.， 2021），多元線性模型（Mulder & Gu， 2022），混合效應模型（Van Doorn et al.， 2023），高斯圖模型（Williams & Mulder， 2020）等。研究者也開發出多個統計軟件支持各類模型下的貝葉斯因子計算，包括R軟件包BayesFactor，bain，BFpack，BayesVarSel，BayestestR等。其中軟件包BayesFactor和bain已集成在可視化統計軟件JASP中。

不同的貝葉斯因子計算軟件有不同的先驗分布設置。其中，軟件包BayesFactor設置備擇假設下參數的柯西先驗分布，并通過超參數調節先驗方差的大小。默認的超參數將使得95%的先驗分布落在社會科學研究常用的效應量范圍[-1，1]內。軟件包bain和BFpack使用部分數據樣本設置參數的共軛先驗，超參數為用于先驗分布的數據樣本比例。默認的超參數將設置最小訓練樣本。此外，軟件包bain正態近似參數的后驗分布，可用于一般統計模型的貝葉斯因子計算，而BFpack僅限于線性正態模型的貝葉斯檢驗。軟件包BayesVarSel適用于變量選擇，默認使用穩健g先驗設置回歸系數的先驗分布。軟件包BayestestR需借助其他軟件先獲得參數的后驗分布抽樣，再計算貝葉斯因子。該軟件包并未提供默認的先驗分布，但給出了設置有信息先驗的指導。

由于先驗分布設置的差異，不同軟件包可能給出不同的貝葉斯因子。但是，基于默認先驗的貝葉斯因子通常差異不大，在不考慮閾值的情況下，研究者不會得到相悖的結論。而當樣本容量較大時，貝葉斯因子具備一致性，不同軟件將給出類似的結果。本文建議研究者在研究設計時明確先驗分布和分析軟件，在數據分析時依據預先計劃計算貝葉斯因子。當然，先驗分布和分析軟件的選擇往往是主觀的決策，可能影響研究結果，這些決策被稱為“研究者自由度”。需要指出的是，頻率統計同樣存在研究者自由度，包括顯著性水平的設定，統計量的選擇等。比如，對于相同的研究假設和數據，瓦爾德檢驗、似然比檢驗、bootstrap抽樣方法得到的p值也會存在差異。因此，盡管研究者試圖客觀，但無論是頻率統計還是貝葉斯統計推斷，都無法得到完全客觀的結果。

貝葉斯因子的模型應用研究和軟件開發已較為完善，這為貝葉斯因子的實證應用打下了基礎。針對不同應用領域，研究者結合具體案例闡述了貝葉斯因子數據分析的基本方法。例如，在認知心理學領域，Wagenmakers等（2010）給出貝葉斯因子的使用教程，并分析了注意力缺陷多動障礙研究的實證數據；在實驗心理學領域，Wetzels等（2011）利用t檢驗實例，展示貝葉斯因子的數據分析過程，并與顯著性檢驗p值相比較，結果顯示兩者得到的數據證據存在差別；在發展心理學領域，Van de Schoot等（2014）以人格和人際關系的交叉滯后模型為例，介紹了貝葉斯數據分析策略和結果報告范式；在神經科學領域，Keysers等（2020）指出大腦研究明確有效和無效的實驗操作十分重要，并利用貝葉斯t檢驗和方差分析，教程式地展示了貝葉斯因子推斷無效實驗操作的過程。這些貝葉斯因子實證研究教程均在相關領域得到了廣泛關注，促進了貝葉斯因子在心理學實證研究中的應用。

在心理學數據分析中，貝葉斯因子有著顯著性檢驗不可替代的優勢。與傳統顯著性檢驗相比，貝葉斯因子可以得到支持無效應零假設的證據。在具體案例中，Keysers等（2020）使用貝葉斯因子得到大鼠前扣帶皮層失活不會導致非社交性觸發凍結行為減少的結論。此外，貝葉斯因子在推斷研究假設是否得到數據支持的同時，量化數據支持假設的證據和強度，這也是顯著性檢驗所不具備的。比如，Wagenmakers等（2010）根據貝葉斯因子檢驗得出，注意力缺陷多動障礙的兒童與正常兒童在威斯康辛卡片分類測驗上的表現類似，并且支持該結論的數據證據是反對該結論（即表現存在差異）的5倍。

5 總結與討論

貝葉斯統計推斷已廣泛應用于心理學數據分析（李貴玉，顧昕， 2021; Van de Schoot et al.， 2017）。但是，目前大部分應用僅涉及貝葉斯參數估計，未考慮貝葉斯假設檢驗。參數估計和假設檢驗是統計推斷不可或缺的環節。前者關注特定模型下參數的估計值及誤差范圍，解決的是什么樣的參數值最可信的問題；后者比較兩個或兩個以上的理論假設，判斷的是哪種理論模型能更準確地描述數據。相比于顯著性檢驗，貝葉斯檢驗在心理學數據分析中的應用還不夠廣泛。研究者在計劃使用貝葉斯因子時缺乏具體方法、模型和案例指導。為此，本文重點介紹了貝葉斯因子及其應用，為研究者正確使用貝葉斯因子評估零假設、區間假設、信息假設提供了方法支持。此外，本研究展示了貝葉斯因子在統計模型和實證研究中的應用進展，幫助研究者了解貝葉斯因子的適用模型和應用場景。期望本文對貝葉斯因子的論述能夠推廣其實際應用。

貝葉斯因子檢驗為心理學研究的統計推斷提供了新方法，但是研究者也可能會錯誤使用、錯誤解釋貝葉斯因子。先驗分布對貝葉斯因子至關重要，它以分布的形式精確表達研究理論和先驗知識。但是，當先驗知識不存在或無法獲得時，參數估計常用的無信息先驗不能用在貝葉斯因子的先驗設置上，否則將導致無論觀測數據如何，貝葉斯因子永遠支持零假設的后果。因此，研究者需要根據研究問題設置具有實質含義的先驗，這增加了貝葉斯因子的使用難度。為此，貝葉斯因子檢驗軟件給出了默認先驗設置，在先驗信息缺失的情況下，研究者使用軟件的默認設置即可。

貝葉斯因子作為貝葉斯檢驗指標，能否避免發表偏差和研究不可重復的問題，取決于研究者如何解釋貝葉斯因子。為方便研究者使用，統計學者將貝葉斯因子表達的數據證據劃分類別，如BF12>3表示有令人信服的證據支持第一個模型。但是，本文不建議使用嚴格的貝葉斯因子閾值對數據證據做二分或三分判斷，更推薦的方法是報告數據支持假設的相對證據。需要注意的是，不作二分推斷的貝葉斯因子能在一定程度上減少發表偏差的問題，但無法完全避免該問題。解決發表偏差問題的一種方法是研究的預注冊。預注冊要求研究者在收集數據之前完成研究設計和數據分析計劃，并提交同行評審。審稿人和期刊根據研究問題的意義和研究設計的合理性決定是否接收文章，文章被接收后再開展數據收集和分析工作。無論數據分析結果如何，預期研究假設是否受到數據支持都不影響文章的發表。但是，預注冊對同行評審的要求更高，研究設計和數據分析計劃的合理性，在收集或分析數據之前可能較難判斷。比如，數據的正態性與方差齊次性等可能會影響統計方法的選擇。

貝葉斯因子檢驗同樣存在不足。首先，貝葉斯因子的原理較為復雜，不熟悉貝葉斯方法的研究者難以理解。本研究結合實例，以較為簡單的方式闡釋了貝葉斯因子的含義，關于貝葉斯因子的數學原理可參考胡傳鵬等（2018）和Kass和Raftery（1995）。其次，貝葉斯方法需要設置參數的先驗分布。一方面，對于主觀先驗，研究者如何將抽象的先驗信息轉化為具體的先驗分布是貝葉斯方法的難點。盡管已有文獻討論貝葉斯因子檢驗的主觀先驗分布設置方法（Gronau et al.， 2019），但其應用模型十分有限。另一方面，對于客觀先驗，貝葉斯因子無法使用無信息先驗，不同默認先驗下的貝葉斯因子存在差異，研究者面臨選擇。最后，貝葉斯因子的計算困難，盡管已有許多軟件支持貝葉斯因子的計算，但在復雜統計模型的開發進程上還落后于頻率統計推斷方法。此外，復雜模型下的貝葉斯因子計算需要借助MCMC抽樣，計算效率不如頻率統計推斷。

貝葉斯因子檢驗的未來研究方向應關注不同默認先驗的比較與整合，方便研究者理解并選擇合適的先驗分布。同時，用戶友好的貝葉斯統計軟件的開發與優化也是未來研究的重點。盡管目前已有JASP可視化數據分析軟件能夠用于貝葉斯數據分析，但其功能還不如社會科學常用軟件SPSS。最后，統計方法的學習、應用和推廣離不開課堂教學和科研訓練。期望心理統計學者能在日常教學與學生培養工作中融入貝葉斯統計方法。

參考文獻

胡傳鵬，孔祥禎， Wagenmakers， E.-J.， Ly， A.，彭凱平（2018）. 貝葉斯因子及其在 JASP 中的實現. 心理科學進展， 26（6）， 951-965.

胡傳鵬，王非，宋夢迪，隋潔，彭凱平（2016）. 心理學研究中的可重復性問題：從危機到契機. 心理科學進展， 24（9）， 1504-1518.

李貴玉，顧昕（2021）. 貝葉斯統計方法的應用與現狀. 心理學探新， 41（5）， 466-473.

王珺珺，宋瓊雅，許岳培，賈彬彬，胡傳鵬（2019）. 效應量置信區間的原理及其實現. 心理技術與應用， 7（5）， 284-296.

溫忠麟，謝晉艷，方杰，王一帆（2022）. 新世紀20年國內假設檢驗及其關聯問題的方法學研究. 心理科學進展， 30（8）， 1667-1681.

吳凡，顧全，施壯華，高在峰，沈模衛（2018）. 跳出傳統假設檢驗方法的陷阱——貝葉斯因子在心理學研究領域的應用. 應用心理學， 24（3）， 195-202.

許岳培，陸春雷，王珺，宋瓊雅，賈彬彬，胡傳鵬（2022）. 評估零效應的三種統計方法. 應用心理學， 28（3）， 369-384.

鐘建軍， Dienes，Z.，陳中永（2017）. 心理研究引入貝葉斯統計推斷的必要性、應用思路與領域. 心理科學， 40（6）， 1477-1482.

朱訓，顧昕（2023）. 變量相對重要性評估的方法選擇及應用. 心理科學進展， 31（1）， 145-158.

Bem， D. J. （2011）. Feeling the future： Experimental evide-nce for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology， 100（3）， 407-425.

Benjamin， D. J.， Berger， J. O.， Johannesson， M.， Nosek， B. A.， Wagenmakers， E.-J.， Berk， R.， ... Johnson， V. E. （2017）. Redefine statistical significance. Nature Human Behaviour， 2（1），6-10.

Cohen， J. （1994）. The earth is round （p<.05）. American Psychologist， 49（12），997-1003.

Gronau， Q. F.， Ly， A.， & Wagenmakers， E.-J. （2019）. Informed Bayesian t-Tests. The American Statistician， 74（2）， 137-143.

Gu， X. （2021）. Evaluating predictors’ relative importance using Bayes factors in regression models. Psychological Methods. Advance online publication. https：//doi.org/10.1037/met0000431

Gu， X.， Hoijtink， H.， & Mulder， J. （2016）. Error probabilities in default Bayesian hypothesis testing. Journal of Math-ematical Psychology， 72， 130-143.

Gu， X.， Hoijtink， H.， & Mulder， J. （2022）. Bayesian one-sided variable selection. Multivariate Behavioral Res-earch， 57（2）， 264-278.

Gu， X.， Hoijtink， H.， Mulder， J.， & Lissa， C. J. V. （2019）. Bain： Bayes factors for informative hypotheses. Retr-ieved from https：//CRAN.Rproject.org/package=bain （R package version 0.2.1）

Gu， X.， Mulder， J.， Dekovic， M.， & Hoijtink， H. （2014）. Bayesian evaluation of inequality constrained hypo-theses. Psychological Methods， 19（4）， 511-527.

Gu， X.， Mulder， J.， & Hoijtink， H. （2018）. Approximated adjusted fractional Bayes factors： A general method for testing informative hypotheses. British Journal of Mathematical and Statistical Psychology， 71（2）， 229-261.

Heck， D.， Boehm， U.， B?ing-Messing， F.， Bürkner， P.， Derks， K.， Dienes， Z.， ... Hoijtink， H. （2023）. A review of applications of the Bayes factor in psychological research. Psychological Methods， 28（3）， 558-579.

Hoijtink， H.， Mulder， J.， van Lissa， C.， & Gu， X. （2019）. A tutorial on testing hypotheses using the Bayes factor. Psychological Methods， 24（5）， 539-556.

JASP Team （2020）. JASP （Version 0.13.1）［Computer software］. Retrieved from https：//jasp-stats.org/

Kass， R. E.， & Raftery， A. E. （1995）. Bayes factors. Journal of the American Statistical Association， 90（430），773-795.

Keysers， C.， Gazzola， V.， & Wagenmakers， E.-J. （2020）. Using Bayes factor hypothesis testing in neuroscience to establish evidence of absence. Nature Neuroscience， 23（7）， 788-799.

Klugkist， I.， Laudy， O.， & Hoijtink， H. （2005）. Inequality constrained analysis of variance： A Bayesian approach. Psychological Methods， 10（4）， 447-493.

Klugkist， I.， Laudy， O.， & Hoijtink， H. （2010）. Bayesian evaluation of inequality and equality constrained hypot-heses for contingency tables. Psychological Methods， 15（3）， 281-299.

Liang， F.， Paulo， R.， Molina， G.， Clyde， M. A.， & Berger， J. O. （2008）. Mixtures of g priors for Bayesian variable selection. Journal of the American Statistical Association， 103（481）， 410-423.

Masson， M. E. （2011）. A tutorial on a practical Bayesian alternative to null-hypothesis significance testing. Beh-avioral Research Methods， 43（3）， 679-690.

Morey， R. D.， Rouder， J. N.， Pratte， M. S.， & Speckman， P. L. （2011）. Using MCMC chain outputs to efficiently estimate Bayes factors. Journal of Mathematical Psy-chology， 55（5）， 368-378.

Mulder， J.， & Gu， X. （2022）. Bayesian testing of scientific expectations under multivariate normal linear models. Multivariate Behavioral Research， 57（5）， 767-783.

Mulder， J.， Hoijtink， H.， & de Leeuw， C. （2012）. BIEMS： A Fortran 90 program for calculating Bayes factors for inequality and equality constrained models. Journal of Statistical Software， 46（2），1-39.

Mulder， J.， Klugkist， I.， Van de Schoot， R.， Meeus， M.， Selfhout， M.， & Hoijtink， H. （2009）. Bayesian model selection of informative hypotheses for repeated meas-urements. Journal of Mathematical Psychology， 53（6）， 530-546.

Open Science Collaboration. （2015）. Estimating the repr-oducibility of psychological science. Science， 349（6251）， aac4716.

Pituch， K.A. & Stevens， J.P. （2016）. Applied Multivariate Statistics for the Social Sciences （sixth edition）. New York： Routledge.

Rouder， J. N. （2014）. Optional stopping： No problem for Bay-esians. Psychonomic Bulletin & Review， 21（2），301-308.

Rouder， J. N.， & Morey， R. D. （2012）. Default Bayes factors for model selection in regression. Multivariate Behavioral Research， 47（6）， 877-903.

Rouder， J. N.， Morey， R. D.， Speckman， P. L.， & Province， J. M. （2012）. Default Bayes factors for ANOVA designs. Journal of Mathematical Psychology， 56（5）， 356-374.

Rouder， J. N.， Speckman， P. L.， Sun， D.， Morey， R. D.， & Iverson， G. （2009）. Bayesian t-tests for accepting and rejecting the null hypothesis. Psychonomic Bulletin & Review， 16（2），225-237.

Schmalz， X.， Biurrun Manresa， J.， & Zhang， L. （2023）. What is a Bayes factor？ Psychological Methods， 28（3）， 705-718.

Sch?nbrodt， F. D.， Wagenmakers， E.-J.， Zehetleitner， M.， & Perugini， M. （2017）. Sequential hypothesis testing with Bayes factors： Efficiently testing mean differences. Psychological Methods， 22（2），322-339.

Silvapulle， M.， & Sen， P. （2004）. Constrained Statistical Inference： Order， Inequality， and Shape Constraints. New York： Wiley.

Tendeiro， J. N.， & Kiers， H. A. L. （2019）. A review of issues about null hypothesis Bayesian testing. Psychological Methods， 24（6），774-795.

Trafimow， D.， & Marks， M. （2015）. Editorial. Basic and Applied Social Psychology， 37， 1-2.

Van de Schoot， R.， Kaplan， D.， Denissen， J.， Asendorpf， J. B.， Neyer， F. J.， & Van Aken， M. A. （2014）. A gentle introduction to Bayesian analysis： Applications to deve-lopmental research. Child Development， 85（3）， 842-860.

Van de Schoot， R.， Winter， S. D.， Ryan， O.， Zondervan-Zwijnenburg， M.， & Depaoli， S. （2017）. A systematic review of Bayesian articles in psychology： The last 25 years. Psychological Methods，22（2）， 217-239.

Van Doorn， J.， Haaf， J. M.， Stefan， A. M.， Wagenmakers， E. J.， Cox， G. E.， Davis-Stober， C.P.， ... Aust， F. （2023）. Bayes Factors for mixed models： A discussion. Computational Brain & Behavior， 6（1）， 140-158.

Van Lissa， C.， Gu， X.， Mulder， J.， Rosseel， Y.， Van Zundert， C.， & Hoijtink， H. （2021）. Teacher’s corner： Evaluating informative hypotheses using the Bayes factor in struct-ural equation models. Structural Equation Modelling： A Multidisciplinary Journal， 28（2），292-301.

Van Ravenzwaaij， D.， Monden， R.， Tendeiro， J. N.， & Ioannidis， J. P. A. （2019）. Bayes factors for superiority， non-inferiority， and equivalence designs. BMC Medical-Research Methodology， 19（71）， 1-12.

Wagenmakers， E.-J. （2007）. A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review， 14（5）， 779-804.

Wagenmakers， E.-J.， Lodewyckx， T.， Kuriyal， H.， & Grasman， R. （2010）. Bayesian hypothesis testing for psychologists： A tutorial on the Savage-Dickey method. Cognitive Psychology， 60（3）， 158-189.

Wagenmakers， E.-J.， Marsman， M.， Jamil， T.， Ly， A.， Verhagen， J.， Love， J.， ... Morey， R. D. （2018）. Bayesian inference for psychology. Part I： Theoretical advantages and practical ramifications. Psychonomic Bulletin & Review， 25， 35-57.

Wasserstein， R. L.， & Lazar， N. A. （2016）. The ASA’s statement on p-values： Context， process， and purpose. The American Statistician， 70（2）， 129-133.

Wetzels， R.， Grasman， R. P.， & Wagenmakers， E.-J. （2012）. A default Bayesian hypothesis test for ANOVA designs. The American Statistician， 66（2）， 104-111.

Wetzels， R.， Matzke， D.， Lee， M. D.， Rouder， J. N.， Iverson， G. J.， & Wagenmakers， E. J. （2011）. Statistical evidence in experimental psychology： An empirical comparison using 855 t tests. Perspectives on Psychological Science， 6（3）， 291-298.

Williams， D. R.， & Mulder， J. （2020）. Bayesian hypothesis testing for Gaussian graphical models： Conditional inde-pendence and order constraints.Journal of Mathematical Psychology， 99， 102441.

心理技術與應用2023年9期

心理技術與應用的其它文章: 閾下重復曝光對面孔偏好的影響：來自眼動的證據; 中學生被欺凌與非自殺性自傷的關系：一個有調節的中介模型; 信號檢測論與貝葉斯決策理論的關系; 貝葉斯方差分析在JASP中的實現; “貝葉斯統計與推斷”專題簡介

404 Not Found

nginx 404 Not Found

404 Not Found

nginx