魏夢珂 周廣帥 范冰冰 呂嘉麗 張 濤△
中介分析在生物醫學、行為和社會科學研究中扮演著重要的角色,主要用來研究自變量和因變量之間的內部作用機制。經典的中介分析是針對單個中介變量的研究,近年來,對于多元中介模型的研究也有一定的發展。隨著高通量檢測儀器和技術的發展,高維數據在許多科學領域變得越來越普遍,由于高維數據的特點(n
中介分析的基本模型見圖1(a),用Ai表示個體的暴露,其中,Ai=a(Ai=a′)表示個體暴露(未暴露)于某一研究因素,Mi表示中介變量,Yi為結果變量。傳統的中介分析要求研究變量為連續變量,且自變量和中介變量之間無交互作用,而實際研究數據往往難以滿足,限制了中介分析的應用。Jo[1]和Sobel[2]提出了基于反事實理論的因果中介分析方法,該方法對研究變量的類型沒有限制,在一定程度上豐富了中介分析的應用。


圖1 中介分析的路徑模型
同時,在A和M無交互作用的情況下,按照效應分解的原理可以將暴露A由a變為a′時對結果的總效應(total effect,TE)分解為自然間接效應(natural indirect effect,NIE)和自然直接效應(natural direct effect,NDE),表示為:TE=NDE+NIE。利用潛在結果符號,可以將三種效應定義為[4]:
NIE≡E[Yi(a,Mi(a))-Yi(a,Mi(a′))]
NDE≡E[Yi(a,Mi(a))-Yi(a′,Mi(a))]
TE≡E[Yi(a,Mi(a))-Yi(a′,Mi(a′))]
根據圖1(a)對中介變量和結果變量建模:
(1)
(2)
模型(1)中,αC為協變量C對M的效應系數,αA為暴露A對M的效應系數,εM為殘差項;模型(2)中,βC為協變量C對Y的效應系數,βA為暴露A對Y的直接效應系數,βM為M對Y的效應系數,εY為殘差項。暴露通過中介變量對結果的間接效應可以表示為αAβM,暴露對結果的直接效應可以表示為βA,結合反事實理論可以將NIE和NDE定義為:
NIE=(a-a′)αAβM
NDE=(a-a′)βA
高維中介分析方法主要有兩種:一種是基于線性結構方程模型(linear structural equation model,LSEM)懲罰的方法;另一種是基于主成分分析(principal components analysis,PCA)進行降維的方法。此兩種方法都需要對中介變量和結果變量分別擬合模型。圖2為高維中介的一般模型,Ai表示個體的暴露;p維可能的中介變量Mij={Mi1,Mi2,…,Mip}(j=1,…,p),也可以表示為Mi(a)={Mi1(a),Mi2(a),…,Mip(a)},均為連續變量;Yi為結果變量,也為連續變量。εMij和εYi分別是中介變量Mij和結果變量Yi的殘差項。需要注意的是實際研究中還應該考慮中介變量之間的關聯。

圖2 高維中介分析模型
因果中介分析的SUTVA、正值假設和各項混雜假設同樣適用于高維中介分析,且假設④在多元中介模型中較易實現[5]。用C表示q個觀測到的混雜變量,則可對每個研究對象擬合因變量模型(若因變量為二分類變量,則建立logistic回歸模型):
(3)
其中,βC=(βC1,…,βCq)T為協變量C對Y的效應系數;βM=(βM1,…,βMp)T為p個M對Y的效應系數;βAM=(βAM1,…,βAMp)T為暴露與中介變量之間的交互項系數集合。大多數研究中假設暴露與中介變量之間沒有交互作用,因此為后續的描述方便,本文假設該項不存在。一般認為殘差項εYi服從均數為0,方差為σ2的正態分布。可以看出該結果模型納入了所有的候選中介變量,這相對于建立多個單中介模型有如下優點:只建立一個模型,提高了檢驗效率;同時校正了其他的中介變量,考慮了中介變量之間的相關性,減少偏倚;可以評價特定間接效應的大小。


(4)



Mi=(αAi⊕hiCi1⊕…⊕hqCiq)⊕εMi
hi對應于協變量Ci,βM1k=0,1k為k個1的向量。

NDE:E[Yi(a,Mi(a′))-Yi(a′,Mi(a′))|Ci]=βA(a-a′)


這時候,他們的頭頂上已經傳來鯤鼓翼的聲音。他們抬頭去看,宇晴師父坐在鵬背上,向他們俯沖過來,李離、上官星雨、袁安三人雙足往山路上一點,衣袂飄飄,身形如箭,向鯤鵬的翅背間跳丸飛彈般射來。正是宇晴指點他們練成的“點墨山河”擊水兮萬里,縱翼兮排云,輕功之俊賞,與當日宇晴在黃梁驛見到時,已經是天差地別,宇晴不由得心里一暖。
Zhao[16]和Chen[7]在利用近似彈性網和嶺回歸的基礎上也加入了增廣拉格朗日函數來增強約束條件:
值得注意的是,以上方法多是對回歸系數進行懲罰估計,而Zhao[16]的研究中同時對間接效應αAjβMj進行了懲罰。



目前文獻對高維中介效應的檢驗主要分為兩種:一種是分別檢驗回歸系數αA和βM;另一種是對乘積項αAβM的直接檢驗。對于成分數據的中介效應檢驗和基于PCA分析的方法,都包括整體中介效應(overall mediation effect,OME)檢驗和單組分中介效應(component-wise mediation effect,CME)檢驗兩部分,其檢驗方法基本是相同的,都是對乘積項αAβM的直接檢驗。
1.回歸系數檢驗法
(1)逐步法檢驗(Baron and Kenny):多用于對單中介模型的回歸系數進行檢驗,即首先檢驗A對Y的總效應,若有統計學意義,再進行后續檢驗;然后回歸系數αAj和βMj,二者均有統計學意義則認為中介效應存在;最后檢驗回歸系數βAj,判斷中介效應是完全中介還是部分中介。這種方法由于其為大眾熟知的對總效應的限制及要求數據滿足正態分布的局限性,導致其檢驗效能較低。而且對于高維數據來說計算量很大,且未考慮中介變量之間的共線性,并不適用。
2.乘積項檢驗法:


(4)貝葉斯后驗概率法:首先用馬爾科夫鏈蒙特卡羅(MCMC)中的Hastings-within-Gibbs算法獲得聯合log后驗分布的樣本;然后對每一個中介變量估計在有較大方差的正態分量中βM和αA的后驗概率P(rmj=1,raj=1|Data),作為后驗包含概率(the posterior inclusion probability),來評估貝葉斯變量選擇方法的中介效應。rmj和raj是引入的指示βM和αA來源的變量。

① 將自變量和因變量打亂,隨機抽取置換檢驗的樣本:A(b)和Y(b),b=1,…,B;


④ 得到P值:
該方法對總體分布的要求較自由,應用較為廣泛。
近年來,隨著高通量檢測技術和統計學方法的發展,醫學研究中的高維組學大數據(如基因組學、轉錄組學、表觀遺傳學、代謝組學、微生物學等)呈海量增長。中介分析在疾病的病因推斷中有重要作用,可以打開系統流行病學的黑盒子,為疾病的機制研究、防治干預提供依據。然而由于高維組學數據具有變量多、稀疏、共線性等特點,基于單變量的中介分析方法已經不適用于這類數據,故多位研究者對高維數據的中介分析方法進行了探索。綜合各項研究可以發現今后對于高維中介分析的研究趨勢有以下幾點:
1.模型發展方面,將所有的中介變量納入因變量模型是大家的共識,然后對其建立LSEM,然而對于成分數據,還需要發展更合適的模型;而且大多數研究假設暴露和中介變量之間無交互,因此模型中是否納入交互項也需要進一步探索。
2.效應估計方面,目前對于效應系數的估計主要是基于Lasso正則化及擴展的方法,但由于Lasso估計有偏、不滿足Oracle性質的缺點,還需要發展更加合適的方法來篩選中介變量。
3.中介效應的檢驗方法,目前bootstrap和蒙特卡羅的檢驗方法應用較多,隨機森林和貝葉斯網絡的方法可能是未來的發展方向。
4.中介變量的解釋問題,對于成分數據和利用PCA進行降維的中介分析,多是發現一組有中介效應的變量,這對于成分數據較為合適,但是對于為了發現特定中介路徑的研究來說,解釋較為困難。
5.敏感性分析,高維中介分析是在SUTVA和四項混雜假設的基礎上進行的,由于真實數據多無法滿足這些假設,故需要進行敏感性分析,而目前只有Sohn[11]進行了敏感性分析,故對于敏感性分析方法的探索也可能是未來的研究方向。
6.高維數據中協變量的選擇方法研究還不夠深入,對于潛變量的高維中介分析方法同樣需要進一步研究[23],而且隨著高維縱向數據的增多,也對高維中介分析提出了新的挑戰。