999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于組軌跡模型及其研究進展*

2021-01-09 07:04:00張晨旭金志超
中國衛(wèi)生統(tǒng)計 2020年6期
關(guān)鍵詞:模型

張晨旭 謝 峰 林 振 賀 佳 金志超△

【提 要】 在醫(yī)學(xué)研究中存在許多隨時間推移動態(tài)變化的變量。傳統(tǒng)數(shù)據(jù)處理方法通常取變量在某時點的值或某段時間的均值進行研究和比較,但是這種做法存在一些不足,如數(shù)據(jù)信息利用不充分、結(jié)果難以反映動態(tài)過程。基于組軌跡模型是近年來提出的研究變量隨時間變化的發(fā)展軌跡的一種方法,它在處理縱向數(shù)據(jù)中具有一些獨特優(yōu)勢。本文闡述了基于組軌跡模型的基本原理及其具體形式,并介紹了模型的最新進展及其在應(yīng)用中的一些誤區(qū),在此基礎(chǔ)上對模型的研究趨勢進行探討。

在醫(yī)學(xué)研究領(lǐng)域,有許多隨時間變化的變量,它們遵循不同變化過程。發(fā)展軌跡(developmental trajectory)可描述變量隨時間的變化,動態(tài)反映變量特征。傳統(tǒng)分析發(fā)展軌跡的典型方法有分層建模(hierarchical modeling)及潛在曲線分析(latent curve analysis),它們通過連續(xù)分布函數(shù)對發(fā)展軌跡進行建模,得到變量的總體平均軌跡并揭示預(yù)測因素與個體關(guān)于平均軌跡的變化之間的聯(lián)系,但它們對總體內(nèi)包含不同發(fā)展軌跡的情形難以處理,而基于組軌跡模型(group-based trajectory model,GBTM)能夠識別總體中不同的發(fā)展軌跡,研究軌跡與預(yù)測因素或結(jié)果間的聯(lián)系。

基于組軌跡模型最早出現(xiàn)于犯罪學(xué)領(lǐng)域。Nagin[1]等應(yīng)用非參混合泊松模型對犯罪生涯進行建模。他們隨后對模型進行了改進,包括擴展可用數(shù)據(jù)類型、將變量與組成員概率關(guān)聯(lián)及提出確定最優(yōu)組數(shù)量的方法,得到半?yún)⒒诮M的模型[2]。模型假定總體內(nèi)存在一些遵循相似發(fā)展軌跡的成員集群,即“組”,用不同“組”的分布集合近似總體分布,進而用“組”間差異來反映成員特征的差異。

軌跡模型在處理縱向數(shù)據(jù)方面有獨特優(yōu)勢。首先,它能充分利用時依變量信息;其次,模型使用正式統(tǒng)計結(jié)構(gòu),能夠區(qū)分隨機變異和真實差異;同時,模型可以以圖形化的方式呈現(xiàn),既易于理解又方便不同領(lǐng)域間的交流[3]。

近年來,軌跡模型在醫(yī)學(xué)領(lǐng)域的應(yīng)用不斷豐富,包括探索總體中可能存在的亞組[4]、按基線指標分層研究分組與結(jié)果間的聯(lián)系[5]、揭示分組與基線協(xié)變量及預(yù)后結(jié)果之間的關(guān)聯(lián)[6]、研究協(xié)變量與分組對結(jié)果影響的交互作用[7]、應(yīng)用基于組多軌跡建模(group-based multitrajectory modelling)根據(jù)多種指標識別分組[8]、依據(jù)病人分組進行預(yù)測研究[9]等。

基于組軌跡模型

1.基本模型

基于組軌跡模型有兩個基本成分:(1)每組的預(yù)測軌跡;(2)總體中隨機選擇的成員屬于每個組的概率。

用Yi={yi1,yi2,…,yiT}表示成員i在T時間內(nèi)指標的縱向測量值。假定總體中存在j個相互離散的組。以P(Yi)表示Yi的概率,有:

(1)

式中πj表示總體中隨機選擇的成員屬于組j的概率,Pj(Yi)表示成員在組j時得到Y(jié)i的概率,即Yi的概率分布函數(shù)。

基于組軌跡模型假定變量值在時間線上具有條件獨立性(conditional independence),即軌跡組j中的成員在t時間的變量值yit獨立于其在之前時間的值yit-1,yit-2,…,因此:

(2)

式中pj(yit)為給定成員在組j時yit的概率分布函數(shù)。進行條件獨立假定可簡化建模過程。

模型的參數(shù)通常由極大似然估計法(maximum likelihood estimate,MLE)估計得到。實際應(yīng)用時,式(1)中Pj(Yi)的具體形式一般由數(shù)據(jù)類型決定。

(1)似然函數(shù)的具體形式

在建模之前,需要對數(shù)據(jù)的分布形式加以指定,模型處理不同類型數(shù)據(jù)時需要兩個關(guān)鍵成分:(1)描述數(shù)據(jù)分布特性的函數(shù);(2)變量值與年齡(或時間)的函數(shù),即鏈接函數(shù)(link function)。

(3)

(4)

Smin和Smax分別為數(shù)據(jù)的最小值與最大值。由正態(tài)分布累積密度函數(shù)可得:

(5)

當(dāng)數(shù)據(jù)服從泊松分布時,鏈接函數(shù)為:

(6)

相應(yīng)的概率分布函數(shù)為:

(7)

式中pj(yit)表示yit取任意非負整數(shù)值的概率。每種可能結(jié)果的概率取決于t時間所有成員的事件平均發(fā)生率λjt。

對于遵循二分類邏輯分布(logit distribution)的數(shù)據(jù),同樣借用潛變量處理:

(8)

(9)

除上述三種數(shù)據(jù)類型外,其他數(shù)據(jù)也可用基于組方法來處理,Elmer[10]等探討了將基于組軌跡模型應(yīng)用于不服從正態(tài)分布但符合β分布的定量數(shù)據(jù)。結(jié)果表明,數(shù)據(jù)得到良好的擬合。這類研究拓展了基于組軌跡模型的應(yīng)用范圍。

(2)組成員概率

式(1)中組成員概率πj表示總體中屬于組j的成員比例,即隨機選擇的成員遵循組j軌跡的概率,通常以如下形式指定:

(10)

其中θj,j=1,2,3,…,J為要估計的參數(shù),這種形式可以保證πj取值在0和1之間且所有πj總和為1。

2.組數(shù)量及多項式階數(shù)選擇

基于組軌跡模型目的是識別遵循不同軌跡的組。在建模之前,通常需要選擇模型組數(shù)及鏈接函數(shù)的多項式階數(shù)。常用的選擇過程分為兩步,首先為所有組指定固定的多項式階數(shù),依據(jù)標準判斷最優(yōu)組數(shù),然后固定組數(shù)選擇最優(yōu)多項式階數(shù)。

判斷組數(shù)的標準有客觀標準和主觀標準。用于判斷混合模型中最優(yōu)成分數(shù)量的客觀標準很多。包括假設(shè)檢驗、信息標準、分類標準、最低信息比率標準[11]。目前軌跡模型尚無公認最優(yōu)客觀標準,但已發(fā)表文獻中貝葉斯信息準則(Bayesian information criterion,BIC)應(yīng)用較多:

BIC=log(L)-0.5klog(N)

(11)

BIC平衡了組數(shù)增加時模型復(fù)雜性的增加及擬合性能的改善。通常選擇BIC值最大的組數(shù)及多項式階數(shù),對不同BIC值的備選模型進行判斷時,可根據(jù)量表選擇最優(yōu)模型[12]。

通常情況下客觀標準可作為建模依據(jù),但主觀判斷亦必不可少。當(dāng)BIC值隨組數(shù)增加單調(diào)遞增時用客觀標準難以作出判斷,可結(jié)合專業(yè)知識指定組數(shù)或多項式階數(shù)。最終模型應(yīng)在充分呈現(xiàn)數(shù)據(jù)特征的同時兼具簡潔性[3]。

許多學(xué)者針對模型組數(shù)選擇及數(shù)據(jù)分布假定作了深入研究。Klijn[13]等基于R軟件開發(fā)了一種圖形化的工具——擬合標準分析圖(fit-criteria assessment plot,F(xiàn)-CAP)。它可簡化備選模型的分類列舉過程并圖形化地呈現(xiàn)不同組數(shù)下各指標值的變化,從而輔助選擇最優(yōu)組數(shù)。Elsensohn[14]等提出了用包絡(luò)圖(envelope plot)來評估模型分布假定的方法。他們對四種不同分布情形進行了模擬分析,結(jié)果表明通過檢查包絡(luò)圖中變異區(qū)間寬度及上下限線條平行程度可以直觀地驗證殘差的方差齊性假定。Shah[15]等提出了兩種模型判別指標:判別指數(shù)(discrimination index)和修正熵(modified entropy)。它們可以快速有效地識別模型結(jié)果中可能不屬于某組的成員。

軌跡模型通常作出條件獨立性、組間方差齊性及方差的時間穩(wěn)定性假定。Davies[16]等探索了違背上述假定情形下模型的性能。他們對潛在分類增長分析(latent class growth analysis,LCGA)、增長混合建模(growth mixture modelling,GMM)和多元高斯混合建模(multivariate Gaussian mixture modelling,MGMM)3種建模方法下的18種情形進行了模擬研究,結(jié)果表明在違背假定的情形下應(yīng)用基于傳統(tǒng)假定的方法如LCGA及MGMM進行建模會產(chǎn)生較大的誤分類,這時應(yīng)用GMM進行建??赡芨?。

3.組成員后驗概率

組成員后驗概率(posterior probabilities of group membership)表示具有某些特征的成員屬于軌跡組j的概率。后驗概率有重要意義,它不僅為組分配提供了客觀依據(jù),也可以用來創(chuàng)建軌跡組成員描述(profile)及評估模型的數(shù)據(jù)擬合質(zhì)量,還可作為權(quán)重計算軌跡組成員結(jié)果期望值或探索協(xié)變量與分組間的聯(lián)系。

(12)

4.模型的擴展

(1)包含協(xié)變量

變量特征不同的成員可能遵循不同的發(fā)展軌跡。模型通??杉{入兩種協(xié)變量:普通協(xié)變量和時依協(xié)變量。普通協(xié)變量是模型建立前就存在且固定不變的變量,時依協(xié)變量值可隨時間而變。二者在模型構(gòu)建過程中有所區(qū)別。

在模型中納入?yún)f(xié)變量常用三步法[3]。首先,在基礎(chǔ)模型中確定最優(yōu)組數(shù)和多項式階數(shù)。其次,識別協(xié)變量對分組的影響是否顯著,可以通過基于z分數(shù)的檢驗及Wald檢驗判斷協(xié)變量系數(shù)是否有意義及組間差異是否有意義。最后,聯(lián)合估計參數(shù),得到最終模型。

除三步法外,也有學(xué)者進行了其他方法的探索。Block[17]等提出了“一步法(one-step approach)”,這種方法解決了三步法可能低估協(xié)變量與組成員間關(guān)聯(lián)的問題。Davies[18]等使用Mplus模擬比較了6種納入?yún)f(xié)變量的方法,結(jié)果表明所有方法中一步法偏倚最小,但由于計算的復(fù)雜性會隨協(xié)變量增加而加大,一步法有時難以實現(xiàn),其他方法中,I3S方法的表現(xiàn)較好。在應(yīng)用中可根據(jù)研究目的和數(shù)據(jù)特點進行方法選擇。

(2)雙軌跡模型和多軌跡模型

在醫(yī)學(xué)研究中,經(jīng)常會遇到需要探索縱向數(shù)據(jù)變量之間關(guān)系的情形,雙軌跡模型(dual trajectory model)和多軌跡模型(multi-trajectory model)可處理此類問題。

雙軌跡模型可以研究兩變量間的關(guān)聯(lián)。它通常為每個單獨的變量建立軌跡模型,然后通過兩變量不同組的兩兩關(guān)聯(lián)概率將兩模型相聯(lián)系。與基礎(chǔ)模型相比,它能夠探索兩變量關(guān)聯(lián)的具體形式。

當(dāng)研究兩個以上變量間關(guān)系時,可應(yīng)用多軌跡模型,它與雙軌跡模型在形式上有所區(qū)別。雙軌跡模型在變量組數(shù)較多時關(guān)聯(lián)概率數(shù)量龐雜且難以解釋,而多軌跡模型可以構(gòu)建包含所有變量的模型,模型每個軌跡組都由多條軌跡構(gòu)成,每條軌跡對應(yīng)一種變量。這種建模形式可以簡化模型并提高可解釋性[19]。

Nagin[20]等構(gòu)建了多軌跡模型的似然函數(shù)并用實例呈現(xiàn)了建模過程。首先為每個指標變量分別建立軌跡模型,觀察每個模型的組數(shù)及特點,然后按照能夠呈現(xiàn)變量數(shù)據(jù)特征及使擬合指標達到最優(yōu)的原則,在模型充分性指標的約束下,確定最終模型。

5.模型實現(xiàn)

目前主流的統(tǒng)計軟件SAS、R及stata均可實現(xiàn)基于組軌跡模型。其中SAS中Traj過程步的應(yīng)用比較常見[12],Stat常用Traj包進行建模[21],R中也可通過擴展包實現(xiàn)(表1)。

表1 三種統(tǒng)計軟件對基于組軌跡模型的實現(xiàn)

模型應(yīng)用誤區(qū)

基于組軌跡模型在處理縱向數(shù)據(jù)時有許多優(yōu)勢,但在應(yīng)用中也存在一些誤區(qū)。

首先,對模型中“組”的理解?!敖M”是一種統(tǒng)計虛構(gòu),而非客觀事實,模型分組信息要和具體事實相區(qū)分。例如臨床研究中針對某項指標建立模型并給予病人分組并不意味著病人一定屬于疾病某個亞型。軌跡模型是數(shù)據(jù)驅(qū)動的,它更傾向于呈現(xiàn)數(shù)據(jù)特征,且模型中組的數(shù)量并非固定不變[22]。

其次,根據(jù)后驗概率分組存在不確定性。在建模過程中,每個成員都依最大后驗概率分配到某個組。雖然模型診斷指標有組均后驗概率不小于0.7的限制,但同一組中以不同概率分配到該組的成員間分組確定性不同。忽視不確定性直接進行分析會帶來諸多問題[3]。將分組作為變量進行分析時,應(yīng)對這種不確定性加以考慮。

小結(jié)與展望

基于組軌跡模型由于其對縱向數(shù)據(jù)處理的優(yōu)勢,目前正在醫(yī)學(xué)領(lǐng)域得到越來越廣泛的應(yīng)用,相比傳統(tǒng)數(shù)據(jù)處理方法,它可以從縱向數(shù)據(jù)中識別出不同的發(fā)展軌跡進而為臨床診療提供參考,因此對模型理論體系及其應(yīng)用進行深入探索非常有意義。本文闡述了基于組軌跡模型基本理論及其最新進展,并在此基礎(chǔ)上討論了模型應(yīng)用中容易陷入的誤區(qū)。

目前,基于組軌跡模型在應(yīng)用中仍然存在諸多問題。首先,組數(shù)選擇尚缺乏統(tǒng)一的最優(yōu)判斷標準。其次,現(xiàn)有關(guān)于模型結(jié)果報告的可用指南較少[23],對模型在醫(yī)學(xué)領(lǐng)域中應(yīng)用的指導(dǎo)有待完善[24]。同時,模型對缺失數(shù)據(jù)的處理方法不夠成熟,已發(fā)表文獻探索了模型在非隨機缺失機制下的實現(xiàn)[25],但在其他類型缺失機制方面仍待探索。此外,模型擴展形式,如多軌跡模型,在選擇組數(shù)時操作復(fù)雜且缺少客觀標準,尚需深入研究。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 色视频国产| 91毛片网| 凹凸精品免费精品视频| 大学生久久香蕉国产线观看| 国产三级精品三级在线观看| 亚洲中文精品久久久久久不卡| 国产成人精品男人的天堂下载 | 国产一区二区三区精品久久呦| 日本妇乱子伦视频| 国产原创演绎剧情有字幕的| 亚洲区第一页| 色吊丝av中文字幕| 久久久久国产一级毛片高清板| 欧美日韩国产成人在线观看| 亚洲天堂2014| a色毛片免费视频| 超清无码熟妇人妻AV在线绿巨人 | a天堂视频| 久热精品免费| 日本精品视频一区二区| 欧美一级片在线| 在线无码九区| 国产本道久久一区二区三区| 亚洲一级毛片免费观看| 国产成人精品一区二区三区| 精品综合久久久久久97| 国产一区二区三区免费观看| 成人免费视频一区| 日本黄色不卡视频| 日本www在线视频| 久久黄色影院| 亚洲人成网线在线播放va| 欧美日一级片| 日韩乱码免费一区二区三区| 日韩av无码DVD| 日韩小视频在线观看| a级毛片毛片免费观看久潮| 亚洲美女久久| 麻豆AV网站免费进入| 精品国产自| 久久综合丝袜日本网| 久久免费视频6| 国产日韩欧美精品区性色| 久久永久免费人妻精品| 青青草一区| 亚洲乱强伦| 国产在线观看一区精品| 中文字幕久久波多野结衣| 女人18毛片久久| 九色国产在线| 午夜国产理论| 在线欧美国产| 亚洲无码视频一区二区三区 | 在线色综合| 国产精品大白天新婚身材| 成人午夜在线播放| 亚洲Aⅴ无码专区在线观看q| 亚洲国产精品美女| 黄网站欧美内射| 亚洲欧美日韩精品专区| 午夜欧美理论2019理论| 18黑白丝水手服自慰喷水网站| 99久久无色码中文字幕| 国产欧美亚洲精品第3页在线| 久久久久国产精品嫩草影院| 四虎影视8848永久精品| 亚洲国产精品无码AV| 国产午夜不卡| 亚洲色图综合在线| a网站在线观看| AV天堂资源福利在线观看| 美女国产在线| 亚洲美女高潮久久久久久久| 91精品视频播放| 国产免费福利网站| 成人毛片免费在线观看| 欧美一区中文字幕| 综合色婷婷| 免费观看亚洲人成网站| 国产鲁鲁视频在线观看| 亚洲天堂啪啪| 三上悠亚在线精品二区|