







·研究方法(Research Method)·
密集追蹤研究中測(cè)驗(yàn)信度的估計(jì):多層結(jié)構(gòu)和動(dòng)態(tài)特性的視角*
羅曉慧 "劉紅云
(北京師范大學(xué)心理學(xué)部, 應(yīng)用實(shí)驗(yàn)心理北京市重點(diǎn)實(shí)驗(yàn)室,心理學(xué)國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心(北京師范大學(xué)), 北京 100875)
摘 "要""隨著密集追蹤研究在心理學(xué)等社會(huì)科學(xué)領(lǐng)域的廣泛運(yùn)用, 密集追蹤情境中測(cè)驗(yàn)信度的估計(jì)也受到越來越多研究者的關(guān)注。早期沿用橫斷研究中信度估計(jì)思想或基于概化理論的信度估計(jì)方法存在諸多局限, 并不適用于密集追蹤的情境。針對(duì)密集追蹤數(shù)據(jù)的多層結(jié)構(gòu)和動(dòng)態(tài)特性這兩大特點(diǎn), 可基于多層驗(yàn)證性因子分析、動(dòng)態(tài)因子分析和動(dòng)態(tài)結(jié)構(gòu)方程模型估計(jì)密集追蹤研究中測(cè)驗(yàn)的信度。通過實(shí)證數(shù)據(jù)的演示與比較, 討論三種估計(jì)方法的特點(diǎn)和適用情境。未來研究可基于其它密集追蹤模型探討測(cè)驗(yàn)信度的估計(jì), 也應(yīng)重視測(cè)驗(yàn)信度的檢驗(yàn)與報(bào)告。
關(guān)鍵詞""密集追蹤研究, 信度, 多層結(jié)構(gòu), 動(dòng)態(tài)特性, 動(dòng)態(tài)結(jié)構(gòu)方程模型
分類號(hào)""B841
1""引言
近年來, 密集追蹤研究(intensive longitudinal study)在心理學(xué)、教育學(xué)和管理學(xué)等社會(huì)科學(xué)領(lǐng)域中得到了越來越廣泛的運(yùn)用(Mielniczuk, 2023; Hamaker amp; Wichers, 2017; Zhou et al., 2021)。這類研究通常采用日記法、經(jīng)驗(yàn)取樣法和生態(tài)瞬時(shí)評(píng)估等方法(Bolger et al., 2003; Bolger amp; Laurenceau, 2013; Shiffman et al., 2008)收集個(gè)體在自然情境中多個(gè)時(shí)間點(diǎn)的數(shù)據(jù)(如, 20個(gè)時(shí)間點(diǎn)以上; Collins, 2006), 相比于傳統(tǒng)的回顧性調(diào)查和實(shí)驗(yàn)室研究, 具有低回憶偏差和高生態(tài)效度等優(yōu)勢(shì)(Bolger et al., 2003; Shiffman et al., 2008; Trull amp; Ebner-Priemer, 2013)。更重要的是, 次數(shù)較多且頻率較高的密集追蹤數(shù)據(jù)能更精細(xì)地捕捉到個(gè)體的行為和狀態(tài)隨時(shí)間的變化, 幫助研究者更深入地探索變量的動(dòng)態(tài)變化過程和變量間的相互作用機(jī)制(鄭舒方 等, 2021; Hamaker amp; Wichers, 2017; Zhou et al., 2021)。
雖然密集追蹤研究能幫助研究者探索和回答更豐富的研究問題, 但它也帶來了許多研究方法上的挑戰(zhàn)(Hamaker amp; Wichers, 2017), 密集追蹤情境中變量的測(cè)量和測(cè)驗(yàn)的評(píng)估就是其中之一(Mielniczuk, 2023)。以往有大量密集追蹤研究采用自我報(bào)告的方式測(cè)量個(gè)體在日常情境中的行為和狀態(tài)。研究者們通常通過從相應(yīng)變量的特質(zhì)測(cè)驗(yàn)中選取一道或幾道題目并進(jìn)行一定的改編(如, 加入“今天”或“從上次填答至今”等時(shí)間提示)來測(cè)量該變量的動(dòng)態(tài)變化過程。然而, 大部分這類研究都沒有對(duì)研究所用測(cè)驗(yàn)的信度等心理測(cè)量學(xué)屬性進(jìn)行合理、充分的評(píng)估(Stone et al., 2023)。Brose等人(2020)綜述了2005~2017年9月發(fā)表在Emotion雜志的50篇情緒相關(guān)密集追蹤研究的文章并發(fā)現(xiàn), 有29篇文章報(bào)告了測(cè)驗(yàn)的信度, 其中僅10篇文章明確提到信度的估計(jì)基于個(gè)體內(nèi)水平的變異。而在Trull和Ebner-Priemer (2020)對(duì)2012~2018年發(fā)表在心理病理學(xué)主要期刊的63篇密集追蹤研究文章的綜述中, 僅30%的文章報(bào)告了研究所用測(cè)驗(yàn)的心理測(cè)量學(xué)信息(如信度和效度)。此外, Horstmann和Ziegler (2020)對(duì)24篇關(guān)于人格狀態(tài)的密集追蹤研究的梳理發(fā)現(xiàn), 大部分研究?jī)H通過將人格特質(zhì)測(cè)驗(yàn)中的題目或形容詞轉(zhuǎn)換到狀態(tài)情境來測(cè)量人格的動(dòng)態(tài)變化, 而并未預(yù)先檢驗(yàn)這些測(cè)驗(yàn)的信效度, 且這些研究中最常見的信度估計(jì)方法是先計(jì)算每個(gè)個(gè)體每道題目在所有時(shí)刻的平均分, 再對(duì)整個(gè)群體計(jì)算題目間一致性作為測(cè)驗(yàn)信度的估計(jì)。然而, 這種方法無法體現(xiàn)人格狀態(tài)分?jǐn)?shù)的可靠性, 并不適用于密集追蹤的情境(Horstmann amp; Ziegler, 2020)??紤]到測(cè)驗(yàn)信度的評(píng)估是數(shù)據(jù)分析和結(jié)果報(bào)告的關(guān)鍵步驟, 也是衡量研究結(jié)果可靠性的重要依據(jù)(葉寶娟 等, 2012; Scherer amp; Teo, 2020), 有必要針對(duì)密集追蹤研究的數(shù)據(jù)特點(diǎn), 提出并采用適宜的信度估計(jì)方法。
對(duì)密集追蹤情境中測(cè)驗(yàn)信度估計(jì)的早期探索主要分為兩類。一類研究沿用橫斷研究中的信度估計(jì)思想, 先對(duì)密集追蹤數(shù)據(jù)進(jìn)行聚合或拆分將其轉(zhuǎn)化為類似橫斷數(shù)據(jù)的模式, 再采用橫斷研究中常用的信度估計(jì)指標(biāo)(如, α系數(shù))估計(jì)密集追蹤研究中的測(cè)驗(yàn)信度。具體來說, 這類研究的信度估計(jì)方法包括以下3種(Nezlek, 2017):(1)先對(duì)每個(gè)個(gè)體每道題目的所有時(shí)刻的分?jǐn)?shù)進(jìn)行聚合(如, 求平均分), 再利用這些聚合分?jǐn)?shù)計(jì)算測(cè)驗(yàn)信度; (2)先將數(shù)據(jù)按不同時(shí)刻進(jìn)行拆分, 再對(duì)每個(gè)時(shí)刻所有個(gè)體所有題目的數(shù)據(jù)分別計(jì)算測(cè)驗(yàn)信度及其算術(shù)平均值; (3)先將數(shù)據(jù)按不同個(gè)體進(jìn)行拆分, 再對(duì)每個(gè)個(gè)體所有題目所有時(shí)刻的數(shù)據(jù)分別計(jì)算測(cè)驗(yàn)信度及其算術(shù)平均值。然而, 這些方法都存在一定的局限。比如, 第一種方法得到的信度體現(xiàn)的是個(gè)體差異分?jǐn)?shù)的可靠性, 而非個(gè)體動(dòng)態(tài)變化分?jǐn)?shù)的可靠性; 第二種方法沒有考慮到計(jì)算不同時(shí)刻的測(cè)驗(yàn)信度時(shí)用到的被試群體并不相同, 得到的多個(gè)時(shí)刻的測(cè)驗(yàn)信度不宜合并; 第三種方法忽視了同一個(gè)體在不同時(shí)刻的作答之間的相互依賴性, 這與信度計(jì)算中的觀測(cè)獨(dú)立性前提假設(shè)相違背。綜上, 這些方法都不適用于密集追蹤情境中測(cè)驗(yàn)信度的估計(jì)。
另一類研究基于概化理論(generalizability theory; Cronbach et al., 1963)提出密集追蹤研究中測(cè)驗(yàn)信度的估計(jì)方法。具體來說, 這類研究首先通過確定研究中的測(cè)量側(cè)面(facet)來考察測(cè)量誤差的主要來源, 然后采用方差分析估計(jì)得到歸因
于各個(gè)測(cè)量側(cè)面及其交互作用的方差成分, 并基于此計(jì)算不同含義的信度。比如, Cranford等人(2006)認(rèn)為密集追蹤研究中觀測(cè)分?jǐn)?shù)的變異可以歸因于個(gè)體、時(shí)間和題目這三個(gè)測(cè)量側(cè)面。隨后, 他們基于對(duì)各個(gè)側(cè)面的固定或隨機(jī)效應(yīng)的不同假設(shè)提出了多種信度計(jì)算公式。后續(xù)的研究者還將這一方法拓展運(yùn)用于更多測(cè)量側(cè)面的密集追蹤情境, 并提出了相應(yīng)的信度計(jì)算方法(Sch?nbrodt et"al, 2021)。然而, 基于概化理論的信度估計(jì)方法也存在不足(Scherer amp; Teo, 2020)。比如, 這類方法需要滿足因子載荷在個(gè)體間相等、誤差方差隨時(shí)間不變等較強(qiáng)的假設(shè), 而實(shí)際數(shù)據(jù)很難滿足這些假設(shè), 這就可能導(dǎo)致信度的估計(jì)并不準(zhǔn)確(Lane amp; Shrout, 2010)。因此, 基于概化理論的信度估計(jì)方法也不適用于密集追蹤的情境, 以往研究也建議不要將基于概化理論的信度估計(jì)方法應(yīng)用于追蹤研究中(葉寶娟 等, 2012)。
隨著對(duì)密集追蹤研究認(rèn)識(shí)的不斷深化, 研究者開始更有針對(duì)性地基于密集追蹤數(shù)據(jù)的特點(diǎn), 提出更適用于密集追蹤情境的信度估計(jì)方法。研究者關(guān)注的密集追蹤數(shù)據(jù)的特點(diǎn)主要包括其多層結(jié)構(gòu)和動(dòng)態(tài)特性(Hamaker amp; Wichers, 2017; Lafit et al., 2021)。密集追蹤數(shù)據(jù)的多層結(jié)構(gòu)通常是指密集追蹤的多次重復(fù)測(cè)量(第一水平)嵌套于個(gè)體(第二水平)的數(shù)據(jù)結(jié)構(gòu); 密集追蹤數(shù)據(jù)的動(dòng)態(tài)特性則是指鄰近時(shí)間點(diǎn)的觀測(cè)結(jié)果并非相互獨(dú)立, 而是存在一定的關(guān)聯(lián)。聚焦于密集追蹤數(shù)據(jù)的上述兩大特點(diǎn), 密集追蹤情境中測(cè)驗(yàn)信度的估計(jì)方法也有了新的進(jìn)展。
為了幫助對(duì)密集追蹤研究感興趣的研究者更好地了解這類研究中測(cè)驗(yàn)信度的估計(jì)方法, 本文將從密集追蹤數(shù)據(jù)的兩大特點(diǎn)(即多層結(jié)構(gòu)和動(dòng)態(tài)特性)出發(fā), 首先分別介紹聚焦于多層結(jié)構(gòu)的信度估計(jì)方法(基于多層驗(yàn)證性因子分析)和聚焦于動(dòng)態(tài)特性的信度估計(jì)方法(基于動(dòng)態(tài)因子分析), 然后重點(diǎn)介紹整合了密集追蹤數(shù)據(jù)的多層結(jié)構(gòu)和動(dòng)態(tài)特性的信度估計(jì)方法(基于動(dòng)態(tài)結(jié)構(gòu)方程模型)。隨后, 在實(shí)證數(shù)據(jù)中對(duì)這三種信度估計(jì)方法進(jìn)行演示與比較。最后, 總結(jié)討論上述三種信度估計(jì)方法的特點(diǎn)和適用情境, 對(duì)相關(guān)實(shí)踐應(yīng)用提供建議。
2""聚焦多層結(jié)構(gòu)的信度估計(jì)方法
基于多層驗(yàn)證性因子分析(multilevel confirmatory factor analysis, MCFA; Geldhof et al., 2014)的信度估計(jì)方法聚焦于密集追蹤數(shù)據(jù)的多層結(jié)構(gòu), 在個(gè)體內(nèi)和個(gè)體間水平分別估計(jì)測(cè)驗(yàn)信度, 現(xiàn)已廣泛運(yùn)用于發(fā)展(Eltanamly et al., 2023; Xu amp; Zheng, 2022)、教育(Hausen et al., 2023; Neubauer et al., 2022)、社會(huì)(Di Sarno et al., 2020; Koval et al., 2019)、臨床健康(Gerstberger et al., 2023; van der Tuin et al., 2023; Wright et al., 2017)、組織管理(Reis et al., 2016; Schmitt et al., 2017)等心理學(xué)領(lǐng)域的密集追蹤研究中。
基于多層驗(yàn)證性因子分析的信度估計(jì)方法對(duì)單維和多維測(cè)量結(jié)構(gòu)的情況均適用, 本文以單維測(cè)量結(jié)構(gòu)的情況為例, 多維測(cè)量結(jié)構(gòu)的情況可參見以往相關(guān)研究(Di Sarno et al., 2020; Neubauer et"al., 2022; Wright et al., 2017)。當(dāng)個(gè)體內(nèi)和個(gè)體間水平均為單維測(cè)量結(jié)構(gòu)時(shí)(如圖1), 多層驗(yàn)證性因子分析首先將個(gè)體i的題目j在第t個(gè)測(cè)量時(shí)間點(diǎn)的觀測(cè)分?jǐn)?shù)
(j"= 1, 2, …, q; t"= 1, 2, …, T; i"= 1, 2, …, n)分解為個(gè)體間成分(
)和個(gè)體內(nèi)成分(
):
其中,
是個(gè)體i在第t個(gè)測(cè)量時(shí)間點(diǎn)的潛在狀態(tài)因子;
是題目j在個(gè)體內(nèi)水平的因子載荷, 對(duì)所有個(gè)體相等且不隨時(shí)間變化;
是個(gè)體i的題目j在第t個(gè)測(cè)量時(shí)間點(diǎn)的隨機(jī)測(cè)量誤差(random measurement error), 假設(shè)服從正態(tài)分布(即,
), 各個(gè)題目的隨機(jī)測(cè)量誤差的協(xié)方差為零(即,
)。
個(gè)體間成分則被進(jìn)一步分解為截距(
)、個(gè)體間水平的真分?jǐn)?shù)(
)和誤差(
):
其中,
是題目j的截距;
是個(gè)體i的潛在特質(zhì)因子;
是題目j在個(gè)體間水平的因子載荷;
是個(gè)體i的題目j的測(cè)量誤差, 假設(shè)服從正態(tài)分布(即,
), 各個(gè)題目的測(cè)量誤差的協(xié)方差為零(即,
)。
基于上述模型, 可以計(jì)算各個(gè)題目和各個(gè)維度在個(gè)體內(nèi)和個(gè)體間水平的信度。在個(gè)體內(nèi)水平, 定義某個(gè)題目的個(gè)體內(nèi)信度為該題由潛在狀態(tài)因子解釋的變異與該題狀態(tài)成分的變異之比, 各個(gè)維度的個(gè)體內(nèi)信度為該維度內(nèi)各題由潛在狀態(tài)因子解釋的總變異與該維度內(nèi)各題狀態(tài)成分的總變異之比。將潛在狀態(tài)因子的方差固定為1, 可以得到各個(gè)題目(
)和各個(gè)維度(
)的個(gè)體內(nèi)信度分別為:
類似地, 在個(gè)體間水平, 定義某個(gè)題目的個(gè)體間信度為該題由潛在特質(zhì)因子解釋的變異與該題特質(zhì)成分的變異之比, 各個(gè)維度的個(gè)體間信度為該維度內(nèi)各題由潛在特質(zhì)因子解釋的總變異與該維度內(nèi)各題特質(zhì)成分的總變異之比。將潛在特質(zhì)因子的方差固定為1, 可以得到各個(gè)題目(
)和各個(gè)維度(
)的個(gè)體間信度分別為:

雖然基于多層驗(yàn)證性因子分析的信度估計(jì)方法是密集追蹤研究中常用的信度估計(jì)方法, 但它也存在一定的局限性。比如, 這一方法假設(shè)各個(gè)題目的因子載荷和殘差方差對(duì)所有個(gè)體都相等, 故只能得到對(duì)個(gè)體內(nèi)水平信度的一個(gè)整體評(píng)估。然而, 這一假設(shè)在實(shí)際研究中可能并不成立, 密集追蹤研究中測(cè)驗(yàn)信度很可能存在個(gè)體間差異(Hu et al., 2016)。此外, 基于多層驗(yàn)證性因子分析的信度估計(jì)方法沒有考慮密集追蹤數(shù)據(jù)中連續(xù)觀測(cè)點(diǎn)之間的時(shí)序關(guān)系, 即忽視了密集追蹤數(shù)據(jù)的動(dòng)態(tài)特性, 這可能會(huì)影響密集追蹤研究中的信度估計(jì)結(jié)果的準(zhǔn)確性。
3""聚焦動(dòng)態(tài)特性的信度估計(jì)方法
基于動(dòng)態(tài)因子分析(dynamic factor analysis, DFA)的信度估計(jì)方法是密集追蹤研究中另一種重要的信度估計(jì)方法。動(dòng)態(tài)因子分析最初由Molenaar (1985)提出, 它在P技術(shù)因子分析(P-technique factor analysis; Cattell et al., 1947)的基礎(chǔ)上進(jìn)一步融入時(shí)間序列分析, 可以對(duì)不同的個(gè)體建立不同的模型以考察個(gè)體特定(person-"specific)的動(dòng)態(tài)過程。后來, 有研究者將這一方法應(yīng)用于密集追蹤研究中的信度估計(jì)(Fuller-"Tyszkiewicz et al., 2017; Lane amp; Shrout, 2010)。這一信度估計(jì)方法能通過考慮變量的自回歸過程, 體現(xiàn)密集追蹤數(shù)據(jù)的動(dòng)態(tài)特性; 還能基于每個(gè)個(gè)體的數(shù)據(jù)建立模型, 估計(jì)個(gè)體特定信度, 幫助研究者更好地了解不同個(gè)體在某個(gè)測(cè)驗(yàn)信度上的個(gè)體間差異。
基于動(dòng)態(tài)因子分析的信度估計(jì)方法對(duì)每個(gè)個(gè)體分別建立動(dòng)態(tài)因子模型并計(jì)算個(gè)體特定信度。類似上述, 基于動(dòng)態(tài)因子分析的信度估計(jì)方法對(duì)單維和多維測(cè)量結(jié)構(gòu)的情況均適用, 本文以單維測(cè)量結(jié)構(gòu)的情況為例(多維的情況可參見Fuller-"Tyszkiewicz等人(2017)的研究)。個(gè)體i的動(dòng)態(tài)因子模型可以分為測(cè)量部分和結(jié)構(gòu)部分(如圖2)。測(cè)量部分的表達(dá)式為:

其中,
是個(gè)體i的題目j在第t個(gè)測(cè)量時(shí)間點(diǎn)的觀測(cè)分?jǐn)?shù)(j"= 1, 2, …, q; t"= 1, 2, …, T; i"= 1, 2, …, n);"αji是個(gè)體i的題目j的截距;
是個(gè)體i在第t個(gè)測(cè)量時(shí)間點(diǎn)的潛在因子;
是個(gè)體i的題目j的因子載荷;
是個(gè)體i的題目j在第t個(gè)測(cè)量時(shí)間點(diǎn)的測(cè)量誤差, 假設(shè)服從正態(tài)分布(即,
), 各個(gè)題目的測(cè)量誤差的協(xié)方差為零(即,
)。

在結(jié)構(gòu)部分, 假設(shè)潛在因子滿足一階自回歸過程, 則結(jié)構(gòu)部分可表示為:
其中,
是個(gè)體特定的自回歸效應(yīng)(autoregressive effect), 也被稱為慣性(inertia)或滯留效應(yīng)(carry-"over effect), 描述了前一個(gè)時(shí)間點(diǎn)的潛在因子水平對(duì)當(dāng)前時(shí)間點(diǎn)的潛在因子水平的影響;
是個(gè)體i的潛在因子在第t個(gè)測(cè)量時(shí)間點(diǎn)的動(dòng)態(tài)誤差(dynamic error), 假設(shè)服從正態(tài)分布(即,
"
)。
基于上述模型, 可以計(jì)算每個(gè)個(gè)體的各個(gè)題目和各個(gè)維度的信度。定義某個(gè)題目的個(gè)體特定信度為該題由潛在因子解釋的變異與該題的總變異之比, 各個(gè)維度的個(gè)體特定信度為該維度內(nèi)各題由潛在因子解釋的總變異與該維度內(nèi)各題總變異之比。個(gè)體i的題目j的個(gè)體特定信度(
)和各個(gè)維度的個(gè)體特定信度(
)分別為:
其中,
是可以由潛在因子解釋的變異, 等于潛在因子的方差(
)與因子載荷的平方(
)的乘積;
是不可以由潛在因子解釋的變異, 即測(cè)量誤差的變異(即,
)。由公式(9)可知, 潛在因子的方差(滿足下式:
基于一階自回歸過程的弱平穩(wěn)假設(shè)(weak stationarity assumption), 潛在因子的方差隨時(shí)間不變(即,
), 故可將公式(12)改寫為公式(13):
雖然基于動(dòng)態(tài)因子分析的信度估計(jì)方法能估計(jì)個(gè)體特定信度, 還能體現(xiàn)密集追蹤數(shù)據(jù)的動(dòng)態(tài)特性, 但它也有一些不足。首先, 動(dòng)態(tài)因子分析混淆了觀測(cè)分?jǐn)?shù)的特質(zhì)成分(即個(gè)體的某一構(gòu)念在多次觀測(cè)中的一般水平)和狀態(tài)成分(即個(gè)體的某一構(gòu)念的某次觀測(cè)相對(duì)其一般水平的偏離), 這可能會(huì)導(dǎo)致個(gè)體特定信度的估計(jì)結(jié)果有偏差。其次, 這種方法忽視了個(gè)體間水平的測(cè)量結(jié)構(gòu), 無法估計(jì)個(gè)體間水平的測(cè)驗(yàn)信度。此外, 僅利用單一個(gè)體的重復(fù)測(cè)量信息而不考慮其他個(gè)體或整個(gè)群體的信息可能會(huì)導(dǎo)致某些個(gè)體模型難以收斂, 進(jìn)而無法估計(jì)某些個(gè)體的信度(可參見Fuller-Tyszkiewicz等人(2017)的研究結(jié)果或本文的實(shí)證示例)。
4""整合多層結(jié)構(gòu)和動(dòng)態(tài)特性的信度估計(jì)方法
基于多層驗(yàn)證性因子分析和基于動(dòng)態(tài)因子分析的信度估計(jì)方法都只關(guān)注了密集追蹤數(shù)據(jù)的部分特點(diǎn), 而Asparouhov等人(2018)提出的動(dòng)態(tài)結(jié)構(gòu)方程模型(dynamic structural equation modeling, DSEM)則為密集追蹤數(shù)據(jù)的多層結(jié)構(gòu)和動(dòng)態(tài)特性的整合提供可能。動(dòng)態(tài)結(jié)構(gòu)方程模型綜合了多層模型、時(shí)間序列模型和結(jié)構(gòu)方程模型的優(yōu)勢(shì)(McNeish amp; Hamaker, 2020)。它能在個(gè)體內(nèi)和個(gè)體間水平分別建立因子模型, 考慮變量在不同水平的測(cè)量結(jié)構(gòu), 以體現(xiàn)密集追蹤數(shù)據(jù)的多層結(jié)構(gòu); 它還能在個(gè)體內(nèi)水平構(gòu)建變量的自回歸過程, 考慮連續(xù)觀測(cè)點(diǎn)之間的時(shí)間依賴性, 以體現(xiàn)密集追蹤數(shù)據(jù)的動(dòng)態(tài)特性。此外, 動(dòng)態(tài)結(jié)構(gòu)方程模型采用貝葉斯估計(jì)法, 相比于傳統(tǒng)的多層模型(采用極大似然估計(jì))可以更靈活地估計(jì)參數(shù)的隨機(jī)效應(yīng)(如參數(shù)的個(gè)體間差異; McNeish amp; Hamaker, 2020; Muthén amp; Asparouhov, 2012), 可以像動(dòng)態(tài)因子模型一樣估計(jì)得到個(gè)體特定信度, 故也有研究者將其視為動(dòng)態(tài)因子模型在多層情況下的拓展(Asparouhov et al., 2018)??傊?, 動(dòng)態(tài)結(jié)構(gòu)方程模型能同時(shí)體現(xiàn)密集追蹤數(shù)據(jù)的多層結(jié)構(gòu)和動(dòng)態(tài)特性, 還能考察測(cè)驗(yàn)信度的個(gè)體差異, 有助于研究者更好地估計(jì)和理解密集追蹤研究中的信度(Xiao et al., 2023)。
類似上述的兩種方法, 基于動(dòng)態(tài)結(jié)構(gòu)方程模型的信度估計(jì)方法對(duì)單維和多維測(cè)量結(jié)構(gòu)的情況均適用, 本文以單維測(cè)量結(jié)構(gòu)的情況為例(多維的情況可參見Xiao等人(2023)的研究)。對(duì)于單維測(cè)量結(jié)構(gòu)的構(gòu)念, 常見的兩水平動(dòng)態(tài)結(jié)構(gòu)方程模型(two-level DSEM; 如圖3)首先將觀測(cè)分?jǐn)?shù)分解為個(gè)體間成分(即特質(zhì)成分)和個(gè)體內(nèi)成分(即狀態(tài)成分):
其中,
是個(gè)體i的題目j在第t個(gè)測(cè)量時(shí)間點(diǎn)的觀測(cè)分?jǐn)?shù)(j"= 1, 2, …, q; t"= 1, 2, …, T; i"= 1, 2, …, n);
是個(gè)體i的題目j在所有測(cè)量時(shí)間點(diǎn)的潛均值(即個(gè)體間成分), 代表變量的特質(zhì)水平;
是個(gè)體i的題目j在第t個(gè)測(cè)量時(shí)間點(diǎn)的觀測(cè)分?jǐn)?shù)與該個(gè)體在該題目上潛均值的偏離值(即個(gè)體內(nèi)成分), 代表變量的狀態(tài)水平。
隨機(jī)測(cè)量誤差方差和動(dòng)態(tài)誤差方差取自然對(duì)數(shù), 主要是為了確保估計(jì)得到的每個(gè)個(gè)體的隨機(jī)測(cè)量誤差方差和動(dòng)態(tài)誤差方差均為正值。此外, 對(duì)這些誤差方差取自然對(duì)數(shù)還有助于基于多元正態(tài)分布, 考察這些誤差方差的隨機(jī)對(duì)數(shù)與其它有隨機(jī)效應(yīng)的參數(shù)(如個(gè)體均值或自回歸效應(yīng))的相關(guān)關(guān)系(Hamaker et al., 2018)。
基于上述模型, 可以計(jì)算各個(gè)題目和各個(gè)維度在個(gè)體內(nèi)和個(gè)體間水平的信度。在個(gè)體內(nèi)水平, 定義某個(gè)題目的個(gè)體特定信度為該題由潛在狀態(tài)因子解釋的變異與該題狀態(tài)成分的變異之比, 各個(gè)維度的個(gè)體特定信度為該維度內(nèi)各題由潛在狀態(tài)因子解釋的總變異與該維度內(nèi)各題狀態(tài)成分的總變異之比。個(gè)體i的題目j的個(gè)體特定信度(
)和各個(gè)維度的個(gè)體特定信度(
)分別為:

5""實(shí)證應(yīng)用
5.1""實(shí)證數(shù)據(jù)與分析方法
本節(jié)將在實(shí)證數(shù)據(jù)中演示如何基于多層驗(yàn)證性因子分析、動(dòng)態(tài)因子分析和動(dòng)態(tài)結(jié)構(gòu)方程模型估計(jì)密集追蹤研究中各個(gè)題目和維度的信度(以單維測(cè)驗(yàn)為例, 維度信度即為測(cè)驗(yàn)信度, Mplus語(yǔ)句和R代碼見https://osf.io/n2gw7/)。實(shí)證數(shù)據(jù)為252名女大學(xué)生連續(xù)34天報(bào)告的日常拖延數(shù)據(jù)。參考以往研究對(duì)日常拖延的測(cè)量(Kühnel et al., 2016; Kühnel et al., 2022; Maier et al., 2021; van Eerde amp; Venus, 2018), 本研究在Tuckman (1991)的拖延量表中加入“今天”的時(shí)間提示(如, “今天, 我不必要地拖延完成工作, 即使是重要的工作”)來測(cè)量個(gè)體的每日拖延情況。本測(cè)驗(yàn)共包括6道題, 被試需要在每晚睡前從1 (“完全不同意”)到7 (“完全同意”)對(duì)每道題進(jìn)行評(píng)分。最終, 被試的平均填答率為94.89%。
基于多層驗(yàn)證性因子分析的信度估計(jì)可在Mplus中完成。采用穩(wěn)健極大似然估計(jì)(Mplus對(duì)兩水平模型的默認(rèn)估計(jì)方法)得到多層驗(yàn)證性因子分析模型的參數(shù)估計(jì)值。同時(shí), 根據(jù)公式(4) ~ (7), 運(yùn)用Mplus中的MODEL CONSTRAINT語(yǔ)句, 直接得到個(gè)體內(nèi)和個(gè)體間水平各個(gè)題目和整個(gè)測(cè)驗(yàn)的信度估計(jì)值和標(biāo)準(zhǔn)誤。
基于動(dòng)態(tài)因子分析的信度估計(jì)需要在R中調(diào)用Mplus完成。具體來說, 運(yùn)用R中的MplusAutomation包(Hallquist amp; Wiley, 2018)調(diào)用Mplus, 將每個(gè)個(gè)體的日常拖延數(shù)據(jù)分別擬合動(dòng)態(tài)因子模型。采用貝葉斯估計(jì)法(固定迭代次數(shù)為10000次, 根據(jù)Hamaker等人(2018)的建議, 通過PSR和各參數(shù)的軌跡圖(trace plot)判斷模型此時(shí)是否收斂, 下同)得到各個(gè)個(gè)體的動(dòng)態(tài)因子模型的參數(shù)估計(jì)值, 并運(yùn)用SAVEDATA語(yǔ)句保存計(jì)算個(gè)體特定信度所需的參數(shù)后驗(yàn)分布(由200個(gè)可信值(plausible values)組成)。隨后, 根據(jù)公式(10)和(11), 在R中計(jì)算得到每個(gè)個(gè)體各個(gè)題目和整個(gè)測(cè)驗(yàn)的個(gè)體特定信度的后驗(yàn)分布(由200個(gè)可信值組成), 后驗(yàn)分布的中位數(shù)為該個(gè)體的某個(gè)題目或整個(gè)測(cè)驗(yàn)的個(gè)體特定信度的點(diǎn)估計(jì), 基于所有個(gè)體的個(gè)體特定信度的點(diǎn)估計(jì)可以得到該題目或測(cè)驗(yàn)的個(gè)體特定信度的分布。
基于動(dòng)態(tài)結(jié)構(gòu)方程模型的信度估計(jì)需要同時(shí)運(yùn)用Mplus和R完成。在Mplus中, 采用貝葉斯
估計(jì)法(固定迭代次數(shù)為10000次)得到動(dòng)態(tài)結(jié)構(gòu)方程模型的參數(shù)估計(jì)值。同時(shí), 根據(jù)公式(25)和(26), 運(yùn)用MODEL CONSTRAINT語(yǔ)句直接得到個(gè)體間水平各個(gè)題目和整個(gè)測(cè)驗(yàn)的信度估計(jì)值和95%貝葉斯可信區(qū)間的上、下限。為了估計(jì)個(gè)體特定信度, 首先在Mplus中運(yùn)用SAVEDATA語(yǔ)句保存計(jì)算個(gè)體特定信度所需的參數(shù)后驗(yàn)分布(由200個(gè)可信值組成)。隨后, 根據(jù)公式(22)和(23), 在R中計(jì)算得到每個(gè)個(gè)體各個(gè)題目和整個(gè)測(cè)驗(yàn)的個(gè)體特定信度的后驗(yàn)分布(由200個(gè)可信值組成)。類似基于動(dòng)態(tài)因子分析的信度估計(jì)法, 可以得到每個(gè)個(gè)體的某個(gè)題目或整個(gè)測(cè)驗(yàn)的個(gè)體特定信度的點(diǎn)估計(jì), 以及該題目或測(cè)驗(yàn)的個(gè)體特定信度的分布。
基于動(dòng)態(tài)因子分析或動(dòng)態(tài)結(jié)構(gòu)方程模型估計(jì)信度時(shí), 除了估計(jì)每個(gè)個(gè)體的個(gè)體特定信度, 還可以估計(jì)得到個(gè)體內(nèi)信度。個(gè)體內(nèi)信度可以作為個(gè)體內(nèi)水平的信度的整體描述, 可與基于多層驗(yàn)證性因子分析得到的個(gè)體內(nèi)信度進(jìn)行比較。為了得到各個(gè)題目或整個(gè)測(cè)驗(yàn)的個(gè)體內(nèi)信度, 用SAVEDATA語(yǔ)句保存計(jì)算個(gè)體特定信度所需的參數(shù)后驗(yàn)分布(由200個(gè)可信值組成)后, 先計(jì)算每次迭代中每個(gè)個(gè)體各個(gè)題目和整個(gè)測(cè)驗(yàn)的個(gè)體特定信度(每個(gè)個(gè)體各個(gè)題目和整個(gè)測(cè)驗(yàn)分別可計(jì)算得到200個(gè)個(gè)體特定信度), 然后對(duì)所有個(gè)體求平均, 得到該題目或測(cè)驗(yàn)的個(gè)體內(nèi)信度的后驗(yàn)分布(由200個(gè)個(gè)體內(nèi)信度組成), 后驗(yàn)分布的中位數(shù)為個(gè)體內(nèi)信度的點(diǎn)估計(jì), 2.5%和97.5%分位數(shù)分別為個(gè)體內(nèi)信度的95%貝葉斯可信區(qū)間的上、下限。
此外, 值得說明的是, 在基于動(dòng)態(tài)因子分析和基于動(dòng)態(tài)結(jié)構(gòu)方程模型計(jì)算信度時(shí), 某些個(gè)體的某些迭代結(jié)果中潛在(狀態(tài))因子方差的估計(jì)值可能為負(fù)。為了排除這些有問題的迭代結(jié)果對(duì)信度估計(jì)的影響, 我們參考Xiao等人(2023)的做法, 將相應(yīng)迭代中的個(gè)體特定信度替換為缺失值, 即不納入最終對(duì)信度的計(jì)算。
5.2""結(jié)果與討論
三種方法估計(jì)的各個(gè)題目和整個(gè)測(cè)驗(yàn)的個(gè)體間信度和個(gè)體內(nèi)信度如表1所示。對(duì)于整個(gè)測(cè)驗(yàn)的信度, 基于多層驗(yàn)證性因子分析和基于動(dòng)態(tài)結(jié)構(gòu)方程模型得到的個(gè)體間信度的估計(jì)值相近, 個(gè)體內(nèi)信度的估計(jì)值相差相對(duì)較大, 且都低于基于動(dòng)態(tài)因子分析得到的個(gè)體內(nèi)信度。對(duì)于各個(gè)題目的信度, 三種方法的信度估計(jì)結(jié)果也存在差異。其中, 基于多層驗(yàn)證性因子分析和基于動(dòng)態(tài)結(jié)構(gòu)方程模型得到的各個(gè)題目的個(gè)體間和個(gè)體內(nèi)信度都相對(duì)接近, 但基于動(dòng)態(tài)因子分析得到的各個(gè)題目的個(gè)體內(nèi)信度都高于基于動(dòng)態(tài)結(jié)構(gòu)方程模型得到的結(jié)果。值得注意的是, 在基于動(dòng)態(tài)因子分析的信度估計(jì)過程中, 有145人的動(dòng)態(tài)因子模型無法擬合(因?yàn)樵搨€(gè)體估計(jì)的方差協(xié)方差矩陣不正定等), 故信度估計(jì)結(jié)果僅基于模型擬合的107人(42.46%)的數(shù)據(jù)。這可能表明上述對(duì)基于動(dòng)態(tài)因子分析與基于其它方法估計(jì)得到的信度結(jié)果的比較存在問題, 因?yàn)閮烧咚罁?jù)的樣本并不相同, 研究者應(yīng)謹(jǐn)慎解讀相關(guān)結(jié)果。更重要的是, 這也提醒研究者基于動(dòng)態(tài)因子分析的信度估計(jì)方法可能在擬合某些個(gè)體模型時(shí)存在困難甚至無法成功擬合, 相應(yīng)的個(gè)體特定信度無法估計(jì), 個(gè)體內(nèi)信度的估計(jì)結(jié)果也可能存在偏差。
此外, 比較各個(gè)題目的信度估計(jì)結(jié)果發(fā)現(xiàn), 題目2 (“今天, 我推遲做出艱難的決定”)在三種信度估計(jì)方法中均呈現(xiàn)出最低的個(gè)體間和個(gè)體內(nèi)信度。進(jìn)一步考察基于動(dòng)態(tài)因子分析和動(dòng)態(tài)結(jié)構(gòu)方程模型得到的個(gè)體特定信度的分布(見表2)發(fā)
現(xiàn), 在兩種可以估計(jì)個(gè)體特定信度的方法中, 題目2的個(gè)體特定信度組成的分布的中位數(shù)和均值都明顯低于其它題目, 這意味著題目2在測(cè)量拖延的狀態(tài)成分時(shí)與其它題目的內(nèi)部一致性較低。結(jié)合題目2的內(nèi)容進(jìn)行分析可以為此提供可能的解釋。在Tuckman (1991)的原量表中, 題目2用于評(píng)估個(gè)體推遲做出艱難決定的一般傾向。而本研究在題目2中加入了“今天”的時(shí)間提示, 并用其測(cè)量個(gè)體每天在多大程度上有推遲做出艱難決定的情況。但值得注意的是, 個(gè)體并不一定每天都會(huì)面臨艱難的決定。因此, 個(gè)體有時(shí)可能會(huì)對(duì)這道題的表述感到困惑或難以作答, 故題目2和其它題目的一致性也較低。
6""討論
6.1""三種方法的比較分析
為了幫助研究者更好地了解并選擇合適的信度估計(jì)方法, 本文對(duì)可用于密集追蹤情境的三種方法的不同特點(diǎn)和主要局限進(jìn)行歸納總結(jié)(見表3)。
一方面, 從數(shù)據(jù)適配度、可估的信度和估計(jì)方法這三個(gè)維度來看, 基于動(dòng)態(tài)結(jié)構(gòu)方程模型的信度估計(jì)方法整合了基于多層驗(yàn)證性因子分析和基于動(dòng)態(tài)因子分析的優(yōu)勢(shì), 能充分體現(xiàn)密集追蹤數(shù)據(jù)的多層結(jié)構(gòu)和動(dòng)態(tài)特性, 又能在每個(gè)個(gè)體、個(gè)體內(nèi)和個(gè)體間水平分別估計(jì)信度, 還能采用貝葉斯估計(jì)法更靈活地估計(jì)模型參數(shù)的隨機(jī)效應(yīng), 進(jìn)而考察個(gè)體差異相關(guān)的問題。但另一方面, 從軟件需求和運(yùn)行耗時(shí)這兩個(gè)維度來看, 基于動(dòng)態(tài)結(jié)構(gòu)方程模型的信度估計(jì)方法需要用到Mplus和其它統(tǒng)計(jì)軟件(如, R)估計(jì)信度, 且由于模型相對(duì)復(fù)雜, 程序運(yùn)行所需時(shí)間也較長(zhǎng)。相比之下, 基于多層驗(yàn)證性因子分析的信度估計(jì)方法只需Mplus即可完成, 語(yǔ)句簡(jiǎn)明, 結(jié)果直接, 運(yùn)行高效, 在簡(jiǎn)便性方面存在優(yōu)勢(shì)。此外, 表3還梳理了三種方法的主要局限。
考慮到各種方法的特點(diǎn)和局限, 本文對(duì)不同方法的適用情境提出建議, 并整理提出信度估計(jì)方法的選擇策略流程圖(見圖4)。首先, 若研究者
不關(guān)注測(cè)驗(yàn)信度的個(gè)體差異或個(gè)體特定信度, 而是側(cè)重于從整體上了解測(cè)驗(yàn)在個(gè)體內(nèi)和個(gè)體間水平的信度, 或研究者已采用合適的方法(如, 交叉分類模型; McNeish et al., 2021)驗(yàn)證測(cè)驗(yàn)在不同個(gè)體之間的測(cè)量滿足不變性, 則研究者可選用基于多層驗(yàn)證性因子分析的信度估計(jì)方法, 相對(duì)簡(jiǎn)單地檢驗(yàn)并報(bào)告測(cè)驗(yàn)的個(gè)體內(nèi)和個(gè)體間信度。其次, 若研究者有理由認(rèn)為不存在個(gè)體特質(zhì)因子(
)對(duì)題目作答(
)的影響, 重點(diǎn)考察不同個(gè)體測(cè)量模型的差異, 關(guān)注個(gè)體特定信度, 或研究的被試量較小(甚至是單一個(gè)體的時(shí)序研究), 不足以考察測(cè)驗(yàn)在個(gè)體間水平的表現(xiàn), 則研究者可以選擇基于動(dòng)態(tài)因子分析的信度估計(jì)方法, 得到測(cè)驗(yàn)的個(gè)體特定信度和個(gè)體內(nèi)信度, 但此時(shí)還需要注意重復(fù)測(cè)量的時(shí)間點(diǎn)是否足夠多和個(gè)體模型能否成功擬合等問題。然而, 在其它大多數(shù)情況下, 更建議研究者采用基于動(dòng)態(tài)結(jié)構(gòu)方程模型的信度估計(jì)方法, 得到測(cè)驗(yàn)的個(gè)體特定信度、個(gè)體內(nèi)信度和個(gè)體間信度?,F(xiàn)有的許多密集追蹤研究通過改編特質(zhì)測(cè)驗(yàn)中的部分題目來測(cè)量變量隨時(shí)間的變化(Horstmann amp; Ziegler, 2020; Trull amp; Ebner-Priemer, 2020), 題目的選擇和改編效果都缺乏合適的量化分析結(jié)果支持。對(duì)此, 研究者可以基于動(dòng)態(tài)結(jié)構(gòu)方程模型的信度估計(jì)方法來充分檢驗(yàn)改編后的測(cè)驗(yàn)?zāi)芊窨煽康睾饬總€(gè)體間水平的差異以及各個(gè)個(gè)體和個(gè)體內(nèi)水平整體的動(dòng)態(tài)變化過程。更重要的是, 考慮到有研究者呼吁未來研究重視開發(fā)更適用于密集追蹤情境的測(cè)驗(yàn)(Dietrich et al., 2022; Horstmann amp; Ziegler, 2020; Mielniczuk, 2023), 且近年來也有越來越多這類測(cè)驗(yàn)開發(fā)的研究(Blanke amp; Brose, 2017; Engyel et al., 2022; Ringwald et al., 2022), 測(cè)驗(yàn)開發(fā)階段的信度估計(jì)應(yīng)該盡可能采用適配于密集追蹤數(shù)據(jù)且可估計(jì)各類信度的方法(即, 基于動(dòng)態(tài)結(jié)構(gòu)方程模型的信度估計(jì)方法), 以幫助測(cè)驗(yàn)開發(fā)者更好地檢驗(yàn)新測(cè)驗(yàn)在可靠性方面的表現(xiàn)。
6.2""實(shí)踐應(yīng)用中的建議
6.2.1""各個(gè)題目的信度
密集追蹤研究中各個(gè)題目的信度是實(shí)踐應(yīng)用中需要關(guān)注的一個(gè)問題。為了更好地測(cè)量研究中的變量, 部分研究者會(huì)選取多個(gè)題目(如, 三個(gè)及以上)來測(cè)量變量隨時(shí)間的變化過程, 但大部分這類研究?jī)H報(bào)告整個(gè)測(cè)驗(yàn)的信度, 而未考慮各個(gè)題目的信度(Eltanamly et al., 2023; Koval et al., 2019; van der Tuin et al., 2023; Wright et al., 2017)。有研究者指出, 從特質(zhì)測(cè)驗(yàn)中選取并改編的題目并不一定直接適用于對(duì)相應(yīng)狀態(tài)的密集測(cè)量(Horstmann"amp; Ziegler, 2020; Mielniczuk, 2023)。此外, 本文的實(shí)證應(yīng)用也發(fā)現(xiàn), 某些改編自特質(zhì)測(cè)驗(yàn)的題目在各種方法得到的各個(gè)水平的信度上都低于其它題目, 結(jié)合題目?jī)?nèi)容的分析表明, 該題可能并不適用于密集追蹤的情境。由此可見, 應(yīng)用研究者在檢驗(yàn)并報(bào)告整個(gè)測(cè)驗(yàn)的信度之余, 還應(yīng)該進(jìn)一步考察各個(gè)題目的信度。一方面, 各個(gè)題目的信度估計(jì)結(jié)果以及題目間的比較分析可以幫助研究者鑒別可能不宜用于密集追蹤情境的題目, 這對(duì)于采用特質(zhì)測(cè)驗(yàn)的改編題測(cè)量狀態(tài)變量的研究尤為重要。另一方面, 考慮到有研究者建議在密集追蹤研究中采用較短的測(cè)驗(yàn)(如, 3~6道題; Mielniczuk, 2023)以平衡測(cè)驗(yàn)質(zhì)量和作答負(fù)擔(dān)的影響, 對(duì)各個(gè)題目信度的評(píng)估有助于研究者適當(dāng)縮減密集追蹤研究中的測(cè)驗(yàn), 提高測(cè)量效率。
6.2.2""信度的個(gè)體差異
密集追蹤情境中值得關(guān)注的另一個(gè)問題是測(cè)驗(yàn)信度的個(gè)體差異。在信度的早期研究中有許多研究者強(qiáng)調(diào), 信度是一種特定于施測(cè)群體的測(cè)驗(yàn)特性(Mellenbergh, 1996; Wilkinson, 1999), 基于某個(gè)群體得到的信度估計(jì)結(jié)果不一定能推廣到其它群體中。類似地, 在密集追蹤情境中, 研究者關(guān)注個(gè)體內(nèi)的動(dòng)態(tài)過程及其測(cè)驗(yàn)分?jǐn)?shù)的可靠性, 而個(gè)體的行為和狀態(tài)隨時(shí)間的變化可能具有一定的特異性(Schuurman amp; Hamaker, 2019)。因此, 不同個(gè)體的測(cè)驗(yàn)分?jǐn)?shù)的可靠性很可能并不相等(Fisher et al., 2018; Stone et al., 2023), 在密集追蹤研究中估計(jì)測(cè)驗(yàn)信度時(shí)有必要考慮個(gè)體特定信度及其個(gè)體間差異。這不僅可以幫助研究者更深入地了解研究所用測(cè)驗(yàn)在測(cè)量可靠性方面的表現(xiàn)以及對(duì)施測(cè)群體的適用程度, 還可以為研究結(jié)果的解讀提供更豐富的支持性或警示性信息。對(duì)于個(gè)體特定信度, 大部分個(gè)體較高的信度可為個(gè)體內(nèi)水平研究結(jié)果的可靠性提供支持, 反之, 大量個(gè)體較低的信度則對(duì)個(gè)體內(nèi)水平研究結(jié)果的可信度有警示作用, 研究者在對(duì)相關(guān)結(jié)果作出解釋和推論時(shí)需更加謹(jǐn)慎。
6.2.3""信度結(jié)果的報(bào)告
綜合上述兩點(diǎn), 我們對(duì)密集追蹤研究中信度估計(jì)結(jié)果的報(bào)告提出兩點(diǎn)建議。首先, 考慮到各個(gè)題目信度的重要性, 建議基于多層驗(yàn)證性因子分析和基于動(dòng)態(tài)結(jié)構(gòu)方程模型估計(jì)信度的研究者報(bào)告各個(gè)題目和整個(gè)測(cè)驗(yàn)(或各個(gè)維度, 下同)的個(gè)體內(nèi)信度和個(gè)體間信度, 基于動(dòng)態(tài)因子分析估計(jì)信度的研究者報(bào)告各個(gè)題目和整個(gè)測(cè)驗(yàn)的個(gè)體內(nèi)信度, 每個(gè)信度估計(jì)結(jié)果應(yīng)包括其點(diǎn)估計(jì)值和(貝葉斯)可信區(qū)間的上、下限(參見本文表1)。這些信度估計(jì)結(jié)果可以體現(xiàn)研究所用的各個(gè)題目和整個(gè)測(cè)驗(yàn)在個(gè)體間和個(gè)體內(nèi)水平的整體表現(xiàn), 有助于識(shí)別不適用于密集追蹤情境的題目, 為測(cè)驗(yàn)可靠性評(píng)價(jià)提供主要參考依據(jù)。
此外, 對(duì)于信度的個(gè)體差異問題, 如果研究基于動(dòng)態(tài)因子分析或基于動(dòng)態(tài)結(jié)構(gòu)方程模型估計(jì)信度, 且關(guān)注個(gè)體特定信度的個(gè)體間差異, 則研究可以進(jìn)一步報(bào)告?zhèn)€體特定信度的相關(guān)結(jié)果。具體來說, 研究可以呈現(xiàn)各個(gè)題目和整個(gè)測(cè)驗(yàn)的個(gè)體特定信度分布圖(參見Xiao等人(2023)的圖2), 或報(bào)告這些分布的描述性統(tǒng)計(jì)指標(biāo)(如中位數(shù)、均值和標(biāo)準(zhǔn)差等, 參見本文表2), 以考察題目和測(cè)驗(yàn)對(duì)各個(gè)個(gè)體的適用性, 為測(cè)驗(yàn)可靠性評(píng)價(jià)提供輔助參考依據(jù)。
6.3""其它方法與研究展望
除了已介紹的信度估計(jì)方法, 在密集追蹤情境中測(cè)驗(yàn)信度的估計(jì)還有其它探索與嘗試。比如, 受啟發(fā)于傳統(tǒng)的重測(cè)信度估計(jì)思想, Dejonckheere等人(2022)通過在密集追蹤測(cè)驗(yàn)中隨機(jī)重復(fù)一道情緒題, 并計(jì)算兩個(gè)分?jǐn)?shù)間的差值平方來估計(jì)該題的信度。Hu等人(2016)還提出可以在密集追蹤研究中創(chuàng)建平行測(cè)驗(yàn), 并計(jì)算每個(gè)個(gè)體在平行測(cè)驗(yàn)上得分的相關(guān)來估計(jì)個(gè)體特定信度。
此外, 還有研究基于潛在特質(zhì)?狀態(tài)理論(latent state-trait theory, LST; Steyer et al., 1999, 2015)探討可用于密集追蹤研究的信度估計(jì)方法(Castro-Alvarez, Tendeiro, Meijer, amp; Bringmann, 2022; Castro-Alvarez, Tendeiro, amp; de Jonge et al., 2022)。潛在特質(zhì)?狀態(tài)理論中有三個(gè)重要的比例系數(shù)(Steyer et al., 2015):一致性(consistency)、情境特異性(occasion specificity)和可信度(reliability)。一致性是指源于隨時(shí)間穩(wěn)定的特質(zhì)成分的變異與總變異的比例; 情境特異性是指源于具體情境的狀態(tài)成分的變異與總變異的比例; 可信度則是一致性和情境特異性之和, 即特定情境下源于穩(wěn)定的特質(zhì)成分和具體情境的狀態(tài)成分的變異與總變異的比例, 也即隨機(jī)測(cè)量誤差之外的變異與總變異的比例。在此理論框架和信度定義下, 可以基于多種模型估計(jì)密集追蹤研究中測(cè)驗(yàn)的信度, 如多狀態(tài)?單特質(zhì)(multistate-singletrait, MSST; Steyer"et al., 2015)模型、共同獨(dú)特特質(zhì)?狀態(tài)(common and unique trait?state, CUTS; Hamaker et al., 2017)模型和特質(zhì)?狀態(tài)?情境(trait-state-occasion, TSO; Eid et al., 2017)模型。這些模型與本文介紹的模型存在一定關(guān)聯(lián)。比如, 多層的共同獨(dú)特特質(zhì)?狀態(tài)模型在統(tǒng)計(jì)上與多層驗(yàn)證性因子分析模型相同(Roesch et al., 2010), 而混合效應(yīng)的特質(zhì)?狀態(tài)?情境(mixed-effects trait-state-occasion, ME-TSO; Castro-Alvarez, Tendeiro, amp; de Jonge et al., 2022)模型與本文介紹的兩水平動(dòng)態(tài)結(jié)構(gòu)方程模型在統(tǒng)計(jì)上也是相同的。但值得注意的是, 由于基于特質(zhì)狀態(tài)理論的模型和本文介紹的其它模型在變異分解思路和對(duì)信度的定義等方面存在差異, 得到的信度估計(jì)值及其解釋方式也可能不同。對(duì)此感興趣的研究者可以參閱Castro-Alvarez, Tendeiro, Meijer和Bringmann (2022)以及Castro-Alvarez, Tendeiro和de Jonge等人(2022)的文章。
隨著密集追蹤研究的不斷發(fā)展, 密集追蹤情境中測(cè)驗(yàn)信度相關(guān)的問題值得更多方法和應(yīng)用研究者的關(guān)注。在方法研究中, 測(cè)驗(yàn)信度常常基于特定的模型進(jìn)行估計(jì), 而相應(yīng)信度指標(biāo)的應(yīng)用也受限于該模型的適用范圍(Laenen et al., 2009)。因此, 未來研究可以進(jìn)一步探討基于其它模型(如, 連續(xù)時(shí)間結(jié)構(gòu)方程模型; continuous time structural equation modeling, CTSEM; Driver et al., 2017)的信度定義和估計(jì)方法。在應(yīng)用研究中, 研究者對(duì)測(cè)驗(yàn)信度的檢驗(yàn)與報(bào)告并沒有給予足夠的重視(Brose et al., 2020; Horstmann amp; Ziegler, 2020; Stone et al., 2023; Trull amp; Ebner-Priemer, 2020), 未來研究應(yīng)該將測(cè)驗(yàn)信度的檢驗(yàn)作為數(shù)據(jù)分析的必要步驟, 根據(jù)具體研究情境選擇合適的信度估計(jì)方法以得到更合理可靠的研究結(jié)論。
參考文獻(xiàn)
葉寶娟, 溫忠麟, 陳啟山. (2012). 追蹤研究中測(cè)驗(yàn)信度的估計(jì). 心理科學(xué)進(jìn)展, 20(3), 467?474.
鄭舒方, 張瀝今, 喬欣宇, 潘俊豪. (2021). 密集追蹤數(shù)據(jù)分析:模型及其應(yīng)用. 心理科學(xué)進(jìn)展, 29(11), 1948?1972.
Asparouhov, T., Hamaker, E. L., amp; Muthén, B. (2018). Dynamic structural equation models. Structural Equation Modeling: A Multidisciplinary Journal, 25(3), 359?388.
Blanke, E. S., amp; Brose, A. (2017). Mindfulness in daily life: A multidimensional approach. Mindfulness, 8, 737?750.
Bolger, N., Davis, A., amp; Rafaeli, E. (2003). Diary methods: Capturing life as it is lived. Annual Review of Psychology, 54(1), 579?616.
Bolger, N., amp; Laurenceau, J. P. (2013)."Intensive longitudinal methods: An introduction to diary and experience sampling"research. Guilford press.
Brose, A., Schmiedek, F., Gerstorf, D., amp; Voelkle, M. C. (2020). The measurement of within-person affect variation. Emotion, 20(4), 677?699.
Castro-Alvarez, S., Tendeiro, J. N., de Jonge, P., Meijer, R. R., amp; Bringmann, L. F. (2022). Mixed-effects trait-state-"occasion model: Studying the psychometric properties and the person?situation interactions of psychological dynamics."Structural Equation Modeling: A Multidisciplinary Journal, 29(3), 438?451.
Castro-Alvarez, S., Tendeiro, J. N., Meijer, R. R., amp; Bringmann, L. F. (2022). Using structural equation modeling to study traits and states in intensive longitudinal data. Psychological Methods, 27(1), 17?43.
Cattell, R. B., Cattell, A. K. S., amp; Rhymer, R. M. (1947). P-technique demonstrated in determining psychophysiological source traits in a normal individual. Psychometrika, 12(4), 267?288.
Collins, L. M. (2006). Analysis of longitudinal data: The integration of theoretical model, temporal design, and statistical model. Annual Review of Psychology, 57, 505?"528.
Cranford, J. A., Shrout, P. E., Iida, M., Rafaeli, E., Yip, T., amp; Bolger, N. (2006). A procedure for evaluating sensitivity to within-person change: Can mood measures in diary studies detect change reliably? Personality and Social Psychology Bulletin, 32(7), 917?929.
Cronbach, L. J., Rajaratnam, N., amp; Gleser, G. C. (1963). Theory of generalizability: A liberalization of reliability theory. British Journal of Statistical Psychology, 16(2), 137?163.
Dejonckheere, E., Demeyer, F., Geusens, B., Piot, M., Tuerlinckx, F., Verdonck, S., amp; Mestdagh, M. (2022). Assessing the reliability of single-item momentary affective"measurements in experience sampling. Psychological Assessment, 34(12), 1138?1154.
Dietrich, J., Schmiedek, F., amp; Moeller, J. (2022). Academic motivation and emotions are experienced in learning situations, so let's study them [Special issue]. Learning and Instruction, 81, 101623.
Di Sarno, M., Zimmermann, J., Madeddu, F., Casini, E., amp; Di Pierro, R. (2020). Shame behind the corner? A daily diary investigation of pathological narcissism. Journal of Research in Personality, 85, 103924.
Driver, C. C., Oud, J. H., amp; Voelkle, M. C. (2017). Continuous time structural equation modeling with R package ctsem. Journal of Statistical Software, 77(5), 1?35.
Eid, M., Holtmann, J., Santangelo, P., amp; Ebner-Priemer, U. (2017). On the definition of latent-state-trait models with autoregressive effects. European Journal of Psychological Assessment, 33(4), 285?295.
Eltanamly, H., Leijten, P., van Roekel, E., Mouton, B., Pluess, M., amp; Overbeek, G. (2023). Strengthening parental self-efficacy and resilience: A within-subject experimental study with refugee parents of adolescents. Child Development,"94(1), 187?201.
Engyel, M., de Ruiter, N. M., amp; Urbán, R. (2022). Momentarily narcissistic? Development of a short, state version of the Pathological Narcissism Inventory applicable"in momentary assessment. Frontiers in Psychology, 13, 992271.
Fisher, A. J., Medaglia, J. D., amp; Jeronimus, B. F. (2018). Lack of group-to-individual generalizability is a threat to human subjects research. Proceedings of the National Academy of Sciences, 115(27), E6106?E6115.
Fuller-Tyszkiewicz, M., Hartley-Clark, L., Cummins, R. A., Tomyn, A. J., Weinberg, M. K., amp; Richardson, B. (2017). Using dynamic factor analysis to provide insights into data reliability in experience sampling studies. Psychological Assessment, 29(9), 1120?1128.
Geldhof, G. J., Preacher, K. J., amp; Zyphur, M. J. (2014). Reliability estimation in a multilevel confirmatory factor analysis framework. Psychological Methods, 19(1), 72?91.
Gerstberger, L., Blanke, E. S., Keller, J., amp; Brose, A. (2023). Stress buffering after physical activity engagement: An experience sampling study. British Journal of Health Psychology, 28(3), 876?892.
Hallquist, M. N., amp; Wiley, J. F. (2018). MplusAutomation: An R package for facilitating large-scale latent variable analyses in Mplus. Structural Equation Modeling: A Multidisciplinary Journal, 25(4), 621?638.
Hamaker, E. L., Asparouhov, T., Brose, A., Schmiedek, F., amp; Muthén, B. (2018). At the frontiers of modeling intensive longitudinal data: Dynamic structural equation models for the affective measurements from the COGITO study. Multivariate Behavioral Research, 53(6), 820?841.
Hamaker, E. L., Schuurman, N. K., amp; Zijlmans, E. A. O. (2017). Using a few snapshots to distinguish mountains from waves: Weak factorial invariance in the context of trait-state research. Multivariate Behavioral Research, 52(1), 47?60.
Hamaker, E. L., amp; Wichers, M. (2017). No time like the present: Discovering the hidden dynamics in intensive longitudinal data. Current Directions in Psychological Science, 26(1), 10?15.
Hausen, J. E., M?ller, J., Greiff, S., amp; Niepel, C. (2023). Morningness and state academic self-concept in students: Do early birds experience themselves as more competent in daily school life? Contemporary Educational Psychology,"74, 102199.
Horstmann, K. T., amp; Ziegler, M. (2020). Assessing personality"states: What to consider when constructing personality state measures. European Journal of Personality, 34(6), 1037?1059.
Hu, Y., Nesselroade, J. R., Erbacher, M. K., Boker, S. M., Burt, S. A., Keel, P. K., ... Klump, K. (2016). Test reliability at the individual level. Structural Equation Modeling: A Multidisciplinary Journal, 23(4), 532?543.
Koval, P., Holland, E., Zyphur, M. J., Stratemeyer, M., Knight, J. M., Bailen, N. H., ... Haslam, N. (2019). How does it feel to be treated like an object? Direct and indirect effects of exposure to sexual objectification on women’s emotions in daily life. Journal of Personality and Social Psychology, 116(6), 885?898.
Kühnel, J., Bledow, R., amp; Feuerhahn, N. (2016). When do you procrastinate? Sleep quality and social sleep lag jointly predict self-regulatory failure at work. Journal of Organizational Behavior, 37(7), 983?1002.
Kühnel, J., Bledow, R., amp; Kuonath, A. (2022). Overcoming procrastination: Time pressure and positive affect as compensatory routes to action."Journal of Business and Psychology, 38(4), 803?819.
Laenen, A., Alonso, A., Molenberghs, G., amp; Vangeneugden, T. (2009). A family of measures to evaluate scale reliability in a longitudinal setting. Journal of the Royal Statistical Society Series A: Statistics in Society, 172(1), 237?253.
Lafit, G., Adolf, J. K., Dejonckheere, E., Myin-Germeys, I., Viechtbauer, W., amp; Ceulemans, E. (2021). Selection of the number of participants in intensive longitudinal studies: A user-friendly shiny app and tutorial for performing power analysis in multilevel regression models that account for temporal dependencies. Advances in Methods and Practices in Psychological Science, 4(1), 1?24.
Lane, S. P., amp; Shrout, P. E. (2010). Assessing the reliability of within-person change over time: A dynamic factor analysis approach. Multivariate Behavioral Research, 45(6), 1027.
Maier, T., Kühnel, J., amp; Zimmermann, B. (2021). How did you sleep tonight? The relevance of sleep quality and sleep-wake rhythm for procrastination at work. Frontiers in Psychology, 12, 785154.
McNeish, D., amp; Hamaker, E. L. (2020). A primer on two-level dynamic structural equation models for intensive"longitudinal data in Mplus. Psychological Methods, 25(5), 610?635.
McNeish, D., Mackinnon, D. P., Marsch, L. A., amp; Poldrack, R. A. (2021). Measurement in intensive longitudinal data. Structural Equation Modeling: A Multidisciplinary Journal, 28(5), 807?822.
Mellenbergh, G. J. (1996). Measurement precision in test score and item response models. Psychological Methods, 1(3), 293?299.
Mielniczuk, E. (2023). Call for new measures suitable for intensive longitudinal studies: Ideas and suggestions. New Ideas in Psychology, 68, 100983.
Molenaar, P. C. (1985). A dynamic factor model for the analysis of multivariate time series. Psychometrika, 50(2), 181?202.
Muthén, B., amp; Asparouhov, T. (2012). Bayesian structural equation modeling: A more flexible representation of substantive theory. Psychological Methods, 17(3), 313?335.
Neubauer, A. B., Schmidt, A., Schmiedek, F., amp; Dirk, J. (2022). Dynamic reciprocal relations of achievement goals with daily experiences of academic success and failure: An ambulatory assessment study. Learning and Instruction,"81, 101617.
Nezlek, J. B. (2017). A practical guide to understanding reliability in studies of within-person variability. Journal of Research in Personality, 69, 149?155.
Reis, D., Arndt, C., Lischetzke, T., amp; Hoppe, A. (2016). State work engagement and state affect: Similar yet distinct"concepts. Journal of Vocational Behavior, 93, 1?10.
Ringwald, W. R., Manuck, S. B., Marsland, A. L., amp; Wright, A. G. (2022). Psychometric evaluation of a Big Five personality state scale for intensive longitudinal studies. Assessment, 29(6), 1301?1319.
Roesch, S. C., Aldridge, A. A., Stocking, S. N., Villodas, F., Leung, Q., Bartley, C. E., amp; Black, L. J. (2010). Multilevel"factor analysis and structural equation modeling of daily diary coping data: Modeling trait and state variation. Multivariate Behavioral Research, 45(5), 767?789.
Scherer, R., amp; Teo, T. (2020). A tutorial on the meta-analytic structural equation modeling of reliability coefficients. Psychological Methods, 25(6), 747?775.
Schmitt, A., Belschak, F. D., amp; Den Hartog, D. N. (2017). Feeling vital after a good night’s sleep: The interplay of energetic resources and self-efficacy for daily proactivity. Journal of Occupational Health Psychology, 22(4), 443?454.
Sch?nbrodt, F. D., Zygar-Hoffmann, C., Nestler, S., Pusch, S., amp; Hagemeyer, B. (2021). Measuring motivational relationship processes in experience sampling: A reliability"model for moments, days, and persons nested in couples. Behavior Research Methods, 54(4), 1869?1888.
Schuurman, N. K., amp; Hamaker, E. L. (2019). Measurement error and person-specific reliability in multilevel autoregressive modeling. Psychological Methods, 24(1), 70?91.
Shiffman, S., Stone, A. A., amp; Hufford, M. R. (2008). Ecological momentary assessment. Annual Review of Clinical Psychology, 4, 1?32.
Steyer, R., Mayer, A., Geiser, C., amp; Cole, D. A. (2015). A theory of states and traits-Revised. Annual Review of Clinical Psychology, 11, 71?98.
Steyer, R., Schmitt, M., amp; Eid, M. (1999). Latent state-trait theory and research in personality and individual differences. European Journal of Personality, 13(5), 389?408.
Stone, A. A., Schneider, S., amp; Smyth, J. M. (2023). Evaluation of pressing issues in ecological momentary assessment. Annual Review of Clinical Psychology, 19, 107?131.
Trull, T. J., amp; Ebner-Priemer, U. (2013). Ambulatory assessment. Annual Review of Clinical Psychology, 9, 151?176.
Trull, T. J., amp; Ebner-Priemer, U. W. (2020). Ambulatory assessment in psychopathology research: A review of recommended reporting guidelines and current practices. Journal of Abnormal Psychology, 129(1), 56?63.
Tuckman, B. W. (1991). The development and concurrent validity of the procrastination scale. Educational and Psychological Measurement, 51(2), 473?480.
van der Tuin, S., Booij, S. H., Oldehinkel, A. J., van den Berg, D., Wigman, J. T. W., L?ng, U., amp; Kelleher, I. (2023). The dynamic relationship between sleep and psychotic experiences across the early stages of the psychosis continuum. Psychological Medicine. Advance online publication. https://doi.org/10.1017/S0033291723"001459
van Eerde, W., amp; Venus, M. (2018). A daily diary study on sleep quality and procrastination at work: The moderating role of trait self-control. Frontiers in Psychology, 9, 2029.
Wilkinson, L. (1999). Statistical methods in psychology journals: Guidelines and explanations. American Psychologist,"54(8), 594?604.
Wright, A. G., Stepp, S. D., Scott, L. N., Hallquist, M. N., Beeney, J. E., Lazarus, S. A., amp; Pilkonis, P. A. (2017). The effect of pathological narcissism on interpersonal and affective processes in social interactions. Journal of Abnormal Psychology, 126(7), 898?910.
Xiao, Y., Wang, P., amp; Liu, H. (2023). Assessing intra-and inter-individual reliabilities in intensive longitudinal studies: A two-level random dynamic model-based approach. Psychological Methods. Advance online publication. https://doi.org/10.1037/met0000608
Xu, J., amp; Zheng, Y. (2022). Links between shared and unique perspectives of parental psychological control and adolescent emotional problems: A dyadic daily diary study. Child Development, 93(6), 1649?1662.
Zhou, L., Wang, M., amp; Zhang, Z. (2021). Intensive longitudinal"data analyses with dynamic structural equation modeling. Organizational Research Methods, 24(2), 219?250.
Estimating test reliability of intensive longitudinal studies:Perspectives on multilevel structure and dynamic nature
LUO Xiaohui, LIU Hongyun
(Beijing Key Laboratory of Applied Experimental Psychology, National Demonstration Center for Experimental Psychology Education"(Beijing Normal University), Faculty of Psychology, Beijing Normal University, Beijing"100875, China)
Abstract: With the widespread use of intensive longitudinal studies in psychology and other social sciences, reliability estimation of tests in intensive longitudinal studies has received increasing attention. Earlier reliability estimation methods drawn from cross-sectional studies or based on generalizability theory"have many limitations and are not applicable to intensive longitudinal studies. Considering the two main characteristics of intensive longitudinal data, multilevel structure and dynamic nature, the reliability of tests in intensive longitudinal studies can be estimated based on multilevel confirmatory factor analysis, dynamic factor analysis, and dynamic structural equation models. The main features and applicable contexts of these three reliability estimation methods are demonstrated with empirical data. Future research could explore the reliability estimation methods based on other models, and should also pay more attention to the testing and reporting of test reliability in intensive longitudinal studies.
Keywords:"intensive longitudinal study, reliability, multilevel structure, dynamic nature, dynamic structural equation modeling