心理學研究的可重復性“危機”：一些積極應對策略

2018-02-21 19:09:46霍涌泉陳文博解詩薇

心理學探新 2018年1期

劉佳霍涌泉陳文博解詩薇王靜

(陜西師范大學心理學院，陜西省行為與認知神經科學重點實驗室，西安 710062)

1 引言

有研究表明，心理學研究結果的可重復率不到50%(Open Science Collaboration，2015)，這一令人擔憂的學術現狀近年來越來越多的受到各領域研究者及社會各界人士的關注(Lindsay，2015；Schooler，2014；Simmons，Nelson，& Simonsohn，2011；胡傳鵬等，2016；仲曉波，2015)。該問題一經公開，便引起軒然大波，使得心理學研究的科學性遭到質疑(Pashler & Wagenmakers，2012)。一切科學研究都存在著不確定性，包括自然科學在內的實驗研究也達不到完全的可重復性，如果將心理學與社會科學研究結果的可重復性作為主要指標，實際上也是一種非理性的行為。愈復雜的研究愈難以重復，無法完全重復是科學研究中的正?，F象。排除人類心理與行為的復雜性及實驗操作、環境等無關變量的影響作用，除個別學術不端行為，許多研究者可能并不清楚自己的一些慣例性操作會影響研究結果的可靠性程度。

目前在心理學研究過程中存在一個較為普遍的現象，就是研究者傾向于采用不同的收集方式和分析方法將數據以多種方式進行探索，并根據顯著性結果加以選擇性地報告，以便使研究結果更容易符合實驗假設或理論預期。有研究者將這種系統性誤差稱為“機會性偏差”(opportunistic bias；Decoster & Sparks，2015)，也有研究者考察了那些可能導致偏差的研究操作的普遍性(John，Loewenstein，& Prelec，2012)。比起教科書式單一且有完整定義的問題，實際情境中，研究者往往會收集與核心問題相關的許多信息，會進行更大范圍的數據運算、檢驗更多種可能的假設。這些操作盡管讓研究者更有可能發現統計效應，但同樣可能會在實際上并沒有發生效應時，得出一些顯著性的結果或在實際上效應量較小的情況下得到較大的效應量，形成“假陽性”(Simmons，Nelson，& Simonsohn，2011)。這些探索過程很可能使得研究所評估的變量間關系與其真實值之間有所偏差。

可能導致偏差的操作并非只存在于一些低質量的研究中，而是很可能已被廣泛應用于心理學研究的各個領域。John等人對2155位心理學研究者進行了調查，要求他們以匿名方式評估在10種可疑的研究操作上，自己或同事是否已經采取或未來可能會采取的可能性(John，Loewenstein，& Prelec，2012)。這10種研究行為包括8種偏差性的操作(如選擇性報告實驗條件、根據結果篩選數據等)和兩種學術不端行為(故意誤報結果、篡改數據)。結果顯示，心理學研究者評估其同事已經實施或未來有可能實施的比例在15.6%(根據數據結果提前結束數據的收集)到63.4%(選擇性報告研究變量)之間，而經貝葉斯校正后某些行為的評估甚至達到100%。鑒于大多數行為的估計比例都高于50%，該結果表明許多會導致偏差的操作很可能已經成為心理學研究者們普遍接受的常規做法了，其普遍性可見一斑。

不僅如此，偏差性操作的影響范圍也非常廣泛。不僅可能造成研究結果的可重復率變低，還有可能導致研究者過高估計已有結果的效應量大小、低估重復該結果所需的樣本量等問題，而在已有的可能有偏差的結果上進行理論建構或進一步考察，則可能造成學術探索過程走更多彎路，降低研究效率。

2 偏差性操作的種類

由于研究者并沒有意識到某些操作可能不夠恰當(John et al.，2012)，因此多數人并非故意違背學術道德采用這些方法來夸大自己的研究結果，而是僅僅將其視為數據探索或理論建構過程中十分平常的一個部分。為了更好地避免偏差性操作的使用，明確哪些方法可能不得當是十分必要的。

(1)無嚴格假設而進行大量數據分析

許多研究者可能在沒有充分理論支持的情況下或在進行系統理論假設之前，在研究初期測量許多與興趣點相關的變量，之后在數據分析時從檢驗結果中選擇得到顯著差異的或效應量最大的進行報告。

(2)采用不同測量范式檢驗同一假設

針對同一心理學變量，采用不同的范式或不同的測驗進行測量或操作，即進行一系列概念性重復的實驗，直到發現顯著結果或較大效應量。假定該研究采用的方法在理論上都是有效的，每一種方法提供一個對關系的有效估計，那么，選擇性的報告最大效應的結果就可能高估了這一關系的強度。

(3)采用多種方式進行數據轉換

當變量的原有結構不能得出理想的結果時，研究者有時會對已有變量進行數據轉換。例如對連續變量進行反轉、求邏輯對數、開方等。若結果仍不理想，可采用其他方法重新轉換。

(4)采用不同分析方法檢驗同一假設

同一批數據往往可用多種方法分析，具體采用哪種，原則上是由研究者來決定的。例如，比較兩組數據在某個變量上是否存在差異，若可證明樣本來源的總體正態分布，則可采用t檢驗分析；若不去證明數據是正態分布(即認為總體分布形態未知)，則可采用曼惠特尼U檢驗。

(5)不科學的樣本量確定方法

采用虛無假設顯著性檢驗時，當結果得到較低的p值而不滿足顯著性水平時，研究者常通過增加被試量來提高得到顯著結果的可能性。不少研究者認為，這樣做可以“明確”那些邊緣顯著的結果；他們并不認為增加更多數據會從無到有的“產生出”一個顯著結果。由于只在當p值“邊緣顯著”時采用這一方法，而在“邊緣不顯著”時則不采用，這種不平衡的矯正方式將使研究更易得到顯著性結果。

(6)只重復檢驗與預期不符的結果

當研究者發現研究結果與其預期或假設不符時，常常會再次檢驗數據的分析過程，看是否由于統計錯誤、假設錯誤或有極端值而造成。盡管這種做法可以理解，但是只有當發現不符合預期的結果時進行重復檢驗，得到符合預期的結果時則不進行重復檢驗，這種做法會使得研究結果向符合預期的方向偏差。

以上研究操作都可能導致研究結果更符合預期。許多操作被研究者視為慣例，只是這一現象的表層原因，之所以采取這些措施，有一定的深層動機。有學者指出，獲得同行和范例的認可，可能是研究者采取偏差性操作的深層原因(Alkhateeb，2016)。在當前的評價體系下，能夠在優秀期刊上發表論文并得到廣泛引用，就代表了一種學術界的認可，是對研究者科研能力的肯定。在這種獲得認可的內部動機下，潛移默化的促使研究者采取一些偏差性的操作，進而影響了結果的客觀性程度。

3 積極應對可重復性“危機”的策略

盡管許多可能降低研究可重復性的操作流程已被廣泛接受和普遍使用，但并非所有的科研工作者都忽視了這種偏差性操作帶來的問題，學者們已經提出一系列措施以加強心理學研究的可重復性，預防為主，修正為輔。

3.1 修正的方法

判斷一個已有研究結果是否具有較高的可重復性，最直接的方法就是重復最初的研究，看是否能得到相同的結果(包括顯著性水平和效應量)。通過重復已有研究，研究者可以驗證已有的研究結果不是由于隨機誤差或是實驗者偏差的影響所致(Schmidt，2009；仲曉波，2015)。

為強調成功重復已有研究的重要性及開展重復性研究，有研究者創辦了開放科學中心，其目標包括考察心理學已有研究結果的可重復率、鑒別可能導致有效的結果無法復制的困難等(Reproducibility Project & the Psychology Group，2014)。近年來，我國學者也已開始關注該問題(陳巍，2014；朱瀅，伍錫洪，2016)，特別是胡傳鵬等(2016)在“心理學研究中的可重復性問題：從危機到契機”一文中，不僅從問題的危急性及緊迫性考慮其對學科發展的不利影響，更是從加強研究可靠性及為其他學科提供借鑒的角度將其視為一個學科進步的契機。這些措施都將鼓勵心理學人關注可重復性問題，進行高質量的重復研究。

也有學者提出，評估可重復性的指標可能需進一步明確。以往許多學者錯誤地將顯著性p值看作是對可重復性的評估，而事實上置信區間更為恰當：置信區間的寬度越小，實驗的可重復性就越高(仲曉波，2015)。

3.2 預防的措施

首先，提高研究的透明度和公開性。

近年來，國內外學者都積極倡導提高心理學研究的透明度和公開性(Gewin，2016)，也有組織機構提供了開放研究資料的平臺。目前，可以通過共享數據和研究材料、詳細報告統計決策和分析方法等內容的方式提高研究的透明度，自覺避免偏差性操作(Simmons，Nelson，& Simonsohn，2012)。例如，開放科學中心近期開展了開放性科研框架，研究者可以在這里分享自己的研究材料、數據、統計方法等多種資料，并可發表驗證性的研究結果(Spies & Nosek，2014)。

其次，完善虛無假設檢驗流程。

有研究者認為，正是由于虛無假設檢驗范式本身存在一些矛盾與爭議(呂小康，2012，2014)，才會導致使用該檢驗的研究結果出現偏差，因此應當避免使用現在被廣泛應用的虛無假設檢驗方法，而更多采用貝葉斯分析、元分析等其他方法(Dienes，2011；郭春彥，朱瀅，1997)；但另有研究者認為，這其實是一種誤解，造成可重復性問題的原因是對假設檢驗范式的使用不當造成，假設檢驗應該補充以其他的、定量的數據分析方法，或者和這些方法結合使用(仲曉波，黃希堯，萬榮根，2008)。還有研究者系統總結了虛無假設檢驗的合理流程(吳艷，溫忠麟，2011)，認為可以通過先驗檢驗力分析、區間估計及效應量分析更好的補充虛無假設檢驗的不足，提高可重復性。

第三，采用科學方法確定樣本量大小。

實施多個小樣本量的小型實驗降低了成本，使研究者可以進行多個實驗后選擇性報告有顯著結果的內容，再將這些結果作為最初假設即可(Schimmack，2012)。因此，應當適當增大研究的樣本量，以降低上述可能。當然，這種增大也應在合理范圍，需根據檢驗效力、Ⅰ類錯誤發生率α及Ⅱ類錯誤發生率β等進行估算(吳艷，溫忠麟，2011)，不能毫無限制。因為過大的樣本量更容易得到顯著結果，很可能使無差異的統計結果“變成”差異顯著(焦璨，張敏強，2014；呂小康，2014)。

無論是外部監控還是思想的監控，都具有隱蔽性的特征。正是由于這種隱蔽性和不確定性，使得這些被監控者更加自覺地約束自己的行為和思想。由于電幕的存在，溫斯頓要時時刻刻控制自己的面部表情；他跟喬麗亞見面要不斷地變換場所和交通線路。由于思想警察的存在，他們要保證自己的思想緊緊向黨國靠攏。正是在這種隱蔽性的監視下，這些被監控者們必須時刻注意規束自身的行為和思想，不然隨時有被逮捕的風險。他們必須配合黨的一切要求，完善行為，改造思想。

目前可以采用 G-power 等軟件，在開展研究之前根據先前研究的效應量大小、α值、效應量和統計檢驗力(通常為0.8)計算當前研究所需的樣本量大小。

第四，專業人士的積極引領。

由于許多研究者可能并不知曉一些研究流程有造成偏差的可能性，因此傳播相關知識和信息是做出相應改變的第一步，目前還需更多同行及專業人士參與進來。

心理學界專業人士可利用其學術地位及影響力，對論文的發表標準、項目審批過程等給予清晰指導，或通過發表有影響力的論文、開展關于方法和統計的課程、學術報告或公開演講等方式傳播具體知識，積極引領、指導其他學者對該問題的重視及修正。

目前，朱瀅就已兩次發文積極關注可重復性問題，倡導提高學術公開性及開放性(朱瀅，2016；朱瀅，伍錫洪，2016)。而2016年10月于西安舉行的“第十九屆全國心理學學術會議”的“加強心理學研究的可重復性工作坊”中，幾位學者從國際上關于研究標準的爭議及變化、加強可重復性的知識與技能等方面展開討論，為提高我國心理學研究的可重復性一同努力。

最后，專業期刊的共同努力。

論文是否得到發表往往是一項研究是否成功的評判標準，為了提高心理學研究的可重復性，專業期刊的助力必不可少。尤其是那些有較高影響力的專業期刊，常常反映著行業內的熱點問題、實驗范式及研究規范，如果能夠從投稿要求等入手進行變革，將發揮巨大作用。

(1)完善投稿要求，減少可能存在偏差性操作的論文發表。

通過完善投稿標準，強制性要求采用更為客觀的研究流程，可排除一些可能存在偏差操作的論文。首先，可要求研究者公開完整的研究流程、材料及數據分析過程，如 SSCI 期刊《Psychological Science》的投稿要求中指出，作者必須在文中報告剔除極端值的標準、所分析的全部因變量、測量方法、樣本量大小及數據收集規則等(Eich，2014)。其次，期刊還需注意避免可能由于虛無假設檢驗結果不完善而導致的偏差問題，要求報告效果量、置信區間等統計指標，據此對虛無假設檢驗提供理論上與技術上的完善(吳艷，溫忠麟，2011；鄭昊敏，溫忠麟，吳艷，2011)。如我國心理學權威期刊《心理學報》、《心理科學》都已在投稿前的“自檢報告”中明確要求報告參數檢驗的效果量指標，該指標是對p值的有效補充。

(2)以研究設計而非結果作為審稿的重要指標。

焦璨和張敏強(2014)認為，由于研究者們較少關注虛無假設檢驗的使用邊界，導致只有那些得到顯著性結果的論文有更多發表機會，而未得到顯著性結論的便被束之高閣。因此，期刊雜志應根據研究設計評估其是否達到發表標準，基于理論建構、測量范式及其數據分析方法的可行性判斷，并充分考慮那些未得到顯著結果的論文(Van Assen，Van Aert，Nuijten，& Wicherts，2014；焦璨，張敏強，2014)。

盡管在這方面還需做出更多努力，但仍然可看到一些積極嘗試。國內核心期刊《心理科學進展》目前就設有“研究構想”專欄，專門刊登“當年或前一年獲得資助的國家自然科學基金或其他重大研究項目”的研究設計及研究計劃，根據設計對整個研究進行考評。

總體來看，為加強心理學研究的可重復性問題，研究者可從多方面努力。在前期梳理研究思路時，應盡量以那些更為可靠的已有研究作為依據。目前可以運用一些統計分析方法(如元分析等)或通過重復已有研究來檢驗已有研究的可靠性。而正式開展實驗之前，應事先確定樣本量大小和數據分析方法等具體操作，并將相關內容進行公開，以保證未來研究不受已收集到的數據結果的影響。在得到數據的分析結果后，則應當保證對結果的適當解釋，不夸大、不過度，避免得出傾向于顯著性結果或符合預期的偏見性結論。

4 結論

可重復性問題是心理學研究中的正?，F象，基于心理現象的特征和研究過程的復雜性，將其稱為“危機”略有言重，但是，仍有些已被當作常規做法的偏差性操作會影響可重復性，若不重視解決，有可能影響整個學科的研究質量。影響可重復性的偏差性操作主要包括：無假設的進行大量數據分析、采用多種范式及測驗、采用多種數據轉換方式及數據分析方法進行統計檢驗，之后選擇性地報告研究結果，抑或根據得到的數據結果決定樣本量大小、在得到不符合預期的結果時重復進行檢驗等操作。提高研究的可重復性，需要每一位研究者做出努力，通過提高研究透明度和公開性、完善虛無假設檢驗流程、適當增大樣本量等措施積極預防，同時也需要專業人士的積極引領及專業期刊的共同努力，并可通過重復已有研究對原有的受到偏差影響的研究結果進行一定程度的修正。

歸根結底，可重復性問題的出現并不是研究者的故意行為，也并非由于學術訓練上的缺失，最重要的是整個科學界過度追求同行學者的認同所導致(Alkhateeb，2016)。因此，提高可重復性的終極解決辦法是研究傳統的調整，是學科文化的革新，更是科研質量評價體系的變革。改變顯然需要相當長的一段時間，絕非易事，需要每一位研究者的協心同力。在嚴格質量標準的前提下，盡量民主、公正，以開放的心態接受不同的觀點和聲音。學科評價程序不宜像現在一樣單一化、剛性化。所有學者、專業人士及專業組織需要共同營造開放的學術氛圍，鼓勵并倡導研究內容、過程及材料的公開與透明，共同提高心理學研究的可重復性。

陳巍.(2014).可重復性：盤旋在具身認知實驗室上方的“幽靈”.心理技術與應用，(1)，23-25.

郭春彥，朱瀅.(1997).傳統統計方法面臨的挑戰：元分析方法.心理學報，29(2)，130-136.

胡傳鵬，王非，過繼成思，宋夢迪，隋潔，彭凱平.(2016).心理學研究中的可重復性問題：從危機到契機.心理科學進展，24(9)，1504-1518.

焦璨，張敏強.(2014).迷失的邊界：心理學虛無假設檢驗方法探究.中國社會科學，(2)，148-163.

呂小康.(2012).Fisher與Neyman-Pearson的分歧與心理統計中的假設檢驗爭議.心理科學，35(6)，1502-1506.

呂小康.(2014).從工具到范式：假設檢驗爭議的知識社會學反思.社會，35(6)，216-236.

吳艷，溫忠麟.(2011).與零假設檢驗有關的統計分析流程.心理科學，34(1)，230-234.

鄭昊敏，溫忠麟，吳艷.(2011).心理學常用效應量的選用與分析.心理科學進展，19(12)，1868-1878.

仲曉波.(2015).心理學實驗的可重復性.心理科學，38(4)，807-812.

仲曉波，黃希堯，萬榮根.(2008).心理學中對假設檢驗一些批評的分析.心理科學，31(4)，1010-1013.

朱瀅.(2016).“開放科學數據共享軟件共享”，你準備好了嗎?心理科學進展，(6)，995-996.

朱瀅，伍錫洪.(2016).《科學》和《自然》雜志2015年的兩篇心理學文章.心理科學，38(2)，474-478.

Alkhateeb，A.(2016).Weshouldnotacceptscientificresultsthathavenotbeenrepeated.Retrieved from.http：//nautil.us/blog/we-should-not-accept-scientific-results-that-have-not-been-repeated.

Decoster，J.，Sparks，E.A.，Sparks，J.C.，Sparks，G.G.，& Sparks，C.W.(2015).Opportunistic biases：Their origins，effects，and an integrated solution.AmericanPsychologist，70(6)，499-514.

Dienes，Z.(2011).Bayesian versus orthodox statistics：Which side are you on?PerspectivesonPsychologicalScience，6(3)，274-290.

Eich，E.(2014).Business not as usual.PsychologicalScience，25(1)，3-6.

Gewin，V.(2016).Data sharing：An open mind on open data.Nature，529(7584)，117-119.

John，L.K.，Loewenstein，G.，& Prelec，D.(2012).Measuring the prevalence of questionable research practices with incentives for truth telling.PsychologicalScience，23(5)，524-532.

Lindsay，D.S.(2015).Replication in psychological science.PsychologicalScience，26(12)，1827-1832.

Open Science Collaboration.(2015).Estimating the reproducibility of psychological science.Science，349(6251)，aac4716.

Pashler，H.，& Wagenmakers，E.J.(2012).Editors’ Introduction to the special section on replicability in psychological science：A crisis of confidence?PerspectivesonPsychologicalScience，7(6)，528-530.

Reproducibility Project & the Psychology Group.(2014).ReproducibilityProject：Psychology.

Schimmack，U.(2012).The ironic effect of significant results on the credibility of multiple-study articles.PsychologicalMethods，17(4)，551-566.

Schmidt，S.(2009).Shall we really do it again?The powerful concept of replication is neglected in the social sciences.ReviewofGeneralPsychology，13(2)，90-100.

Schooler，J.W.(2014).Metascience could rescue the ’replication crisis’.Nature， 515(7525)，9.

Simmons，J.P.，Nelson，L.D.，& Simonsohn，U.(2011).False-positive psychology undisclosed flexibility in data collection and analysis allows presenting anything as significant.PsychologicalScience，22(11)，1359-1366.

Simmons，J.P.，Nelson，L.D.，& Simonsohn，U.(2012).A21WordSolution.http：//dx.doi.org/10.2139/ssrn.2160588.

Spies，J.，& Nosek，B.(2014).Openscienceframework.Retrieved http：//open science framework.org/

Van Assen，M.A.，van Aert，R.C.，Nuijten，M.B.，& Wicherts，J.M.(2014).Why publishing everything is more effective than selective publishing of statistically significant results.PlosOne，9(1)，e84896.