管茜 董克 夏義堃



摘? ?要:數據管理直接影響科研數據和科研結果的可發現、可獲取、互操作和可重用性,是規范學術行為的重要前提。論文撤稿是保證論文科學性,建立學術信任的重要手段,近年來生命科學領域頻發撤稿事件反映了包括數據管理在內的多種學術不端行為。在分析生命科學領域撤稿論文基本特征基礎上,對撤稿原因進行歸類,對與數據、圖像有關的撤稿論文進一步分析,發現其在時間、時滯、國家、學科、期刊等方面的相對發展趨勢。數據、圖像問題是生命科學論文撤稿的主要原因之一,并呈現波動上升趨勢,數據、圖像問題發生頻率與學科、期刊等級有關。應當從能力提升、制度完善、主體責任機制、過程監督、約束激勵手段等方面來加強科研數據管理。
關鍵詞:數據管理;撤稿;生命科學數據
Abstract Data management has a direct impact on the Findable, Accessible, Interoperable and Re-usable of scientific research data and results, and is an important prerequisite for standardizing academic behavior. The retraction of papers is an important means to ensure the scientificity of papers and build academic trust. In recent years, the frequent retraction of papers in the field of life science reflects a variety of academic misconduct, including data management.? Based on the analysis of the basic characteristics of retractions in the field of life science, this paper classifies the reasons for retractions, further analyzes the retractions related to data and images, and finds out their relative development trends in terms of period, time lag, country, discipline, journal and so on. Data and image problems are one of the main reasons for retractions of life science papers, and the frequency of data and image problems is related to discipline and journal level. The management of scientific research data should be strengthened from the aspects of ability promotion, system perfection, subject responsibility mechanism, process supervision, restraint and incentive means, etc.
Key words data management; retracted papers; life scientific data
撤稿是學術界自我凈化、自我完善的機制[1],也是維護學術誠信、保障期刊質量的基本制度保障。“更好地理解撤稿的潛在原因有助于改變當前的學術文化,并為阻止公眾對學術失去信任而提供信息、尋找改進的方向”[2]。近年來,因數據誤用、圖像重復以及數據偽造等數據管理問題引發的生命科學論文撤稿成上升趨勢,如2018年10月,哈佛醫學院Anversa教授的多篇論文被舉報存在數據、圖像偽造等問題,進而導致其發表在《NEJM》《Nature》《Cell》《Lancet》等頂級學術期刊的31篇研究論文被全部撤稿[3]。從撤稿現象背后的數據管理問題進行深度探索,有助于從根源上找出癥結與解決方法。
1? ?研究回顧與問題的提出
1.1? ? 研究回顧
(1)生命科學撤稿論文中的數據問題認知研究。生命科學領域是撤稿的重災區。Fang等[4]研究發現,自1975年以來,PubMed數據庫中已撤稿文章的百分比增加了約10倍。美國科研誠信辦公室(ORI)發布的《科研不當行為的發現與后果》報告指出,醫療與公共衛生領域24起結案調查中有21起涉及到數據偽造和/或捏造等情況[5]。韓磊[6]分析了2010-2019我國生物醫學領域國際論文撤稿,發現自2016年起,因數據問題、方法與結果問題被撤銷的論文數量連續4年位于第1和第2位,因圖片問題被撤稿的論文數量多數年度居第4或第5位。Elisabeth等[7]結合數據欺詐調查的具體案例,深入探討了撤稿事件背后的數據/圖像操縱、誤用等數據管理問題。Mike Rossner和Hill[8]進一步指出,修改、重組和偽造數據/圖像的部分內容以得到想要的但是不客觀的結果等行為,均屬學術不端。Fecher等[9]結合案例將數據濫用行為歸納為四種類型,即“偽造、商業濫用、競爭性濫用、有缺陷的解釋和不明確的意圖”。
(2)生命科學撤稿論文中的數據問題原因分析。多位學者通過挖掘期刊數據庫和Retraction網站的撤稿聲明,發現數據問題成為引發生命科學撤稿的重要因素。如針對PubMed數據庫2013年1月1日至2016年12月31日撤稿論文的研究發現,主要撤稿原因包括剽竊(32.7%)和數據處理(32.5%)等相關問題[10]。醫學類最常見的撤稿原因是欺詐(數據偽造或操縱),占比近一半(49.4%)[11],其中,麻醉學領域的主要撤稿原因包括數據操作/捏造/欺詐(49.4%)、倫理問題(28%)、其他數據/方法問題(4.2%)等[12]。
在撤稿論文數據問題的原因細分中,既有學者從生命科學研究對大規模實驗數據以及對假設檢驗的高度依賴等角度分析其研究過程與數據管理的復雜性,指出容易導致結果選擇性偏差、數據不完整、不一致以及研究結果假陽性等數據問題[13-15],Christian和Solmaz[16]從生命科學研究的團隊性以及資助機構、期刊出版等利益相關者角度分析數據管理與監督的單一性和薄弱性,還有Arturo等[17]從學術發表焦慮、職業晉升等評價因素角度對撤稿論文數據問題的影響。
(3)生命科學撤稿論文中的數據問題應對策略研究。目前,國內外學者對于撤稿問題的對策研究主要從期刊撤稿管理與學術誠信管理兩方面展開。針對數據問題引發的撤稿處理,一方面,站在期刊管理角度,早在1987年,國際醫學期刊編輯委員會(ICMJE)就提出,應對不宜在文獻資源中繼續保存的,或有錯誤的學術論文進行撤稿[18]。張維[19]、葉青[20]、Arturo[17]等認為期刊應采取數據可訪問性審核等手段,運用數據庫、圖片分析軟件開展原始數據審查與圖片原創性比對,并制定圖像完整性標準,提高數據/圖片鑒別力;另一方面,從加強學術誠信角度,有學者主張撤稿論文不應被移除,而應被清晰標記,并提供訪問,“去除痕跡只會幫助不當行為研究人員隱藏該行為”[10]。Esmée等[21]指出團隊合作完成的撤稿論文因人員協調問題容易出現數據管理漏洞,導致嚴重的數據完整性、真實性問題,應對團隊論文進行系統性調查。李侗桐等[22]進一步指出應強化科研人員學術誠信教育,提升對數據問題引發的學術不端行為的防范能力,在項目資助方、科研機構、期刊等實施科學數據審核策略,識別和防范各種形式的數據造假。
1.2? ? 撤稿與生命科學數據管理關系
Karp[23]指出,“生物醫學數據管理是一項昂貴且費時的工作,但也是共享、管理、集成和分析現有數據和新數據的最佳方法”。撤稿論文中形形色色的數據問題,既檢驗了生命科學數據管理制度實施中的現實困境與不足,也折射出深層次的科學數據管理與學術誠信之間緊密的內在關聯。
(1)撤稿揭示了生命科學數據管理的重要性。因數據問題引發撤稿論文數量的激增,表明數據管理及數據共享已經成為生命科學基礎設施的重要組成部分,數據采集方法、分析技術以及計算工具等有助于研究人員以新的方式和尺度查詢并利用數據產生新的數據洞察。換言之,“一旦描述了數據并進行了數據融合與分析,就應進行數據管理。完成此操作后,才可以將數據公開訪問(共享)或提供再利用[24]”。任一環節、任一方面的數據管理缺失/疏漏都有可能連帶出研究結論/方法的偏差,相應的論文撤稿在所難免。
(2)撤稿折射了生命科學數據管理規范的復雜性。實驗數據和研究結論的再現性、可重復性問題是引發各方關注和論文撤稿的重要因素?,F代生命科學屬于數據驅動型交叉科學,基因測序、遺傳育種等大量生物學研究建構在充分準確的實驗數據基礎之上。同時,數據類型的多樣性、術語邏輯的錯綜復雜以及對特定實驗環境、對象客體的高度依賴,導致實施標準化數據描述、數據組織等數據管理工作量的激增。BLAUSTEIN[25]對《PLOS Biology》的調查發現,研究人員的數據共享標準不一,許多人沒有恰當的方法保存實驗數據和成果,這些數據問題不僅造成后續研究的不可復制,也為論文撤稿埋下了隱患。
(3)撤稿反映了生命科學數據管理制度實施的脆弱性?!皬脑加^察到科學發現,科研合作中的信息流涉及一系列的轉換和簡化,流程管理中各項分工的無意疏忽或故意改變,都有可能導致撤稿[26]”。如實驗數據記錄的不完整、實驗室筆記數字化缺失或將數據記錄在過時的存儲介質……,都會造成數據復用的無效,并引發數據再現危機。同時,生命科學數據管理制度的實施還牽涉到多方主體,相關數據活動并未完全遵循常規的數據管理線性路徑(如專注于原始數據采集和分析的項目可能會繞過數據發現和整合步驟直接進入數據發布和存儲環節),需要全員參與數據管理,特別是“溝通和集體監督可以讓合作者確保數據收集、存儲、處理和分析的完整性”[27]。
(4)撤稿凸顯了生命科學數據管理與學術誠信管理的共生性。數據是生命科學學術記錄的關鍵組成部分,撤稿論文的數據組織與利用方式不僅反映出作者的數據管理態度與能力,也對學術誠信以及數據監管、共享和復用發揮著不可替代的影響。Tijdink[28]對315名比利時生物醫學研究人員的調查發現,出于學術發表和職務晉升壓力,15%的受訪者承認他們在過去3年中有偽造、篡改、剽竊或操縱數據的嫌疑,數據利用行為成為檢驗學術誠信的標尺?!霸S多已發布的科學數據生命周期管理模型反映了基本的學術誠信原則,如質量控制以及隱私和保密的法律/道德問題[29]”。因而,負責任的生命科學研究應包含詳細的數據管理計劃與數據管理實施、檢查與評估方案。
2? ?基礎生命科學領域撤稿數據分析
2.1? ? 數據來源
本研究數據來源于Retraction Watch,該網站創建于2010年,旨在關注科研不端行為,收錄了多個學科領域的撤稿文獻,基于該數據進行的相關研究已經得到了學界的一致認可[30-31]。Retraction Watch數據庫中基礎生命科學領域(不含健康、醫學),共包含18個二級學科,本研究采集了數據庫中基礎生命科學領域截至2021年4月30日的6146篇學術論文撤稿記錄,每條數據包括被撤稿論文的標題、學科、期刊、出版商、機構、作者、撤稿原因、原始文獻發表日期、撤稿日期、國家10個字段,對于部分字段信息缺失的數據,由人工補齊。
研究首先分析了基礎生命科學領域撤稿論文原因的總體分布情況,進一步從時間、二級學科以及期刊的角度,分析了因數據問題撤稿論文的分布特征,最后,對這些撤稿論文的數據問題進行細分。
2.2? ? 撤稿原因分布
一篇論文可能涉及一條或者多條原因被撤,Retraction Watch對每條撤稿原因均單獨計次。通過數據整理發現,被撤稿的6146篇學術論文共涉及12146條撤稿原因記錄,去除通知不全、通知無法獲取、通知用語模糊等原因不明確的相關記錄,共獲得撤稿記錄11018條。Retraction Watch用戶指南將撤稿原因歸為100條[32],可以總結為12個類別,分別是數據、方法與結果、作者、文章剽竊或重復發表、第三方、作者機構、期刊/出版商、版權、同行評審、實驗、引用、倫理、法律糾紛等(基礎生命科學領域12類撤稿原因的統計分析結果見表1),從表中可以發現,因圖像和數據的錯誤、復制、偽造、不可信、缺失、操縱等造成的數據質量問題已經成為基礎生命科學領域論文撤稿的首要原因,占撤稿記錄比例達到了39.30%。
生命科學研究在復雜的實驗過程中形成了海量多源異構的研究數據,實驗技術缺陷、數據假陽性及數理統計分析過程中方法謬誤等非主觀因素,以及數據和圖像的偽造、操縱、剽竊、重復等學術不端行為都會導致生命科學論文撤稿。數據問題可能是由于數據收集不全面、方法操作有誤、結果分析錯誤等造成的假陽性;也可能是實驗描述錯漏、不充分等,既涉及數據質量問題,也包括了數據采集描述的標準與處理加工的方法等。
2.3? ? 數據問題撤稿論文分布
由于一篇論文可能因多個原因撤稿,因此,4307條與數據相關的撤稿記錄對應2686篇撤稿論文(基礎生命科學領域總體撤稿論文及數據問題相關撤稿論文的時間分布見圖1)。從時間來看,從2004年起,基礎生命科學領域論文撤稿數量開始出現快速增加的趨勢,數據問題導致的撤稿與總體撤稿在時間分布上表現出一致性。從占比角度來看,2008年以來因數據問題導致的撤稿占比呈現出波動上升的趨勢,特別是在2020年,因數據原因造成的撤稿論文達到了669篇,占基礎生命科學領域撤稿論文的58.0%。
數據問題導致的撤稿在二級學科的分布上存在明顯差異。從總量來看,細胞生物學、生物化學、遺傳學、分析生物學相關論文占撤稿總數的比例較高。這與上述學科的研究內容有關,隨著高通量測序技術的發展和應用,上述學科體現出明顯的數據驅動特征,涉及到大量的基因測序、蛋白質結構等研究數據,具有更高的數據管理風險。進一步分析各二級學科因數據問題導致的撤稿比例,可以發現植物生物學/植物學(Plant Biology/Botany)、遺傳學(Genetics)、細胞生物學(Biology-Cellular)、神經科學(Neuroscience)、解剖學/生理學(Anatomy/Physiology)、法醫科學(Forensic Sciences)、毒理學(Toxicology)、癌癥生物學(Biology-Cancer)等二級學科數據質量撤稿論文占比均在50%以上,明顯高于平均水平;而營養學(Nutrition)因數據問題導致的撤稿論文占比僅為3.5%,表明各二級學科內部數據問題的表現程度存在差異,相比較而言,依賴大規模數據集的學科撤稿論文比例相對較高。
從期刊的角度來看,2686篇數據質量撤稿論文來源于841個不同期刊,撤稿論文在15篇及以上的期刊有20個,撤稿論文共972篇,占2686篇撤稿論文的36.19%。進一步結合JCR的期刊分區域與撤稿時滯的分析結果(見圖2),從圖中可以發現,數據問題相關撤稿論文的平均時滯要高于平均撤稿時滯,說明數據問題相比于其他學術不端行為的發現更具隱蔽性。此外,隨著期刊影響因子的提升,因數據問題的撤稿論文數量增加,撤稿平均時滯更長,這可能是因為高水平期刊擁有更為嚴格、規范的論文審查和數據核驗程序,因此其撤稿用時隨著期刊等級而提升,撤稿論文數量也隨之增加。
2.4? ? 撤稿論文數據問題分析
與數據、圖像相關的撤稿原因較為復雜,從數據管理角度來看是一個多維度概念,是一系列數據特征的集合,諸多框架中形成了關于數據形式、數據內容、數據效用、數據渠道的可獲得性、可理解性、完整性、準確性、客觀性、可靠性、有效性、有用性、增值性等多層次的質量指標。從基礎生命科學領域撤稿論文的數據問題的統計分析結果(見表2),不難發現,數據的準確性、可靠性和有效性問題與數據質量撤稿論文高度相關;與準確性要求相關的數據/圖像操縱、非主觀錯誤、不可信等因素導致的撤稿記錄1584篇,占比36.78%;與可靠性要求相關的數據/圖像重復、偽造和剽竊等導致的撤稿記錄共1538篇,占比35.71%;有效性強調數據的效用,相關撤稿記錄共1179篇,占比27.37%;數據完整性問題出現頻率較低,相關撤稿記錄僅6篇,占比0.14%。因此總體來看,基礎生命科學領域撤稿論文的數據問題主要集中在準確性、可靠性和有效性三個方面。
此外,根據數據問題的產生是否具有主觀故意統計的結果(見表3)。從表中可以發現,與數據/圖像相關的2686篇被撤論文中,存在數據/圖像的偽造、捏造、重復利用與剽竊等主觀故意的論文1937條,占比45.97%;由于非主觀故意的謄寫、記錄、分析、計算錯誤導致的撤稿記錄2370條,占比55.03%。兩者的比例大體上相當。
3? ?撤稿背后的數據管理問題歸因
科研過程中的數據問題歷來受到關注,縱觀生命科學領域形形色色的撤稿事件,不難發現撤稿背后掩藏著形式多樣、錯綜變幻的數據管理問題,其中數據不完整、數據誤用等非主觀因素導致的撤稿,反映了數據管理實施的薄弱,而數據捏造、數據篡改等數據造假行為實質上是學術不端行為的升級變種。特別是網絡信息技術的發展,如圖片編輯軟件的出現,客觀上也為數據/圖片修改合成等不當數據行為提供了便利,有必要從問題歸因角度找出癥結根源,以便對癥下藥,制定針對性改進舉措。
3.1? ? 數據管理意識與數據管理能力不足
在數字化時代,自由而負責任的生命科學研究需要研究人員及相關主體擁有敏銳的數據意識和較高的數據開發利用能力,以保障人們公平獲取生命科學數據、信息和其它研究資源。但在現實中,“對于大多數生物學家來說,公共數據的計算和統計分析(如跨多個研究的元分析)在技術上仍然具有挑戰性。如對于缺乏生物信息學培訓的生物學家來說,獲得或匹配基因表達特征的能力在很大程度上仍遙不可及”[33]。美國的一項調查發現,很多人缺乏發現數據、識別數據集以進行恰當分析以及確定數據質量等技能[34]。許多撤稿事件當事人在撤稿聲明中承認了數據加工處理能力不足、管理不規范的問題,可見,要真正降低撤稿事件的發生,需要生命科學數據管理文化以及數據技能培訓的普及和提升。
3.2? ? 數據管理制度不完善
“現代數據管理的目標不僅僅是簡單地用電子筆記本取代實驗室筆記本,而是要創建一個復雜的、內部一致的、可擴展的數據管理制度體系,該體系將不同個人在不同設備上進行的各種實驗數據進行集成并提供利用”[35]。撤稿聲明中提到的數據記錄錯誤、實驗描述偏差以及標準使用不一等問題,反映出深層次生命科學數據管理制度體系建設尚不能滿足和適應生命科學研究發展的現實需要,還存在著一定程度的制度遺漏。集中表現在以下兩方面:
(1)術語、格式等數據管理標準與規范的統一問題。生命科學標準體系復雜,僅術語標準就有多種形式,“從可控詞表、術語表、分類詞表、敘詞表到本體,其形式化程度逐漸增強,功能逐步豐富,復雜度也大幅度提升[36]”,加之生物醫學本體本身有較大的異質性,本體間術語的映射關系錯綜復雜,為用戶標準術語的使用帶來了困惑。同時,并非所有的數據類型都有規范的定義標準,需要重新注釋大量現有數據。“即使在某些子領域(如系統生物學)具有標準化的數據表,選擇標準格式來描述數據和元數據也不是那么容易,許多現有標準非常復雜,難以適應并且容易出現錯誤陳述”[37]。如果沒有使用標準化的數據標識,可能會造成數據丟失或數據理解的誤用,進而難以實現研究成果的再現與復用,直至論文撤稿。
(2)數據規范執行的操作性規則不健全,數據評估與檢查監督制度缺位。論文的數據質量展現了生成它們的生命科學理論應用和實驗條件以及處理數據的程序方法。鑒于生命科學研究過程中的數據管理涉及到實驗設計、樣本采集狀態、實驗方法、實驗儀器、數據采集與加工、分析方法與存儲公開等多個流程,每個流程又觸及更多更為細致的數據環節,需要有健全完善的實施方案或數據規范來具體引導各類人員的數據行為。如面對數據環境的豐富性,“僅通過對數據進行匿名化或征得用戶的同意使用數據就不能可靠地保護隱私[29]”,需要在數據采集、加工與發布共享的各個操作性層面制定相應的隱私安全保護條款。再如因實驗注釋不足而引發的撤稿論文,不僅要有嚴格的實驗室數據管理規則,“而且還需要開發易于使用的實驗注釋工具,以實現更好的可重復性[38]?!?/p>
3.3? ? 數據主體責任機制不健全
有效的數據管理源自各方主體的數據共識與履職約束,生命科學領域的數據管理制度的執行源于研究人員、資助機構、科研管理部門以及期刊等多主體的共同努力。盡管相關機構已經發布一系列數據管理制度,從項目申請的數據管理計劃制定到各研究機構的《科學數據管理規定》乃至期刊的《數據提交規范》等,但不同主體在數據管理責任的實施中仍存在較大偏差,未形成多主體數據管理的協同合作機制。
(1)科研團隊未能實現數據管理的團隊合作。從實證比較中發現,生命科學撤稿論文絕大多數為團隊合作成果,少數涉及兩個作者,多數為三到六位合作者[10]。“發表文章的作者數量反映了生物醫學研究的復雜性,需要多專業知識和合作機制來增加樣本量和提高研究的普遍性[39]”,因而也增加了數據管理的協同性要求,即從實驗設計到從實驗材料中提取有價值數據、對數據進行分析、圖片編輯和撰寫論文的所有環節,由研究設計者、實驗觀察記錄者、數據采集者、數據統計與分析人員、研究人員以及實驗設備技術人員等不僅組成了一個緊密的合作研究網絡,同時也承擔著相應的數據記錄、描述、采集與加工管理職責。但從實際執行來看,相較于團隊科研攻關的一致性,數據管理職責分散、缺乏統一協調組織等現象尤為突出,導致個別人員的數據造假行為未能及時發現和制止。
(2)項目資助機構、高校/研究機構以及期刊等部門未能形成數據管理合力。目前,相關主體對數據行為的約束主要通過研究人員的主動報備來體現,如提交數據管理計劃、隱私保護知情同意書、論文相關數據資料等,既存在著部門內部數據管理形式單一、手段粗放的問題,也存在著部門間數據管理的各自為政與職責推諉現象。如許多高校/研究機構依賴學術期刊評估研究成果及價值,進而將數據管理與學術誠信管理責任轉讓給了學術期刊,使得“期刊編輯在學術交流中居核心地位,在確保其出版記錄誠信方面具有最重要的作用”[40]。事實上,“盡管生物學期刊已經開始要求作者提供數據,但通常是在審閱者專門要求提供數據時才這樣做[24]”。對于期刊而言,發現和糾正投稿論文的圖像/數據問題既費錢又費時,即便在出版前增加了圖像篩選、數據審核環節,限于資源和人力仍無法獨自履行數據管理的核驗、評估職責?!渡锘瘜W雜志》(Journal of Biological Chemistry)自2017年起就聘請專職人員負責圖像審核,而有關圖像復制、剽竊或操縱引發的撤稿現象仍難以杜絕[41]。
3.4? ? 數據管理過程監督不到位
負責任的數據管理需要有持續的數據檢查與監督評估環節。Howe[42]指出,“在建立數據管理的正式流程方面,生物學(35%)處于較低水平”。對生命科學數據采集、匯聚、存儲、加工等全生命周期管理與檢查監督缺乏有效實施是導致撤稿論文數據問題的重要誘因。其中,項目首席科學家數據管理總體職責的落實問題不容忽視,如諾貝爾獎獲得者Laureate David Baltimore因未跟蹤檢查其博士后實驗數據的收集與分析而導致的多篇論文撤稿與學術誠信調查[43]。由于大多數生物醫學實驗主要由研究生、博士后或技術人員充當主體來完成,一旦首席科學家以及其他項目組成員間的數據/圖像核驗檢查不到位,即數據管理的第一道防線缺失,論文寫作中的數據/圖像造假與誤用就在所難免。因為,對于那些出現數據不當行為或產生可疑數據結果的人員而言,嚴謹的數據審計與過程監督既是必要的撤稿防范舉措也是有益的數據素養與學術誠信教育。當然,實驗數據生產加工過程與結果的公開透明也是數據管理參與和監督的有益補充,但 “由于工作流程(數據提取、選擇、操作、分析和報告)通常沒有公開,通常無法檢查已發布結果的有效性[44]”,高質量數據管理的檢查監督仍然十分薄弱。
3.5? ? 數據管理激勵約束手段不完善
撤稿論文中的數據問題促使人們重新思考如何完善數據管理的激勵與約束。目前,期刊發表以及論文和數據發布后的引用已成為研究人員加強數據管理和共享數據的主要推動力。eLife的調查顯示,人們不愿意公開數據的主要原因包括沒有任何激勵機制促使他們花費時間和精力分享數據,數據過于復雜而不知該如何分享,對數據質量、知識產權的擔憂等[45]??梢?,除學術發表外,總體上依然缺乏有效數據管理與數據貢獻的衡量標準,包括對研究過程中數據管理的可持續資助不足,未能減輕相關人員數據管護的成本負擔,客觀上有可能導致數據管理的不作為。為此,美國國家科學基金會下屬的科學研究學會在其數據管理工作坊活動中建議設立數據共享獎,以提高高質量數據存檔和共享的知名度和認可度[46]。同時,除嚴重數據造假引發大規模撤稿和學術不端的懲處外,對于數據誤用等問題并沒有相應的數據管理責任追懲制度,包括撤稿聲明的模棱兩可,容易使人產生診療過失致死要追究責任,而數據造假沒有責任成本的錯覺。
4? ?啟示與思考
“我們生成復雜、海量數據的能力已經超過了我們存儲、管理和使用數據的能力[47]”。論文撤稿的數據問題不僅反映了當前生命科學數據管理的薄弱與不足,也揭示出學術誠信與數據管理二者之間緊密交織、互為促進的依存關系,促使我們從科學研究的本質與學術誠信管理的更廣闊視角來理性看待和分析生命科學數據管理問題:即科學研究過程以及結果的數據公開與共享有助于防范各類數據問題引發的撤稿現象,有效的數據管理既是負責任的科學研究行為的應有之義,也是保障學術誠信的重要組成部分(見圖3)。
當前,生命科學數據以前所未有的速度和數量產生和傳播,迫切需要有健全完善的數據管理制度和規范統一的數據管理標準,還需將數據管理貫穿于生命科學數據生成、利用、存儲等所有階段,以挖掘數據背后的規律,加速推動生命科學研究的創新,并從數據管理的源頭杜絕數據造假等學術不端行為和撤稿事件的發生。同時,對學術不端行為的審查,包括對撤稿論文的及時處理,一定程度上也是對生命科學數據管理結果的糾正和約束行為的補充,從而推動了良好數據共享生態的營造,有利于生命科學數據管理工作的開展。
2007 年,美國國家自然科學基金會發布的《面向21世紀科學研究的信息化基礎設施》報告中指出“未來美國科學和工程上的國際領先地位將越來越取決于在數字化科學數據開發利用方面的優勢,取決于通過成熟的數據挖掘、集成、分析和可視化工具將其轉換為信息和知識的能力”[48]。包括生命科學數據在內的科學數據管理已經受到國內外各界的高度重視,撤稿論文中的數據問題表明,生命科學數據管理的有效實施還需要從系統性角度,如相關主體數據責任的履職監督、學術誠信管理制度、數據共享激勵約束機制等深入尋找解決問題的答案與對策。
近幾年來,我國生命科學領域論文撤稿情況屢見不鮮,2018年,國家衛健委制定了《醫學期刊編輯出版倫理規范》,提倡期刊建立規范的倫理政策和學術不端行為處理流程,包括規范的撤稿機制。總體而言,加強研究人員的數據素養培訓,強化學術誠信教育,完善數據管理標準和制度,“建設符合我國科研人員和數據管理人員數據管理流程和數據建設環境,是提升生物醫學領域數據質量的重要前提和支撐條件[54]”,也是根除學術不端、規避撤稿事件發生的可行要素。
參考文獻:
[1]? 魏眾,蔣穎.中國人文社會科學學術期刊撤稿問題研究[J].澳門理工學報,2020(4):122-133.
[2]? Steen R G,Casadevall A,Fang F C.Why Has the Number of Scientific Retractions Increased?[J].PLoS ONE,2013,8(7):e68397.
[3]? 哈佛大牛被瘋狂撤稿31篇,心肌干細胞領域要涼?[EB/OL].[2020-05-01].http://iras.lib.whu.edu.cn:8080/rwt/401/https/P75YPLC/sohu.com/a/260243674_100293365.
[4]? Fang F C,Steen R G,Casadevall A.Misconduct accounts for the majority of retracted scientific publications[J].Proc Natl Acad Sci USA,2012,109(42):17028-17033.
[5]? Findings and Consequences of Research Misconduct[EB/OL].[2021-05-31].https://ori.hhs.gov/education/products/RIandImages/misconduct_cases/findings_of_misconduct.pdf.
[6]? 韓磊.2010-2019年中國生物醫學論文的撤稿趨勢及學術不端演變特征[J].中國科技期刊研究,2021,32(2):158-165.
[7]? Elisabeth,M,Bik,et al.The Prevalence of Inappropriate Image Duplication in Biomedical Research Publications[J/OL].[2021-05-31].https://mbio.asm.org/content/7/3/e00809-16.
[8]? Rossner M,Hill E E.Show me the data[J].The Journal of Cell Biology,2007,179(6):1091-1092.
[9]? Fecher B,Friesike,S,Hebing M.What drives academic data sharing?[J/OL].[2021-05-31].https://pubmed.ncbi.nlm.nih.gov/25714752/.
[10]? IsabelCampos-Varela,AlbertoRuano-Ravi?觡a.Misconduct as the main cause for retraction.A descriptive study of retracted publications and their authors[J].Gaceta Sanitaria,2019,33(4):356-360.
[11]? Tijdink J K,Smulders Y M,Vergouwen A,et al.The assessment of publication pressure in medical science;validity and reliability of a Publication Pressure Questionnaire(PPQ)[J].Quality of Life Research,2014,23(7):2055-2062.
[12]? Nair S,Yean C,Yoo J,et al.Reasons for article retraction in anesthesiology:a comprehensive analysisRaisons justifiant la rétractation d'un article en anesthésiologie: une analyse exhaustive[J].Canadian Journal of Anaesthesia,2019(67):57-63.
[13]? Ioannidis JPA.Why most published research findings are false[J].PLoS Med,2005;2(8):e124.
[14]? Borisas B,Ramona B,Benoit B,et al.Minimizing proteome redundancy in the UniProt Knowledgebase[EB/OL].[2021-05-31].https://academic.oup.com/database/article/doi/10.1093/database/baw139/2742069#.
[15]? Casadevall A,Steen R G,Fang F C.Sources of error in the retracted scientific literature[J].Faseb Journal Official Publication of the Federation of American Societies for Experimental Biology,2014,28(9):3847.
[16]? ChristianBerggren,Solmaz FilizKarabag.Scientific misconduct at an elite medical institute:The role of competing institutional logics and fragmented control[J].Research Policy,2019,48(2):428-443.
[17]? Arturo,Casadevall,Lee,et al.A Framework for Improving the Quality of Research in the Biological Sciences[J].mBio,2016,7(4):e01256-16.
[18]? 姜天華,陳靜,耿波,等.數據庫中關于撤銷論文處理的實證分析——PubMed數據庫與國內數據庫的對比[J].中國科技期刊研究,2014,25(5):616-619.
[19]? 張維,吳培紅,汪勤儉,等.國內外生物醫學期刊撤稿規范分析及應對學術不端行為的防范策略[J].編輯學報,2020,32(3):251-256.
[20]? 葉青,林漢楓,張月紅.圖片中學術不端的類型與防范措施[J].編輯學報,2019,31(1):45-50.
[21]? An investigation of seven other publications by the first author of a retracted paper due to doubts about data integrity[J].European Journal of Obstetrics & Gynecology and Reproductive Biology,2021,261(6):236-241.
[22]? 李侗桐,馮秋蕾,韓鴻賓.科技論文偽造數據的識別與防范[J].中國科技期刊研究,2019(8):827-831.
[23]? Karp P D.How much does curation cost?[J].Database the Journal of Biological Databases & Curation,2016(110):1-2.
[24]? Renaut S,AE Budden,Gravel D,et al.Management,Archiving,and Sharing for Biologists and the Role of Research Institutions in the Technology-Oriented Age[J].BioScience,2018,68(6):400-411.
[25]? BLAUSTEIN,RICHARD.Reproducibility Undergoes Scrutiny[J].Bioscience,2014,64(4):368.
[26]? Latour B,Woolgar S.Laboratory Life: The Construction of Scientific Facts[J].Medical History,1986,25(3):341-342.
[27]? Resnik David B,Smith Elise M,Chen Stefanie H.What is Recklessness in Scientific Research The Frank Sauer Case[J].ACCOUNTABILITY IN RESEARCH-POLICIES AND QUALITY ASSURANCE2017(24):497-502.
[28]? Tijdink J K,Verbeke R,Smulders Y M.Publication pressure and scientific misconduct in medical scientists[J].J Empir Res Hum Res Ethics,2014,9(5):64-71.
[29]? Gundersen L C.SCIENTIFIC INTEGRITY AND ETHICAL CONSIDERATIONS FOR THE RESEARCH DATA LIFE CYCLE[M].John Wiley & Sons,Inc,2017.
[30]? R Dal-Ré,Ayuso C.Reasons for and time to retraction of genetics articles published between 1970 and 2018[J].Journal of Medical Genetics,2019,56(11):734-740.
[31]? M D Ribeiro,Vasconcelos S.Correction to:Retractions covered by Retraction Watch in the 2013-2015period:prevalence for the most productive countries[J].Scientometrics,2018(114):719-734.
[32]? Retraction Watch Database User Guide Appendix B:Reasons[EB/OL].[2021-04-23].https://retractionwatch.com/retraction-watch-database-user-guide/retraction-watch-database-user-guide-appendix-b-reasons/.
[33]? Sparks R,Lau W W,Tsang J S.Expanding the Immunology Toolbox:Embracing Public-Data Reuse and Crowdsourcing[J].Immunity,2016,45(6):1191-1204.
[34]? Curty R G,Crowston K,Specht A,et al.Attitudes and norms affecting scientists' data reuse[J].PLOS ONE,2017,12(12):e0189288.
[35]? Matthew,D,Zimmerman,et al.Data Management in the Modern Structural Biology and Biomedical Research Environment[J].Structural Genomics and Drug Discovery,2014(1140):1-25.
[36]? 朱彥,賈李蓉,高博,等.中醫臨床術語系統v2.0設計與構建[J].中國中醫藥圖書情報雜志,2018,42(3):10-15.
[37]? Figueiredo S.Data Sharing: Convert Challenges into Opportunities[J].Frontiers in Public Health,2017,5(4):327.
[38]? Rung J,Brazma A.Reuse of public genome-wide gene expression data[J].Nature Reviews Genetics,2013,14(2):89-99.
[39]? Christopher King.Multiauthor Papers:Onward and Upward[J/OL].[2021-05-31].https://archive.annual-report.thomsonreuters.com/2012/_files/pdf/MultiauthorPapers_ChrisKing.pdf.
[40]? Marusic A,Katavic V,Marusic M.Role of editors and journals in detecting and preventing scientific misconduct: Strengths,weaknesses,opportunities,and threats[J].Medicine and law,2007,26(3):545-566.
[41]? McCook A.Job alert:biology society hiring editors to screen images[EB/OL].[2021-05-31].http://retractionwatch.com/2017/04/21/job-alert-biology-society-hiring-editors-screen-images/.
[42]? Howe N,Giles E,Newbury-Birch D,et al.Systematic review of participants' attitudes towards data sharing:a thematic synthesis[J].Journal of Health Services Research & Policy,2018,23(2):123-133.
[43]? D E Chubin,E J Hackett.Peerless Science[M].State University of New York Press,Albany,NY,1990:267.
[44]? Malika I,Winney I S,Anna K,et al.Striving for transparent and credible research:practical guidelines for behavioral ecologists[J].Behavioral Ecology,2017,28(2):348-354.
[45]? Understanding the demand for reproducible research articles[EB/OL].[2021-05-31].https://elifesciences.org/inside-elife/e832444e/innovation-unde rstanding-the-demand-for-reproducible-researcharticles.
[46]? Jane Maienschein,John N Parker,Manfred Laubichler and Edward J.Hackett[J].Data Management and Data Sharing in Science and Technology Studies.Science,Technology,& Human Values,2019,44(1):143-160.
[47]? Coates H.Ensuring research integrity:The role of data management in current crises[J].College & Research Libraries News,2014,75(11):598-601.
[48]? Cyberinfrastructure vision for 21st century discovery[EB/OL].[2021-05-31].https://www.nsf.gov/pubs/2007/nsf0728/nsf0728.pdf,2007.
[49]? 楊嘯林,楊晟,潘虹潔,等.FAIR準則與生物醫學數據標準應用服務[J].中國醫學倫理學,2020,33(2):153-159.
作者簡介:管茜,女,武漢大學信息管理學院碩士研究生;董克,男,武漢大學信息管理學院副教授,研究方向:文獻計量與科學評價;夏義堃,女,武漢大學信息資源研究中心教授,研究方向:政府數據治理。