零引用率的科學文獻

2018-03-01 09:04:14編譯張文韜

世界科學 2018年2期

編譯張文韜

太多沒有引用率的論文代表了一堆無用或沒有意義的研究？實際上，Web of Science的記錄表明，只有不到10%的科學文章沒有被引用過。不過沒有引用率的比例不高不等于說取得越來越有價值的科學發現。

曾獲得諾貝爾獎的遺傳學家奧利弗·史密斯（Oliver Smithies）2017年 1月去世，享年91歲。他是個非常謙遜的科研工作者，生前經常提及自己“最大的失誤之一”——1953年他發表了一篇有關測量滲透壓的文章。他表示該文從來沒有被引用過。不僅如此，在2014年德國林道會議上，他對學生們說：“沒有人引用過這篇文章，也沒有人采用過這個方法。”

事實上，史密斯沒有意識到，他的論文并非完全沒有吸引力。在文章發表后的10年內，有9篇論文引用了它。類似的錯覺很容易理解。不管是對其數量還是對學術界的影響，很多科學家對于沒有引用率的論文懷有錯誤印象。

1990年，《科學》期刊發表了一篇具有爭議性的文章：一項廣泛、重復的估算表明，超過一半的學術文章在發表之后5年中沒有被引用過。信息學家葉溫·韋斯特（Jevin West）在西雅圖市華盛頓大學從事大規模的學術文獻樣本研究，他表示科學家確實為此煩惱。畢竟，引用率是被廣泛承認的學術影響力的衡量指標。閱讀量不僅是一個標志，而且也證明其對后續實驗是否有用。研究人員擔心，太多沒有引用率的論文代表了一堆無用或沒有意義的研究。韋斯特說：“在晚宴上，不知有多少人問過我，有多少論文從來沒有被引用過？”

實際上，沒有引用率的科研論文并非總是無用的。另外，加拿大蒙特利爾大學的信息學家文森特·拉里維埃爾（Vincent Larivière）指出，實際上并沒有那么多無引用率的文章。

在已經發表的研究工作中，這個黑暗的角落常被人遺忘。為了更好地了解情況，《自然》期刊通過數據挖掘的方法，希望找出到底有多少論文實際上是沒有被引用過的。當然，不可能得出非常準確的答案，因為引用的數據庫不夠完整。但是很顯然，對于科學引文索引數據庫——Web of Science上的12 000種核心期刊，零引用率的論文比普遍認為的要少得多。

Web of Science的記錄表明，只有不到10%的科學文章沒有被引用過。但是實際數字可能更低，因為這個數據庫里大部分的零引用率文章實際上被人在其他地方引用過。

這并不一定意味著我們無須擔心低水平研究的數量，因為還有數千種期刊沒有被Web of Science收錄，同時，對于科學工作者用毫無意義的文章填充自己簡歷的擔憂也是真實存在的。

有人也許會被過去的報道中所說的有大量文章未被引用而嚇到，新的數字可能會使他們放心一些。仔細審視某些未被引用的論文，發現它們仍然是有用的，有人閱讀過，盡管這個數據經常被忽略了。Clarivate公司的高級分析師戴維·潘朵貝瑞（David Pendlebury）說：“沒有引用率不能簡單與文章是無用或者是沒有價值的劃等號。”

零引用率的神話

“大量無引用率的論文充斥著各種期刊”這個觀點可以追溯到1990年和1991年在《科學》期刊上發表的2篇文章。1990年發表的文章指出，在1981年至1985年發表的論文中，發表后5年中沒有引用記錄的有55%。但是這個分析有誤導性，主要因為作者統計的發表文章包括了讀者來信、稿件更正、會議摘要和其他編輯資料等，這些文章本身就不可能獲得引用。如果排除這些文章、僅留下研究論文和綜述的話，零引用率就會直線下降。如果超過5年進行統計的話，零引用率更為減少。

2008年，拉里維埃爾等人對Web of Science的數據開展新的研究發現，不僅無引用率的文章比預想的少，而且數十年來，無引用率的文章比例也在下降。《自然》期刊請拉里維埃爾和卡西迪·杉本（Cassidy Sugimoto）做了無引用文獻分析的更新和詳細說明。

新的數據統計了研究論文和綜述文章，表明在大部分學科中，在發表后5～10年零引用率的論文比例趨于穩定，盡管每個學科的比例有所不同（參見前圖）。在2006年發表的所

有生物醫學論文中，只有4%至今沒有獲得引用。在化學領域，這個數字是8%，物理學的數字接近11%（如果把科學家引用自己論文的情況剔除，這個比例還會升高，在某些學科甚至會升高50%）。在工程技術學科，2006年Web of Science數據庫中無引用率是24%，大大高于自然科學。拉里維埃爾表示，這個更高的比例可能與很多論文的技術性質有關，只能解決特定的問題，而不是為其他人的進一步研究提供經驗。

整體來看，1900年至2015年，Web of Science中收錄了各個學科的3 900萬篇研究論文，其中約21%沒有被引用。這并不令人吃驚，這些無引用率的論文發表在不知名的期刊上，而幾乎所有發表在知名期刊上的論文都獲得了引用。歌學術網站上搜索時，黑內貝格發現，很多零引用率論文實際上是被Web of Science索引的其他工作引用，但是由于數據錄入錯誤或者拼寫錯誤而被遺漏了。此外還有不在Web of Science索引中的期刊和書籍中的引用。黑內貝格工作了20小時后，發現比例又縮小了5倍，僅僅只有0.3%了。

類似的問題導致我們不可能知道無引用率論文的準確數量：想大規模重復黑內貝格的手工核對要耗費大量時間。此外，不同的學科受到類似錯漏的影響也不同。例如，Web of Science記錄，2006年發表的65%人文學科論文沒有引用率。的確，大量人文科學文獻沒有被引用，部分原因是：與自然科學相比，人文科學的新研究成果更少依賴于之前累積的知識。但是，Web of Science沒有準確反映這個方面，因為它忽略了許多相關期刊和書籍。

國家之間進行比較也有類似情況。Web of Science 表明，與美國和歐洲科學家的論文相比，由中國、印度和俄羅斯等國科學家撰寫的文章更容易被忽視。但是拉里維埃爾說，如果考慮到這個數據庫沒有追蹤很多地區性的期刊，差距其實并沒有那么大。

拉里維埃爾指出，盡管絕對數值很高，但是Web of Science上零引用率文章比例還是明顯下降。互聯網讓搜索和引用相關論文變得易如反掌（推動論文的開放獲取可能也有幫助）。但是拉里維埃爾警告說，對于圖中的趨勢不要過度解讀。他的團隊在2009年的一項研究中發現，從未引用的比例正在下降，因為科學家們發表更多的論文，在參考文獻處提到了更多的文章。荷蘭萊頓大學的文獻統計學研究人員盧多·沃爾特曼（ Ludo Waltman）表示同意，“這個圖并不能說明，產生了越來越多有用的科學工作。”

沃爾特曼指出，很多的論文只是勉強逃離了“從未被引用”的窘境：沃爾特曼和拉里維埃爾的獨立計算表明，在Web of Science的論文中，只有1～2次引用的文章數量超過0次引用的文章數量。“我們知道，很多引用是很膚淺的或者敷衍的。”他說到。而在紐約Marxe公共和國際關系學院的健康經濟學家達利亞·雷勒（Dahlia Remler）看來，它們可能只是學者之間互助引用，“即使高引用率的研究也可能是一個游戲，學者們互相引用，卻沒有為任何人帶來進步。”她說。

不完備的測算

這些數據只是給出了部分答案。但是要想分析全部文獻還是不切實際的。

要核對一小部分論文已經很困難。例如，2012年，為了驗證一篇論文的荒謬結論（它聲稱大約10%諾貝爾獎獲得者的研究從未被引用過），布拉格查爾斯大學的生物學家彼得·黑內貝格（Petr Heneberg）決定審查13位諾貝爾獲獎人在Web of Science的記錄。他最初在Web of Science上查找，無引用率的數字接近1.6%。隨后，在谷

并非完全沒有意義

有些研究人員可能還是會把無引用率的文章視為沒有價值。畢竟，如果這些文章重要，怎么會沒有人提到它們呢？

這只是一種可能性，而并不絕對。美國路易斯安那州立大學的植物學家邁克爾·麥克羅伯（Michael MacRoberts）說，對研究人員產生影響的論文實際上比體現在引用中的論文多得多。在2010年的一篇分析引文缺點文章中，麥克羅伯引用了他自己1995年在德克薩斯州發現石松（Palhinhaea cernua）的論文。這是該文第一次也是唯一的一次被引用，但是這個信息早已被記錄在植物地圖集和大型在線數據庫中；利用這些數據庫的人其實是在使用這篇文章和數以千計類似的植物報告中的數據。“這些所謂的從未被引用的文章中的數據被人們使用，但是它們確實沒有被引用。”他說。

沒有引用率的文章也有人讀。2010年，紐約市衛生與心理健康署的研究人員發表了研究論文，用軟件分析唾液檢測HIV的不足。幾年前，在臨床上曾經暫停使用檢測試劑盒（后來恢復）。作者想用臨床經驗作為個案研究，探討在出現問題時，軟件是否能被用于分析試劑盒效用。

這個圖并不能說明產生了越來越多有用的科學工作

一些零引用率文章的故事

漫長的等待對于希望自己的論文獲得首次引用的研究人員來說，阿爾伯特·佩克（Albert Peck）的故事是很勵志的。佩克1926年發表了有關玻璃缺陷的論文，直到2014年才獲得了第一次引用。在20世紀50年代，制造廠家能夠在沒有缺陷的情況下制造出平滑玻璃，這篇論文完全沒有引起重視。而2014年，英國劍橋大學的材料學研究者凱文·諾爾斯（Kevin Knowles）在Google上偶然發現了這篇論文，當時他正在研究如何利用玻璃缺陷產生散射光。他現在已經在4篇論文中引用此文。他聲稱：“我喜歡在寫論文時，挑選不引人注目的文章。”

錯過引用期 2016年，里斯本大學的醫學生弗朗西斯科·皮尼亞-馬丁斯（Francisco Pina-Martins）發表了一篇論文解讀基因序列數據，他很肯定該文不會被引用，因為文中提到的技術是由454生物技術公司開發的，已經被淘汰了。早在2012年，他就在GitHub程序分享網站上上傳了他的數據分析軟件，其軟件被一些論文所引用。但是，他表示，之所以這個研究的論文發表用了4年，主是因為涉及罕見的問題，連進行評議的同行也看不懂。

死胡同很多關于無引用率文獻的故事結局是不愉快的。2010年，神經科學家阿德里亞諾·切卡雷利（Adriano Ceccarelli）在PLoS ONE上發表了有粘菌基因調控的論文。他要求繼續進行研究的項目申請被拒絕，論文也沒有得到引用。“研究有時候就是這樣，辛苦了很久最后卻進入了死胡同。”他說，“在資助者看來，我的想法是沒有價值的。現在我只能教書，等著退休的那一天。假如我得到了資助，我明天就開始研究工作。”

他們發表在PLoS ONE上的論文沒有被引用過，但是有超過1 500次的閱讀量，下載量也接近500次，文章的共同作者，如今杜克國際健康研究所的喬·埃格爾（Joe Egger）注意到，“這篇文章的目標是改善公共衛生實踐，而不是真正推動科學領域的發展。”

還有其他一些文章，可能會因為終結了進一步研究的可能性而沒有引用率，英國卡迪夫大學的化學家尼克拉斯·布爾馬（Niklaas Buurma）說。2003年，布爾馬和他的同事發表了一篇關于“等容性爭議”的論文：關于在反應過程中阻止溶劑收縮或膨脹是否有用的爭論，通常發生在溫度變化時。從理論上講，這個技術上具有挑戰性的實驗可能會有助于了解溶劑如何影響化學反應速率。但布爾馬的測試顯示，化學家不會從這種類型的實驗中學到新的信息。他說：“我們就是要證明有些事情是不值得去做的。對于這篇完全無引用的論文，我感到非常自豪。”

奧利弗·史密斯在林道會議上發言時說，盡管他自己那篇1953年的論文沒有被引用，但是他認為那篇論文還是有價值的。他告訴聽眾，為論文所做的工作幫助他獲得博士學位，成為一名完全成熟的科學家。實質上，它是未來諾貝爾獎獲得者所受到的科學訓練的代表。 “我享受當時的過程，”他說，“我學會了如何做好科學研究。”在史密斯的目錄里確實至少有一篇真正沒有引用率的論文：1976年的一篇文章表明一種特定的免疫系統基因位于人類第15號染色體上。但即使這樣也是重要的。美國馬薩諸塞州波士頓哈佛醫學院遺傳學家拉朱·庫切拉帕蒂（Raju Kucherlapati）是這篇論文的共同作者，他說，這篇文章是與史密斯實驗室長期合作的開始，在小鼠遺傳學方面的工作最終為史密斯贏得2007年諾貝爾生理學或醫學獎。 “對我來說，”庫切拉帕蒂說，“那篇論文的意義是讓我認識了奧利弗。”