潘相丞,徐佩佩,唐天航,刁莎,曾力楠,李海龍,張伶俐,5
(1.四川大學華西藥學院,成都 610041;2.四川大學華西第二醫院藥學部,成都 610041;3.四川大學華西第二醫院循證藥學中心,成都 610041;4.出生缺陷與相關婦兒疾病教育部重點實驗室,成都 610041;5.四川大學華西臨床醫學院,成都 610041;6.四川大學計算機學院,成都 610041)
“real-world”最早出現在WILLIAMSON等[1]于1966年發表的文章《在真實世界和模擬駕駛環境中測量眼球運動的可行性》中。1993年Kaplan在其論文《雷米普利治療高血壓病的前瞻性研究》中提出真實世界研究(real world study,RWS)[2]。醫學的發展要求健康相關決策所需證據多樣化,條件嚴格的隨機對照試驗存在外推性不佳的局限,加之醫療健康信息平臺和大數據技術的快速發展,為進行RWS提供了更多便利和技術支持[3]。RWS已在全球衛生服務領域中成為政府和學界廣泛關注的話題,包括美國、中國、歐盟成員國在內的多個國家政府均已陸續制訂政策肯定RWS的作用和意義。在政產學研醫共同需求的驅動下,RWS得到快速的發展,并逐漸成為在藥械上市后評價研究的重要方式之一[4]。我國系統性開展使用真實世界證據(real world evidence,RWE)支持藥物研發和監管決策的工作尚處于起步階段[5],但政府已陸續制訂多個政策文件以支持RWE轉化[5-9]。近年國內研究者也對RWS進行了大量探索。已有學者對國內研究者發表的RWS進行文獻計量學分析,但存在研究方法不完善,結果報告不全面[10],檢索數據庫單一[4,11],研究領域局限于中醫藥[12-13]等不足。本研究擬對國內現發表的RWS進行系統檢索,并對文獻研究主題進行提取、挖掘和分析,以全面了解國內RWS研究現狀和研究熱點。
1.1納入與排除標準 納入標準:①第一作者或通信作者為中國學者公開發表的醫療衛生領域相關文獻;②文章以“真實世界研究”“真實世界數據”“真實世界證據”等為主題,且文中提及“真實世界”或“real-world”一詞的原始研究;③語言限定為中、英文。排除標準:綜述、會議摘要、學位論文、原始研究的二次分析、社論等。
1.2文獻檢索策略 計算機檢索PubMed、Embase(Ovid)、CENTRAL(Ovid)、中國知網、維普、萬方和中國生物醫學數據庫,搜集中國學者發表的RWS文獻,檢索時限均從建庫至2020年6月11日。中文檢索詞為“真實世界”,檢索字段限定為主題字段;英文檢索詞包括“real world”或“real-world”,檢索字段限定為題目或摘要字段,同時限定作者機構為中國。
1.3文獻篩選和資料 根據納入標準及排除標準,由2名研究者獨立篩選文獻,如遇分歧討論解決或與第三方協商。根據是否與藥物相關,分為藥物研究和非藥物研究。
1.4統計分析 利用書目共現分析系統BICOMB 2.0分別提取和統計中文文獻和英文文獻的發表時間、發文期刊、第一作者機構、關鍵詞等信息。將納入文獻題錄導入VOSviewer 1.6.15對作者共現聚類分析和可視化處理。對關鍵詞進行數據清洗,合并同義詞(如“真實世界研究”“真實世界證據”“真實世界數據”等合并為“真實世界”),剔除對本研究無實際意義的關鍵詞(如“Human”“China”“Patient”等)。
2.1文獻篩選流程及結果 初檢共獲得文獻9959篇,其中中文文獻3963篇,英文文獻5996篇。經閱讀文獻題錄的題目和摘要,最終納入1612篇,其中中文473篇,英文1139篇;藥物研究相關文獻1 046篇,非藥物相關研究566篇(圖1)。

圖1 文獻篩選流程及結果Fig.1 Literature screening process and results
2.2納入研究基本特征
2.2.1發表時間分布 中國學者第1篇RWS文獻發表于2003年。2006—2020年6月依次發表RWS的文獻1,10,4,8,8,19,34,54,96,72,131,188,281,405,300篇,總體發文量呈遞增趨勢,特別是在2015年以后,上升速度明顯加快。在2019年達到最高值405篇。而2020年上半年已發文300篇,預計2020年全年發文量會超過2019年。
2.2.2發表期刊分布 所有的中英文期刊種類共有638種,其中中文162種,英文476種。分別統計中英文期刊中載文量前5的期刊。前5的中文期刊有4種在北京大學《中文核心期刊要目總覽》和中國科學引文數據庫(Chinese Science Citation Database,CSCD)均有收錄(雙核心期刊),5種全為中醫藥類期刊,以《中國中藥雜志》載文量最多(94篇)。前5的英文期刊均被最新《科學引文索引》收錄,僅有1種(《Journal of the American College of Cardiology》)影響因子為20分以上,其余的影響因子均在4分以下。以《PLoS ONE》載文量最多(33篇)。見表1、表2。

表1 載文量前5的中文期刊(共473篇文獻)Tab.1 Top 5 Chinese journals in the number of literature(473 articles in total)

表2 載文量前5的英文期刊(共1139篇文獻)Tab.2 Top 5 English journals in the number of literature(1139 articles in total)
2.2.3機構分布 參與發表RWS中文文獻的機構共有393所。其中發文量排名前三為中國中醫科學院中醫臨床基礎醫學研究所(217篇,45.88%)、中國人民大學(191篇,40.38%)、中國人民解放軍海軍總醫院(136篇,28.75%)。發文量前5機構見表3。

表3 中文文獻發文量前5的機構(共473篇文獻)Tab.3 Top 5 institutions in the number of Chinese literature(473 articles in total)
參與發表RWS英文文獻的機構共有351所。發文量排名前三的機構為中國醫學科學院北京協和醫學院(85篇,7.46%)、首都醫科大學(52篇,4.57%)、復旦大學(49篇,4.30%)。發文量前5機構見表4。

表4 英文文獻發文量前5的機構(共1139篇文獻)Tab.4 Top 5 institutions in the number of English literature(1139 articles in total)
2.2.4作者分布 發表中文文獻的所有參與作者共有1664位,平均每篇文章有3.5位作者,發文量前三的作者包括謝雁鳴(208篇,43.97%)、莊嚴(142篇,30.02%)和楊薇(76篇,16.07%)。運用VOSviewer統計發文量≥10篇的作者,以謝雁鳴、莊嚴、楊薇和廖星為中心形成4個聚類(圖2)。

圖2 中文文獻發文作者群體可視化圖譜Fig.2 Visual atlas for author groups of Chinese literature
發表英文文獻的所有參與作者共有7878位,平均每篇文章有6.9位作者。發文量前四的作者包括Xu Bo(32篇,2.81%)、Gao Runlin(17篇,1.49%)、Wang Wei(17篇,1.49%)、Wang Yan(17篇,1.49%)。運用VOSviewer統計發文量≥10篇的作者,形成了以Xu Bo、Li wei、Gao Runlin為核心的3個聚類(圖3)。

圖3 英文文獻發文作者群體可視化圖譜Fig.3 Visual atlas for author groups of English literature
2.2.5關鍵詞分布 中文文獻高頻關鍵詞閾值為13次,共計13個。聚類分析顯示,當聚類個數為4時聚類效果最好(表5、圖4、圖5)。

圖4 中文文獻高頻關鍵詞聚類樹狀圖Fig.4 High-frequency keywords cluster dendrogram of Chinese literature

圖5 中文文獻高頻關鍵詞聚類山丘圖Fig.5 High-frequency keywords cluster hill map of Chinese literature

表5 中文文獻高頻關鍵詞聚類內容與特征Tab.5 Contents and features of high-frequency keywords clustering in Chinese literature
英文文獻高頻關鍵詞閾值為10次,共計80個。聚類分析顯示,當聚類個數為15時聚類效果最好(表6、圖6、圖7)。

圖6 英文文獻高頻關鍵詞聚類樹狀圖Fig.6 High-frequency keywords cluster dendrogram of English literature

圖7 英文文獻高頻關鍵詞聚類山丘圖Fig.7 High-frequency keywords cluster hill map of English literature

表6 英文文獻高頻關鍵詞聚類內容和特征Tab.6 Contents and features of high-frequency keywords clustering in English literature
5年國內RWS發展迅速,年發文量穩步增長。中醫藥是國內RWS的研究熱點和活躍領域,研究者科學收集真實環境的診療數據,經嚴格和規范設計、測量、處理、分析和評價,可形成高質量RWE并促進中醫藥臨床實踐的創新發展,更是實現中醫藥現代化的重要途徑之一[17-19]。但有學者指出我國中醫藥RWS尚處于初級階段[20],存在研究者對研究質量控制理解不足、質量控制體系不健全、研究方法不完善等問題[21],亟需更多對RWS研究能準確把握、深刻理解的領軍式人物[22],運用已有的中醫藥RWS規范、技術指導原則[23-26],帶領團隊于多個領域開拓發展,提升我國中醫藥RWS質量和國際影響力。
中英文RWS文獻報道采用的數據源存在差異。中文文獻RWS的數據源多為醫院信息系統(hospital information system,HIS),主要采用數據挖掘技術發現其中事先未知或已知有用的信息[27],但HIS數據存在局限,《中國真實世界研究指南》指出HIS數據分散,完整性和準確性不高,導致研究結果易受較多偏倚影響[28]。英文文獻RWS的數據源則多為基于既有健康醫療數據或主動采集數據構建的研究型數據庫。研究型數據庫具有更好的數據完整性和準確性,有助于解決多種科學問題,包括研究疾病流行病學特征、診療模式、疾病管理和遠期預后等[29-31]。
隨著可獲取RWD的數據源不斷增多,研究者也面臨選多源數據共享與數據規范化這兩個突出問題[20,32]。國內現有RWS多使用單個數據庫,而采用多源數據開展RWS成為新趨勢,國外學者常采用多數據庫研究(multidatabase study)方式以獲取更完整和準確的數據,生產外推性更強的臨床證據[33-36],以便更好地轉化到臨床實踐和衛生決策中[37]。國內由于制度和政策約束、數據聯通路徑缺乏、數據庫質量不佳等問題,導致臨床數據難以共享,不利于提升數據質量和研究質量[20,38]。數據規范化是保證研究高質量完成的重要步驟,解決既有健康醫療數據片段化、未標化等問題,建立主動采集數據統一的數據收集框架和數據清理規則,有助于構建具有統一信息記錄標準的研究型數據庫[20,29,39]。
某一領域的高頻詞可以反映出該學術領域的研究熱點、知識結構和發展趨勢[40]。高頻詞閾值選取方法尚無統一標準,本研究采用的普賴斯公式本是用于根據研究領域最高產作者的發文量確定核心作者范圍[41],現已有學者將該法擴展應用于確定高頻詞閾值,但該方法的適用性仍待進一步驗證[42]。其他方法包括作者自定義高頻詞閾值、多諾霍(Donohue)公式等。因作者自定義高頻詞閾值主觀性過強,而使用多諾霍公式當研究領域寬泛或主題分散時,會出現大量頻次為1次的關鍵詞導致高頻詞閾值偏大[14]。此外,英文文獻高頻關鍵詞的聚類分析結果復雜,一些聚類之間分離度不夠,可能是因為本研究英文關鍵詞來自各英文數據庫自行標引的主題詞或副主題詞,而非原文本身的關鍵詞。研究顯示,僅有62%的原文關鍵詞被標引在主題詞中[43],所以各文獻之間存在許多重疊、無實義且不能準確反映文獻內容的主題詞使類間相似度較高。
本研究較同類研究優勢在于檢索結果更為全面。但也存在一定的局限性,包括:①因RWS范圍巨大,本研究檢索只限定文中提及“真實世界”或“real world”一詞的文獻。②英文文獻聚類分析效果不佳。③由于數據庫導出信息和數據可視化軟件自身的局限,無法實現引文分析。
[志謝:感謝教育部長江學者創新團隊基金(編號:IRT0935)對本研究的支持!]