崔鈺,孫彥順,于莉莉
1.濰坊醫學院 公共衛生學院,山東 濰坊 261053;2.解放軍第九六〇醫院 醫學數據中心,山東 濟南 250031
數字孿生也被稱為數字雙胞胎,是通過對物理實體建模與仿真,建立物理實體與虛擬實體的數據交互映射,從而以虛擬實體反映物理實體的狀態[1]。美國空軍研究實驗室的Kobryn 和Tuegel 于2011 年3 月在一次演講中首次明確提到了數字孿生[2]。數字孿生近年來發展迅速,已成為世界各國學術界的熱點,其與其他技術相結合已應用于多個領域,如工業生產中的智能工廠、智慧城市建設、航空航天領域的安全保障、醫療領域的數字模型等[3-4]。全球醫藥支出預計將以每年2%~5%的速度增長,到2024 年將超過1.1 萬億美元[5],然而中國每千人執業醫師僅2.31 人,且存在醫療資源分配不均衡、嚴重浪費等問題,因此為醫療專業人員和患者提供更有效的解決方案已經迫在眉睫[6]。數字孿生使用傳感器采集物理實體的相關數據,再利用這些數據創建虛擬數字模型,并對其進行消化、分析、操作、更新和優化[7]。當數字孿生技術應用到人體時,可以通過個人的電子表現,來動態反映人體的分子狀態、生理狀態和生活方式,因此對醫藥衛生領域中數字孿生的研究具有重要意義。
文獻計量學是采用數學、統計學等定量的方法分析已發表的文獻數據[8]。目前,已有部分關于數字孿生的文獻計量研究,但缺乏數字孿生在醫療衛生領域中較為系統、全面的文獻計量學分析研究。本研究旨在根據文獻計量學的基礎理論和研究方法,分析醫藥衛生領域數字孿生相關文獻的發文趨勢、重要作者、合作網絡和研究熱點,并通過可視化圖譜的方式呈現,以期為數字孿生在醫藥衛生方面的應用和相關科研人員的后續研究提供參考。
本研究在中國知網、萬方、維普、PubMed 和Web of Science 數據庫檢索醫藥衛生領域與數字孿生有關的文獻,限制檢索時間為數據庫建庫至2022 年10 月15 日。檢索策略如下:中國知網使用高級檢索,具體檢索式為:“(主題=數字孿生)OR(主題=數字鏡像)OR(主題=數字化映射)OR(主題=數字雙胞胎)”,文獻分類選擇“醫藥衛生科技”;萬方數據庫采取主題檢索,檢索詞和文獻分類同中國知網的檢索式;維普數據庫采取題名或關鍵詞檢索,檢索詞和文獻分類同中國知網的檢索式;PubMed 數據庫采取Title/Abstract 檢索,檢索詞為“digital twin”和“digital twins”;Web of Science 檢索詞同PubMed 數據庫檢索詞,文獻分類選擇與醫藥衛生相關。
納入標準:文獻研究內容確定與數字孿生有關且屬于醫藥衛生領域。排除標準:① 重復的報道案例或文獻;② 與主題無關的文獻;③ 研究類型為通知、公告、摘要匯編等的非研究型論文。
本研究將檢索得到文獻的題錄導出,并利用NoteExpress(V3.0.3.6396)查重,隨后按照篩選標準選出與研究有關的文獻,以Refworks 形式導出。使用Excel(V16.0.15601.20148)進行文獻統計,使用VOSviewer(V1.6.18)進行知識圖譜分析。
1.4.1 機構
依據作者地址字段提取機構:① 對一級單位的下級部門不做單獨統計,如Harvard Medical School 計入Harvard University;② 大學或科學院的附屬機構不做單獨統計,如Massachusetts General Hospital 計入Harvard University;③ 若機構掛牌/名稱≥2 個,則統一整理為其中一個,如University of Paris 又稱Université Paris Cité,統一整理為University of Paris。
1.4.2 關鍵詞
將含義相同的中英文關鍵詞合并,如將“artificial intelligence” 和“ 人工智能” 統一為“artificial intelligence”;將意思相同或相近的關鍵詞合并,例如將“personalized therapy”“personalised medicine”和“precision medicine”統一為“personalized medicine”。
本研究在中國知網、萬方、維普、PubMed 和Web of Science 共5 個數據庫中檢索到文獻1093 篇,經NoteExpress 去重后剩余1005 篇。對題目、關鍵詞、摘要進行閱讀篩選,剔除非研究型論文及研究主題與醫藥衛生領域數字孿生無關的文獻,最終確定納入研究的文獻共262 篇,包括期刊論文259 篇(中文期刊論文18 篇、外文期刊論文241 篇)、中文學位論文3 篇,受數據庫限制未納入國外學位論文。

圖1 文獻篩選流程圖
Grieves[9]最早提出“與物理產品等價的虛擬數字化表達”這一概念,被視為數字孿生的雛形。尹亞麗等[10]的研究發現2015 年以前有關數字孿生的研究成果很少,2016 年以后相關研究開始引起學術界的關注。醫療衛生領域中有關數字孿生的第1 篇文獻的發表時間是2016 年,Yonova-Doing 等[11]應用數字孿生建模研究核性白內障;隨后文獻發表量呈現緩慢上升趨勢,自2021 年起,文獻數量激增,2021 年至2022 年10 月15 日共發表210 篇文獻,占相關文獻總量的80.15%,見圖2。數字孿生有賴于傳感器數據,在醫療衛生領域中傳感器用于監視和預測患者的健康狀況[12-13],2020 年是“萬億傳感器世界”的首次亮相;此外,2020 年前后包括中國在內許多國家發布了有關數字孿生的指導文件和標準,這可能是2020 年以后相關研究增多的主要原因。國內的相關研究起步較晚,且研究成果較少,第1 篇中文文獻發表于2020 年,是一篇針對多模態數據融合的護理信息系統的研究[14]。

圖2 醫藥衛生領域數字孿生相關文獻發表時間分布圖
醫療衛生領域中有關數字孿生的259 篇期刊論文共計來源于175 種期刊。JournalofMedicalEthics是納入文獻量最多的期刊,共8 篇,占總文獻量的3.1%。納入文獻量最多的前10 名期刊多為基礎醫學類期刊,見表1。
共計1306 位作者被納入作者共現圖譜分析。Twin Health 公司的Mohammed 和Shamanna 是發文最多的作者,均發表論文9 篇,同時也是與其他作者開展合作最多的,均與其他86 位作者存在合作,其研究主要是應用數字孿生技術治療和控制糖尿病。根據普賴斯定律的計算公式:M=0.749×(Nmax)1/2(Nmax指最高產作者的發文數量,M 為該領域的核心作者發文量臨界值)[15],醫藥衛生領域數字孿生相關文獻發表數量最多的學者發文數量為9 篇,即Nmax=9,計算得M=2.247。因此,確定發文量大于2 篇的作者是該領域的核心作者,共148 位,其中17 位存在合作共線關系,共形成3 個聚類,見圖3 與表2。最大的聚類共包含9 位作者,以Thajudeen為中心、Mohammed 和Shamanna 發文量最多,其研究領域一致,主要是應用數字孿生技術治療緩解糖尿病的臨床對照試驗;第二大的聚類共包含6 位作者,Ashok和Shah 是該聚類團體中發文最多的作者,均發表8 篇論文,其研究主要包括對心血管疾病和糖尿病的真實世界研究和試驗;第三大的聚類包含2 位作者,分別是Bhonsley 和Vadavi,分別發表5 篇、4 篇論文,其研究涉及人工智能、物聯網和全身數字雙胞胎技術。

表2 醫藥衛生領域數字孿生相關研究的活躍作者

圖3 作者共現圖譜
共計448 家機構被納入機構共現圖譜分析,其中230 家存在合作共現關系,共形成20 個聚類,見圖4與表3。荷蘭的馬斯特里赫特大學是發表文獻最多的機構,有9 篇論文,同時與其他機構合作最廣泛,其合作機構有51 家,包括其他8 個聚類集團的核心機構,其主要研究數字孿生心臟。牛津大學所在的聚類位于整個聚類網絡的中心,與其他8 個聚類集團有合作,研究內容較為多樣,涉及生命歷程數字雙胞胎、數字孿生心臟以及數字孿生的倫理研究等。最大的聚類集團有21 家機構,以米蘭理工大學為中心形成,該聚類集團的機構大多只進行內部合作,與其他聚類集團的合作較少,研究主要包括數字孿生在血管支架、臨床腫瘤學以及流行病學模型中的應用等,這些機構的研究多涉及數字孿生與人工智能的結合。第二大的聚類集團有19 家機構,主要包括Siemens 公司、慕尼黑工業大學和埃爾朗根-紐倫堡大學,該聚類與格拉茨醫科大學和奧克蘭大學所在的聚類開展了較多合作,該聚類的主要研究是數字孿生數據的獲取技術,如計算機斷層掃描、心電圖等。第三大的聚類集團有18 家機構,其中美國梅奧診所和佛羅里達大學發表文獻最多,研究內容主要是重癥監護數字孿生模型的開發和構建,該聚類與其他聚類的合作廣泛,以法國國家信息與自動化研究所為代表,其與其他8 個聚類集團的核心機構有合作關系。如圖4 所示,各個聚類集團比較集中,說明現階段大部分機構的合作對象比較局限,合作團體之間的聯系較少,應進一步加強校企、校校間的國際合作交流,可以使數字孿生向更深層次發展[16]。

表3 醫藥衛生領域數字孿生相關研究的重要機構

圖4 機構共現圖譜
因“數字孿生”和“digital twin”為檢索文獻時使用的檢索詞,基本所有文獻的關鍵詞都包含,沒有統計分析的意義,故對其進行排除后,出現頻次≥3 的關鍵詞有94 個,共形成8 個聚類,各個聚類集合之間關聯緊密;humans(人類)、artificial intelligence(人工智能)、personalized medicine(個性化醫療)、machine-learning(機器學習)是出現頻次最多的關鍵詞,分別為48、39、27、20 次,見表4、圖5~6。

表4 醫藥衛生領域數字孿生相關研究的高頻關鍵詞

圖5 關鍵詞共現圖譜

圖6 關鍵詞時間圖譜
humans(人類)是出現最早的高頻關鍵詞,2017 年第一次出現;其所在的聚類是最大的聚類集合,共包含15 個關鍵詞,出現的高頻關鍵詞還有algorithm(算法)、patient-specific modeling(個體化建模)、software(軟件)等,主要涉及數字孿生的模型、建模和計算機技術的研究。
machine-learning(機器學習)是出現最晚的高頻關鍵詞,2021 年才第一次出現,此后一直受到高度關注。其所在的聚類是第二大的聚類集合之一,包含14 個關鍵詞,高頻關鍵詞有personalized medicine(個性化醫療)、machine-learning(機器學習)、health care(醫療保健)、digital health(數字健康)。劉曉冰等[16]研究發現,自2018 年起數字孿生相關的研究多與機器學習、人工智能等技術方法結合,在醫藥衛生領域數字孿生與機器學習、人工智能等技術方法結合是目前的研究熱點。2015 年歐盟PerMed 項目組發布《塑造歐洲的個性化醫療愿景》,推動了歐盟個性化醫療的實施[17],同年我國召開精準醫學專家研討會[18],提出了中國版精準醫療計劃,數字孿生技術有助于為患者打造一套建立在數據基礎上的最佳治療方案,推動個性化醫療的發展。
數字孿生與新一代信息技術的深度融合是數字孿生技術的研究熱點和未來發展方向[16],本研究發現這也是醫藥衛生領域數字孿生相關研究的熱點,涉及的關鍵詞包括big data(大數據)、artificial intelligence(人工智能)、machine-learning(機器學習)等。
有關數學和計算機建模方法的關鍵詞包括agent based modeling(代理建模)、multi-scale modeling(多尺度建模)、finite element method(有限元法)等。目前數字孿生技術與其他新興數字研究方式相結合的方法備受學術界關注,且推動了數字醫學的整體發展。
與數字成像技術有關的關鍵詞較多,包括tomography、X-ray computed(X 射線計算機斷層掃描)、MRI(核磁共振成像)、CT(計算機斷層掃描)、imaging、three-dimensional(三維成像)、ECG(心電圖)等,可見數字孿生與數字成像技術的結合是研究熱點之一,陳珊珊等[19]認為數字孿生技術有助于推動智能醫學影像實驗室的發展。
與骨骼有關的部分關鍵詞也引起了一定關注,包括bone(骨)、spinal metastasis(脊柱轉移)、vertebral fracture(脊柱骨折)等。數字孿生在與信息物理融合系統[20]相關的骨骼建模和生物動力學中的應用受到關注,2022 年前后有關數字孿生的椎體形成技術也引起了一定關注[21]。
本研究分析了醫藥衛生領域中與數字孿生相關的262 篇文獻,系統全面地為相關科研學者闡述了目前醫藥衛生領域有關數字孿生研究的現狀、重要作者和機構、合作網絡、研究熱點等方面的發展趨勢,發現總體上文獻發表量呈現上升趨勢,且2021年起文獻數量增長迅速。Mohammed、Shamanna、Mohamed、Ashok 和Shah 等學者及其所在的團隊對數字孿生在醫藥衛生領域的研究貢獻較大,Mohammed 和Shamanna 在應用數字孿生技術治療緩解糖尿病的研究中貢獻突出;馬斯特里赫特大學、倫敦國王學院、牛津大學和巴黎大學是發表文獻最多的機構,不同機構的研究內容差異較大,大多數機構的合作對象較為局限,缺乏大規模合作,已有部分校企之間存在合作,但仍需加強。數字孿生與大數據、機器學習、人工智能等新興技術以及其他數學和計算機建模方法的結合是醫藥衛生領域有關數字孿生的研究熱點,基于數字孿生技術的個性化醫療、數字成像技術、骨骼建模和生物動力學研究也受到較多的關注。就目前的技術而言,建立一個充分、完整的人類數字孿生可能遠非現實,然而,能夠鏡像人類的一小部分,例如細胞受體甚至一些亞細胞器,仍可以將現代醫學推向一個全新的水平[22]。事實上,許多研究計劃通過收集健康個體和患者的分子、基因組和其他大數據,為構建數字人類孿生奠定基礎[23]。
總體上,目前醫藥衛生領域對數字孿生的關注度較高,對數字孿生技術的應用尚且有限,但其發展前景值得期待。可以預見的是,結合數據、知識和算法的數字孿生將徹底改變醫療衛生科技的發展。由于數字孿生是近年來的新興技術,醫藥衛生領域的相關研究有限,本研究僅納入了262 篇文獻,文獻數量較少,且受限于國外學位論文的獲取途徑,本研究未納入國外學位論文,這是主要不足之處,但本研究的文獻計量分析結果可為未來醫藥衛生領域有關數字孿生的理論研究與應用探索提供參考與借鑒。