,,,
健康大數據是指在一定的時間范圍內通過利用某些軟件工具進行收集、管理并處理的與民生健康相關數據的總集,需要新的處理模式才能使用,是具有更強大的決策力、敏銳的洞察發現力和完整流程優化能力的多樣化高通量的信息[1]。國務院辦公廳《關于促進和規范健康醫療大數據應用發展的指導意見》將健康醫療大數據應用發展納入國家大數據戰略布局中,并提出利用大數據拓展服務渠道,延伸和豐富服務內容,更好地滿足人民健康醫療需求。與傳統數據相比,大數據更多地呈現出非結構化形態,數據標準不統一導致數據共享和開放不足[2]。數據標準是健康信息標準體系的重要組成部分。對來源廣泛的數據項進行標準化,通過建立概念數據模型和數據規范,明確數據的應用語境,保證信息的準確性和一致性,是實現語義互操作的基礎[3]。世界發達國家健康數據標準化工作起步較早,普遍以建立信息模型和元數據規范為主要技術路線和方法,以指導信息系統建設、規范數據收集、增進共享為最終目標[3]。
元數據(metadata)是關于數據的數據,是一種數據結構標準[4]。建立元數據標準是有效描述信息資源、實現信息資源高效交流的基礎。孟群等提出健康醫療大數據標準的構建可依據元數據標準,利用元數據資源目錄庫提供元數據管理,從應用的角度分別建立資源目錄和服務目錄,為健康醫療大數據資源的共享與應用提供標準化的數據基礎[5]。
本文以繪制科學知識圖譜的方式,對比分析臨床領域和公共衛生領域的健康大數據標準文獻題錄中的研究熱點和前沿,總結國內外研究異同,為國內學者關于健康大數據標準領域研究提供借鑒,為有關部門制定健康大數據標準提供參考。
1.1.1 國內健康醫療大數據
臨床領域:以《中國學術期刊網絡出版總庫》(CNKI)作為數據來源,采用主題檢索,檢索表達式為[(醫療數據OR電子病歷OR檢驗數據OR影像數據OR臨床數據)AND標準)],時間跨度為2000-2018年,檢索時間為2018年8月1日,納入期刊、學位論文及會議論文共計1 559 篇。
公共衛生領域:以《中國學術期刊網絡出版總庫》(CNKI)作為數據來源,采用主題檢索,檢索表達式為:[(公共衛生數據OR健康檔案OR健康管理數據OR健康監測數據OR個性化醫療服務數據)AND標準)],時間跨度為2000-2018年,檢索時間為2018年8月1日;納入期刊、學位論文及會議論文共計323篇。
1.1.2 國外健康醫療大數據
臨床領域:以Web of Science 核心合集數據庫為數據來源,采用主題檢索,檢索表達式為:[(medical data OR clinical data OR EMR data OR MRI data)AND standards)];精煉依據為文獻類型(ARTICLE)AND語種(ENGLISH),時間跨度為2000-2018年,檢索時間為2018年8月1日,納入7 417條記錄。
公共衛生領域:以Web of Science核心合集數據庫為數據來源,采用主題檢索,檢索表達式為[(public health data OR health records OR health management data OR health monitoring data)]AND standards);精煉依據為文獻類型(ARTICLE)AND語種(ENGLISH),檢索時間為2018年8月1日,時間跨度為2000-2018年,納入7 733條記錄。
關鍵詞是文獻內容中出現詞頻較高的核心詞匯代表,是反映文獻內容的重要標簽之一[6]。
關鍵詞詞頻共現可以揭示研究主題的熱點分布、內在聯系和演進規律[7]。突變詞是某一主題領域或學科研究熱點突然增長的標志,是該主題或學科未來發展趨勢或方向的重要量度[8]。突變的大小用突變值表示,突變值越大,表明與該突變詞相關的主題學科發展趨勢越明顯。本文采用CiteSpace 5.1.R6 SE作為科學知識圖譜分析工具,通過分析健康大數據標準領域文獻的高頻關鍵詞及突變詞的變化,厘清健康大數據主題領域知識結構的演進過程,洞悉研究熱點及其演進過程,分析未來的發展趨勢[9]。
1.2.1 國內健康醫療大數據研究現狀
1.2.1.1 臨床領域
以“Keyword”作為節點,設置CiteSpace 5.1.R6 SE 相關參數。Timespan:2000-2018(Slice Length=3),Selection Criteria:Top 40 per slice,LRF=2,LYB=8,得到關鍵詞共現圖譜(圖1)及關鍵詞表(表1)和突變詞表(表2)。關鍵詞共現圖譜共形成網絡合并節點195個,連線611條,聚類27條。


圖1 CNKI 近20年健康大數據標準(臨床領域)關鍵詞共現圖

表2 CNKI近20年健康大數據標準(臨床領域)突變詞
國內在臨床領域健康大數據標準的研究熱點依次為電子病歷、HL7、XML、醫院信息系統、PACS、數據挖掘等。未來國內健康大數據標準在臨床領域的研究熱點可能為電子健康檔案、檢驗數據、質量、電子病歷、XML、臨床試驗等。
1.2.1.2 公共衛生領域
以“Keyword”作為節點,設置CiteSpace 相關參數。Timespan:2000-2018(Slice Length=3),Selection Criteria:Top 40 per slice,LRF=2,LYB=8,得到關鍵詞共現圖譜(圖2)及關鍵詞表(表3)和突變詞表(表4)。關鍵詞共現圖譜共形成網絡合并節點132個,連線360條,聚類18條。

圖2 CNKI 近20年健康大數據標準(公共衛生領域)關鍵詞共現圖譜

序號頻次中心度關鍵詞年份序號頻次中心度關鍵詞年份1690.13電子健康檔案20061170.11居民電子健康檔案20102570.26健康檔案20001270.07衛生信息平臺20103330.43電子病歷20091360.05信息系統20064280.17區域衛生信息平臺20091450.09信息化建設20125190.28衛生信息標準20091550.08人口健康20146190.18社區衛生服務20061630.06評分標準20097130.06信息化20121730.05互聯互通20168120.05健康管理20121820.2醫改20109110.14居民健康卡20121920.15信息化水平201010100.08信息共享20102020.05公共衛生服務2009

表4 CNKI近20年健康大數據標準(公共衛生領域)突變詞
由圖2和表3看出,國內在公共衛生領域健康大數據標準的研究熱點依次為健康檔案、電子病歷、區域衛生信息平臺、衛生信息標準、社區衛生務、信息化等。由圖2和表4看出,未來國內健康大數據標準在公共衛生領域的研究熱點可能為健康管理、社區衛生服務、健康檔案。
1.2.2 國外健康醫療大數據研究現狀
1.2.2.1 臨床領域
以“Keyword”作為節點,設置CiteSpace 相關參數。Timespan:2000-2018(Slice Length=1),Selection Criteria:Top 40 per slice,LRF=2,LYB=8,得到關鍵詞共現圖譜(圖3)及關鍵詞表(表5)和突變詞表(表6)。
關鍵詞共現圖譜共形成網絡合并節點275個,連線1 612條,聚類17條。

圖3 Web of Science 近20年健康大數據標準(臨床領域)關鍵詞共現圖譜

序號頻次中心度關鍵詞年份序號頻次中心度關鍵詞年份114730.19mri2000112090.09cancer200023860.05magnetic resonance imaging2000131850.04in vivo200133420.15brain2001121850.02metadata200042660.09model2001141810.07system200352580.07image2000151810.05computed tomography200062490.05fmri2000161810.02segmentation200172310.07human brain2000171770.1quantification200082260.03diagnosis2001181680.03positron emission tomography200092180.1magnetic resonance2000191600.08registration2002102120.04functional mri2000201570.05standard2000

表6 Web of Science近20年健康大數據標準(臨床領域)突變詞
由圖3和表5看出,國外在臨床領域健康大數據標準的研究熱點依次為醫學影像數據標準(包括影像大數據管理、醫學影像的人工智能分析、基于醫學影像大數據的疾病輔助診斷、精準診斷、影像數據挖掘算法等)、腦科學(包括腦機接口、智能影像、神經元與物聯網的結合等)。由圖3和表6看出,未來國外健康大數據標準在臨床領域的研究熱點可能為對功能性核磁共振(fMRI)、彌散張量成像(DTI)、電壓敏感染料成像(VSDI)等實驗數據的解讀及應用,對使用多通道技術獲得的的長時間的電生理數據的解讀及應用,如多道EEG、胞外多通微電極記錄、微電極陣列(MEA)記錄等實驗數據及互聯網虛擬大腦等。
1.2.2.2 公共衛生領域
以“Keyword”作為節點,設置CiteSpace 相關參數。Timespan:2000-2018(Slice Length=1),Selection Criteria:Top 40 per slice,LRF=2,LYB=8,得到關鍵詞共現圖譜(圖4)及關鍵詞表(表7)和突變詞表(表8)。關鍵詞共現圖譜共形成網絡合并節點154個,連線1 165條,聚類9條。

序號頻次中心度關鍵詞年份序號頻次中心度關鍵詞年份16770.07health2000113280.07health care200025580.05care2000123260.06quality200034680.05management2000132900.09population200044090.11mortality2000142820.04disease200053800.09prevalence2000152790.06outcm200063720.06system2000162730.09impact200073700.1standard2000172590.02electronic health record201083500.03risk2000182560.04risk factor200093480.05children2000192360.03obesity2000103480.03united states2000202290.07intervention2001

表8 Web of Science近20年健康大數據標準(公共衛生領域)突變詞
由圖4和表7看出,國外健康大數據標準在公共衛生領域的研究熱點依次為health(健康)、care(關懷)、 management(管理)、mortality(死亡率)、prevalence(患病率)、system(系統)等,具體表現為大數據與疾病的關聯性研究,基于海量信息對傳染病疫情的追蹤和響應,對疾病早期預警信號的發現,基于大數據對健康行為的理解,包括對健康行為、遺傳、自然和社會經濟環境因素的探索等。由圖4和表8看出,未來國外健康大數據標準在公共衛生領域的研究熱點可能為metaanalysis(Meta分析)、electronic health record(電子健康檔案)、database(數據庫)、cost effectiveness(成本效益)、metadata(元數據)、community(社區)等,具體表現為大數據的互用性研究,大數據的擴展性轉化研究,對關聯性研究結果在現實世界中的驗證、評價、執行和政策制定,健康大數據使用中的安全、保密、共享、開放等醫學倫理學問題,對健康大數據使用中的“誤差”問題識別等。
研究熱點和研究前沿代表一個主題領域的發展方向和研究動態[10]。通過關鍵詞詞頻分析得出國內外健康大數據標準研究的熱點,通過突變詞推測國內外健康大數據標準研究的趨勢。
1.3.1 研究熱點分析
1.3.1.1 臨床領域
國內研究熱點1,集中于電子病歷標準化的研究,主要以H17和XML9兩種標準為主;研究熱點2為探討醫院信息化建設,包括醫院信息系統和醫院信息化兩方面;研究熱點3為對數據標準的研究,包括標準、質量和方法(數據挖掘、云計算、數據交換)等。國外研究熱點主要是對影像數據標準的研究。此外,元數據(metadata)作為高頻關鍵詞和高頻突變詞成為近年來國內外健康大數據標準的研究熱點。
1.3.1.2 公共衛生領域
國內的研究熱點集中于對健康檔案數據標準的研究,并呈現區域化和信息化的特點;國外對健康大數據標準的研究范疇比較廣泛,基本覆蓋了對公共衛生領域各具體數據標準的研究,包括健康數據、關懷數據、管理數據、死亡率數據、患病率數據、疾病數據、肥胖數據等。
通過橫向對比可以得出,國外健康數據標準研究范疇較國內更加廣泛,元數據成為近年來國內外健康數據標準研究的熱點。
1.3.2 研究趨勢分析
1.3.2.1 臨床領域
國內未來研究仍以電子病歷標準為主,但研究范疇有所擴展,可能會涉及檢驗數據、區域醫療數據等的研究;國外未來研究依然以影像數據標準為主,數據分類標準可能會成為新的研究熱點。元數據可能會成為未來國內外健康數據標準的共同研究熱點。
1.3.2.2 公共衛生領域
國內未來研究會集中于健康管理、社區衛生服務、健康檔案3個領域的數據標準化研究;國外未來健康數據標準的研究趨勢可能主要集中于對元數據的研究,此外還會涉及到健康檔案數據、成本效益數據、基礎護理數據、隨訪數據等標準的研究。通過縱向預測可以得出以下兩點:一是未來的研究趨勢將在現有研究范疇的基礎上有所擴展,二是元數據依然可能成為未來健康數據標準研究的熱點。綜上所述,元數據是臨床領域和公共衛生領域健康數據標準研究的熱點。因此,對元數據的深度剖析和挖掘有助于深層次理解和把握健康大數據標準的發展趨勢和前沿動態。
元數據是一種結構化的數據,是對信息資源的結構化描述,用來描述信息資源或數據本身特征和屬性,是一種用來規范數字化信息組織的數據結構標準[11]。元數據具有5類基本屬性,分別為標識與定義(identifying and definition)、數據采集及使用指南(collection and usage guide)、 來源及參考文本(source and reference)、關系(relation)和管理(administration)[12]。
元數據為各種形態的數字化信息單元和資源集合提供規范、普遍的描述基準和方法,又為由多種數字化資源有機構成的信息體系(如數字圖書館)提供整合的工具與紐帶,在數字化網絡化信息資源組織與利用中發揮著日益重要的作用[13]。
以CNKI為數據來源,采用主題檢索;檢索表達式為:(元數據 OR 數據元),時間跨度為2008-2018年,檢索時間為2018年8月1日,納入期刊、學位論文及會議論文共計347篇文獻。
以關鍵詞作為節點,設置CiteSpace 5.1.R6 SE 相關參數。Timespan:2008-2018(Slice Length=1);Selection Criteria:Top 50 per slice; LRF=2;LYB=8。得到關鍵詞共現圖譜(圖5)及關鍵詞表(表9)和突變詞表(表10)。

圖5 CNKI近10年元數據(metadata)關鍵詞共現圖譜

序號頻次中心度關鍵詞年份序號頻次中心度關鍵詞年份1650.5數據元20091170.02數據標準20092500.66元數據20081260信息化20123360.21標準化20091360.01信息20124210.12電子病歷20101460數據庫20125180.14數據集20091560電子健康檔案20096130.23本體20081660中醫護理20147100.10衛生信息20081750精準醫學2017890.10xml20091850.03醫院信息系統2010980.03標準20091950hl720121080.04健康檔案20102050.01衛生信息標準2010

表10 CNKI近10年元數據(metadata)突變詞統計分析
關鍵詞共現圖譜共形成網絡合并節點87個,連線219條,聚類15條。排除數據元與元數據等研究領域的基礎詞匯后,得出以下熱點詞匯:標準化、電子病歷、數據集、本體、衛生信息、XML、標準等。揭示出目前國內對元數據的研究主要集中于電子病歷、衛生信息、健康檔案、數據庫、中醫護理、精準醫學等領域;其中以XML、HL7兩種標準尤為顯著。未來國內對元數據的研究主要集中于對健康檔案、XML、衛生信息標準以及數據庫4個領域的研究。
以Web of Science 核心合集數據庫為數據來源,采用標題檢索;檢索表達式為:(metadata);精煉依據:文獻類(ARTICLE)AND語種(ENGLISH);時間跨度:2008-2018年;檢索時間均為2018年8月1日;納入805條記錄。
以關鍵詞作為節點,設置CiteSpace 5.1.R6 SE 相關參數,Timespan:2008-2018(Slice Length=1),Selection Criteria:Top 50 per slice,LRF=2,LYB=8,得到關鍵詞共現圖譜(圖6)及關鍵詞表(表11)。關鍵詞共現圖譜共形成網絡合并節點197個,連線673條,聚類23條。排除metadata為元數據研究領域的基礎詞匯后,從中可以得出system、information、database、web、model、digital library、standard等熱點詞匯(表12)。結合大數據的研究熱點及趨勢,目前國外對元數據的研究熱點主要表現為元數據質量評估與控制、元數據質量評估指標構建、元數據質量控制體系構建、與數據交換網絡有關的元數據問題、元數據交換和互操作規范、元數據標準間的協調問題、利用元數據管理非結構化數據的復雜性問題等。

圖6 Web of Science 近10年元數據(metadata)關鍵詞共現圖譜

序號頻次中心度關鍵詞年份序號頻次中心度關鍵詞年份11970.30metadata200811140.06information retrieval20092440.17system200812140.12network20083330.09information200813130.01xml20094280.11database200814130.09interoperability20085280.11web200915120.01quality20126260.17model200916120.05framework20107250.11management201017120.04design20098220.06digital library200818110.06annotation20129220.08standard201119110.02metadata standard200810180.08semantic web200920100.02algorithm2010

表12 Web of Science近10年元數據(metadata)突變詞
通過分析部分關鍵節點文獻可以看出元數據在大健康領域的應用已經初見成效。閻小妍等人[14]提出將Web 3.0元數據標準作為大數據時代循證醫學元數據標準的基礎,可實現數據庫中定量數據、定性數據和交換數據抽取、轉換和數據合并的目標;劉麗華等[15]從規范描述醫藥衛生信息數據集的需求出發,研究建立我國醫藥衛生信息數據集的元數據規范,以促進對衛生領域數據集描述的規范化和標準化,保證數據資源的整合、發布、管理和檢索等行為的統一;孟群等[5]認為我國健康醫療大數據資源目錄體系以元數據標準為核心,可為健康醫療大數據資源的共享與應用提供標準化的數據基礎;Caffery[8]認為元數據對于確保皮膚圖像得到適當的管理和解釋至關重要;Kim[16]設計出基于圖像的臨床試驗數據網格元數據儲存算法。
通過對元數據發展熱點進行可視化分析得出,國內元數據在大健康領域的應用主要集中于標準化的探討,國外對元數據的研究范疇比較廣泛,涉及系統(或數據庫)、數字圖書館、模型、管理、標準等方面。從表10和表12可以得出,國內未來對元數據的研究趨勢主要應用于健康檔案、電子病歷標準研究,國外未來對元數據的研究可能集中于數字字典(digital repository)等的研究。
本文從臨床領域和公共衛生領域兩個視角對近20年健康大數據標準的研究進行可視化分析,發現國內外在健康大數據標準研究方面存在差異。在臨床領域,國內側重對電子病歷標準的研究,國外則以影像數據標準研究為主;在公共衛生領域,國內主要以健康檔案數據標準為主,國外對于健康大數據標準的研究范疇比較廣泛,基本覆蓋了對公共衛生領域各具體數據標準的研究。此外,元數據成為近年來健康大數據標準研究的熱點并延續到未來健康大數據標準的研究中。健康醫療大數據應用是推進“健康中國”建設、提高群眾獲得感的必然要求,是深化醫改完善衛生與健康治理模式的重要支撐,而健康醫療大數據標準體系構建是推進健康醫療大數據應用的基礎性工程。元數據具有描述信息資源或數據本身的特征和屬性,具有定位、發現、評估、選擇等功能[17]。作為數據結構標準,在海量的半結構化和非結構化健康醫療數據標準的構建中,元數據不僅具備傳統的“著錄”功能,使健康醫療數據維護者能有效管理和利用資源,讓使用者能迅速了解辨別資源[18],提高健康醫療數據共享率與利用率[19]。因此,對元數據進行深度剖析與研討對健康大數據標準研究具有重要的現實意義。