□ 席韓旭 XI Han-xu 孫邦凱 SUN Bang-kai 張晨 ZHANG Chen 李維 LI Wei 計(jì)虹 JI Hong
隨著信息技術(shù)和數(shù)據(jù)科學(xué)的快速發(fā)展,基于多樣化的真實(shí)世界數(shù)據(jù)(real-world data,RWD)形成的真實(shí)世界證據(jù)(real-world evidence,RWE),已成為醫(yī)療衛(wèi)生決策的重要來(lái)源(如藥械監(jiān)管、目錄制定、指南制定、疾病管理等)[1]。2021 年4 月15 日,國(guó)家藥品監(jiān)督管理局藥品審評(píng)中心發(fā)布了《用于產(chǎn)生真實(shí)世界證據(jù)的真實(shí)世界數(shù)據(jù)指導(dǎo)原則(試行)》[2],該指導(dǎo)原則指出,真實(shí)世界數(shù)據(jù)是指來(lái)源于日常所收集的各種與患者健康狀況和/或診療及保健有關(guān)的數(shù)據(jù)。根據(jù)源數(shù)據(jù)的產(chǎn)生是否基于預(yù)先設(shè)定的研究目的,真實(shí)世界數(shù)據(jù)主要分為常規(guī)收集的健康醫(yī)療數(shù)據(jù)(routinely collected health data,RCD)和主動(dòng)收集的健康醫(yī)療數(shù)據(jù)[3]。隨著真實(shí)世界研究的廣泛開(kāi)展和不斷深入,如何利用信息技術(shù)提高真實(shí)世界數(shù)據(jù)獲取效率是目前面臨的重要挑戰(zhàn)。本文從RWD到構(gòu)建研究型數(shù)據(jù)庫(kù)的需求進(jìn)行分析并提出解決方案,為從信息技術(shù)角度支持真實(shí)世界研究提供借鑒與參考。
1.從RCD 到構(gòu)建研究型數(shù)據(jù)庫(kù)。RCD 從本質(zhì)上講,更多是用于醫(yī)療衛(wèi)生管理目的,存在數(shù)據(jù)片段化、未標(biāo)化、未鏈接、大量非結(jié)構(gòu)化數(shù)據(jù)難以利用等問(wèn)題[1,4],因此建立研究型數(shù)據(jù)庫(kù)的需求主要包括:(1)基于患者主索引,將患者歷次就診的門(mén)急診和住院信息進(jìn)行整合;(2)利用自然語(yǔ)言處理技術(shù)對(duì)自由文本病歷、檢查報(bào)告等數(shù)據(jù)進(jìn)行后結(jié)構(gòu)化處理;(3)搭建平臺(tái)實(shí)現(xiàn)海量數(shù)據(jù)的高效檢索和應(yīng)用。
2.構(gòu)建包含主動(dòng)收集數(shù)據(jù)的研究型數(shù)據(jù)庫(kù)。主動(dòng)收集的醫(yī)療數(shù)據(jù)是指基于預(yù)先設(shè)定的研究目的,額外主動(dòng)收集研究者或決策者所需的關(guān)鍵信息(如腫瘤患者生活質(zhì)量)和其他無(wú)法通過(guò)既有健康醫(yī)療數(shù)據(jù)獲取的信息[1]。構(gòu)建包含這類數(shù)據(jù)的研究型數(shù)據(jù)庫(kù)的需求主要包括:(1)實(shí)現(xiàn)院內(nèi)電子病歷、醫(yī)囑、檢查、檢驗(yàn)等數(shù)據(jù)智能回填到病例報(bào)告表(Case Report Form,CRF)中;(2)對(duì)主動(dòng)收集的患者數(shù)據(jù)實(shí)現(xiàn)高效獲取。
針對(duì)以上問(wèn)題并結(jié)合《真實(shí)世界數(shù)據(jù)與研究技術(shù)規(guī)范》[1,5-6]要求,我院在實(shí)時(shí)全量數(shù)據(jù)中心(Hospital Data Repository,HDR)基礎(chǔ)上[7],打造了臨床智能研究平臺(tái)以全面支持真實(shí)世界研究。
整個(gè)臨床智能研究平臺(tái)利用人工智能及大數(shù)據(jù)相關(guān)技術(shù),從醫(yī)院數(shù)據(jù)中心、外部公開(kāi)數(shù)據(jù)庫(kù)采集相關(guān)數(shù)據(jù),以應(yīng)用場(chǎng)景為驅(qū)動(dòng)建立數(shù)據(jù)深度治理體系,搭建數(shù)據(jù)應(yīng)用模型。在數(shù)據(jù)模型和數(shù)據(jù)應(yīng)用層面之間通過(guò)敏感數(shù)據(jù)脫敏、資源監(jiān)控管理、多層級(jí)賬號(hào)權(quán)限和安全體系保障數(shù)據(jù)安全,以支持科研、臨床、管理方面的應(yīng)用,整體架構(gòu)見(jiàn)圖1。

圖1 臨床智能研究技術(shù)架構(gòu)圖
根據(jù)原始數(shù)據(jù)是否基于特定研究目的收集,我院打造了臨床數(shù)據(jù)分析平臺(tái)和專病隊(duì)列管理平臺(tái)以支持真實(shí)世界研究,下文將詳細(xì)介紹每種平臺(tái)功能并對(duì)兩者特點(diǎn)進(jìn)行對(duì)比分析。
1.臨床數(shù)據(jù)分析平臺(tái)。臨床數(shù)據(jù)分析平臺(tái)是一種面向全院、通用的科研工具,是一種回顧性數(shù)據(jù)庫(kù),是在研究開(kāi)始前已經(jīng)存在的,并非針對(duì)特定研究問(wèn)題收集數(shù)據(jù)而形成,因此如何從海量醫(yī)療數(shù)據(jù)中高效地提取出研究所需要的人群和變量則是臨床數(shù)據(jù)分析平臺(tái)建設(shè)的核心內(nèi)容,主要包括:
(1)人群檢索。運(yùn)用多層級(jí)語(yǔ)義分析模型,通過(guò)大數(shù)據(jù)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理技術(shù)將病歷文書(shū)中大段的文本后結(jié)構(gòu)化成可以直接利用的變量,并支持對(duì)處理后的變量進(jìn)行多重語(yǔ)義篩選以高效建立研究人群。
(2)特征分析。對(duì)建立的研究人群特征利用數(shù)據(jù)可視化引擎進(jìn)行多維度分析,包含人群特征、疾病特征以及癥狀表現(xiàn)等,為研究人員的探索性研究提供思路。
(3)實(shí)時(shí)數(shù)據(jù)質(zhì)控和溯源。對(duì)研究人群全部變量的完整度、異常值等情況進(jìn)行分析,并實(shí)時(shí)溯源到原始數(shù)據(jù),以幫助研究人員從整體上快速了解數(shù)據(jù)質(zhì)量。
(4)數(shù)據(jù)沙箱輔助進(jìn)一步數(shù)據(jù)清洗。通過(guò)數(shù)據(jù)沙箱實(shí)現(xiàn)對(duì)數(shù)據(jù)極端值、異常值、缺失值的處理,以幫助研究人員根據(jù)具體的研究問(wèn)題進(jìn)一步進(jìn)行數(shù)據(jù)清理,最終建立一個(gè)能夠直接進(jìn)行統(tǒng)計(jì)分析的數(shù)據(jù)集。
通過(guò)搭建臨床數(shù)據(jù)分析平臺(tái),改變了傳統(tǒng)的數(shù)據(jù)獲取模式,基于分布式計(jì)算、搜索引擎、語(yǔ)音分析等技術(shù),實(shí)現(xiàn)研究者自助式地進(jìn)行數(shù)據(jù)檢索、清洗和分析,從而提高數(shù)據(jù)獲取效率。目前臨床數(shù)據(jù)分析平臺(tái)已支持18 個(gè)科室105 名醫(yī)生使用,基于平臺(tái)已開(kāi)展16 項(xiàng)科研課題研究(其中國(guó)家自然科學(xué)基金2 項(xiàng),院臨床重點(diǎn)項(xiàng)目1 項(xiàng)[8])。
2.專病隊(duì)列管理平臺(tái)。專病隊(duì)列管理平臺(tái)是一種面向院內(nèi)大型研究團(tuán)隊(duì),針對(duì)專科疾病的隊(duì)列管理平臺(tái)。是一種根據(jù)明確的研究目的和計(jì)劃,至少部分?jǐn)?shù)據(jù)需要前瞻性主動(dòng)收集而形成的數(shù)據(jù)庫(kù)。專病隊(duì)列管理平臺(tái)的建設(shè)主要包括兩方面內(nèi)容:
(1)數(shù)據(jù)的收集與管理。專病隊(duì)列管理平臺(tái)中的數(shù)據(jù)既包括RCD,也包括前瞻性主動(dòng)收集的數(shù)據(jù)。對(duì)于RCD,專病隊(duì)列管理平臺(tái)通過(guò)直接映射、自然語(yǔ)言處理及歸一、邏輯判斷等數(shù)據(jù)加工策略,實(shí)現(xiàn)對(duì)既有數(shù)據(jù)的智能化提取;對(duì)于需要主動(dòng)收集的數(shù)據(jù)(如患者生活質(zhì)量等數(shù)據(jù)),專病隊(duì)列管理平臺(tái)支持多種數(shù)據(jù)錄入方式,包括手動(dòng)錄入、移動(dòng)端(如微信、APP)錄入、智能語(yǔ)音錄入、物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)對(duì)接等,以提高CRF 回填率,減少手工錄入工作量。
以胃癌專病隊(duì)列建設(shè)為例,方法學(xué)團(tuán)隊(duì)、臨床醫(yī)生與信息團(tuán)隊(duì)共同確定了10 大類(基本信息、病史特點(diǎn)、術(shù)前檢驗(yàn)檢查等)168 個(gè)數(shù)據(jù)項(xiàng),通過(guò)對(duì)每個(gè)數(shù)據(jù)項(xiàng)來(lái)源及提取規(guī)則的分析驗(yàn)證,最終確定可以直接映射的變量31 個(gè),需要自然語(yǔ)言處理后再進(jìn)行歸一處理的變量48 個(gè),需要進(jìn)行邏輯加工的變量47 個(gè),手工錄入的變量42 個(gè),數(shù)據(jù)回填率達(dá)75%。
(2)研究對(duì)象的隨訪與維持。專病隊(duì)列管理平臺(tái)支持對(duì)專病隊(duì)列中的全部或部分研究對(duì)象進(jìn)行隨訪。可以根據(jù)訪視計(jì)劃自動(dòng)展示每天應(yīng)隨訪的研究對(duì)象,形成隨訪日歷,并通過(guò)移動(dòng)端(如微信、APP)的用藥提醒、用藥指導(dǎo)、留言咨詢、宣教推送等方式,輔助提高患者依從性。
臨床數(shù)據(jù)分析平臺(tái)與專病隊(duì)列管理平臺(tái)作為支持真實(shí)世界研究的兩個(gè)重要工具,兩者在數(shù)據(jù)類型、采集方式、治理程度等方面均不同(見(jiàn)表1),在實(shí)際工作中研究者應(yīng)根據(jù)基于研究目的,選擇在現(xiàn)有資源條件下最適合的工具。

表1 臨床數(shù)據(jù)分析平臺(tái)與專病隊(duì)列管理平臺(tái)的對(duì)比分析
信息技術(shù)的快速發(fā)展,為開(kāi)展真實(shí)世界研究提供了更高質(zhì)量的數(shù)據(jù)基礎(chǔ)和更高效的數(shù)據(jù)獲取效率。利用不同科研平臺(tái)構(gòu)建的數(shù)據(jù)庫(kù)并不代表數(shù)據(jù)質(zhì)量的絕對(duì)高低,科學(xué)的設(shè)計(jì)、嚴(yán)格的實(shí)施和分析才是高質(zhì)量研究數(shù)據(jù)的關(guān)鍵[5]。隨著信息技術(shù)和人工智能的快速發(fā)展,真實(shí)世界證據(jù)生產(chǎn)涉及的多個(gè)專業(yè)領(lǐng)域(包括臨床醫(yī)學(xué)、流行病學(xué)、統(tǒng)計(jì)學(xué)、信息學(xué)等)之間的交叉融合將更為明顯,對(duì)醫(yī)院信息技術(shù)專業(yè)人員也提出了更高的要求,一方面應(yīng)該掌握和應(yīng)用前沿信息技術(shù),如Hadoopd 大型集群技術(shù)、Hbase 非關(guān)系型數(shù)據(jù)庫(kù)技術(shù)、Map-Reduce、Spark Streaming 高效并行計(jì)算框架等技術(shù)[9];另一方面應(yīng)熟悉臨床業(yè)務(wù)流程,熟知數(shù)據(jù)來(lái)源,數(shù)據(jù)之間交互情況;除此以外還應(yīng)對(duì)流行病學(xué)、統(tǒng)計(jì)學(xué)以及人工智能等方面深入了解,這樣才能更好地支持醫(yī)院科研發(fā)展。