萬程 顧宜卿 張昕 夏偉 郁蕓


[摘 要] 隨著現(xiàn)代信息化技術(shù)的發(fā)展,醫(yī)學事業(yè)與計算機行業(yè)的逐步交叉,醫(yī)學信息學相關(guān)專業(yè)由此產(chǎn)生。醫(yī)學信息工程專業(yè)的教學應(yīng)與實際臨床大數(shù)據(jù)緊密結(jié)合。面向醫(yī)學信息工程等專業(yè)課堂實踐教學需求,開展了學生關(guān)于臨床大數(shù)據(jù)學習態(tài)度的調(diào)研。根據(jù)調(diào)研結(jié)果基于通用數(shù)據(jù)模型(CDM)和隨機化仿真化技術(shù),生成了大規(guī)模核心臨床仿真大數(shù)據(jù)集合,開拓創(chuàng)新地設(shè)計了跨課程融通的仿真臨床大數(shù)據(jù)教學平臺,并將其應(yīng)用于實際教學,為學生開展科研培訓提供了可靠的訓練方式,教學效果得到了明顯提升。
[關(guān)鍵詞] 通用數(shù)據(jù)模型;仿真臨床大數(shù)據(jù);教學平臺
[基金項目] 2019年度南京醫(yī)科大學教育教學研究課題“基于CDM的仿真臨床大數(shù)據(jù)平臺的建設(shè)與應(yīng)用”(2019LX072)
[作者簡介] 萬 程(1979—),女,江蘇南京人,碩士,南京醫(yī)科大學生物醫(yī)學工程與信息學院講師,主要從事醫(yī)學信息學研究;顧宜卿(2002—),女,江蘇蘇州人,南京醫(yī)科大學生物醫(yī)學工程與信息學院2020級智能醫(yī)學與工程專業(yè)本科生,研究方向為醫(yī)學信息學;郁 蕓(1979—),女,江蘇南通人,碩士,南京醫(yī)科大學生物醫(yī)學工程與信息學院副教授(通信作者),主要從事醫(yī)學圖像處理研究。
[中圖分類號] G434? ?[文獻標識碼] A? ?[文章編號] 1674-9324(2021)50-0137-04? ? [收稿日期] 2021-04-25
一、引言
醫(yī)學信息工程是一門以信息科學和生命科學為主的多學科交叉與融合的新興綜合性學科[1]。近幾年來,醫(yī)療健康大數(shù)據(jù)的維度、廣度和深度都迅速增長。臨床大數(shù)據(jù)驅(qū)動的醫(yī)學新時代將引領(lǐng)醫(yī)學研究和實踐的轉(zhuǎn)型升級,推進醫(yī)療衛(wèi)生產(chǎn)業(yè)創(chuàng)新發(fā)展[2,3]。
但是,真實的臨床大數(shù)據(jù)來源于患者醫(yī)院就診的觀察數(shù)據(jù),涉及患者個人信息等隱私問題,再加上部分臨床數(shù)據(jù)的不完整性、冗余性和數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性,這些信息往往不能直接用于相關(guān)課程的教學和實踐活動。因此,迫切需要建設(shè)一個與真實臨床大數(shù)據(jù)相近的仿真數(shù)據(jù)平臺,將臨床大數(shù)據(jù)抽取、清理、集成并合理轉(zhuǎn)換,使其適用于醫(yī)學信息工程等醫(yī)學相關(guān)專業(yè)學生的教學學習。
二、方法
(一)通用數(shù)據(jù)模型OHDSI CDM
臨床診療數(shù)據(jù)伴隨治愈患者的目的產(chǎn)生,而研究數(shù)據(jù)旨在發(fā)現(xiàn)疾病的一般規(guī)律。不同的目的使得分散在多個業(yè)務(wù)系統(tǒng)(如HIS、LIS、PACS等)中的診療數(shù)據(jù)無法直接進入臨床科研數(shù)據(jù)庫[4]。
觀察性健康醫(yī)療數(shù)據(jù)科學與信息學(Observational Health Data Sciences and Informatics,OHDSI)計劃,是一個由美國哥倫比亞大學發(fā)起的,世界性的公益型非盈利研究聯(lián)盟,主要研究全方位醫(yī)學大數(shù)據(jù)分析的開源解決方案,旨在通過大規(guī)模數(shù)據(jù)分析和挖掘來提升臨床醫(yī)學數(shù)據(jù)價值,實現(xiàn)跨學科、跨行業(yè)的多方合作[5]。
通用數(shù)據(jù)模型(CommonData Model,CDM)是一種標準化的臨床數(shù)據(jù)描述模型。此過程構(gòu)建以定義數(shù)據(jù)之間相互關(guān)系的通用模型,描述特定信息字段中的概念,以便獲得可以在該領(lǐng)域即臨床數(shù)據(jù)中具有概括意義的結(jié)果。在CDM的基礎(chǔ)上,對臨床大數(shù)據(jù)進行整理后,可以使用相同的分析程序在不同的機構(gòu)內(nèi)進行臨床大數(shù)據(jù)分析。進一步地,可以通過標準化整合,得出多中心的、更大范圍的、多數(shù)據(jù)源的觀察性研究結(jié)論[6]。
在OHDSI的CDM中,由概念表示具體內(nèi)容,從而使各個臨床信息系統(tǒng)的數(shù)據(jù)規(guī)范化,可以實現(xiàn)對真實醫(yī)學臨床大數(shù)據(jù)的初步篩選。
(二)匿名化與隨機化仿真
由于患者就診數(shù)據(jù)屬于個人隱私范疇,必須通過去隱私化處理,才可以應(yīng)用于教學過程。匿名化及隨機仿真是常見的指刪除或修改數(shù)據(jù)擁有者的個人信息,以及帶有敏感屬性的明確標識符[7],是數(shù)據(jù)處理中有效保護隱私信息的技術(shù)方法之一。然而,現(xiàn)有的技術(shù)大多是先刪除身份標識屬性,在此過程中,丟失部分的信息可能會影響正常運作[8]。本文圍繞慢性病患者的疾病風險預(yù)測分析,通過匿名化與隨機化技術(shù),建立符合真實的疾病規(guī)律和特征的仿真就診記錄,便于面向慢性疾病的臨床大數(shù)據(jù)研究及其他相關(guān)工作。
匿名化與隨機化對臨床數(shù)據(jù)進行仿真過程主要包括以下步驟:第一,通過隨機化映射,在脫敏后的數(shù)據(jù)集增加仿真的患者個人信息,填補缺漏數(shù)據(jù),使得在保護患者真實隱私數(shù)據(jù)后,仍可以正常進行對疾病數(shù)據(jù)的初步研究。第二,通過時間軌跡映射,虛擬化就診數(shù)據(jù)的時序信息,對患者的真實就診時間進行調(diào)整重排,隨機且合理設(shè)置仿真時間。第三,通過臨床特征映射,進行檢驗樣本的虛擬化,在保護重要特征樣本的同時保留數(shù)據(jù)集中蘊含的臨床特征。
在仿真過程中,首先將患者的個人信息按性別、年齡(每10年為1組)分層,每層中分別再各自采用回歸預(yù)測方法(regression predict method)建立預(yù)測模型,傾向得分法(Propensity Score Method)計算原理及其受到干預(yù)的可能性,再用蒙特卡羅的馬爾科夫鏈方法(Markov Chain Monte Carlo,MCMC)隨機化分析處理變量,對原先臨床信息樣本中缺失的數(shù)據(jù)采用多重插補法進行10次插補,并形成5個獨立同分布的仿真數(shù)據(jù)集。
(三)調(diào)查對象與方法
1.調(diào)查對象:南京醫(yī)科大學、徐州醫(yī)科大學、江蘇衛(wèi)生健康學院等醫(yī)學相關(guān)院校部分學生,共680名。其中男生250名,占總?cè)藬?shù)的36.8%,女生430名,占總?cè)藬?shù)的63.2%。大一學生413名,大二學生154名,大三學生65名,大四學生11名,大五學生7名,研究生及以上30名。醫(yī)學相關(guān)專業(yè)學生380名,醫(yī)學信息學及智能醫(yī)學專業(yè)學生79名,其他專業(yè)學生221名。
2.調(diào)查方法:通過問卷星平臺發(fā)放“關(guān)于人工智能結(jié)合醫(yī)學學習的調(diào)查”,生成問卷二維碼邀請學生掃描后獨立填寫。本次調(diào)查共回收680份問卷,其中有效問卷680份,有效率100%。問卷調(diào)查結(jié)束后,使用SPSS進行相關(guān)統(tǒng)計分析。
3.調(diào)查內(nèi)容:調(diào)查問卷主要包括三方面:(1)學生對臨床大數(shù)據(jù)基本知識的了解程度;(2)學生課堂學習與教師教學模式;(3)學生學習結(jié)合臨床大數(shù)據(jù)的興趣及需求情況。
三、結(jié)果
(一)大規(guī)模仿真教學數(shù)據(jù)集CDM_SADT
本研究采集了南京醫(yī)科大學附屬第一醫(yī)院,即江蘇省人民醫(yī)院自2008年1月至2017年6月期間,就診的糖尿病患者的去隱私化和匿名化脫敏CDM數(shù)據(jù),以診療過程為中心,采用上述匿名化與隨機化仿真方法,建立核心臨床仿真大數(shù)據(jù)集合CDM_SADT(CDM Based Simulated Anonymized Dataset for Teaching)。該集合共包括148624位患者的就診記錄,根據(jù)常用的疾病分析與預(yù)測模型的需求[9],篩選了21項常用的結(jié)構(gòu)化變量和3項非結(jié)構(gòu)化信息,包括患者的基本信息、既往病史、家族史、用藥史、檢驗檢查記錄等。
(二)跨課程融通的仿真臨床大數(shù)據(jù)平臺SADT_CIDP
南京醫(yī)科大學于2018年成立了醫(yī)學信息與工程專業(yè),并于2020年更新為智能醫(yī)學與工程專業(yè)。該專業(yè)以現(xiàn)代醫(yī)學和生物學理論為基礎(chǔ),結(jié)合大數(shù)據(jù)、機器學習、深度學習等相關(guān)工程技術(shù),強調(diào)醫(yī)工結(jié)合的多元復(fù)合型人才培養(yǎng),采用多模式教學,主要研究醫(yī)學信息學、自然語言處理、醫(yī)學人工智能等領(lǐng)域。
該專業(yè)開設(shè)了多門醫(yī)學與數(shù)據(jù)科學、計算機科學相交叉的專業(yè)類課程。在構(gòu)建好的核心數(shù)據(jù)集的基礎(chǔ)上,根據(jù)不同課程的需求分別建立了跨課程融通的仿真臨床大數(shù)據(jù)平臺SADT_CIDP(SADT Based Cross-curriculum Integrated Data Platform),以滿足跨課程融通的臨床數(shù)據(jù)分析教學要求。該平臺包括四種數(shù)據(jù)集,各數(shù)據(jù)集與課程的相關(guān)性見圖1。
面向自然語言處理課程的非結(jié)構(gòu)化電子病歷仿真數(shù)據(jù)集(NLP_EHR,Simulated Natural Language Processing Dataset Based on Simulated Electric Health Record),服務(wù)于“醫(yī)學知識表示與處理”“自然語言處理與醫(yī)學應(yīng)用”課程,主要被應(yīng)用于臨床病歷特征提取、公共健康信息分析、智能健康問答等領(lǐng)域。
面向數(shù)據(jù)庫管理課程的關(guān)系型臨床觀察數(shù)據(jù)庫(RD_CDM,Relational Database Based on Commen Data Model),服務(wù)于“數(shù)據(jù)庫管理與應(yīng)用”類課程,提供仿真臨床觀察性數(shù)據(jù)庫,培養(yǎng)學生對觀察性健康醫(yī)療數(shù)據(jù)的數(shù)據(jù)庫管理能力。
面向統(tǒng)計類課程的疾病風險預(yù)測結(jié)構(gòu)化數(shù)據(jù)集(SD_DRP,Structured Dataset Based on Disease Risk Prediction),服務(wù)于醫(yī)學統(tǒng)計學課程,豐富了課程的實例數(shù)據(jù),擴展了問題導向的案例教學的案例集。
面向“智能”類課程的多模態(tài)融合數(shù)據(jù)集(MFD_EHR,Multimodality Fusion Dataset Based on Imulated Electric Health Record),服務(wù)于程序設(shè)計、深度學習與醫(yī)學應(yīng)用、計算機視覺、醫(yī)學大數(shù)據(jù)導論等課程,融合了來源于CDM的結(jié)構(gòu)化數(shù)據(jù)、來源于EHR脫敏后的自然語言文本和醫(yī)學影像數(shù)據(jù),為學生提供深度多模態(tài)數(shù)據(jù)的疾病風險預(yù)測案例,為學生開展研究性學習提供條件。
綜上所述,不同學科的教學均可通過該平臺調(diào)用不同類型格式的仿真臨床大數(shù)據(jù)集針對性進行課堂實踐運用。
(三)學習態(tài)度調(diào)查
據(jù)問卷調(diào)查統(tǒng)計,185名學生在學習人工智能相關(guān)課程中使用過基于真實臨床大數(shù)據(jù)的數(shù)據(jù)集,僅占總?cè)藬?shù)的27.2%。90.4%的學生提出有興趣參與基于仿真臨床大數(shù)據(jù)的人工智能與臨床醫(yī)學的交叉研究,97.6%的學生認為使用仿真臨床大數(shù)據(jù)來開展基于案例的課程學習十分有必要(見表1)。由此可知,學生對于使用仿真臨床數(shù)據(jù)輔助課程學習的想法十分強烈。另外,56%的學生也認為在學習人工智能相關(guān)知識時,實驗中使用的數(shù)據(jù)集規(guī)模應(yīng)盡量接近真實臨床大數(shù)據(jù),此時經(jīng)過特定處理的仿真臨床大數(shù)據(jù)教學平臺就為數(shù)據(jù)集的選擇增加了可能性。
(四)教學應(yīng)用實踐
在智能醫(yī)學工程專業(yè)的“程序設(shè)計基礎(chǔ)(Python)”課程的教學中,課堂基于仿真臨床大數(shù)據(jù)教學平臺設(shè)計了教學案例——基于既往病史文本的發(fā)病年份的提取與分析。在該案例中,運用Python讀取病歷中的文本,再使用正則表達式提取患者發(fā)病年份,并計算程序的準確率,再進一步運用matplotlib庫繪圖使結(jié)構(gòu)數(shù)據(jù)可視化。學生在學習用Python程序?qū)xt文本文件處理的同時又真正接觸了接近真實的臨床大數(shù)據(jù),做到了課堂教學與實踐練習的有效結(jié)合。
通過課后調(diào)查得知,個別學生認為完成基于臨床數(shù)據(jù)的程序設(shè)計案例存在一定的挑戰(zhàn)性,但是90%以上的學生仍然都認同,采用基于臨床數(shù)據(jù)進行程序設(shè)計的學習,比采用普通的數(shù)據(jù)進行程序設(shè)計而言更有助于對專業(yè)課程的學習。
四、討論
用于多門數(shù)據(jù)分析相關(guān)課程的實踐教學平臺為南京醫(yī)科大學的醫(yī)學信息工程等專業(yè)多門專業(yè)課程的教學提供了融通的數(shù)據(jù)平臺,能滿足多種復(fù)雜的教學需求。平臺建設(shè)應(yīng)用實踐證明,仿真臨床大數(shù)據(jù)教學有助于提高學生對課堂教學內(nèi)容的理解程度,接觸臨床數(shù)據(jù)也為學生學習增強了模擬效果。總之,該仿真數(shù)據(jù)平臺較好地處理了運用臨床大數(shù)據(jù)在教學過程中存在的隱私保護和數(shù)據(jù)安全問題,為學生開展科研培訓提供了可靠的訓練方式。因此,我們將進一步建設(shè)為我校醫(yī)工交叉的其他專業(yè)學生培養(yǎng)所需的大數(shù)據(jù)分析的綜合數(shù)據(jù)平臺,使臨床大數(shù)據(jù)在教學中發(fā)揮其應(yīng)有的作用。
(課題組成員:萬程、顧宜卿、張昕、夏偉、郁蕓、周高信、王俊杰、胡杰)
參考文獻
[1]王能河,阮若林,彭微.醫(yī)學信息工程專業(yè)教育發(fā)展戰(zhàn)略探究[J].黑龍江教育(高教研究與評估),2016(7):11-13.
[2]李慧杰,張晴晴,劉瑞紅,等.大數(shù)據(jù)背景下臨床專病數(shù)據(jù)庫建設(shè)實踐與思考[J].中國衛(wèi)生事業(yè)管理,2020,37(8):574-576+591.
[3]葉永飛,張曉,趙志升.大數(shù)據(jù)環(huán)境下的醫(yī)學信息學專業(yè)課程建設(shè)[J].課程教育研究,2015(3):76-77.
[4]李丹彤,梁會營,劉廣建.臨床科研數(shù)據(jù)庫建設(shè)中的數(shù)據(jù)標準化問題探討[J].中國數(shù)字醫(yī)學,2021,16(1):29-34.
[5]張昕,繆姝妹,戴作雷,等.臨床數(shù)據(jù)向通用數(shù)據(jù)模型轉(zhuǎn)換研究及應(yīng)用實踐[J].中國數(shù)字醫(yī)學,2018,13(10):64-67.
[6]Association AD. 8. Cardiovascular disease and risk man- agemen[J].Diabetes care,2016(39):S60-S71.
[7]程德生,萬晶,宋國彩,等.中醫(yī)藥大數(shù)據(jù)云服務(wù)平臺的醫(yī)療數(shù)據(jù)安全隱私保護設(shè)計[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021(2):122-124.
[8]史婷瑤,馬金剛,曹慧,等.醫(yī)療大數(shù)據(jù)隱私保護技術(shù)的研究進展[J].中國醫(yī)療設(shè)備,2019,34(5):163-166.
[9]Yusuf S, Joseph P, Rangarajan S, et al. Modifiable risk factors, cardiovascular disease, and mortality in 155 722 individuals from 21 high-income, middle-income, and low-income countries (PURE): a prospective cohort study[J].The Lancet,2020,395(10226):795-808.