張正宇,于躍,周虎,趙文龍*
?
基于OMOP通用數(shù)據(jù)模型的FAERS數(shù)據(jù)庫標(biāo)準(zhǔn)化與數(shù)據(jù)挖掘
張正宇1,于躍2,周虎1,趙文龍1*
1. 重慶醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)院, 重慶 400016 2. 美國梅奧醫(yī)院數(shù)字醫(yī)學(xué)科學(xué)系, 明尼蘇達(dá)州 55901
應(yīng)用OMOP通用數(shù)據(jù)模型,對FAERS數(shù)據(jù)庫進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)化,通過標(biāo)準(zhǔn)化前后數(shù)據(jù)質(zhì)量與數(shù)據(jù)采集速度的對比分析,展示OMOP CDM在FAERS數(shù)據(jù)標(biāo)準(zhǔn)化程中的重要意義。然后,標(biāo)準(zhǔn)化的基礎(chǔ)上,對5-羥色胺再攝取抑制劑(Selective Serotonin Reuptake Inhibitor,SSRIs)藥物不良反應(yīng)信號進(jìn)行了挖掘,展示了基于“真實(shí)世界數(shù)據(jù)”的SSRIs上市后的安全信號的綜合挖掘結(jié)果,為后續(xù)用藥研究提供參考。
OMOP通用數(shù)據(jù)模型; 數(shù)據(jù)標(biāo)準(zhǔn)化; 數(shù)據(jù)挖掘; 藥品不良反應(yīng)
美國食品藥品監(jiān)督局的不良反應(yīng)上報(bào)系統(tǒng)數(shù)據(jù)庫(FDA Adverse Event Reporting System, FAERS)是世界范圍內(nèi)藥物監(jiān)管部門和學(xué)術(shù)界最常用的藥物不良反應(yīng)檢測數(shù)據(jù)來源之一。但由于FAERS中的不良事件數(shù)據(jù)來源于自發(fā)上報(bào),因此其存在一定程度的數(shù)據(jù)質(zhì)量問題。隨著電子健康檔案(Electronic Health Records, EHR)數(shù)據(jù)庫的發(fā)展,使得應(yīng)用EHR的“真實(shí)世界數(shù)據(jù)”進(jìn)行藥物不良反應(yīng)檢測與驗(yàn)證成為了可能[1]。而EHR與FAERS數(shù)據(jù)的異質(zhì)性,給藥物不良反應(yīng)挖掘分析帶來了困難。因此,為了提高藥物不良反應(yīng)信號挖掘的準(zhǔn)確性,對并且為未來FAERS與EHR相結(jié)合進(jìn)行數(shù)據(jù)挖掘提供統(tǒng)一的標(biāo)準(zhǔn)化數(shù)據(jù),亟需對FAERS進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。
健康觀測數(shù)據(jù)科學(xué)和信息學(xué)組織(Observational Health Data Sciences and Informatics,OHDSI)開發(fā)的觀察醫(yī)療結(jié)果合作項(xiàng)目通用數(shù)據(jù)模型(Observational Medical Outcomes Partnership Common Data Model, OMOP CDM)為FAERS數(shù)據(jù)庫的標(biāo)準(zhǔn)化和整合提供了框架[2]。OMOP CDM是一個為醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化而設(shè)計(jì)的數(shù)據(jù)模型,其基本思想是通過統(tǒng)一的數(shù)據(jù)模型與醫(yī)學(xué)概念詞匯表示,使得不同來源的醫(yī)學(xué)數(shù)據(jù)以統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行整合。
本課題組的于躍等[3]開發(fā)了數(shù)據(jù)庫轉(zhuǎn)化工具ADEpedia-on-OHDSI,該工具具有較高的數(shù)據(jù)轉(zhuǎn)化率,可以將FAERS數(shù)據(jù)庫較為完整的轉(zhuǎn)化為OMOP CDM格式。本文在基于OMOP CDM對FAERS 數(shù)據(jù)庫進(jìn)行標(biāo)準(zhǔn)化的基礎(chǔ)上,對5-羥色胺再攝取抑制劑(Selective Serotonin Reuptake Inhibitor,SSRIs)藥物不良反應(yīng)信號進(jìn)行了挖掘。通過標(biāo)準(zhǔn)化前后數(shù)據(jù)質(zhì)量的對比分析,展示OMOP CDM在FAERS數(shù)據(jù)標(biāo)準(zhǔn)化與挖掘過程中的重要意義。
數(shù)據(jù)來源于美國食品與藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)建立的藥品不良事件(Adverse Drug Event,ADE)上報(bào)系統(tǒng)(FDA Adverse Event Reporting System, FAERS)數(shù)據(jù)庫[4]。
在不良反應(yīng)挖掘研究對象的選擇上,選取臨床廣泛使用的SSRIs類抗抑郁藥物。選擇目前常用的五種SSRIs類藥物:共五種:氟西汀(Fluoxetine)、帕羅西汀(Paroxetine)、舍曲林(Sertraline)、氟伏沙明(Fluvoxamine)以及西酞普蘭(Citalopram)作為不良反應(yīng)挖掘的實(shí)驗(yàn)對象,并納入了2013年1月1日-2017年12月31日的藥品不良反應(yīng)(Adverse drug reaction,ADR)信號進(jìn)行檢測。
設(shè)計(jì)基于OMOP CDM的FAERS數(shù)據(jù)標(biāo)準(zhǔn)化與數(shù)據(jù)挖掘框架。整個框架主要分為三部分,F(xiàn)AERS數(shù)據(jù)標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)化藥物不良反應(yīng)數(shù)據(jù)查詢與提取,基于標(biāo)準(zhǔn)化數(shù)據(jù)的藥物不良反應(yīng)挖掘。
采用OHDSI組織開發(fā)的OMOP通用數(shù)據(jù)模型完成FAERS數(shù)據(jù)庫的標(biāo)準(zhǔn)化工作。OMOP CDM的最大特點(diǎn)是除了提供完備統(tǒng)一的標(biāo)準(zhǔn)化數(shù)據(jù)庫結(jié)構(gòu)外,還提供了用于醫(yī)學(xué)概念的標(biāo)準(zhǔn)化醫(yī)學(xué)詞匯表。OMOP CDM的基本結(jié)構(gòu)如圖1所示目前,OMOP CDM中共收錄了116種不同的醫(yī)學(xué)詞匯表/本體,并且通過同義詞表,為每一個醫(yī)學(xué)數(shù)據(jù)設(shè)定一個標(biāo)準(zhǔn)的概念映射,使不同數(shù)據(jù)庫之間醫(yī)學(xué)概念描述的差異化問題得到了解決。

圖 1 OMOP CDM結(jié)構(gòu)示意圖

圖 2 表級別FAERS-OMOP CDM數(shù)據(jù)結(jié)構(gòu)匹配
在FAERS數(shù)據(jù)庫的標(biāo)準(zhǔn)化方面,采用ADEpedia-on-OHDSI工具[3]將FAERS轉(zhuǎn)化成為了OMOP CDM格式。其基本轉(zhuǎn)化流程分為四步。1)數(shù)據(jù)預(yù)處理。應(yīng)用斯坦福大學(xué)Banda等人開發(fā)的AEOLUS工具[5],完成對FAERS原數(shù)據(jù)中進(jìn)行數(shù)據(jù)去重與藥物名稱標(biāo)準(zhǔn)化等預(yù)處理工作。經(jīng)AEOLUS工具處理后FAERS數(shù)據(jù)庫中的藥物名稱被映射到RxNorm藥物標(biāo)準(zhǔn)化本體[6],完成藥物名稱的標(biāo)準(zhǔn)化工作。2)數(shù)據(jù)結(jié)構(gòu)匹配。將FAERS原始的數(shù)據(jù)結(jié)構(gòu)與OMOP CDM的數(shù)據(jù)框架在邏輯上進(jìn)行了匹配,用以指導(dǎo)進(jìn)一步的數(shù)據(jù)轉(zhuǎn)換工作。主要包括表級別的匹配和字段級別的匹配。表級別的匹配結(jié)果如圖2所示。3)數(shù)據(jù)提取、轉(zhuǎn)化與加載。在邏輯匹配的基礎(chǔ)上,根據(jù)OMOP CDM的具體要求,對FAERS原數(shù)據(jù)進(jìn)行了數(shù)據(jù)的具體轉(zhuǎn)化工作。數(shù)據(jù)提取、轉(zhuǎn)化與加載內(nèi)容具體包括:數(shù)據(jù)類型的轉(zhuǎn)換、醫(yī)學(xué)概念數(shù)據(jù)的標(biāo)準(zhǔn)化、數(shù)據(jù)計(jì)算、遺失數(shù)據(jù)插補(bǔ)、數(shù)據(jù)加載等流程。4)標(biāo)準(zhǔn)化結(jié)果評價(jià),為了對數(shù)據(jù)標(biāo)準(zhǔn)化的結(jié)果進(jìn)行評估,還對數(shù)據(jù)的轉(zhuǎn)化率、醫(yī)學(xué)概念匹配的正確率、數(shù)據(jù)計(jì)算插補(bǔ)的準(zhǔn)確率等進(jìn)行了評估。以反應(yīng)整個FAERS數(shù)據(jù)庫轉(zhuǎn)換的效果。
應(yīng)用OMOP CDM進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化與整合的一個重要目的,就是為了實(shí)現(xiàn)標(biāo)準(zhǔn)化的數(shù)據(jù)查詢與提取。由于OMOP CDM中所有的醫(yī)學(xué)數(shù)據(jù)均會匹配到標(biāo)準(zhǔn)詞匯表中的概念上,因此只要根據(jù)標(biāo)準(zhǔn)詞匯制定標(biāo)準(zhǔn)化的查詢語句,就可以實(shí)現(xiàn)不同數(shù)據(jù)庫、甚至不同機(jī)構(gòu)之間的標(biāo)注化數(shù)據(jù)查詢與提取,既實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)的標(biāo)準(zhǔn)化查詢,又節(jié)省了編寫查詢語句的人力與時(shí)間。
數(shù)據(jù)提取采用根據(jù)OMOP CDM首選用于標(biāo)注藥物概念的RxNorm藥物標(biāo)本體獲取SSRIs的各具體藥物規(guī)范名稱與概念唯一標(biāo)識符(RxCUI)與相對應(yīng)的OMOP概念標(biāo)識符。進(jìn)而根據(jù)編寫標(biāo)準(zhǔn)化的SQL查詢語句完成標(biāo)準(zhǔn)化數(shù)據(jù)的提取。數(shù)據(jù)提取完成后還要轉(zhuǎn)置成為“藥物-不良反應(yīng)”矩陣格式,以備接下來的數(shù)據(jù)挖掘研究使用。
基于藥品不良反應(yīng)的數(shù)據(jù)挖掘方法主要包括比例失衡法(Disproportionality Analysis,DPA)、信息成分法(Information component,IC)、MGPS相對比值比法(Multi-item gamma passion shrinker,MGPS)、和聚類分析法(clustering or database segmentation)等。其中比例失衡算法包括報(bào)告比值比法(Reporting odd radio,ROR)、比例報(bào)告比值比法(Proportional reporting radio,PRR)、和貝葉斯置信傳播神經(jīng)網(wǎng)絡(luò)算法(Bayesian Confidence Propagation Neural Network,BCPNN)等。ROR法具有較高靈敏度,早期發(fā)現(xiàn)ADR信號的能力較好,故采用該方法。警戒信號檢測標(biāo)準(zhǔn)為:(1)a≥3;(2)ROR 95%CI下限>1提示生成1個可疑藥物不良反應(yīng)信號。
MedDRA不僅用于對藥品不良事件的規(guī)范化處理和編碼,還提供藥品不良事件的分類信息。將挖掘出的ADR信號按照MedDRA的系統(tǒng)器官分類(System organ class,SOC)進(jìn)行統(tǒng)計(jì)整理。MedDRA所有術(shù)語都被賦予唯一的編碼,并將其分為系統(tǒng)器官分類、高位組語(High Level Group Term,HLGT)、高位語(High Level Term,HLT)、首選語(PT)和低位語(Lowest Level Term,LLT)5個層級。基本單元是PT,用于對醫(yī)療事件進(jìn)行劃分和檢索。采用MedDRA19.0版本對藥品不良事件記錄在26個SOC分類上的分布情況進(jìn)行統(tǒng)計(jì)。并應(yīng)用雙聚類算法,繪制不良反應(yīng)信號的熱圖,以實(shí)現(xiàn)挖掘結(jié)果的可視化展示。
從FAERS官網(wǎng)上下載2013年1月1日-2017年12月31日的數(shù)據(jù)進(jìn)行試驗(yàn)。FAERS原始數(shù)據(jù)中共有病人數(shù)據(jù)11 904 580條,經(jīng)過去重復(fù)后,病人數(shù)據(jù)為9,956,310條。進(jìn)一步對去重復(fù)后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化并將其存入OMOP CDM數(shù)據(jù)庫中。兩個數(shù)據(jù)庫主要表格間的轉(zhuǎn)化結(jié)果如表1所示。從表1可以看出,F(xiàn)AERS數(shù)據(jù)庫中患者基本數(shù)據(jù),臨床用藥數(shù)據(jù),用藥適應(yīng)癥數(shù)據(jù)均全部加載到了OMOP CDM相對應(yīng)的表中。而FAERS中的不良反應(yīng)數(shù)據(jù)和臨床結(jié)果數(shù)據(jù)也被全部轉(zhuǎn)加載到OMOP CDM的OBSERVATION中(OBSERVATION表中數(shù)據(jù)總數(shù)等于FAERS數(shù)據(jù)庫中REAC和OUTC兩個表數(shù)據(jù)總數(shù)之和)。
另外,本研究同樣調(diào)查了數(shù)據(jù)庫中醫(yī)學(xué)概念數(shù)據(jù)標(biāo)準(zhǔn)化的準(zhǔn)確率。其中,藥物名稱匹配成功率約為94%,僅有6%左右的藥物名稱無法被匹配到OMOP CDM規(guī)定的RxNorm標(biāo)準(zhǔn)藥物概念上。而不良反應(yīng)概念與適應(yīng)癥概念由于FAERS中已經(jīng)應(yīng)用MedDRA詞表對其進(jìn)行標(biāo)注。因此其可以全部轉(zhuǎn)化到OMOP CDM的標(biāo)準(zhǔn)概念上。另外,患者的性別、國籍、服藥方式、服藥劑量等等相關(guān)概念的匹配成功率均在94%以上。說明轉(zhuǎn)化過程中的信息損失較小,不會對后續(xù)分析結(jié)果造成較大影響。

表 1 FAERS與OMOP CDM數(shù)據(jù)庫標(biāo)準(zhǔn)化前后主要表格數(shù)據(jù)比較
經(jīng)ROR法計(jì)算得到的五種SSRIs類藥物不良反應(yīng)信號數(shù)量如圖3所示。其中共有ADR信號187例。
進(jìn)一步對不良反應(yīng)信號MedDRA術(shù)語集進(jìn)行SOC分類,共涉及到26個SOC。繪制熱點(diǎn)圖(HeatMap)對挖掘出的不良反應(yīng)信號在人類系統(tǒng)器官級別分類層次進(jìn)行可視化展示。由圖4可見,藥物不良反應(yīng)累積的器官/系統(tǒng)主要集中在各類精神類疾病、神經(jīng)系統(tǒng)疾病、各類檢查、胃腸道系統(tǒng)以及血管及淋巴管等系統(tǒng)。

圖 3 SSRIs類藥物不良反應(yīng)信號數(shù)量
Fig.3 Number of adverse reaction signals of SSRIs

圖 4 SSRIs-SOC分類層次不良反應(yīng)信號熱點(diǎn)圖
圖4展示了藥品不良反應(yīng)信號的分布狀況。橫軸代表SSRIs藥物的類別,縱軸代表不良事件的SOC分類,行與列的交叉處的每個小格代表曲坦類藥物和SOC分類的組合。每個小格的顏色代表著不良反應(yīng)信號的頻數(shù)值,顏色越深,頻數(shù)越大。白色代表著該“藥品-SOC分類組合”沒有探測到藥品不良反應(yīng)信號。
該熱點(diǎn)圖從SSRIs類別和不良事件SOC兩個維度對不良反應(yīng)信號進(jìn)行了聚類分析。首先,從圖左側(cè)的聚類樹可以看出,主要可以分成兩個大類:1)氟西汀、帕羅西汀、舍曲林及西酞普蘭涵蓋了所有不同層次的不良反應(yīng)事件,因此將其聚類在相同的類團(tuán)下;2)氟伏沙明挖掘出的不良反應(yīng)信號較少,被單獨(dú)聚到一個類團(tuán)。相比較氟西汀和帕羅西汀,舍曲林和西酞普蘭挖掘出的不良反應(yīng)信號相對較少,因此該四種藥品種又進(jìn)一步進(jìn)行劃分。從圖上側(cè)的聚類樹可以看出,5種SSRIs類藥物所探測的藥物不良反應(yīng)信號多集中在“各類神經(jīng)系統(tǒng)疾病”至“各類精神疾病”、“各類檢查”至“各種先天性、家族性及遺傳性疾病”、“血管及淋巴管類疾病”至“胃腸系統(tǒng)疾病”的6個SOC分類上,其中氟西汀檢測到的危險(xiǎn)信號高達(dá)1583個,氟伏沙明危險(xiǎn)信號最少,僅有429個。
目前,應(yīng)用FAERS及其它EHR進(jìn)行信號挖掘成為目前藥品上市后安全性再評價(jià)的研究熱點(diǎn)。而數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量問題和不同數(shù)據(jù)庫之間數(shù)據(jù)異構(gòu)化的問題是未來藥物不良反應(yīng)檢測索要面對的主要困難之一。通過OMOP CDM對FAERS數(shù)據(jù)庫進(jìn)行了標(biāo)準(zhǔn)化轉(zhuǎn)化,轉(zhuǎn)化前后的信息損失僅6%左右,不會對后續(xù)的挖掘分析造成重大影響。基于OMOP CDM的FAERS數(shù)據(jù)庫標(biāo)準(zhǔn)化優(yōu)勢在于其提高了數(shù)據(jù)的質(zhì)量,可以制定可重復(fù)使用的標(biāo)準(zhǔn)化查詢,提高了數(shù)據(jù)采集的速度,為未來更多數(shù)據(jù)庫的整合提供了可能。綜上所述,本研究為基于“真實(shí)世界數(shù)據(jù)”藥物警戒監(jiān)測工作奠定了基礎(chǔ)。
[1] Zhou X, Murugesan S, Bhullar H,. An evaluation of the THIN database in the OMOP common data model for active drug safety surveillance[J]. Drug safety, 2013,36(2):119-134
[2] Hripcsak G, Duke JD, Shah NH,. Observational health data sciences and informatics (OHDSI): opportunities for observational researchers[J]. Studies in health technology and informatics, 2015,216:574-578
[3] Yu Y, Ruddy KJ, Hong N,. ADE pedia-on-OHDSI: a next generation pharmacovigilance signal detection platform using the OHDSI common data model[J]. Journal of biomedical informatics, 2019,91:103119
[4] FDA. Questions and answers on FDA's adverse event reporting system (FAERS)[EB/OL]. https://www.fda.gov/ drugs/surveillance/fda-adverse-event-reporting-system-faers.html, 2018-01-06/2018-02-06
[5] Banda JM, Evans L, Vanguri RS,. A curated and standardized adverse drug event resource to accelerate drug safety research[J]. Scientific data, 2016,3:160026
[6] Rothman KJ, Lanes S, Sacks ST. The reporting odds ratio and its advantages over the proportional reporting ratio[J]. Pharmacoepidemiology & drug safety, 2004,13(8):519-523
Standardization and Data Mining of FAERS Database Based on OMOP Common Data Model
ZHANG Zheng-yu1, YU Yue2, ZHOU Hu1, ZHAO Wen-long1*
1.400016,2.55901,
In this study, we utilize OMOM Common Data Model to standardize FAERS data set. And then we evaluate the transformation results to validate the significance of the FAERS standardization. Then, we implement a data mining research about 5 Selective Serotonin Reuptake Inhibitor (SSRIs) drugs base on the standardized FAERS database. The study based on ADR signals in the real world is helpful to evaluate the post-marking safety drugs and provide references for safety in clinical medication.
OMOP universal data model; data standardization; data mining; adverse drug reactions
TP274
A
1000-2324(2019)03-0434-04
10.3969/j.issn.1000-2324.2019.03.016
2018-03-05
2018-05-06
基于臨床大數(shù)據(jù)的醫(yī)療行為分析系統(tǒng)研究與開發(fā)(cstc2015shmszx10004)
張正宇(1994-),女,碩士研究生,主要研究方向?yàn)閿?shù)據(jù)挖掘和醫(yī)學(xué)信息. E-mail:389136875@qq.com
Author for correspondence. E-mail:cqzhaowl@163.com
山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版)2019年3期