癌癥是嚴重威脅人民群眾健康的重大公共衛生問題。近年來我國癌癥發病率、死亡率呈逐年上升趨勢,給家庭和社會造成重大經濟負擔,也是當前社會重大民生“痛點”。黨中央、國務院高度重視抗癌新藥的注冊和審批工作,2018年以來,李克強總理3次主持召開國務院常務會議,對加快抗癌新藥的上市等議題做出了重要部署。2018年10月10日,國家醫療保障局宣布將阿扎胞苷、阿法替尼等17種抗癌藥物納入國家醫療保障體系[1]。其中包括12個實體腫瘤藥和5個血液腫瘤藥,均為臨床必需、療效確切、參保人員需求迫切的腫瘤治療藥品,涉及非小細胞肺癌、腎癌、結直腸癌、黑色素瘤、淋巴瘤等多個癌種。
黑色素瘤已成為世界上發病率增長最快的惡性腫瘤之一,年發病增長率為3%~5%。我國黑色素瘤患者也呈現快速增長的趨勢,每年新發病例約2萬例。根據個體遺傳基因的差異指導合理用藥,是精準醫療所要實現的目標之一。發現與藥物效用相關的遺傳因素和靶標分子,并將其應用于藥物設計和臨床實踐中,對于新藥研發、精準施藥和提高藥物治療效果有十分重要的意義。在這些新藥的研發過程中,藥物基因組學(Pharmacogenomics)的研究發揮了重要作用。Gay等人[2]報道了2例肺癌患者在出現NGR1基因融合后使用阿法替尼(40mg qd)治療,極大地改善了患者咳嗽和氣短等癥狀,是老藥新用的一個典型案例;Hida等人[3]的研究表明針對克唑替尼耐藥開發出新一代ALK 抑制劑艾樂替尼,能夠使非小細胞肺癌惡化或死亡風險降低66%。
在藥物基因組學研究中,隨著海量數據的累積,越來越需要信息領域的專業人員對規模急速增長和內容紛繁復雜的藥物基因組大數據進行收集、整理、建模與挖掘。這些數據能夠從不同層次反映藥物與基因、藥物與疾病系統之間更精細的信息。本文擬從抗癌藥物的個性化用藥入手,整合抗癌藥物領域的異構數據,設計涵蓋藥物、基因、疾病在內的藥物基因組學知識表示模型,并重點將知識圖譜的語義類型擴充到藥物服用方式、藥物使用劑量、藥物副作用等個性化用藥信息和藥物副作用維度。
從數據組織形式上可將藥物基因組學異構數據分為詞表、數據庫、非結構化文本文檔和通用本體庫等。
詞表包括醫學主題詞表(Medical Subject Headings,MeSH)、國際疾病分類(International Classification of Disease,ICD)、美國癌癥中心分類詞匯匯編(NCI’s thesaurus,NCIt)、醫學系統命名法-臨床術語(Systematized Nomenclature of Human and Veterinary Medicine-Clinical Term,SNOMED-CT)等。
DrugBank:包含藥物的基本信息及藥理學、藥物間相互作用、藥物基因組學、相關臨床試驗、藥物毒性、藥物靶點的信息;PharmGKB(The Pharmacogenomics Knowledgebase):收集、審編和開放共享具有臨床意義的基因-藥物關系和基因-表型關系知識[4];RxNorm:臨床藥物標準命名表,以規范化形式(即活性成分+劑量+劑型以及商品名稱)來表示臨床藥物[5];SIDER(Side Effect Resource):是從藥物說明書中和公開的文件中提取的上市藥物的不良反應數據庫,包括藥物適應癥、不良反應發生頻率、不良反應分類和藥物-靶標關系的鏈接方面的數據;DisGeNET:是整合多種資源的人類疾病-基因-變異的數據庫。
美國食品藥品監督管理局(Food and Drug Administration,FDA):美國批準上市的藥品及藥品使用說明書詳細信息;電子病歷:以非結構化的文本形式記錄患者在醫院診斷治療的全過程,通常包含首頁、病程記錄、檢查檢驗結果、醫囑、手術記錄、護理記錄等信息。
基因本體(Gene Ontology,GO):是對跨物種和跨數據庫的基因表達和基因產物屬性進行結構化及定義精確的描述,旨在統一各種基因產物數據庫的信息表達方式;疾病本體(Disease Ontology,DO):提供一個與人類疾病相關的整合生物醫學數據的開源本體,以促進各種疾病及相關健康狀況向特定醫學代碼的映射。
知識表示模型的構建可以理解為是一種結構化的有向圖集合,其中圖的節點代表實體或者概念,邊代表實體/概念之間的語義關系,最終組成“實體-關系-實體”三元組[6]。基于上文提到的藥物基因組學數據資源,國內外研究者開展了一系列的知識表示模型構建和跨緯度的藥物、基因、疾病信息挖掘研究。
在國外,Meng Wang等人[7]利用ICD-9和DrugBank知識,通過構建層次化知識圖譜獲取電子醫學病歷中患者、疾病和藥物之間的關系,最后實現了安全用藥的信息整合與挖掘;Michel Dumontier等人[8]利用PharmGKB數據構建了一個輕量型本體,包含40個核心概念,共涉及藥物、表型、基因型、藥物治療多個領域的藥物基因組學本體(Pharmacogenomics Ontology,PO);Boyce R D[9]等人利用從美國食品藥品監督管理局(FDA)獲取的包含藥物基因組信息的藥物標簽提取藥物-生物標記物關系,將這些提取的概念及關系標準、完整地表示出來,從而構建藥物基因組語義模型。在國內,藥物基因組學知識整合的相關工作也逐漸引起關注。弓孟春[10]等人提出了藥物基因組學臨床部署的總體框架,引導精準醫學臨床實踐的發展方向,構建基于中國人群數據的知識庫體系;邢玉華[11]等人對2型糖尿病治療藥物及其相關的基因多態性信息進行了闡述。
通過分析以上研究發現,目前開展的藥物知識表示涉及的語義類型通常僅限于藥物、基因、疾病,而對藥物服用方式、藥物使用劑量調整、適用人群、藥物副作用等個性化用藥信息沒有深入探究和描述,能夠輔助臨床醫生、臨床藥師精準用藥的藥物基因組學知識表示研究十分有限。因此開展面向精準用藥的藥物基因組學知識表示模型構建研究具有現實意義。
知識表示模型的構建方法分為自頂向下(top-down)和自底向上(bottom-up)兩種[12]。自頂向下構建方法是從高質量的結構化數據中提取本體和模式信息,構建出知識圖譜的框架;自底向上構建方法是從實體層出發,提取開放共享數據源中的有效信息,經人工審核后,加入到知識庫中。本文采用兩種方法結合的構建方式,即先構建知識表示框架,再提取開放數據源中的有效信息,完成知識表示模型的實例填充。
框架設計過程中需明確知識組織的語義類型和表示方式,如以網絡的形式表示知識,構建三元組關系。通過對現有的藥物基因組知識表示模型的分析,在藥物、基因、疾病3種常見語義類型的基礎上,擴充抗癌藥物基因組學知識表示模型的語義類型,涵蓋藥物、基因、基因變異、疾病(適應癥、疾病發生部位等)、個性化用藥(服用方式、服用頻率、適用人群、服用劑量、劑量調整等)、不良反應等多個維度。抗癌藥物基因組知識表示框架涵蓋的類及屬性如表1所示。

表1 抗癌藥物基因組學知識表示框架涵蓋的類及屬性
信息整合和知識抽取指通過人工或者自動化技術,從結構化、半結構化或非結構化的開放醫學數據中提取出知識表示模型所涉及的基本組成元素,包括實體、屬性和關系等,組成有效的三元組形式存入數據庫中。下面以黑色素瘤疾病的相關用藥為例,進行相關實體、屬性及語義關系的抽取。
3.2.1 實體及屬性抽取
多數黑色素瘤疾病的發生是由BRAF基因突變引起的。從美國食品藥品監督管理局(FDA)公布的藥品說明書數據中,通過人工標注的方法獲取能夠靶向治療BRAF基因突變引起的黑色素瘤的藥物,以及存在藥物相互作用關系的藥物數據,包括Binimetinib、Cobimetinib、Dabrafenib、Encorafenib、Nivolumab、Trametinib和Vemurafenib。其中,Dabrafenib、Encorafenib和Vemurafenib是BRAF基因突變的靶向藥物。從DrugBank和PharmGKB數據庫中解析以上7種藥物的屬性信息,包括藥物名稱、藥物描述、化學式、分子量、商品名等;從RxNorm數據庫獲取藥物及劑量、劑型、用藥頻率等屬性信息。
3.2.2 語義關系定義及抽取
語義關系抽取是知識表示模型構建的重要環節之一。本文語義關系抽取的重點是抽取疾病和藥物、疾病和癥狀、疾病和基因、疾病和疾病、藥物和癥狀、藥物和藥物等實體間的關聯關系,從而為患者和領域專家提供支持。
本文圍繞藥物、基因、突變、疾病、用藥劑量、復用方式、不良反應等制定了15種語義關系。其中一級語義關系10種,二級語義關系5種,并對每一種語義關系進行了詳細定義(表2)。通過人工標注的方法,對上文提到的7種藥物的藥品說明書信息進行標注和語義關系抽取,并將抽取出的語義關系與已經定義的15種語義關系進行概念歸并,如“in combination with”=“synergized by”,“recommended dosage”=“routine dosage”。

表2 語義關系定義
對美國食品藥品監督管理局公布的藥品說明書數據進行實體和語義關系抽取的示例如圖1所示。根據實體、屬性及語義關系的抽取結果,繪制抗癌藥物基因組知識表示框架的示意圖(圖2)。圖2涵蓋了藥物、基因、突變、疾病、劑量/劑型、人群、不良反應等實體,并構建了實體與實體之間的語義關系。

圖1 實體及語義關系抽取示例

圖2 抗癌藥物基因組知識表示示意圖
將Trametinib等7種藥物及相關實體填充到知識表示模型中,最終黑色素瘤相關藥物的知識表示模型共包含了136個三元組。其中涉及7種藥物及其對應劑量、劑型,1種基因及相關的3種基因變異,14種疾病和30種不良反應。
抗癌藥物基因組系知識表示三元組示例如表3所示。

表3 抗癌藥物基因組學知識表示三元組示例
使用XML技術,將抽取出的藥物、基因、疾病、用藥等實體和屬性存儲于結構化的XML文件中,然后基于Dom4j、XPath等技術對XML文件進行解析,構造相應參數,為可視化分析和展示打好基礎。選取開源免費的ECharts可視化圖表工具對上述實體及其關系進行可視化展示(圖3)。

圖3 抗癌藥物知識表示模型可視化示例
本文通過對異構的藥物基因組數據的整合和抽取,構建了以藥物為中心,涵蓋藥物服用方式、藥物使用劑量、藥物副作用、靶向基因、疾病等多個維度的抗癌藥物基因組學知識表示模型,并對其中的語義關系進行了詳細定義;同時,在此框架下以黑色素瘤相關藥物為實例完成了知識表示模型的填充和可視化展示。抗癌藥物基因組學知識表示模型的構建能夠發現藥物、基因、疾病之間的新知識、新關聯,輔助藥物信息的關聯檢索和智能推薦,為臨床醫生精準用藥、聯合用藥等提供參考依據,為藥學科研人員開展新藥研發、老藥新用等的研究提供理論支持,為癌癥患者查詢藥物知識提供服務支撐。
在此基礎上,我們將繼續對藥物基因組異構數據進行深入探究和分析,比對不同數據資源的元數據項,制定遴選標準,擇優整合多維度藥物基因組學相關實體,如黑色素瘤相關的癥狀描述等內容,完善抗癌藥物基因組知識表示模型的知識組織體系;同時,開展抗癌藥物基因組學知識表示模型的實證研究,將其應用到“中國工程科技知識中心醫藥衛生知識服務系統”中,從知識表示模型可視化、尋醫問藥、關聯關系查詢等角度開展服務,探究模型的可用性和可行的服務模式。