999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

COVID19知識圖譜構建與應用研究

2021-12-08 13:30:40楊帥王小紅趙志剛潘景山武魯
青島大學學報(工程技術版) 2021年4期

楊帥 王小紅 趙志剛 潘景山 武魯

摘要: 為方便科研人員了解COVID19的致病機理、人體免疫、藥物治療和疫苗研發等科研動態,本文對COVID19知識圖譜進行構建與應用研究。采用半自動化知識圖譜構建方法,設計構建流程,搭建COVID19知識圖譜模式層。從核心醫學期刊、核心中醫藥期刊、權威藥物數據庫及百科等數據源獲取數據,并采用爬蟲爬取和人工結合的方法進行數據獲取、解析和存儲工作。同時,基于Neo4J構建COVID19科學文獻知識圖譜、中藥治療知識圖譜和西藥治療知識圖譜,并實現知識圖譜的融合。為保證知識圖譜的質量,對知識圖譜三元組進行統計與校驗,實現知識圖譜質量控制,并在COVID19知識圖譜的數據基礎上,進行中藥方劑頻次分析、中藥材頻次分析、中藥有效成分頻次分析及西藥研究熱度分析。分析結果表明,麻杏石甘湯、疏風解毒膠囊、連花清瘟方是中醫臨床中常用于治療新冠肺炎的中藥方劑;而Remdesivir、Chloroquine、Darunavir是研究熱度最高的新冠臨床治療西藥。說明COVID19知識圖譜在中藥有效成分挖掘、中藥方劑潛在作用機制研究、藥物相互作用等方面都具有研究價值。該研究在弘揚傳統中醫藥文化、推進中醫現代化、探索中藥方劑的有效成分和潛在作用機制等方面具有重要意義。

關鍵詞:新型冠狀病毒肺炎; 知識圖譜; 本體; 知識融合; 質量評價; 可視化分析

中圖分類號: TP182; R181.3 文獻標識碼: A

基金項目: 山東省自然科學基金項目(ZR2020MF145);山東省重點研發計劃(2019JZZY010113);國家發改委重大工程(Z135060000070)

2019年12月以來,全球新型冠狀病毒(corona virus disease 2019,COVID19)疫情肆虐,造成了嚴重的社會和經濟損失。截止2021年8月19日,全球累計確診2.1億人、死亡440萬人。面對如此嚴峻的疫情,世界各國的科研人員對COVID19展開了深入研究。知識圖譜由Google公司2012年提出,旨在實現關系數據的存儲與表示,已廣泛應用于數據檢索、關系推理等方面。目前,醫療醫藥領域已構建一系列知識圖譜[1],例如:蛋白質相互作用知識圖譜、中醫藥知識圖譜[2]等。由于在COVID19抗疫過程中暴露出缺乏數據支撐的問題,而知識圖譜在抗疫大數據支撐、藥物推薦、病患軌跡跟蹤等方面發揮著不可替代的作用。國內多家機構相繼發布了多個新冠病毒知識圖譜;OpenKG共享了多個COVID19知識圖譜[35],涵蓋診療、臨床、英雄、物資等方面,而其在COVID19科學文獻和藥物治療等方面鮮有涉及。清華大學AMiner和智譜AI團隊合作完成了COKG19,其數據規模大、且涵蓋眾多知識領域,但在知識粒度方面有待細化。基于此,為了便于科研人員探究COVID19的最新進展,了解COVID19的致病機理、臨床研究、人體免疫、疫苗研發和藥物治療等科研動態,本文研制了COVID19知識圖譜。COVID19知識圖譜由COVID19科學文獻知識圖譜、西藥治療知識圖譜和中藥治療知識圖譜3部分融合組成,給出了COVID19命名、起源、傳播、致病機理、預防、臨床研究、人體免疫等方面的知識,可以為醫護人員提供臨床治療藍本、推薦藥物治療方案。同時,圖譜收集了國內中醫藥治療COVID19的治療方案,對于弘揚傳統中醫藥文化、推進中醫現代化、探索中藥方劑的有效成分和潛在作用機制等方面都具有重要意義。

1知識圖譜構建

1.1總體流程

COVID19知識圖譜涵蓋科學文獻、中藥治療、西藥治療等方面的知識,數據異構,且來源廣泛,因此本文采用半自動化知識圖譜構建方法[6]。COVID19知識圖譜構建流程如圖1所示。

首先進行數據獲取和知識融合[7],通過數據爬取和文件解析方法,獲取有效數據并進行知識融合;其次基于獲取數據進行本體設計[8];再次參照各本體進行知識圖譜構建和融合,分別構建COVID19科學文獻知識圖譜、西藥治療知識圖譜和中藥治療知識圖譜,并進行知識圖譜融合,形成COVID19知識圖譜;最后進行知識圖譜質量評價[9],借助知識圖譜質量評價方法,實現對COVID19知識圖譜的數據質量控制。

1.2本體框架設計

本體框架設計主要包括確定構建目標和構建模式層。COVID19知識圖譜的構建目標是集成高質量的COVID19科學文獻知識,面向科研人員提供高效便捷的知識共享服務;COVID19知識圖譜的模式層包括COVID19科學文獻、中藥治療、西藥治療3大類,參照本體及本體間關系的設計需求,細化各個子類,知識圖譜結構如圖2所示。

圖2中,白色框表示知識圖譜,藍色框表示本體,綠色框表示屬性,黃色框表示本體中的對象。COVID19科學文獻是指頂級醫學期刊收錄的學術論文,其本體包含論文、知識類別、科研人員、科研機構和學術期刊等5個子類。其中,知識類別是對每篇文獻所屬知識領域的劃分,具體包含病毒起源、病毒傳播、命名、臨床研究、人體免疫、疫苗研發、藥物治療、致病機理等34個知識類別。中藥治療是指臨床治療新冠病患時使用的中藥處方,其本體包含中藥方劑、中藥相關文獻、中藥材、中藥有效成分等4個子類,其中,中藥材是中藥方劑的成分,中藥有效成分是中藥材的有效藥物成分;西藥治療是指臨床治療新冠患者時使用的西藥,其本體包含西藥和西藥相關論文2個子類。其中,西藥相關論文是指藥物在研發、臨床過程中發表的論文。文中涉及的本體數據均進行了人工審核,以保證數據質量。

1.3數據獲取和知識融合

1.3.1數據來源

由于缺乏開源、結構化、細粒度且符合構建需求的數據,COVID19知識圖譜需要從核心醫學期刊、核心中醫藥期刊、權威藥物數據庫及百科等數據源獲取數據,數據大多是半結構化和非結構化的數據[10]。

1)COVID19科學文獻數據來源。COVID19科學文獻數據來源主要是世界頂級醫學期刊的論文,COVID19科學文獻數據來源如表1所示。預印版主要有arxiv、biorxiv、medRxiv等,Cell及其子刊包含Cell、Cell Discovery、cell research等期刊,Nature及其子刊包含Nature、Nature Medicine等期刊,Lancet及其子刊包含Lancet、The Lancet Infectious Diseases等期刊。總體上,頂級醫學期刊的數據源占比達56%,高質量的數據來源保證了知識圖譜的質量。

2)西藥數據來源。西藥數據主要來源于DrugBank(版本5.1.7,20200702版)數據庫,其為阿爾伯塔大學運維的一個生物信息學和化學信息學數據庫[11],包含13 791種藥物條目,其中有2 653種經批準的小分子藥物、1 417種經批準的生物技術(蛋白質\肽)藥物、131種營養品和6 451種實驗藥物。為了應對COVID19疫情,DrugBank設計了COVID19專欄,面向科學界提供當前用于臨床治療COVID19藥物信息,諸如Remdesivir、Ritonavir、Chloroquine等新冠臨床治療藥物都涵蓋其中。

3)中藥數據來源。中藥數據來源主要是《中草藥》、《中藥材》雜志及百科數據。《中藥材》雜志是經國家科委和新聞出版署批準出版的國內外公開發行的國家級中藥科技學術性刊物,由天津藥物研究院和中國藥學會共同主辦。百度百科是國內知名的中文百科類知識庫,其醫學條目由領域專家、各大醫藥研究所合作編輯,所涵蓋的醫學條目可信度高、數據完整。本文主要篩選了《中草藥》、《中藥材》雜志發表的中藥治療COVID19方劑、中藥方劑有效成分挖掘方面的文獻數據。中藥方劑、藥材和中藥有效成分的細粒度信息來源于百科數據。

1.3.2數據獲取

針對半結構化和非結構化數據,本研究采用自動化和半自動化結合的方法[12]獲取數據。非結構化數據(例如:權威醫學期刊文獻、中藥文獻)來源廣泛,且多為PDF格式,采用爬蟲爬取和人工結合的方法進行數據獲取和存儲工作。結構化數據(例如:DrugBank數據、百科數據)采用爬蟲爬取和程序解析的數據獲取方法。

1.3.3數據解析

對于OWL和XML格式的本體文件,一般采用Jena、Owlready2等工具進行解析,提取本體文件中的實體、屬性、實體間關系數據。本文的數據源為科學文獻、數據庫和百科數據,不包含本體文件,未采用以上本體解析工具。對于結構化數據,本文基于Python編寫解析程序,進行數據解析、數據清洗、格式規范工作。對于非結構化數據,由于PDF解析技術發展水平的限制,為保證數據質量,出于數據準確性的考慮,本研究采用人工方法解析PDF數據,并借助領域專家人工提取有效信息。

1.3.4知識融合

通過以上方法獲得的多源異構數據,需要進行知識融合。為了提高知識圖譜的數據質量,采用人工方法進行知識融合[13]。首先通過實體鏈接,解決多源異構數據中的實體沖突問題,將表示同一對象的多個實體歸并為具有全局唯一標識的實體對象[14]。其次通過知識合并,將多個來源描述同一實體的知識合并在一起。

在COVID19知識圖譜構建過程中對中藥方劑、中藥材、學術期刊、科研機構等實體進行數據規范和實體鏈接工作。新英格蘭醫學雜志實體在不同的數據源具備不同的名稱,例如:新愛爾蘭醫學雜志(the new england journal of medicine,NEJM),需要進行實體對齊,避免歧義,實體與對齊實體如表2所示。

由于同種中藥材經過不同方法處理會產生多種衍生藥材,同類中藥方劑由于制劑方法、藥材成分的細微差異會衍生出不同的中藥產品,需要加以區分。例如:藿香正氣水、藿香正氣口服液、藿香正氣散藥效一致,藥材成分大致相同,卻是不同的中藥產品。半夏曲、生半夏、清半夏、姜半夏、法半夏都是由半夏制備而成,炮制方法不同,具備不同功效。

本文采用“實體子實體”知識融合方法,實體子實體知識融合如表3所示。例如:連花清瘟方、連花清

瘟膠囊、連花清瘟片、連花清瘟顆粒是同一中藥方劑的不同衍生產品,藥材成分、藥效和適應癥基本相同,僅在制劑工藝和藥劑狀態上有差別,為保留多個連花清瘟產品的差異性,并保持產品間的共性,本文采用“實體子實體”知識融合方法,實現了中藥方劑及其衍生產品、中藥材及其衍生藥材的實體對齊與知識融合。

1.4知識圖譜構建與融合

本研究基于Neo4J,構建COVID19知識圖譜。圖譜包括COVID19科學文獻知識圖譜、中藥治療知識圖譜、西藥治療知識圖譜3部分。中藥治療和西藥治療均屬于“藥物治療”的范疇。本研究將中藥治療知識圖譜和西藥治療知識圖譜作為“藥物治療”知識類別的子類,從而實現知識圖譜的融合,知識圖譜融合如圖3所示。

1.5知識圖譜質量評價

知識圖譜在構建過程中難免出現錯誤[15],為了保證COVID19知識圖譜的質量,本研究通過人工抽樣檢測的方法實現知識圖譜中三元組質量的校驗[16],并制定抽樣策略如下:

1)西藥治療數據取自DrugBank的結構化數據,數據質量高,隨機采樣1/10,人工校驗其實體及屬性有無錯誤。

2)中藥治療數據來源于科學文獻,該數據在解析過程中更易產生錯誤,隨機采樣3/10進行校驗。

3)COVID19科學文獻數據體量大,數據源質量可靠,隨機采樣1/10進行校驗。

本研究按以上方式采樣348條三元組。為了得到準確的質量評價結果,將以上數據分發給6人檢驗,檢驗者都是具備專業背景的人員,且對COVID19知識圖譜很了解,檢驗結果有質量保障[17]。采樣標注后得到的準確率為96.38%,因此本文構建的知識圖譜具有質量保證。

2知識圖譜可視化與數據分析

2.1知識圖譜可視化展示

對COVID19知識圖譜的西藥治療、中藥治療和COVID19科學文獻等3種類別三元組數量進行統計,知識圖譜三元組數量統計如表4所示。

COVID19知識圖譜收錄了376篇國際頂級醫學期刊文獻、93篇中醫藥核心期刊文獻、136篇西藥治療科學文獻,同時還包含文獻的PDF源文件、文獻摘要、中文概要、關鍵詞、文獻鏈接、相關科研報道等內容。此外,還收錄了40種中藥方劑、112味中藥材、86個中藥有效成分、32種西藥、324名科研人員、62類學術期刊、193個科研機構的數據,并對以上數據進行了細粒度化處理。其中,40種中藥方劑是已發表的論文、用于預防或治療輕癥新冠肺炎患者的中藥,112味中藥材是40種中藥方劑的藥材成分,86個中藥有效成分是文獻中已實驗證明的。COVID19知識圖譜的可視化如圖4所示。

2.2知識圖譜數據分析

本研究在COVID19知識圖譜的數據基礎上進行了中藥方劑頻次分析、中藥材頻次分析、中藥有效成分頻次分析和西藥研究熱度分析。中藥方劑頻次分析如圖5所示。由圖5可以看出,麻杏石甘湯[18]、疏風解毒膠囊、達原飲、金花清感顆粒、連花清瘟方、清肺排毒湯、小柴胡湯、玉屏風散是中醫臨床中常用于治療新冠肺炎的中藥方劑。在最常見的中藥材中,用于治療新冠肺炎的中藥方劑有甘草、黃岑、連翹、蒼術、柴胡、厚樸、茯苓和金銀花,中藥材頻次分析如圖6所示。針對新冠肺炎,最有效的中藥有效成分包括槲皮素[19]、山奈酚、黃岑素、刺芒柄花素、漢黃岑素、β谷甾醇、尼泊爾鳶尾異黃酮、豆甾醇、異鼠李素、木犀草素等,中藥有效成分頻次分析如圖7所示。

在治療新冠肺炎方面,Remdesivir[20]、Chloroquine、Darunavir、Favipiravir、Umifenovir、Bevacizumab是研究熱度最高的新冠臨床治療西藥。此外,COVID19知識圖譜在中藥有效成分挖掘、中藥方劑潛在作用機制研究、藥物相互作用等方面都具有研究價值。

3結束語

本文主要對COVID19知識圖譜構建與應用進行研究,該研究提供了新型冠狀病毒肺炎本體建模藍本,為多模態、海量COVID19數據的組織與存儲提供了模式支撐,也為下階段的COVID19知識智能問答、COVID19科學文獻細粒度分類、中藥有效成分挖掘等應用研究提供了數據支持,其在COVID19科學研究、科學抗疫等方面都具備積極作用。同時,本文工作也存在數據體量偏小、自動化程度較低等問題,需要在今后的工作中擴大知識圖譜規模、細化知識粒度、提高自動化構建水平。

參考文獻:

[1]Schmidt E, Birney E, Croft D, et al. Reactomea knowledgebase of human biological pathways[C]∥On the Move to Meaningful Internet Systems 2006: OTM 2006 Workshops pt. 1; Lecture Notes in Computer Science. European Bioinformatlss Institute (EMBLEBI), Wellcome Trust Genome Campus, Hinxeon, Cambridgeshire, CBIO ISD, UK, 2006: 710719.

[2]阮彤, 孫程琳, 王昊奮, 等. 中醫藥知識圖譜構建與應用[J]. 醫學信息學雜志, 2016, 37(4): 813.

[3]蔣秉川, 游雄, 李科, 等. 利用地理知識圖譜的COVID19疫情態勢交互式可視分析[J]. 武漢大學學報, 2020, 45(6): 836845.

[4]陳曉慧, 劉俊楠, 徐立, 等. COVID19病例活動知識圖譜構建——以鄭州市為例[J]. 武漢大學學報: 信息科學版, 2020, 45(6): 816825.

[5]向軍毅, 胡慧君, 劉宇, 等. COVID19物資知識圖譜的構建[J]. 武漢大學學報: 理學版, 2020, 66(5): 409417.

[6]Luo Z W, Xie R, Chen W, et al. Automatic domain terminology extraction and its evaluation for domain knowledge graph construction[J]. Web Intelligence and Agent Systems, 2018, 16(3): 173185.

[7]阮彤, 王夢婕, 王昊奮, 等. 垂直知識圖譜的構建與應用研究[J]. 知識管理論壇, 2016, 1(3): 226234.

[8]Nadeau D, Sekine S. A survey of named entity recognition and classification[J]. Lingvisticae Investigationes, 2007, 30(1): 326.

[9]Zhao Y, Li Z Q, Deng W, et al. Learning entity type structured embeddings with trustworthiness on noisy knowledge graphs[J]. KnowledgeBased Systems, 2021, 215(3): 106630106639.

[10]Guo Q Y, Zhuang F Z, Qin C, et al. A survey on knowledge graphbased recommender systems[J]. Scientia Sinica Informationis, 2020, 50(7): 937953.

[11]Marcheggiani D, Titov I. Discretestate variational autoencoders for joint discovery and factorization of relations[J]. Transactions of the Association for Computational Linguistics, 2016, 4(2): 231244.

[12]Jung K, Kim K I, Jain A K. Text information extraction in images and video: a survey[J]. Pattern Recognition, 2004, 37(5): 977997.

[13]楊一帆, 馬進, 王海濤, 等. 基于簡介文本的中文人物關系圖譜屬性補全與糾錯[J]. 中國科學, 2020, 50(7): 10031018.

[14]Chang C H, Kayed M, Girgis M R, et al. A survey of web information extraction systems[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 14111428.

[15]Wang Q, Chang L. An intelligent maximum power extraction algorithm for inverterbased variable speed wind turbine systems[J]. IEEE Transactions on Power Electronics, 2004, 19(5): 12421249.

[16]Rozenfeld B, Feldman R. Selfsupervised relation extraction from the Web[J]. Knowledge and Information Systems, 2008, 17(1): 1733.

[17]Xu K, Feng Y S, Huang S F, et al. Semantic relation classification via convolutional neural networks with simple negative sampling[J]. Computer Science, 2015, 71(7): 941949.

[18]樊冬麗, 廖慶文, 鄢丹, 等. 基于生物熱力學表達的麻黃湯和麻杏石甘湯的寒熱藥性比較[J]. 中國中藥雜志, 2007, 32(5): 421424.

[19]王春, 吳秋華, 王志, 等. 槲皮素與牛血清白蛋白相互作用的研究[J]. 光譜學與光譜分析, 2006, 26(9): 16721675.

[20]Eastman R T, Roth J S, Brimacombe K R, et al. Remdesivir: A review of its discovery and development leading to emergency use authorization for treatment of COVID19\[J\]. ACS Central Science, 2020, 6(5): 672683.

作者簡介: 楊帥(1992),男,碩士,研究實習員,主要研究方向為圖神經網絡、知識圖譜和藥物研發。

通信作者: 趙志剛(1980),男,碩士,副研究員,主要研究方向為大數據和知識圖譜。Email: zhaozhg@sdas.org

Research on the Construction and Application of COVID19 Knowledge Graph

YANG Shuai, WANG Xiaohong, ZHAO Zhigang, PAN Jingshan, WU Lu

(Qilu University of Technology (Shandong Academy of Sciences),

Shandong Computer Science Center(National Supercomputer Center in Jinan), Jinan 250000, China)

Abstract: ?In order to facilitate scientific researchers to understand the pathogenic mechanism of COVID19, human immunity, drug treatment and vaccine development and other scientific research trends, this article constructs and applies research on the COVID19 knowledge graph. The semiautomated knowledge graph construction method is used to design the construction process and build the COVID19 knowledge graph model layer. We obtain data from data sources such as core medical journals, core traditional Chinese medicine journals, authoritative drug databases and encyclopedias, and use crawler crawling and artificial combination methods for data acquisition, analysis and storage. At the same time, based on Neo4J, we construct a knowledge graph of COVID19 scientific literature, a knowledge graph of traditional Chinese medicine treatment, and a knowledge graph of western medicine treatment, and realize the integration of knowledge graphs. In order to ensure the quality of the knowledge graph, the knowledge graph triples are counted and verified to achieve the quality control of the knowledge graph, and on the basis of the data of the COVID19 knowledge graph, the frequency analysis of traditional Chinese medicine prescriptions, the frequency analysis of traditional Chinese medicine materials, and the effectiveness of traditional Chinese medicine are carried out. Component frequency analysis and western medicine research popularity analysis. The analysis results show that Maxing Shigan Decoction, Shufeng Jiedu Capsules, and Lianhua Qingwen Decoction are commonly used in traditional Chinese medicine to treat new coronary pneumonia; ?and Remdesivir, Chloroquine, and Darunavir are the most researched Western medicines for the clinical treatment of new crowns. It shows that the COVID19 knowledge graph has research value in the mining of active ingredients of Chinese medicine, the study of the potential mechanism of Chinese medicine prescriptions, and drug interactions. The research is of great significance in promoting the culture of traditional Chinese medicine, advancing the modernization of Chinese medicine, and exploring the effective ingredients and potential mechanisms of Chinese medicine prescriptions.

Key words: covid19; knowledge graph; ontology; knowledge fusion; quality evaluation; visual analysis

主站蜘蛛池模板: 国产精品尤物在线| 理论片一区| 无码区日韩专区免费系列 | 久草视频中文| 国产精品99r8在线观看| 99视频在线免费| 精品夜恋影院亚洲欧洲| 亚洲欧洲综合| 2024av在线无码中文最新| 欧美一级夜夜爽www| 精品三级在线| 99精品视频在线观看免费播放| 成人a免费α片在线视频网站| 91麻豆精品国产高清在线| 国产精品女熟高潮视频| 好吊日免费视频| 国产乱子精品一区二区在线观看| 97在线公开视频| 国产丝袜第一页| 国产91丝袜| 午夜国产大片免费观看| 亚洲成人免费看| 婷婷色一区二区三区| 亚洲天堂免费观看| 在线色国产| 偷拍久久网| 国产欧美日韩资源在线观看| 免费jjzz在在线播放国产| h网站在线播放| 玩两个丰满老熟女久久网| 日韩精品无码免费一区二区三区| 欧美成人a∨视频免费观看| jijzzizz老师出水喷水喷出| 国产精品女在线观看| 国产美女在线观看| 亚洲综合中文字幕国产精品欧美| 久久成人18免费| 99热这里只有精品国产99| 日韩av电影一区二区三区四区| 在线看国产精品| 在线99视频| 无码专区在线观看| 国产三区二区| 无码一区二区三区视频在线播放| 天天综合色天天综合网| 中文成人无码国产亚洲| 国产高清免费午夜在线视频| 亚洲美女一级毛片| 亚洲国产精品不卡在线| 无码国产偷倩在线播放老年人| 欧美日韩国产成人高清视频| 五月婷婷中文字幕| 97免费在线观看视频| 日本一本正道综合久久dvd| 在线观看无码a∨| 久热中文字幕在线观看| 亚洲午夜国产片在线观看| 日韩精品一区二区深田咏美| 91麻豆国产精品91久久久| 91网址在线播放| 亚洲制服丝袜第一页| 情侣午夜国产在线一区无码| 亚洲精品天堂自在久久77| 国产视频一区二区在线观看| 久久久久夜色精品波多野结衣| 潮喷在线无码白浆| 午夜免费小视频| 国产91成人| 四虎永久免费地址| 国产成人8x视频一区二区| 国内精品久久久久鸭| 在线免费不卡视频| 国产精品网曝门免费视频| 欧美色99| 人妻丝袜无码视频| 国产成人AV大片大片在线播放 | 中国黄色一级视频| 亚洲国产中文精品va在线播放| 久久精品女人天堂aaa| 国产午夜无码片在线观看网站| 亚洲欧美国产五月天综合| 久热精品免费|