陳德華 殷蘇娜 樂嘉錦 王 梅 潘 喬 朱立峰
1(東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 201600) 2(上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院 上海 200025)
一種面向臨床領(lǐng)域時(shí)序知識(shí)圖譜的鏈接預(yù)測(cè)模型
陳德華1殷蘇娜1樂嘉錦1王 梅1潘 喬1朱立峰2
1(東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 201600)2(上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院 上海 200025)
(chendehua@dhu.edu.cn)
知識(shí)圖譜(knowledge graph)鏈接預(yù)測(cè)可以解決知識(shí)圖譜中缺失信息的發(fā)現(xiàn)和還原,是目前知識(shí)圖譜領(lǐng)域的研究熱點(diǎn).傳統(tǒng)的知識(shí)圖譜鏈接預(yù)測(cè)方法大多面向靜態(tài)的數(shù)據(jù),并不適用于具有動(dòng)態(tài)變化特性的時(shí)序知識(shí)圖譜.時(shí)序知識(shí)圖譜廣泛存在于不同領(lǐng)域中,以臨床醫(yī)學(xué)領(lǐng)域?yàn)槔悄虿∽鳛橐环N典型的慢性病,其病程是一個(gè)疾病緩慢發(fā)展演化的過(guò)程.因此,在臨床醫(yī)學(xué)時(shí)序知識(shí)圖譜上進(jìn)行臨床意義的鏈接預(yù)測(cè),比如預(yù)測(cè)糖尿病的并發(fā)癥,則需要考慮糖尿病病程發(fā)展隨時(shí)間變化的時(shí)序特性,這也為傳統(tǒng)的知識(shí)圖譜鏈接預(yù)測(cè)方法帶來(lái)巨大挑戰(zhàn).為此,結(jié)合臨床醫(yī)學(xué)事實(shí)知識(shí)的時(shí)序特性,提出一種基于LSTM序列增量學(xué)習(xí)的臨床領(lǐng)域時(shí)序知識(shí)圖譜鏈接預(yù)測(cè)模型.該模型結(jié)合LSTM長(zhǎng)短期記憶單元遞歸神經(jīng)網(wǎng)絡(luò)在序列學(xué)習(xí)上的優(yōu)勢(shì),通過(guò)構(gòu)建基于LSTM的序列增量學(xué)習(xí)層,以端到端的方式提取時(shí)序知識(shí)圖譜中的三元組時(shí)序特征,從而實(shí)現(xiàn)對(duì)時(shí)序知識(shí)圖譜的鏈接預(yù)測(cè).通過(guò)在糖尿病時(shí)序知識(shí)圖譜上的實(shí)驗(yàn),驗(yàn)證了模型的高效性、可用性及穩(wěn)定性.
時(shí)序知識(shí)圖譜;知識(shí)圖譜鏈接預(yù)測(cè);轉(zhuǎn)換模型TransR;長(zhǎng)短期記憶網(wǎng)絡(luò);增量學(xué)習(xí)
知識(shí)圖譜(knowledge graph)是表示知識(shí)的一種新方法,屬于語(yǔ)義網(wǎng)絡(luò)范疇,用于描述真實(shí)世界中存在的各種實(shí)體和概念以及這些實(shí)體、概念之間的關(guān)聯(lián)關(guān)系,捕捉并呈現(xiàn)特定領(lǐng)域概念之間的語(yǔ)義關(guān)系[1].近年來(lái)知識(shí)圖譜在醫(yī)學(xué)領(lǐng)域也逐漸得到重視和關(guān)注,國(guó)內(nèi)外均開展了醫(yī)學(xué)領(lǐng)域知識(shí)圖譜相關(guān)研究.國(guó)外有牛津大學(xué)創(chuàng)建的用于藥學(xué)的LynxKB知識(shí)圖譜[2]以及由日本東北大學(xué)將傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)融合于知識(shí)圖譜中進(jìn)行基因研究[3];與此同時(shí),國(guó)內(nèi)醫(yī)療信息學(xué)領(lǐng)域也提出了多種醫(yī)學(xué)知識(shí)圖譜,包括中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所構(gòu)建的中醫(yī)藥知識(shí)圖譜[4]、基于知識(shí)圖譜的基因組流行病學(xué)可視化分析[5]等.然而,這些醫(yī)學(xué)知識(shí)圖譜的知識(shí)來(lái)源主要是公開的醫(yī)學(xué)文獻(xiàn),較少涉及醫(yī)院的實(shí)際電子病歷(electronic medical record, EMR)數(shù)據(jù).
眾所周知,EMR電子病歷[6]記錄著患者在醫(yī)療活動(dòng)中產(chǎn)生的各種臨床事實(shí)數(shù)據(jù),蘊(yùn)含著豐富的臨床事實(shí)知識(shí),主要體現(xiàn)為各種醫(yī)學(xué)實(shí)體如患者實(shí)體、藥物實(shí)體、診斷實(shí)體等,以及醫(yī)學(xué)實(shí)體之間存在的各種聯(lián)系.本文利用知識(shí)圖譜表示EMR中臨床事實(shí)知識(shí),構(gòu)建基于EMR的臨床領(lǐng)域時(shí)序知識(shí)圖譜,刻畫臨床數(shù)據(jù)中存在的實(shí)體和概念,提供具體且豐富的語(yǔ)義和時(shí)序信息,以便更準(zhǔn)確地揭示實(shí)體之間的內(nèi)在聯(lián)系,從而避免來(lái)自不同數(shù)據(jù)源信息的語(yǔ)義異構(gòu).
知識(shí)圖譜鏈接預(yù)測(cè)[7]是知識(shí)圖譜學(xué)習(xí)與推理的重要應(yīng)用,其主要任務(wù)是對(duì)知識(shí)圖譜中實(shí)體間可能存在的關(guān)系進(jìn)行預(yù)測(cè),實(shí)現(xiàn)知識(shí)圖譜中缺失信息的發(fā)現(xiàn)和還原[8].由于實(shí)際電子病歷數(shù)據(jù)普遍存在數(shù)據(jù)質(zhì)量不高的特點(diǎn),使得基于EMR的臨床領(lǐng)域知識(shí)圖譜中可能存在著一些醫(yī)學(xué)實(shí)體以及實(shí)體間關(guān)系的缺失,或者實(shí)體間存在錯(cuò)誤的關(guān)系.通過(guò)對(duì)臨床領(lǐng)域知識(shí)圖譜的鏈接預(yù)測(cè),能夠?qū)⑦@些關(guān)系所補(bǔ)全或者糾正出錯(cuò)誤的關(guān)系,從而獲得更為完整和真實(shí)的知識(shí)圖譜.
目前成熟的知識(shí)圖譜鏈接預(yù)測(cè)包含張量分解模型[9]、NTN神經(jīng)網(wǎng)絡(luò)[10]、轉(zhuǎn)換模型[11]等.然而這些預(yù)測(cè)模型都只在通用知識(shí)圖譜上取得了不錯(cuò)的效果.通用知識(shí)圖譜中大多為常識(shí)性知識(shí),并不隨時(shí)間而改變.與此相反,在臨床領(lǐng)域中一般疾病的病程發(fā)展是一個(gè)緩慢演變的過(guò)程,可見臨床事實(shí)知識(shí)具有時(shí)效性,包含大量時(shí)序知識(shí).以糖尿病為例,在糖尿病患者臨床診治過(guò)程中,每次的血糖檢查、糖化血紅蛋白檢查、用藥情況、并發(fā)癥診斷結(jié)果等均有時(shí)間的標(biāo)記.這些臨床事實(shí)知識(shí)可按照時(shí)間前后順序,轉(zhuǎn)換形成具有時(shí)序特性的臨床領(lǐng)域時(shí)序知識(shí)圖譜.但是,現(xiàn)有的知識(shí)圖譜鏈接預(yù)測(cè)模型大多針對(duì)靜態(tài)的數(shù)據(jù),而未考慮到時(shí)序知識(shí)圖譜中蘊(yùn)含大量時(shí)序信息,無(wú)法對(duì)時(shí)序知識(shí)圖譜做出準(zhǔn)確的預(yù)測(cè).
為解決上述問題,本文從醫(yī)院實(shí)際的EMR數(shù)據(jù)出發(fā),結(jié)合臨床醫(yī)生的經(jīng)驗(yàn)與知識(shí),建立臨床領(lǐng)域時(shí)序知識(shí)圖譜,并且提出了一種基于LSTM序列增量學(xué)習(xí)的臨床領(lǐng)域時(shí)序知識(shí)圖譜鏈接預(yù)測(cè)模型.該模型采取LSTM長(zhǎng)短期記憶單元的遞歸神經(jīng)網(wǎng)絡(luò)的序列學(xué)習(xí)能力,并創(chuàng)建序列增量學(xué)習(xí)層對(duì)臨床事實(shí)知識(shí)時(shí)序特征進(jìn)行提取,同時(shí)通過(guò)端到端(end-to-end)的方式進(jìn)行知識(shí)圖譜三元組序列的增量學(xué)習(xí)過(guò)程,從而實(shí)現(xiàn)對(duì)臨床領(lǐng)域時(shí)序知識(shí)圖譜的鏈接預(yù)測(cè).本文通過(guò)多種對(duì)比實(shí)驗(yàn),從準(zhǔn)確度、召回率和精準(zhǔn)度等方面對(duì)增量LSTM新模型進(jìn)行了評(píng)估驗(yàn)證;同時(shí)分析了新模型的時(shí)間復(fù)雜度,最終驗(yàn)證了新模型在時(shí)序知識(shí)圖譜鏈接預(yù)測(cè)上具有較好的性能.
近年來(lái),業(yè)界陸續(xù)提出了多種不同的通用知識(shí)圖譜,比如2012年Google公司推出Google Knowledge Graph[12],之后又提出了多種通用知識(shí)圖譜,如FreeBase[13],DBPedia[14],WordNet[15]等.而對(duì)臨床領(lǐng)域,國(guó)外較為流行的臨床領(lǐng)域知識(shí)庫(kù)有MorphoCol[16],Nursing KB[17]等,并基于此進(jìn)行了臨床決策診斷支持工作[18].國(guó)內(nèi)探索了中醫(yī)藥知識(shí)圖譜構(gòu)建[4]方法以及基于醫(yī)藥知識(shí)圖譜推理的輔助開藥[19].之后,有關(guān)時(shí)間信息在知識(shí)圖譜中的重要性被逐漸關(guān)注,比如對(duì)含有時(shí)間的知識(shí)進(jìn)行知識(shí)圖譜模型建立[20].

Fig. 1 Clinical domain temporal knowledge graph model圖1 臨床領(lǐng)域時(shí)序知識(shí)圖譜模型
鏈接預(yù)測(cè)一直是知識(shí)圖譜學(xué)習(xí)和推理的熱點(diǎn)問題,許多研究者提出了不同的鏈接預(yù)測(cè)模型,用于學(xué)習(xí)和預(yù)測(cè)實(shí)體間存在的關(guān)系.現(xiàn)有成熟的知識(shí)圖譜鏈接預(yù)測(cè)方法可分為3類:1)基于張量分解的知識(shí)圖譜鏈接預(yù)測(cè)方法,包括Rescal、神經(jīng)張量網(wǎng)絡(luò)(NTN)等;2)基于向量轉(zhuǎn)換模型的知識(shí)圖譜鏈接預(yù)測(cè)方法,比如說(shuō)TransE[21],TransH[22],TransR[23]等;3)以深度學(xué)習(xí)[24]為代表的知識(shí)圖譜鏈接預(yù)測(cè)方法異軍突起.比如文獻(xiàn)[25]嘗試使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行通用知識(shí)圖譜的鏈接預(yù)測(cè).然而這些方法目前只適用于知識(shí)圖譜的靜態(tài)數(shù)據(jù),還不適用于具有動(dòng)態(tài)變化特性的時(shí)序知識(shí)圖譜鏈接預(yù)測(cè).
關(guān)于時(shí)間信息在知識(shí)圖譜鏈接預(yù)測(cè)中的應(yīng)用,文獻(xiàn)[26]提出了基于TransE轉(zhuǎn)換模型改進(jìn)的TransE-TAE模型,通過(guò)對(duì)知識(shí)圖譜中的時(shí)間信息分析,對(duì)關(guān)系作出了預(yù)測(cè);文獻(xiàn)[27]進(jìn)而研究由時(shí)間導(dǎo)致的不確定性知識(shí)圖譜上的預(yù)測(cè)模型.然而,大多數(shù)工作都集中在具有時(shí)效性的通用知識(shí)圖譜中,缺乏對(duì)臨床領(lǐng)域知識(shí)圖譜中尤為突出的時(shí)序特征做研究.
臨床領(lǐng)域時(shí)序知識(shí)圖譜基于實(shí)際EMR數(shù)據(jù)構(gòu)建而成,其形式化定義如下.
定義1. 臨床領(lǐng)域時(shí)序知識(shí)圖譜G.臨床領(lǐng)域時(shí)序知識(shí)圖譜為一張有向標(biāo)簽圖Gt=(t0,te,E,R,τ),其中E為知識(shí)圖譜的頂點(diǎn)集,用于表示實(shí)體集合;R為知識(shí)圖譜的邊集,用于表示事實(shí)關(guān)系集合;τ為E×E→R|k的函數(shù),表示知識(shí)圖譜中的所有元組.k表示在時(shí)間段[t0,te]按照時(shí)間前后排序的知識(shí)圖譜三元組列表中,兩實(shí)體之間存在第k次的關(guān)系R.舉例來(lái)說(shuō),現(xiàn)有一個(gè)2015—2016年的臨床領(lǐng)域時(shí)序知識(shí)圖譜Gt=(2015-01-01,2016-01-01,E,R,τ),則病人張三的血糖檢測(cè)三元組序列L(t0,te,τ)={(張三,血糖檢查|第1次檢查,正常),(張三,血糖檢查|第2次檢查,異常偏高),(張三,血糖檢查|第3次檢查,異常偏高),…}.
圖1所示為臨床領(lǐng)域時(shí)序知識(shí)圖譜.由圖1可見,臨床領(lǐng)域時(shí)序知識(shí)圖譜由概念層和實(shí)例層兩部分組成.
其中概念層包括患者、疾病、檢驗(yàn)指標(biāo)、并發(fā)癥及藥品等實(shí)體類型.概念層中,不同實(shí)體類型之間存在概念層之間的關(guān)系.在圖1所示的知識(shí)圖譜中,實(shí)體概念層次可分為3個(gè)層級(jí):一級(jí)實(shí)體概念包括基本信息、患者、檢驗(yàn)報(bào)告、診斷和用藥等;二級(jí)實(shí)體概念包括糖尿病診斷和并發(fā)癥診斷;其他為三級(jí)實(shí)體概念.
在實(shí)例層中,每個(gè)實(shí)體都含有自己的屬性以及屬性值.例如“張三”是屬于患者實(shí)體類,因此,將“張三”實(shí)例化為患者實(shí)體的姓名屬性值,張三患者實(shí)體的醫(yī)療卡號(hào)“113”作為實(shí)例則對(duì)應(yīng)于患者中的醫(yī)療卡號(hào)屬性值.
定義2. 時(shí)序鏈接預(yù)測(cè).時(shí)序鏈接預(yù)測(cè)是指在臨床領(lǐng)域時(shí)序知識(shí)圖譜G中,通過(guò)對(duì)已知信息的分析,對(duì)圖譜中2個(gè)實(shí)體E1和E2,預(yù)測(cè)出二者之間可能存在臨床意義的關(guān)系R.
例1. 以圖1所示的時(shí)序知識(shí)圖譜為例,給出時(shí)序鏈接預(yù)測(cè)實(shí)例:由于糖尿病患者在就診過(guò)程中有多次指標(biāo)檢測(cè)等,因此有如表1所示的糖尿病時(shí)序知識(shí)圖譜中的三元組序列X(i)作為輸入,經(jīng)過(guò)鏈接預(yù)測(cè),可以預(yù)測(cè)出該患者實(shí)體與眼病實(shí)體之間是否具有患有關(guān)系Y,即為輸出.整個(gè)預(yù)測(cè)過(guò)程可以表示為
P={X,Y}={X(1),X(2),…,X(n),Y},
(1)
其中,X(i)描述有關(guān)該病人實(shí)體的各類關(guān)系所對(duì)應(yīng)的三元組序列,可視為病人各方面的屬性:
(2)
本節(jié)首先闡述臨床領(lǐng)域時(shí)序知識(shí)圖譜鏈接預(yù)測(cè)模型整體框架,然后具體闡述模型的細(xì)節(jié),最后給出模型的訓(xùn)練過(guò)程.

Table 1 Temporal Knowledge Base Link Prediction表1 臨床領(lǐng)域時(shí)序知識(shí)圖譜鏈接預(yù)測(cè)
本文提出基于LSTM序列增量學(xué)習(xí)的臨床領(lǐng)域時(shí)序知識(shí)圖譜鏈接預(yù)測(cè)模型,用來(lái)推理預(yù)測(cè)帶時(shí)間的臨床領(lǐng)域知識(shí)圖譜中各個(gè)實(shí)體之間的鏈接.圖2所示為模型結(jié)構(gòu)圖,一共包括4層:三元組向量化層(輸入層)、LSTM序列增量學(xué)習(xí)層、序列特征組合層以及分類層(輸出層).

Fig. 2 Temporal link prediction model based on incremental LSTM sequence learning圖2 基于LSTM序列增量學(xué)習(xí)的時(shí)序鏈接預(yù)測(cè)模型
模型的輸入是臨床領(lǐng)域時(shí)序知識(shí)圖譜中的三元組序列,輸出是實(shí)體之間的關(guān)系預(yù)測(cè)結(jié)果.模型訓(xùn)練過(guò)程主要是:在得到對(duì)應(yīng)的序列化三元組x(n)之后,首先用TransR進(jìn)行向量化作為輸入層;其次輸入到LSTM增量學(xué)習(xí)層,將得到的向量做增量計(jì)算;再將增量之后的向量V(n)輸入到LSTM序列特征組合層計(jì)算得到V,最后進(jìn)入分類層.
基于TransR的多語(yǔ)義三元組向量化層為時(shí)序鏈接預(yù)測(cè)模型的第1個(gè)層次.本層主要是采用TransR轉(zhuǎn)換模型將臨床領(lǐng)域時(shí)序知識(shí)圖譜G中的三元組Ei,R,Ej嵌入到低維空間內(nèi).在臨床領(lǐng)域時(shí)序知識(shí)圖譜中存在多對(duì)多且語(yǔ)義不同的關(guān)系,比如多個(gè)患者實(shí)體和多種不同的檢查指標(biāo)實(shí)體之間都是檢查關(guān)系,同時(shí)這些檢查關(guān)系里有的是超聲檢查關(guān)系,有的是穿刺檢查關(guān)系.TransR模型支持對(duì)不同實(shí)體擁有不同語(yǔ)義空間的處理,這符合臨床數(shù)據(jù)中關(guān)系來(lái)自不同語(yǔ)義空間的特點(diǎn);與此同時(shí),在TransR中,首先將各個(gè)實(shí)體向量向關(guān)系空間中做投影,因此原來(lái)在實(shí)體空間中相似的實(shí)體就被區(qū)分開來(lái)了,從而在臨床事實(shí)知識(shí)圖譜中實(shí)現(xiàn)了對(duì)多對(duì)多關(guān)系兩邊不同實(shí)體的區(qū)分,并將實(shí)體和關(guān)系嵌入到低維向量.
TransR模型為了考慮不同語(yǔ)義空間,對(duì)于多對(duì)多關(guān)系有更精確的向量化表示,在TransE模型的基礎(chǔ)上對(duì)實(shí)體向量向關(guān)系空間中進(jìn)行投影,然后建立從頭實(shí)體到尾實(shí)體的轉(zhuǎn)換關(guān)系.
圖3為TransR翻譯模型運(yùn)用在本文臨床事實(shí)知識(shí)圖譜上的一個(gè)簡(jiǎn)單例子:張三和上海2個(gè)實(shí)體通過(guò)在_born_in關(guān)系空間上做投影,從而嵌入到向量坐標(biāo)中,兩者間建立起被映射的_born_in向量轉(zhuǎn)換關(guān)系.

Fig. 3 Embeddings from Knowledge Graph圖3 知識(shí)嵌入圖
TransR中對(duì)于每個(gè)關(guān)系,都定義了一個(gè)投影矩陣Mr,將實(shí)體向量從實(shí)體空間投影到關(guān)系r的子空間,lh r和lh t表示為
lh r=lhMr,
lt r=ltMr.
(3)
對(duì)應(yīng)的損失函數(shù)為
fr(h,t)=‖lhr+lr-ltr‖L1/L2.
(4)
因此,在TransR模型中,將每個(gè)實(shí)體都看作不同屬性構(gòu)成的,對(duì)于不同的關(guān)系,關(guān)注的是實(shí)體的不同屬性;并且將有著不同語(yǔ)義空間的關(guān)系作出投影,從而區(qū)分多種語(yǔ)義,由此對(duì)臨床領(lǐng)域知識(shí)圖譜實(shí)現(xiàn)高效的向量化.
基于LSTM的三元組序列增量學(xué)習(xí)層為時(shí)序鏈接預(yù)測(cè)模型的第2個(gè)層次.遞歸神經(jīng)網(wǎng)絡(luò)模型LSTM[28]是一種可以學(xué)習(xí)長(zhǎng)期依賴信息的神經(jīng)網(wǎng)絡(luò),其輸入數(shù)據(jù)的形式記為f={Xn},n=t1,t2,…,tk該輸入數(shù)據(jù)是帶序列性質(zhì)的數(shù)據(jù)向量.臨床領(lǐng)域時(shí)序知識(shí)圖譜通過(guò)TransR向量化后,輸出為具有2個(gè)特點(diǎn)的三元組向量:1)臨床數(shù)據(jù)在向量化后盡量不丟失原有的語(yǔ)義信息;2)向量化后輸出的三元組按照時(shí)序排列,具有時(shí)序性.因此,本文將TransR后的三元組向量送入LSTM中,不僅保持了原有語(yǔ)義,同時(shí)也具有LSTM輸入數(shù)據(jù)f的時(shí)序特征,從而適用于LSTM.所以,經(jīng)過(guò)TransR后的語(yǔ)義三元組與LSTM的疊加增強(qiáng)作用,記憶單元可利用序列中的歷史信息,從而能較充分且準(zhǔn)確地挖掘序列之間的依賴信息.
目前,使用最廣泛的LSTM單元有3個(gè)門:輸入門、輸出門和遺忘門,以保存歷史信息.其中,輸入門用于控制當(dāng)前數(shù)據(jù)輸入對(duì)記憶單元狀態(tài)值的影響,遺忘門用于控制歷史信息對(duì)當(dāng)前記憶單元狀態(tài)值的影響,通過(guò)計(jì)算得到記憶單元狀態(tài);輸出門用于控制記憶單元狀態(tài)值的輸出.

(5)

對(duì)于帶時(shí)間序列的臨床領(lǐng)域知識(shí)圖譜,本文將LSTM改進(jìn)為增量LSTM.該模型采用交叉熵函數(shù)作為損失函數(shù),通過(guò)反向傳播,對(duì)LSTM中的參數(shù)進(jìn)行調(diào)整.
LSTM序列特征增量組合為本文時(shí)序鏈接預(yù)測(cè)模型的第3個(gè)層次,在上下三元組序列中,采用增量形式代替簡(jiǎn)單的前后連接過(guò)程:當(dāng)后一個(gè)向量與前一個(gè)向量在同一位置上有值時(shí),即增量相加來(lái)強(qiáng)化特征,并將強(qiáng)化后的向量作為下一個(gè)的輸入.圖4所示為L(zhǎng)STM序列特征增量組合示意圖.其中,每個(gè)長(zhǎng)方形框?qū)?yīng)向量中的每一位,顏色不同意味著每位的值不同.如果是白色,代表此向量在該位上無(wú)數(shù)據(jù);若是黃色,代表此位置上有數(shù)據(jù);若為紅色,代表該位置是經(jīng)過(guò)了增量相加后的數(shù)據(jù).例如在時(shí)序數(shù)據(jù)中上一時(shí)間點(diǎn)的向量V(1)和目前向量V(2)的第1位都有數(shù)據(jù),則需要對(duì)其進(jìn)行增量相加,從而強(qiáng)化其特征,則該位置由黃色變成了紅色.算法1所示為具體的特征增量組合過(guò)程描述.

Fig. 4 Feature combination by incremental learning圖4 通過(guò)增量進(jìn)行特征組合
算法1. LSTM序列特征增量組合過(guò)程.
輸入:LSTM的輸出向量V(m);
輸出:序列增量組合后的特征向量V.
V:特征組合層后的向量,V(m):序列增量層中第m個(gè)LSTM產(chǎn)生的向量.
①V(0)=V(1);
② fori=0 ton
③V(i)=V(i-1)+V(i);
④ endfor
⑤V=V(n).
經(jīng)過(guò)上述3個(gè)層次處理之后,對(duì)每一類的三元組都通過(guò)增量計(jì)算進(jìn)行上述的特征組合提取,直到得到最終的特征向量作為分類器的輸入,整個(gè)訓(xùn)練過(guò)程采取反向傳播進(jìn)行調(diào)參.具體的時(shí)序鏈接預(yù)測(cè)模型的訓(xùn)練算法如算法2所示.
算法2. 時(shí)序鏈接預(yù)測(cè)模型訓(xùn)練過(guò)程.
輸入:按照時(shí)間從前往后排序的三元組序列;
輸出:0或1,1代表該三元組為正確事實(shí),0則反之.
Ni t:使用批數(shù)據(jù)集訓(xùn)練的次數(shù);
Dt r/Dt e:訓(xùn)練集/測(cè)試集;
M:序列增量層中LSTM的數(shù)量;
E:分類層中的損失值;
AEm:序列增量層中第m個(gè)LSTM的損失值;
S:批數(shù)據(jù)集的數(shù)量;


② fori=1 toNi t
③ forj=1 toS
④Dtr←GetMiniBatch(D);
⑤ form=1 toM

⑦V←Incremental(V,V(m));
⑧ endfor
⑨E←CLASSIFICATION_LSTM(V,
Cθi-1);
⑩ (Cθi,AE)←BACKWARD(E,Cθi-1);
本文所用的數(shù)據(jù)來(lái)源于上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院實(shí)際EMR數(shù)據(jù),該知識(shí)圖譜由該院內(nèi)分泌科近10年的EMR數(shù)據(jù)抽取而成,共有61 000個(gè)實(shí)體數(shù)、53種不同的關(guān)系類型、訓(xùn)練集規(guī)模為345 549個(gè)三元組.
為了驗(yàn)證本文所提的三元組序列增量學(xué)習(xí)模型預(yù)測(cè)的效果,本文在上述臨床領(lǐng)域時(shí)序知識(shí)圖譜數(shù)據(jù)集上采用10折交叉驗(yàn)證方法進(jìn)行評(píng)估,故驗(yàn)證集和測(cè)試集規(guī)模均隨機(jī)選取34 554個(gè)三元組.
本文采取知識(shí)圖譜中常用的6種推理預(yù)測(cè)模型作為對(duì)比模型:
1) 張量分解Rescal模型.Luo等人[29]采用張量分解的方法對(duì)臨床健康數(shù)據(jù)進(jìn)行分析,挖掘其隱藏知識(shí).主要是將知識(shí)圖譜中的三元組轉(zhuǎn)換成張量Y,如果三元組h,R,t存在,則Yh rt=1,否則Yh rt=0.Rescal算法將分解為實(shí)體和關(guān)系表示,以此得到低維向量表示,通過(guò)矩陣分解計(jì)算對(duì)張量進(jìn)行分解得到預(yù)測(cè)結(jié)果.
2) 張量神經(jīng)網(wǎng)絡(luò)(neural tensor network, NTN)模型.采用雙線性張量取代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的線性變換層,通過(guò)將頭、尾實(shí)體向量在不同的維度下的聯(lián)系進(jìn)行實(shí)體間預(yù)測(cè).其中,對(duì)于每組三元組h,R,t,NTN對(duì)其都有一個(gè)評(píng)分函數(shù):

(6)

3) 轉(zhuǎn)換模型TransE.TransE模型為轉(zhuǎn)換模型的代表.將知識(shí)庫(kù)中的關(guān)系看作是實(shí)體之間的某種平移向量,對(duì)于三元組h,R,t,TransE模型將lr表示關(guān)系r的向量,將lh和lt分別作為h和t的向量,lr可以作為lh和lt向量之間的平移,即將lr看作是lh和lt的轉(zhuǎn)換.關(guān)系向量可以作為實(shí)體向量之間的平移,由此推測(cè)三元組的正確性.
4) 轉(zhuǎn)換模型TransH.TransE模型在處理1-N,N-1,N-N復(fù)雜關(guān)系時(shí),有著一定的局限性,TransH模型提出來(lái)對(duì)復(fù)雜關(guān)系局限性的解決方案.TransH模型將采用平移向量lr和超平面的法向量Wr來(lái)表示,從而進(jìn)行復(fù)雜關(guān)系的推理預(yù)測(cè).
5) 轉(zhuǎn)換模型TransR.對(duì)不同語(yǔ)義空間中實(shí)體與關(guān)系的推理預(yù)測(cè)模型.具體請(qǐng)參見3.2節(jié)中的詳細(xì)介紹.
6) 深度神經(jīng)網(wǎng)絡(luò)模型DNN.目前由Taheri等人提出的深度學(xué)習(xí)模型[25]成熟應(yīng)用于ConceptNet知識(shí)庫(kù)[30],該模型通過(guò)Word2Vec對(duì)知識(shí)庫(kù)做向量化,接著通過(guò)雙向LSTM聯(lián)系上下文對(duì)向量做修正,最后通過(guò)深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)模型做分類預(yù)測(cè).
本文采用準(zhǔn)確度(accuracy,AUC)、召回率(recall,R)和精確度(precision,P)作為模型評(píng)估的指標(biāo).
準(zhǔn)確率指的是對(duì)于給定的測(cè)試數(shù)據(jù)集,模型正確預(yù)測(cè)的樣本數(shù)與總樣本數(shù)之比:

(7)
其中,TP是指被模型預(yù)測(cè)為正的正樣本,TN是被模型預(yù)測(cè)為負(fù)的負(fù)樣本,F(xiàn)P是被模型預(yù)測(cè)為正的負(fù)樣本,F(xiàn)N是被模型預(yù)測(cè)為負(fù)的正樣本.
同時(shí),為了反映被正確判定的正例占總正例的比重,本文采取了召回率R作為評(píng)價(jià)指標(biāo),體現(xiàn)了模型對(duì)正樣本的預(yù)測(cè)能力,召回率R越高,說(shuō)明模型對(duì)正樣本識(shí)別能力越強(qiáng):

(8)
此外,精確度P體現(xiàn)了模型對(duì)負(fù)樣本的區(qū)分能力,P越高,說(shuō)明對(duì)負(fù)樣本的區(qū)分能力越強(qiáng).P指正確預(yù)測(cè)的正樣本數(shù)占總正樣本的比例:

(9)
因此,本文還采用Precision-Recall(PR)圖評(píng)估正負(fù)樣本區(qū)分能力.同時(shí),F(xiàn)1分?jǐn)?shù)可以看作是準(zhǔn)確率和召回率的加權(quán)平均.
本文分別對(duì)6種參考模型和新模型做AUC,R,F(xiàn)1-Score進(jìn)行分類性能對(duì)比,對(duì)ROC,PR圖進(jìn)行圖對(duì)比,同時(shí)也分析了本文增量LSTM模型中的參數(shù)選擇對(duì)比以及各模型的時(shí)間復(fù)雜度.
本節(jié)闡述對(duì)比實(shí)驗(yàn)結(jié)果以及對(duì)結(jié)果的分析.實(shí)驗(yàn)中將本文增量LSTM模型與其他參考模型相比較.
4.4.1 模型分類性能對(duì)比
首先,本文將本文模型與其他6種參考模型方法運(yùn)用在臨床領(lǐng)域時(shí)序知識(shí)圖譜中,表2為這些方法的性能對(duì)比.

Table 2 Performance Comparison on Different Models表2 不同模型的性能對(duì)比
Note: The bold words mean best choice.
從表2中可以看出,通過(guò)該實(shí)驗(yàn),翻譯模型中的TransR模型,在本文的臨床事實(shí)知識(shí)圖譜中,準(zhǔn)確度要比Rescal算法和NTN算法高.翻譯模型中TransE和TransH模型,與Rescal和NTN相比,并無(wú)明顯優(yōu)勢(shì).而深度學(xué)習(xí)模型DNN通過(guò)對(duì)隱藏層的控制表達(dá),對(duì)比傳統(tǒng)鏈接預(yù)測(cè)方法取得了較大的優(yōu)勢(shì).可見,針對(duì)臨床領(lǐng)域時(shí)序知識(shí)圖譜中語(yǔ)義豐富、時(shí)序性等特征,本文提出的增量LSTM模型取得了最高的準(zhǔn)確度、召回率和F1-Score,分類性能有了明顯提升.
4.4.2 模型ROC圖對(duì)比
ROC曲線圖以真陽(yáng)性率TP作為縱軸,以假陽(yáng)性率FP作為橫軸.由圖5可知,本文提出的增量LSTM模型ROC曲線下的面積最大,同時(shí)最凸,最靠近左上點(diǎn),表明在這3類模型中新模型的診斷價(jià)值最大,準(zhǔn)確性最高,利用價(jià)值大.

Fig. 5 ROC results on different models圖5 ROC對(duì)比圖
4.4.3 模型PR圖對(duì)比
本文對(duì)這3個(gè)模型還做出了PR曲線圖的對(duì)比.在PR曲線中,以召回率R為橫坐標(biāo),P為縱坐標(biāo).召回率表明的是查全率,精確度表明的是查準(zhǔn)率,兩者不可同時(shí)兼得,一般R高,P就低,反之R低,P就高.因此,往往通過(guò)PR曲線去看它們之間的關(guān)系和權(quán)衡點(diǎn).與ROC曲線左上凸不同的是,PR曲線中,越右上凸的曲線,說(shuō)明該模型的效果越好.
由圖6的各個(gè)模型的PR圖對(duì)比,可以看出,相比于其他模型,增量LSTM模型在PR圖上的表現(xiàn)有了比較明顯的提高,右凸程度比原先大了很多,說(shuō)明該模型的效果有了提升,是7種模型中右凸程度最明顯的,因此,本文提出的增量LSTM效果最佳.

Fig. 6 PR results on different models圖6 PR對(duì)比圖
通過(guò)從以上準(zhǔn)確度AUC、召回率R以及ROC曲線和PR曲線對(duì)比圖方面進(jìn)行分析,綜合得出本文提出的增量模型相比原先的模型,在各個(gè)方面都有了顯著的提升.
4.4.4 模型中網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
本文對(duì)增量LSTM模型中LSTM神經(jīng)元個(gè)數(shù)進(jìn)行了不同參數(shù)對(duì)比,表3為不同參數(shù)對(duì)最終性能的影響對(duì)比表.

Table 3 Comparison on Different Network Parameters表3 不同網(wǎng)絡(luò)參數(shù)的對(duì)比
Note: The bold words mean best choice.
隨著LSTM中神經(jīng)元數(shù)量的增加,增量LSTM模型在準(zhǔn)確率、召回率以及F1分?jǐn)?shù)上有了明顯提高.然而,當(dāng)神經(jīng)元增加到256時(shí),性能反而有所下降,其中的原因可能是因?yàn)檫^(guò)擬合.因此,本文在進(jìn)行了模型參數(shù)對(duì)比實(shí)驗(yàn)后,最終選取128個(gè)LSTM神經(jīng)元個(gè)數(shù).
4.4.5 模型時(shí)間復(fù)雜度分析
表2中包含本文提出模型和其他模型的復(fù)雜度對(duì)比.其中ne指實(shí)體的數(shù)量,nr指關(guān)系的數(shù)量,k指向量化中向量的維度,Ka,kb,kc分別對(duì)于NTN中的第a,b,c層的大小,nr是第r層神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元個(gè)數(shù),P代表TransR中做投影的時(shí)間,在DNN模型中,V是通過(guò)One-hot方式初始化稀疏向量的維度,n0是雙向LSTM中輸入層的序列數(shù),nr是第r層神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元個(gè)數(shù),n表示增量LSTM中輸入的三元組序列數(shù).
從表2中可見,Rescal的復(fù)雜度最高,需要的時(shí)間消耗最大.NTN方法的時(shí)間消耗也過(guò)長(zhǎng),若運(yùn)行在更大的數(shù)據(jù)量中,時(shí)間限制則會(huì)加劇.而基于轉(zhuǎn)換模型的時(shí)間復(fù)雜度大大降低,適于大數(shù)據(jù)量.增量LSTM模型的時(shí)間與輸入量聯(lián)系緊密,知識(shí)圖譜中關(guān)系種類越多,輸入的三元組序列數(shù)越大,時(shí)間復(fù)雜度即越高.
本文提出了一種基于深度學(xué)習(xí)的臨床領(lǐng)域時(shí)序知識(shí)圖譜鏈接預(yù)測(cè)模型.該模型用于以醫(yī)院內(nèi)部實(shí)際的EMR記錄為基礎(chǔ),所創(chuàng)建具有時(shí)序特性的臨床領(lǐng)域時(shí)序知識(shí)圖譜.該模型選取適合大規(guī)模數(shù)據(jù)的TransR轉(zhuǎn)換模型,在包含不同語(yǔ)義的關(guān)系空間中做實(shí)體投影,從而對(duì)圖譜中的實(shí)體和復(fù)雜語(yǔ)義關(guān)系向量化.然后,采用LSTM遞歸神經(jīng)網(wǎng)絡(luò),加入了圖譜中的上下關(guān)聯(lián)信息,進(jìn)行序列化學(xué)習(xí).接著對(duì)時(shí)序信息做增量計(jì)算,對(duì)時(shí)序信息提取更精準(zhǔn)的特征向量.最后,不斷通過(guò)增量計(jì)算和LSTM遞歸網(wǎng)絡(luò)進(jìn)行深層學(xué)習(xí),提高預(yù)測(cè)準(zhǔn)確度.實(shí)驗(yàn)表明:增量LSTM模型突出臨床事實(shí)中隱含的語(yǔ)義和時(shí)序信息,有效地利用序列化學(xué)習(xí)挖掘其前后依賴信息,彌補(bǔ)了傳統(tǒng)鏈接預(yù)測(cè)模型導(dǎo)致對(duì)時(shí)效性知識(shí)圖譜預(yù)測(cè)準(zhǔn)確度較低的不足.在未來(lái)的工作中,考慮將本文所提框架下的LSTM替換為其他LSTM變種方法,進(jìn)一步集成其他深度學(xué)習(xí)方法,從而優(yōu)化增量LSTM模型.
[1]Sequeda J F. Integrating relational databases with the semantic Web: A reflection[C] //Proc of the 13th Int Summer School. Berlin: Springer, 2017: 68-120
[2] Sulakhe D, Balasubramanian S, Xie Bingqing, et al. Lynx: A database and knowledge extraction engine for integrative medicine [J]. Nucleic Acids Research, 2014, 42(D1): 1007-1012
[3] Ogishima S, Takai T, Shimokawa K. Integrated database and knowledge base for genomic prospective cohort study in tohoku medical megabank toward personalized prevention and medicine[C] //Proc of the 15th World Congress on Health and Biomedical Informatics. Amsterdam: IOS Press, 2015: 1057-1057
[4] Jia Lirong, Liu Jing, Yu Tong, et al. Construction of traditional Chinese medicine knowledge graph [J]. Journal of Medical Informatics, 2015, 36(8): 51-55 (in Chinese) (賈李蓉, 劉靜, 于彤, 等. 中醫(yī)藥知識(shí)圖譜構(gòu)建[J]. 醫(yī)學(xué)信息學(xué)雜志, 2015, 36(8): 51-55)
[5] Wang Qiao, Wang Wei. Papers on genome epidemiology in the world: A knowledge map-based visual analysis [J]. Chinese Journal of Medical Library and Information Science, 2013, 22(4): 2-9 (in Chinese)(王俏, 王偉. 基于知識(shí)圖譜的國(guó)際基因組流行病學(xué)可視化分析[J]. 中華醫(yī)學(xué)圖書情報(bào)雜志, 2013, 22 (4): 2-9)
[6] Liu Danhong, Luo Xiaonan, Xu Yongyong. Overview of electronic medical records and its application [J]. Chinese Health Quality Management, 2010, 17(4): 1-5 (in Chinese)(劉丹紅, 羅小楠, 徐勇勇. 電子病歷及其應(yīng)用概述 [J]. 中國(guó)衛(wèi)生質(zhì)量管理, 2010, 17(4): 1-5)
[7] Taskar B, Fai W M, Abbeel P, et al. Link prediction in relational data[C] //Proc of the 17th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2003: 659-666
[8] Baader F, Sertkaya B. Usability issues in description logic knowledge base completion[C] //Proc of the 7th Int Conf on Formal Concept Analysis. Berlin: Springer, 2009: 1-21
[9] Sahebi S, Yu-Ru L, Brusilovsky P. Tensor factorization for student modeling and performance prediction in unstructured domain[C] //Proc of the 9th Int Conf on Educational Data Mining. Berlin: Springer, 2016: 502-506
[10] Chang Kaiwei, Yih W, Yang Bishan, et al. Typed tensor decomposition of knowledge bases for relation extraction[C]//Proc of the 2014 Conf on Empirical Methods in Natural Language Processing. Stroundsburg, PA: ACL, 2014: 1568-1579
[11] Morales C, Collarana D, Vidal D E, et al. MateTee: A semantic similarity metric based on translation embeddings for knowledge graphs[C] //Proc of the 17th Int Conf on Web Engineering. Berlin: Springer, 2017: 246-263
[12] Vang K J. Ethics of Google’s knowledge graph: Some considerations [J]. Journal of Information, Communication and Ethics in Society, 2013, 11(4): 245-260
[13] Bollacker K D, Evans C, Paritosh P. Freebase: A collaboratively created graph database for structuring human knowledge[C] //Proc of the 39th ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2008: 1247-1250
[14] Bizer C, Lehmann J, Kobilarov G, et al. DBpedia—A crystallization point for the Web of data [J]. Journal of Web Semantics, 2009, 7(3): 154-165
[15] Miller A, WordNet G. A lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39-41
[16] Sousa A M, Pereira O M, et al. MorphoCol: An ontology-based knowledgebase for the characterisation of clinically significant bacterial colony morphologies [J]. Journal of Biomedical Informatics, 2015, 55: 55-63
[17] Abraham I L, Buckwalter K C. Geropsychiatric nursing: A clinical knowledge base in community and institutional settings [J]. Journal of Psychosocial Nursing and Mental Health Services, 1994, 32(4): 20-26
[18] Vives-Boix V, Fernández D R, et al. A knowledge-based clinical decision support system for monitoring chronic patients[C] //Proc of the 7th Int Work-Conf on the Interplay Between Natural and Artificial Computation. Berlin: Springer, 2017: 435-443
[19] Ruan Tong, Sun Chenglin, Wang Haofeng, et al. Construction of traditional Chinese medicine knowledge graph and its application [J]. Journal of Medical Informatics, 2016, 37(4): 8-13 (in Chinese)(阮彤, 孫程琳, 王昊奮, 等. 中醫(yī)藥知識(shí)圖譜構(gòu)建與應(yīng)用 [J]. 醫(yī)學(xué)信息學(xué)雜志, 2016, 37(4): 8-13)
[20] Xiang Y, Poh K L. A knowledge-based modeling system for time-critical dynamic decision-making[C] //Proc of the 9th Pacific Rim Int Conf on Artificial Intelligence. Berlin: Springer, 2006: 212-221
[21] Bordes A, Usunier N, García-Durán A, et al. Translating embeddings for modeling multi-relational data[C] //Proc of the 27th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2013: 2787-2795
[22] Wang Zhen, Zhang Jianwen, Feng Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C] //Proc of the 28th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2014: 1112-1119
[23] Lin Yankai, Liu Zhiyuan, Sun Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C] //Proc of the 29th AAAI Conf on Artificial Intelligence Learning. Menlo Park, CA: AAAI, 2015: 2181-2187
[24] Xie Danfeng, Zhang Lei, Bai Li. Deep learning in visual computing and signal Pprocessing [J]. Applied Computational Intelligence and Soft Computing, 2017, 2017: Article ID 1320780
[25] Li Xiang, Taheri A, Tu Lifu. Commonsense knowledge base completion[C] //Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 1445-1455
[26] Jiang Tingsong, Liu Tianyu, Ge Tao, et al. Towards time-aware knowledge graph completion[C] //Proc of the 26th Int Conf on Computational Linguistics. Stroudsburg, PA: ACL, 2016: 1715-1724
[27] Melisachew W C, Giuseppe P, Joerg S, et al. Marrying uncertainty and time in knowledge graphs[C] //Proc of the 31th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2017: 88-94
[28] Sepp H, Jürgen S. LSTM can solve hard long time lag problems[C] //Proc of the 10th Neural Information Processing Systems. Cambridge, MA: MIT Press, 1996: 473-479
[29] Luo Yuan, Ahmad F S, Shah J S. Tensor factorization for precision medicine in heart failure with preserved ejection fraction [J]. Journal of Cardiovascular Translational Research, 2017, 10(3): 305-312
[30] Robert S, Catherine H. Representing general relational knowledge in conceptNet 5[C] //Proc of the 8th Int Conf on Language Resources and Evaluation. Marrakech, Morocco: ELRA, 2012: 3679-3686
ALinkPredictionModelforClinicalTemporalKnowledgeGraph
Chen Dehua1, Yin Suna1, Le Jiajin1, Wang Mei1, Pan Qiao1, Zhu Lifeng2
1(CollegeofComputerScienceandTechnology,DonghuaUniversity,Shanghai201600)2(RuijinHospital,SchoolofMedicine,ShanghaiJiaoTongUniversity,Shanghai200025)
Link prediction on knowledge graph is the main task of knowledge base completion, predicting whether a relationship existing in the knowledge base is likely to be true. However, traditional knowledge link prediction models are only appropriate for static data rather than temporal knowledge base. Temporal knowledge base exists on various fields. Take medical medicine field as example, diabetes is a typical chronic disease which evolves slowly. Thus, link prediction on clinical knowledge base such as diabetic complication requires the analysis on temporal characteristic of temporal knowledge base, which is a great challenge for traditional link prediction models. Thus, to address the prediction of temporal knowledge base, this paper proposes a long short-term memory (LSTM) based model for temporal knowledge base. The proposed model adopts memory cells of LSTM for sequential learning, and then builds incremental learning layer. Afterwards, timing characteristics can be extracted by the way of end-to-end, which realizes the prediction on temporal knowledge base. In experiments, the proposed model in clinical temporal knowledge base shows significant improvements compared with baselines including Rescal, NTN, TransE, TransH, TransR and DNN.
temporal knowledge graph; knowledge graph link prediction; translation model TransR; long short term memory (LSTM) networks; incremental learning
2017-09-01;
2017-10-06
上海市科技創(chuàng)新行動(dòng)計(jì)劃項(xiàng)目(15511106900);上海市科技發(fā)展基金項(xiàng)目(16JC1400802);上海市信息化發(fā)展專項(xiàng)基金項(xiàng)目(XX-XXFZ-01-14-6349)
This work was supported by the Shanghai Innovation Action Project of Science and Technology (15511106900), the Science and Technology Development Foundation of Shanghai (16JC1400802), and the Shanghai Specific Fund Project for Information Development (XX-XXFZ-01-14-6349).
TP391

ChenDehua, born in 1976. PhD and associate professor. His main research interests include database, data warehouse, big data and deep learning.

YinSuna, born in 1994. Master candidate. Her main research interest is data mining (yinsuna312@126.com).

LeJiajin, born in 1951. Professor and PhD supervisor. Member of CCF. His main research interests include database and data warehouse, software engineering theory and practice (lejiajin@dhu.edu.cn).

WangMei, born in 1980. PhD and professor. Member of CCF. Her main research interests include database, image semantic analysis and information retrieval (wangmei@dhu.edu.cn).

PanQiao, born in 1977. Associate professor and deputy director of department. His main research interests include big data and cloud computing, machine learning (panqiao@dhu.edu.cn).

ZhuLifeng, born in 1976. PhD candidate at Donghua University, and senior engineer at Ruijin Hospital. His main research interests include medical information management and medicaldata (zlf@rjh.com.cn).