999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于病情自述和知識圖譜的疾病輔助診斷

2018-04-18 11:07:46張利萍芮偉康
計算機應用與軟件 2018年2期
關鍵詞:關聯語義分類

張利萍 邢 凱, 周 慧 芮偉康 丁 玲

1(中國科學技術大學蘇州研究院 江蘇 蘇州 215123)2(中國科學技術大學計算機學院 安徽 合肥 230022)3(蘇州工業園區疾病防治中心 江蘇 蘇州 215021)

0 引 言

醫療診斷在大數據驅動下朝著智能化方向發展。人工智能可以通過對醫療數據智能化的推理和表示輔助診斷和治療。因醫療文本是醫療數據中應用最廣泛的一種形式,很多人工智能醫療輔助診斷研究基于醫療文本。如Apixio的iris[1]主要利用醫生診斷記錄和筆記了解病人情況。IBM Watson[2]主要依據醫學文獻關聯癥狀和診斷結果。Babylon人工智能健康咨詢系統[3]根據用戶與在線人工智能系統對話列舉的癥狀給出初步診斷結果。隨著人們對健康的關注,國內使用搜索引擎和瀏覽健康網站了解健康問題的網民分別是69.3%和75.6%[4]。統計“好大夫在線”網絡咨詢的數據,每天有3萬多病情描述產生,一年有近千萬的數據。病情自述是患者對自身疾病癥狀或健康情況的描述,包含了潛在的疾病知識。這樣規模的不規范數據僅靠人工來判讀效率低、代價高昂。利用機器學習的手段進行疾病知識發現、特征構建和智能輔助判別是未來的趨勢。

知識發現實質上是一系列任務,包括內容分析[5],查詢與推薦[6],文本分類[7]和文本聚類[8]。雖然典型的LDA[9]主題模型可以用于從海量文本中發現結構化知識,但在短文本上效果不好。在文本知識挖掘中,出現很多研究開始將圖論、統計和圖模型[10]等結合。其中知識圖譜在醫療文本挖掘和輔助推理中受到關注和研究。微軟Azure是一款人工智能醫療輔助服務,通過健康搜索數據建立用戶搜索意圖知識庫,將醫療知識庫和用戶搜索意圖知識庫結合完成知識圖譜構建,讓機器理解問題進行語義計算,提供輔助問診和自動問答。Hyland等[11]使用概率生成模型將無結構化的文本統一到結構化的知識圖譜,推理醫療實體間概率關系。Salid等[12]則使用Wiki臨床醫療相關頁面內容構建有向知識圖譜,每個節點是與疾病和醫療狀況相關的一些癥狀,利用知識驅動和深度學習結合的方法提供診斷、治療等相關的方案。 Shi等[13]提出一種模型對異構醫學文本組織融合形成概念圖譜,基于語義推理從知識圖譜上自動獲取知識實現了很好的推理結果。智能診斷需要醫療知識支持和對用戶語義的理解,所以對病情自述的挖掘具有研究意義。

病情自述是用戶對疾病的描述,體現用戶認知的最佳個性化數據。病情自述包含了疾病引起的特征(癥狀、病因等)和描述疾病時的文本特征。通過同一疾病的病情自述的研究,可以發現該疾病的疾病知識和描述特征。而每個有效的描述都是幾個特征以團的形式的組合。頻繁出現的特征團可以作為判別疾病類型的知識依據。基于特征團的語義關聯,我們提出為各類疾病構建知識圖譜。從知識圖譜上抽取疾病的結構化特征,使用它對病情自述進行文本表示,并進行病情自述的疾病類型分類。最后實驗構建了6種疾病的知識圖譜,并對其進行分類識別研究。分類結果微平均和宏平均都在80%,可以用于疾病輔助診斷。知識圖譜構建過程是無監督的,適合影評和商品評論等文本的特征結構化分析和用戶語義挖掘。基于知識圖譜進行的病情自述分類可以用于初步診斷病情自述的疾病,從而服務于疾病知識推薦。

1 特征關聯網絡

一般的文本語義網絡是根據特征共現構建,而同一類型的文本,如病情自述,特征還具有一定的概率關聯關系。每種疾病的病情自述包含了其特有的癥狀和特征。描述疾病時,特征之間存在概率和語義的關聯。為了挖掘特征出現的模式,基于同一疾病的病情自述文本,為其構建特征關聯網絡,具體的過程如下。

1.1 文本預處理

選擇同一疾病的病情自述文本集。為了提取疾病相關的所有可能特征關鍵詞,首先對文本數據進行清洗,剔除重復和無效的病情自述文本。然后使用中科院的NLPIR漢語分詞系統分詞和詞性標注。為保證疾病詞和癥狀詞能正確分詞,導入準備的疾病和癥狀詞典,然后去除停用詞和無意義的單字,得到初步的特征關鍵詞集合。在該疾病病情自述文本集合中,計算關鍵詞集中每個詞的TF-IDF值。發現大量詞TF-IDF高,但是與疾病是沒有關系的。根據標注的詞性分析,與疾病相關的詞性主要有名詞n、形容詞a/an、動詞v以及發現的新詞。通過詞性過濾詞集,對符合詞性的詞TF-IDF排序,如圖1所示,頸椎病病情自述集合中提取的關鍵詞的TF-IDF折線圖,其中(“脖子”,0.055 3),(“麻木”,0.046 0)。根據詞性過濾后的特征關鍵詞,TF-IDF越高,與疾病特征相關度越大。在這個過程中,我們得到了一個疾病描述時所有相關特征詞。這些特征詞總結了疾病的相關癥狀和潛在特征詞。

圖1 通過詞性過濾后的關鍵詞TF-IDF值

1.2 概率關聯和語義關聯

特征或者癥狀的出現是疾病輔助診斷的關鍵信息。對于不同疾病病情自述,特征詞不同,特征出現的模式也不同。對于同一疾病的病情自述文本,在得到特征關鍵詞之后,為了挖掘該疾病描述的特征關鍵詞之間的模式,我們從概率關聯和語義關聯建立疾病特征關聯網絡。若一個疾病的特征關鍵詞集是W,關鍵詞wi∈W,wj∈W,那么wi出現時wj出現的概率p(wj|wi)如公式所示:

(1)

式中:p(wj|wi)是wi到wj的有向的概率關聯度;c(wi,wj)是wi和wj關鍵詞對共現次數,c(wi)是詞wi的詞頻。比如“頸椎”與“麻木”共同出現的短文本數是47,“頸椎”詞頻為443,“麻木”詞頻為148。p(頸椎|麻木)=47/148,而p(麻木|頸椎)=47/443。

根據概率中值過濾低概率關聯的特征詞對。如果特征詞對之間相互的有向關聯都被過濾掉,那么他們之間的概率關聯度不高,去除關聯。如果兩個關鍵詞總是一起共現,共現次數少,詞頻都相對低,那么對疾病描述屬于弱語義,就是與疾病不相干的詞。基于概率關聯構建特征關聯網絡FG=(W,E,K)。圖的節點是特征詞,W是節點集,E是邊集,邊代表特征詞對存在共現關系且滿足概率關聯。對于存在概率關聯的關鍵詞wi和wj,三元組表示wi和wj共現次數為k,k∈K作為邊的權值。比如存在概率關聯的“頸椎”與“麻木”共同出現的短文本數是47,“頸椎”與”脖子”共同出現的短文本數是30。根據FG中K的中值去除共現數少于中值的特征詞之間的邊,得到最終的特征關聯網絡,此時疾病特征詞的語義關系更明顯,與單純地使用特征共現得到的語義網絡相比更適合同類文本特征關聯。如圖2,給出了一個頸椎病的部分特征詞的關聯網絡。

圖2 頸椎病病情自述的特征關聯網絡

2 知識圖譜構建和結構化特征抽取

不同疾病類型的病情自述文本對應的特征關聯網絡是其疾病特征和特征關系的表現。基于特征關聯網絡,可以發現描述一個疾病時所用特征和特征出現的團模式。每個團可以作為一個疾病判別知識,團之間存在一定的語義關聯。基于此為每類病情自述建立可視化的疾病知識圖譜。從而利用知識圖譜進行知識發現和推理。

2.1 特征詞團

圖論中,一個clique是無向圖G中的完全子圖。如果一個clique不被其他clique包含,就稱為圖G的極大團。頂點最多的極大團是圖G的最大團。術語clique來自文獻[14],在社交網絡中使用完全子圖來模擬社交團體,團體內的人彼此認識。在文本數據挖掘方面,我們曾提出使用clique在人物關系的關鍵詞網絡[15]中找出核心的人物關系詞。這里使用clique找出病人對同一疾病描述時所用特征的團模式。

在特征關聯網絡中,首先找到頻繁特征詞團。頻繁特征詞團是特征關聯網絡的一個完全子圖,團內的特征詞共同出現描述病情。每個特征詞團呈現了描述疾病時使用的特征詞之間的關聯性和語義關系。在特征關聯網絡FG中,使用python提供的network包的find_cliques找出節點數在3以上的極大clique,且clique中所有特征詞在文本中共現。這是因為一個有效的疾病描述文本要包含3個以上的特征詞。如頸椎病病例自述文本的幾個特征詞團:3-clique[′頸椎′,′電腦′,′脖子′];4-clique[′棉花′,′無力′,′麻木′,′上肢′];6-clique[′頸椎′,′響聲′,′低頭′,′轉頭′,′聲音′,′僵硬′]等。特征詞團的詞常被一起使用來描述疾病的詞組,可以作為疾病類型推理判別時的知識。

2.2 知識圖譜

特征詞團是病情自述文本所使用特征的多樣性模式。團之間可能存在多個相同特征詞,當兩個團之間相同特征詞數相對每個特征詞團中特征詞數占權值較大時,團之間存在語義關系。根據團之間的這種語義建立知識圖譜KG=(C,E,W)。每個節點是一個特征詞團,C是特征團的集合。每個有向邊是兩個團之間相對語義關聯,有向邊集為E。關鍵詞團ci∈C,cj∈C,如果ci與cj相同特征個數不等0,那么三元組是ci->cj的有向邊,其中wij∈W是ci與cj的有向關聯度,計算如公式所示:

(2)

這種方法建立了特征詞團的有向知識圖譜。疾病特征團數節點數Size(cliques),過濾入度小于Size(cliques)/10的節點。根據W求中值,過濾小于中值的有向邊,當特征詞間兩條有向邊都存在,兩條有向邊轉成一條無向邊。最終完成知識圖譜構建,如圖3,給出了頸椎病的部分知識圖譜展示。疾病知識圖譜構建過程是無監督的,適用于所有疾病類型的病情自述文本。同時可以用于同類文本,如同一電影影評,同一商品評論的特征結構化。

圖3 知識圖譜形式

3 非結構化的病情自述文本結構化表示

3.1 結構化特征抽取

通過知識圖譜的構建得到了一類疾病常用的特征和描述該疾病時常用特征模式間的關系。分析疾病知識圖譜可以發現,特征團因過濾了低語義關聯的邊在知識圖譜上出現了小世界現象,一些特征團通過相同的特征詞關聯相互連通,而與其他團分離,以一個獨立的子圖出現。根據連通子圖,分解知識圖譜合并特征團內的特征,能夠完成結構化特征抽取。得到的結構化的特征類似于話題形式,每個結構化特征記作topic,最終抽取的疾病的結構化特征記作topics。從每個疾病的知識圖譜上進行結構化特征抽取的算法過程如下:

算法基于知識圖譜抽取疾病結構化

Input:疾病知識圖譜KG

Begin:

repeat

1)從KG中劃分連通子圖,節點數在1和30之間,摘除子圖g;

2)合并g中所有特征詞團的關鍵詞得到話題topic,加入topics;

3)處理DG中因摘除子圖出現的孤立節點;

until DG為空

End.

Output:topics

通過知識圖譜中連通圖的劃分和特征團的合并,得到了結構化的特征知識。每個結構化特征內部的所有特征詞存在語義的關聯維度低,可以用作病情自述文本的表示。

3.2 結構化表示

經典的文本表示法是向量空間模型。因為病情自述的疾病特征太多,特征稀疏,分類效果不好。這里我們提出使用知識圖譜得到所有疾病的結構化特征去完成病情自述的結構化表示。計算每個結構化特征與病情自述的Jacarrd相似系數。設病情自述文本d,疾病相關的特征詞有m個,d可以表示成d=(w1,w2,…,wm),其中特征詞是無序的。計算d與第j個topic的Jaccard相似度J(d,topicj),如式(3):

(3)

式中:J(d,topicj)記作Jj。分子是d和第j個topic共同的特征詞數,分母是兩者包含的所有特征詞。假設有K個結構化特征,病情自述文本表示為d= (J1,J2,…,Jj,…,JK)。

4 病情自述的輔助診斷和評估

病情自述文本輔助診斷是根據病情自述文本包含的特征判斷其可能的疾病類型。基于確診的病情自述訓練分類器,能用于對新的樣本進行疾病輔助判別。無論對一個疾病的識別,還是多個疾病的識別,實質是文本的分類問題。所研究的類為正樣本,其他類為負樣本,設TP:正確分類的正樣本數;TN:正確分類的負樣本數;FP:負樣本誤分類為正樣本數;FN:正樣本誤分類為負樣本數。對該類識別的評估參數有準確度Accuracy、精確度Precision、召回率Recall和F1值四個方面,計算如下:

(a)Accuracy=(TP+TN)/(TP+FP+TN+FN)

(b)Recall=TP/(TP+FN)

(c)Precision=TP/(TP+FP)

(d)F1=(2×Precision×Recall)/(Precision+Recall)

對于二分類的評估,不能單獨考慮分類準確率,要基于以上四個標準參數。對多分類結果的評估,單從準確率評估也是不合理的。要從整體的分類正確率和每個類的分類評估進行。引入兩個參數:微平均Micro-average和宏平均Macro-average[16]。微平均也就是整個分類的準確率,是正確識別的樣本數與整體測試樣本數的百分比。宏平均根據每個類的F1求算術平均得到。

5 實驗與結果

5.1 實驗數據和實驗設置

抓取“好大夫”網站中網絡咨詢服務中已經確診的6種疾病的病情自述文本:頸椎病1 878例、高血壓1 826例、冠心病1 919例、老年性白內障1 320例、新生兒黃疸1 849例、腰椎間盤突出1 936例。每類文本選擇1 000例分別構建知識圖譜。基于知識圖譜抽取結構化特征,每個疾病因為特征和特征模式不同,得到的結構化特征個數也不同,分別是頸椎病7個、高血壓9個、冠心病11個、老年性白內障2個、新生兒黃疸11個、腰椎間盤突出9個。如頸椎病的特征形式見表1。6種疾病得到49個結構化特征。將其余病情自述的樣本進行成結構化表示,每個結構化特征是一個feature,形成49維的數據,作為疾病判別的實驗樣本。

實驗1,對一個疾病的識別。一類疾病為正樣本,其他幾類疾病隨機抽樣為負樣本,使用SVM訓練分類器。對比實驗設置三種,一組使用LDA生成結構化知識,即話題,每個疾病的話題個數設置與我們提取的該疾病的結構化特征數一樣,然后使用相同方法結構化表示病情自述,使用SVM分類。另外兩組用空間向量模型表示文本,分別使用SVM和KNN分類。

實驗2,對多個疾病的分類識別。利用SVM分類6種病情自述文本。

表1 頸椎病病情自述文本的結構化特征

5.2 實驗結果

5.2.1實驗1結果和分析

對實驗樣本隨機劃分訓練集和測試集。從訓練樣本中選擇頸椎病為正樣本,其他5個疾病抽樣的總數與正樣本相同,為負樣本。采用幾種分類方法,分類結果對比見表2。結果表明,基于知識圖譜提取的結構化特征表示病情自述進行的分類結果比基于向量空間模型表示的分類結果好。基于LDA提取的話題表示病情自述文本的分類結果最差。說明提出的無監督知識圖譜得到的結構化特征表示病情自述在疾病識別任務中具有優勢。為了保證實驗的魯棒性,進行了多個疾病的多次相同實驗,我們的方法其實驗結果穩定,每個疾病識別率都在80%以上。

表2 不同分類方法比較      %

5.2.2實驗2結果和分析

實驗樣本隨機2:1劃分訓練樣本和測試樣本,使用訓練樣本,訓練SVM多分類器。首先使用libsvm庫提供的方法得到cost和gamma最優參數設置cost=100,gamma=0.01。然后對6種病情自述文本的測試樣本分類,結果如表3,預測類型對應行,行和是預測為該類的樣本數。實際類型對應列,列和是該類實際測試樣本數。

根據表3,計算多分類的微平均和宏平均對分類進行評估。整個的分類正確率,即微平均值是83.4%。對每個類計算其召回率Recall,精確度Precision和F1,結果見表4。對所有類的F1求算術均值得到多分類的宏平均值84%。多次實驗結果穩定。

表4 6種疾病判別結果評估

對分類后的樣本進行人工審核,經過專業分析,整體分類結果可以或能被接受應用于病情自述文本疾病類型的輔助診斷。根據進一步分析發現,一類誤診樣本中,多被判為四類,四類誤診樣本中多被判成一類,而兩種疾病,頸椎病和腰椎間盤突出具有醫療聯系。同樣,在三類和六類中也有這種現象,而冠心病和高血壓醫療中屬于一種常見的并發性疾病。對于整體的疾病分類率來說,識別效果可以用于輔助診斷,而且在這樣的研究中,可以發現疾病和疾病間的關系。因此根據病人病情描述狀況,可以提供病人可能相關的疾病診斷信息,進行個性化疾病知識推薦。

6 結 語

隨著人們對健康的關注,很多網民會通過網絡咨詢疾病問題,產生了海量的病情描述文本。針對病情自述文本的多樣性,本文提出了基于一種為確診同一疾病的病情自述文本創建疾病知識圖譜的方法,該過程是無監督的。知識圖譜是根據病情描述時的特征團模式進行的知識關聯,能夠表現疾病的特征和描述疾病的常用模式關系。然后,基于知識圖譜提取結構化特征完成病情自述文本結構化文本表示。實驗疾病判別的結果取得了預期的效果。基于知識圖譜完成的結構化表示,是一種新的結構化知識提取方法,不僅可以用于病情自述結構化知識提取,也可用于同類或同樣電影的影評、同類或同一商品的評論的特征分析和結構化特征抽取。從疾病判別多分類結果看,整體的準確率和識別率符合疾病診斷特點,可用于識別病情自述文本,進行初步診斷。本文是對病情自述的智能診斷研究,其中知識圖譜構建和結構化特征抽取的方法具有一般性,適合同類文本的知識挖掘研究。

[1] Hodson H.Google knows your ills[J].New Scientist,2016,230(3072):22-23.

[2] Neti C,Ebadollahi S,Kohn M,et al.IBM Watson+Data analytics:a big data analytics approach for a learning healthcare system[Z].Newsletter,2016.

[3] Middleton K,Butt M,Hammerla N,et al.Sorting out symptoms: design and evaluation of the Babylon check’automated triage system[J].arXiv preprint arXiv:1606.02041,2016.

[4] 蘇春艷.當“患者”成為“行動者”:新媒體時代的醫患互動研究[J].國際新聞界,2015,37(11):48-63.

[5] Jiang D,Leung K W T,Ng W.Fast topic discovery from web search streams[C]//Proceedings of the 23rd international conference on World wide web.ACM,2014:949-960.

[6] Zhou T C,Lyu M R T,King I,et al.Learning to suggest questions in social media[J].Knowledge and Information Systems,2015,43(2):389-416.

[7] Chen M,Shen D,Shen D.Short text classification improved by learning multi-granularity topics[C]//International Joint Conference on Artificial Intelligence.AAAI Press,2011:1776-1781.

[8] Jin O,Liu N N,Zhao K,et al.Transferring topical knowledge from auxiliary long texts for short text clustering[C]//Proceedings of the 20th ACM international conference on Information and knowledge management.ACM,2011:775-784.

[9] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of machine Learning research,2003,3(1):993-1022.

[10] Lu Y,Zhai C.Opinion integration through semi-supervised topic modeling[C]//Proceedings of the 17th international conference on World Wide Web.ACM,2008:121-130.

[11] Hyland S L,Karaletsos T,R?tsch G.Knowledge Transfer with Medical Language Embeddings[J].arXiv preprint arXiv:1602.03551,2016.

[12] Hasan S A,Zhao S,Datla V,et al.Clinical question answering using key-value memory networks and knowledge graph[Z].TREC,2016.

[13] Shi L,Li S,Yang X,et al.Semantic Health Knowledge Graph:Semantic Integration of Heterogeneous Medical Knowledge and Services[Z].BioMed Research International,2017.

[14] Luce R D,Perry A D.A method of matrix analysis of group structure[J].Psychometrika,1949,14(2):95-116.

[15] 劉錦文,邢凱,芮偉康,等.基于信息關聯拓撲的互聯網社交關系挖掘[J].計算機應用,2016,36(7):1875-1880.

[16] Calvo R A,Lee J M.Coping with the news:the machine learning way[C]//Proceedings of Ausweb 2003 Conference,Gold Coast.2003.

猜你喜歡
關聯語義分類
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
分類算一算
語言與語義
分類討論求坐標
數據分析中的分類討論
奇趣搭配
教你一招:數的分類
智趣
讀者(2017年5期)2017-02-15 18:04:18
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 日本在线国产| 国产精品久久国产精麻豆99网站| 极品性荡少妇一区二区色欲 | 日日摸夜夜爽无码| 亚洲成人黄色在线| 制服丝袜在线视频香蕉| 青青草a国产免费观看| 在线观看无码av免费不卡网站| 人与鲁专区| 又污又黄又无遮挡网站| 99精品视频九九精品| 国产一区二区色淫影院| 日韩欧美国产精品| 欧美伦理一区| 久草视频中文| 91视频区| av大片在线无码免费| 亚洲无码高清免费视频亚洲| 亚洲中文无码av永久伊人| 欧美日本中文| 亚洲天堂日韩av电影| 亚洲大学生视频在线播放| 亚洲无码日韩一区| 亚洲成a人片| 成人国产精品视频频| 欧美成人日韩| 久久亚洲综合伊人| 国产欧美日韩va另类在线播放| 成人午夜精品一级毛片| 国产精品手机在线观看你懂的| 又爽又大又黄a级毛片在线视频| 欧美成人国产| 亚洲色图在线观看| 99视频在线观看免费| 日韩午夜福利在线观看| 成人伊人色一区二区三区| 朝桐光一区二区| 国产色网站| 亚洲AV电影不卡在线观看| 无码专区第一页| 亚洲狠狠婷婷综合久久久久| 青青草原国产| 国产精品一老牛影视频| 99久久精品久久久久久婷婷| 91久久夜色精品国产网站| 91系列在线观看| www.99精品视频在线播放| 中文毛片无遮挡播放免费| 欧美国产菊爆免费观看| 国产又色又爽又黄| 久久九九热视频| 国产一区二区精品福利| 色综合天天综合中文网| 四虎精品黑人视频| a级毛片毛片免费观看久潮| 亚洲伊人天堂| 国产精品成人第一区| 极品私人尤物在线精品首页| 强奷白丝美女在线观看| 人妻精品久久久无码区色视| 午夜啪啪福利| 精品一区二区三区波多野结衣 | 国产免费精彩视频| 夜精品a一区二区三区| 在线播放91| 国产精品熟女亚洲AV麻豆| 51国产偷自视频区视频手机观看| av性天堂网| 在线观看欧美精品二区| 亚洲美女一级毛片| 亚洲最新网址| www.国产福利| 久久精品一卡日本电影| 沈阳少妇高潮在线| 亚洲第一成人在线| 国产真实乱子伦精品视手机观看 | 最新精品久久精品| 午夜激情福利视频| 97se综合| 亚洲青涩在线| 亚洲αv毛片| 欧美精品v|