999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于共詞分析和可視化的高血壓疾病關聯性挖掘

2019-06-06 06:32:56劉莉姚京京李俊陳先來周宇葵
中國醫學物理學雜志 2019年5期
關鍵詞:高血壓分析研究

劉莉,姚京京,李俊,陳先來,周宇葵

1.中南大學生命科學學院,湖南長沙410013;2.中南大學湘雅口腔醫學院,湖南長沙410008;3.中南大學信息安全與大數據研究院,湖南長沙410083

前言

高血壓是一種以體循環動脈壓升高為主要特征,遺傳易感性和環境因素相互作用導致的全身性疾病[1]。已有大量研究表明有效控制高血壓發病情況,可降低心腦血管疾病的患病風險[2-3]。電子病歷(Electronic Medical Record,EMR)是病人的所有健康保健數據、病史及患病情況的存儲[4]。作為一種新穎而豐富的臨床研究資源,其研究價值不言而喻[5-6]。通過有效的數據可視化技術,電子病歷數據中疾病診斷之間的關系可以以圖形網絡的形式清晰展示出來,以便醫生探索其中的醫學規則,輔助其進行疾病診斷,也可為患者提供直觀的疾病關系網絡。本研究以高血壓相關的電子病歷數據作為數據源,采用Gephi 復雜網絡分析軟件和共詞分析方法,從多角度、多層面分析展示病案首頁中高血壓相關診斷之間的關系,旨在揭示這些疾病診斷之間的聯系,為下一步建立更加完善的疾病圖譜奠定基礎。

1 國內外相關研究

高血壓及其相關疾病關系可以通過查閱文獻資料、詢問醫療工作者和訪問醫學網站等方式獲取,其中對電子病歷進行分析是一種以患者為中心的研究方法,是了解患者患病情況的重要手段[7]。已有不少研究以電子病歷為研究對象,開展自然語言處理、知識提取、可視化研究等方面的工作[8-10]。姚旭升等[11]以住院病案首頁數據為研究對象,采用基于Apriori算法的關聯規則挖掘數據流,建立疾病間關聯規則模型。基于電子病歷的分析可以發現患者最直接的信息,分析其中的規律,揭示各疾病之間的關系。

近年來,大數據的興起和相關技術的迅速發展讓生物醫學成為發展最為迅速的領域之一[12]。在臨床、藥品、檢驗、影像和醫學科研領域每天都產生著大量數據,并近乎以指數方式增長。因此,對這些醫學領域的信息進行科學的收集、加工、分析、處理、展示,使其更好地為人類服務也就顯得更加重要。基于共詞分析構建共現網絡的可視化技術探索關鍵詞之間的關系并不是一項新的嘗試,在許多領域都被有效利用,如研究文本分類中詞的共現關系[13],學科知識結構、研究熱點分析[14-15]。共詞分析用于確定各關鍵詞之間共同出現的頻次,使密切相關的關鍵詞聚類,其可發現研究對象之間的關系和揭示潛在的可能關系[16]。

在高血壓的研究領域中,多為臨床研究、基礎醫學研究和數據挖掘研究,其中數據挖掘研究多集中于高血壓識別模型和高血壓癥狀研究,鮮有共詞分析的可視化技術分析高血壓及其相關疾病關系的研究報道。本研究旨在采用共詞分析的可視化技術對病案首頁診斷數據進行分析,構建高血壓及其相關疾病的關系網絡,分析與高血壓相關的主要疾病之間的關系,為提供直觀的高血壓疾病關聯圖譜、展示臨床已知的疾病關聯、揭示潛在的與高血壓相關疾病、輔助醫生診斷提供參考。

2 數據源和研究方法

2.1 數據源

本研究選取湘雅三醫院2017年11月份出院患者的病案首頁數據作為實驗數據源,共計記錄3 632條,字段232 個。基于患者隱私保護,首先對記錄中的患者身份信息進行剔除,僅為每條記錄隨機賦予唯一識別碼,以保證隱私信息的安全。以“高血壓”為檢索詞,選擇診斷字段中包含“高血壓”的記錄作為研究對象,共計808條記錄。對所選記錄和字段進行評估、篩選、填充、刪除等預處理,最終獲得四類字段。同時,以實驗數據中的第一條記錄為例,展示各字段的內容,其中門診診斷和主要診斷結果不一定相同。實驗數據中平均每條記錄包含5.5 個非空診斷字段,所含字段數量范圍為3~17個,各記錄非空字段數目分布整體呈偏態分布,記錄非空字段數主要集中于4~10。

2.2 數據預處理

在電子病歷數據中,病案首頁數據的結構化程度相對較高,類似患者主訴等自然語言為主的字段較少,多為類似診斷信息等結構化程度較高的字段,表達簡潔準確。但依舊存在因表達標準化不夠完善、錄入人員操作失誤等情況。

由于患者的“其它診斷”數量具有個體差異性,診斷字段數量不盡相同,所以在實驗研究中對空字段不進行填充處理。針對表達主題相同,但表達方式不同的字段內容進行轉換處理,以提高一定的數據標準化程度,如“高血壓Ⅲ”和“高血壓Ⅲ級”則將兩者統一以“高血壓Ⅲ”進行表示。在本研究中“高血壓Ⅱ”、“高血壓Ⅲ”分別對應Ⅱ級高血壓和Ⅲ級高血壓,而“高血壓”則是患者是否患有高血壓的判斷結果,可能為任意一級高血壓。此外,針對記錄中出現一些癥狀類診斷及診斷結果過于粗略的字段進行了刪除處理。

在數據處理的過程中,未對診斷結果進行主題詞、上下位詞的匹配和調整,因此,會出現“高血壓”、“高血壓Ⅱ”和“高血壓Ⅲ”等相似診斷名稱。這主要是考慮到雖然經過主題詞的調整和上下位詞的縮放可以減少節點數量,使共現網絡更加清晰,但會損失原本的疾病診斷信息,降低共現圖譜的精度。

2.3 構建共現矩陣

共詞分析研究的基礎是基于兩個假設:(1)兩個關鍵詞在同一條記錄中同時出現,表明其所代表的主題之間具有關聯性;(2)為探討關鍵詞之間相似度的聚類共現研究,需與研究的主題和目的保持一致[7]。基于共詞分析的研究思想,把原始記錄轉換為原始矩陣,對原始矩陣進行分析處理生成共現矩陣,為下一步研究提供數據支持。

以Python 語言編寫處理程序,提取出原始矩陣中的共現關系,即獲取原始矩陣中每一行任意兩個元素的構成的無序共現對,并記錄各元素出現次數和無序共現對出現的次數,其中元素出現次數以表格形式保存,共現關系以共現矩陣的形式表達出來,共現矩陣如式(1)所示。

在式(1)中,ci代表第i個關鍵詞,vab代表第a個關鍵詞與第b個關鍵詞的共現值,即兩者同時出現在同一條記錄中的次數。其中同一關鍵詞之間不存在共現關系,其值為空,以0 表示。據此所生成共現矩陣包含了原始矩陣中的共現關系和各關鍵詞之間共現的強弱程度。

2.4 基于Gephi進行可視化分析和展示

Gephi 是一款用于數據分析和復雜網絡展示的免費開源工具,與用戶有著良好的交互,可通過調整網絡的布局、形狀、顏色來顯示隱藏的關系。本研究以病案首頁診斷信息為節點,診斷間的共現關系為邊,構建基于病案首頁的高血壓診斷相關共現圖譜,借助Gephi軟件的數據分析工具,從模塊化、平均度、平均聚類系數等指標角度分析共現圖譜,解讀高血壓診斷之間的相關關系。

在整個共現網絡中,連接較為緊密的節點群可以被看成是一個社區,或劃分為一個社區。模塊度是評價社區劃分優劣的重要指標,模塊度的值越大,社區劃分的效果越好,其簡化公式如式(2)所示。

其中,∑in 表示社區c 內部的權重,∑tot 表示與社區c內節點連接的邊的權重,包括社區內部的邊和社區外部的邊。Gephi 軟件中的模塊化計算采用Fast Unfolding 算法,這一算法是為了尋求最大模塊度值以達到最佳的社區劃分結果[17]。疾病診斷共現網絡通過模塊化計算可得到多個關系較為密切的社區,便于進一步分析其中的關系。

在宏觀層面上,主要以平均聚類系數對網絡進行分析[18]。平均聚類系數是整個網絡上節點傾向形成聚類程度的平均值,每個節點的聚類系數都在0~1的范圍。若任一節點的聚類系數為0,表明該節點為獨立節點,即沒有其他節點與之相連,但本文僅提取了存在共現關系的疾病診斷信息進行研究,所以并不存在聚類系數為零的獨立節點。若任一節點的聚類系數為1,則表明該節點與網絡中所有節點都有直接或間接的相連關系,即存在路徑連接任意節點。在疾病診斷共現網絡中,平均聚類系數代表各診斷節點傾向于與其他節點共同出現的強度。

在微觀層面上,主要以中介中心性(Betweenness Centrality)、接近中心性(Closeness Centrality)對網絡進行分析[17]。中介中心性是指網絡中經過某點并連接這兩點的最短路徑占這兩點之間的最短路徑線總數之比,強調該節點在其他節點之間的連接能力,可能是塊之間的銜接橋梁。接近中心性是指每個結點到其它結點的最短路徑之和的倒數,節點接近中心性的值越高,代表其在該網絡中的中心位置,地位越重要。中介中心性和接近中心性相比,中介中心性強調的是節點在網絡中的銜接橋梁作用,為整個網絡的貢獻程度,接近中心性更加強調節點自身的中心位置。

3 結果展示與分析

3.1 疾病診斷共現圖譜整體分析

本實驗數據共計808條記錄,各記錄非空字段總計18 997 條,涉及疾病診斷結論1 029 個,共現關系12 479條。其中,頻次前10的疾病診斷名稱如圖1所示,可見這10 個疾病診斷名稱都是臨床上普遍認可的高血壓相關診斷,如2.2 所述,未對疾病診斷結果進行主題詞、上下位詞的匹配和調整,導致出現“高血壓”、“高血壓Ⅲ”和“高血壓Ⅱ”等相似診斷名稱,以保證疾病診斷共現圖譜的精度。

圖1 頻次前10的疾病診斷名稱Fig.1 Top 10 disease diagnoses

將1 029 個診斷節點數據和12 479 條共現關系邊數據導入Gephi復雜網絡分析軟件,對其進行模塊化分析,解析度設為默認值1.0,尋求最佳的社區分組。對模塊化分析結果進行統計,共得社區分組11個,社區分組內節點占總節點數百分比較高的為社區分組1(36.73%),社區分組2(26.53%)和社區分組3(14.97%),該三大社區覆蓋共現網絡中78.23%的節點。其中所占比例超過10%的相對較大社區僅為3個,在后續社區分析中,將以這3 個社區為研究對象。為全方面了解共現網絡中的相關信息,對整個網絡的信息進行統計分析,結果如表1所示。本節將從宏觀和微觀兩個層面,基于共現網絡指標數據對共現網絡進行分析解讀。

經過Gephi軟件“模塊化運算”后,并對同一社區設定唯一顏色。其中節點占比在1%以上的社區共有7個,分別對應的顏色為1(紅)、2(綠)、3(深藍)、4(淡藍)、5(棕)、6(粉)、7(橙)。在圖2中,展示了基于度和社區分組調整節點大小和顏色的疾病診斷共現圖譜。從圖2中可以清楚看出,其構圖十分復雜,但仍可看到“高血壓Ⅲ”、“高血壓”、“高血壓Ⅱ”、“2型糖尿病”等疾病診斷名稱是關系圖譜中的核心連接樞紐,其節點度數相對較大,也就是高共現的疾病診斷。聚類系數是衡量網絡中節點傾向于形成聚類的程度,聚類系數的高低意味著該節點所代表的診斷結果傾向于與其它診斷結果同時出現的程度。疾病貢獻網絡中聚類系數為1.0的節點總數較多,達到了526 個節點,占總節點數的51.12%,代表半數左右的診斷傾向于與其它診斷同時出現的程度較高,其與相鄰節點完全連接。不存在聚類系數為零的診斷節點,即不存在完全獨立的診斷節點。其余部分疾病診斷節點聚類系數較為均勻的分布在0 到1 之間。因此,大部分診斷節點的聚類系數較高,平均聚類系數為0.789,表明大部分的疾病診斷都是傾向于與其它疾病診斷共同發生的。

表1 診斷共現網絡相關指標Tab.1 Diagnosis co-occurrence network related indicators

圖2 高血壓相關診斷共現圖譜Fig.2 Co-occurrence map of hypertension-related diagnoses

3.2 中介中心性和接近中心性分析

為了揭示單個節點的屬性,需要從相對微觀的角度對疾病診斷共現網絡進行分析。關于節點中間度測量的指標較多,其中,中介中心性和接近中心性兩個指標最為重要[18]。本節將從中介中心性和接近中心性兩個角度對疾病診斷共現網絡進行分析。

中介中心性衡量了一個節點作為媒介者的能力,具有高中介性的節點被認為是便于管理和重要的節點。因此,這些存在于多診斷最短路徑上的診斷信息可以認為是銜接診斷社區分組的橋梁,導致多種疾病共同出現。各節點中介中心性如圖3所示。可見高中介中心性診斷節點分布稀疏,數量較少,而低中介中心性節點分布密集,集中于0~20 000。其中7 個疾病診斷節點具有高中介中心性,其值從21 944到106 490不等,對網絡的影響相對較大,值由高到低分別為高血壓Ⅲ、高血壓、高血壓Ⅱ、2型糖尿病、闌尾術后、冠狀動脈粥樣硬化性心臟病、頸動脈動脈硬化。

圖3 診斷節點中介中心性分布Fig.3 Betweenness centrality distribution of diagnostic nodes

接近中心性是從網絡中的一個節點到所有其他節點的平均最短路徑距離的度量。診斷節點的接近中心性越高,代表該節點處于網絡中更加中心的位置,與其他診斷距離較近,關聯性更強。高接近中心性的疾病診斷往往是臨床上與高血壓相關的常見病,可能是并發癥、合并癥等。診斷節點接近中心性分布圖如圖4所示,可見接近中心性分布較為均勻。“高血壓Ⅲ”接近中心性最高,其后依次為高血壓、2型糖尿病、高血壓Ⅱ,與大部分節點接近中心性差距不大,節點整體分布較為連續,未出現集群分布。因此,疾病診斷共現網絡,眾多疾病診斷關系彼此之間相互交錯,并沒有疾病處于完全中心的地位。

圖4 診斷節點接近中心性分布Fig.4 Closeness centrality distribution of diagnostic nodes

如2.4 所述,中介中心性強調節點在其他節點之間調節能力,控制能力指數,中介調節效應;而接近中心性強調節點在整個網絡中的價值,價值越大,節點越處于中心位置。將節點中介中心性降序排列,分別以中介中心性和接近中心性為縱坐標構建折線圖,以對比兩者趨勢變化,結果如圖5所示。可見兩者變化總體變化趨勢相同,但彼此之間沒有必然相關性,中介中心性越高,接近中心性不一定越高。

圖5 中介中心性和接近中心性對比折線圖Fig.5 Line chart of betweenness centrality and closeness centrality

結合3.2 和3.3 的分析可知,“高血壓Ⅲ”、“高血壓”、“高血壓Ⅱ”三者無論從平均度、平均聚類系數等宏觀指標,還是中介中心性、接近中心性等微觀指標來看,都處于疾病診斷共現網絡中相對突出的的位置。同時,除聚類系數外,三者的度、中介中心性、接近中心性的值依次遞減,“高血壓Ⅲ”患者屬于高危人群,合并癥或并發癥更多,危及生命的風險更大,所以,住院比例相對更高。而“高血壓”只是對患者是否患有高血壓疾病的界定,其所占比例更大程度上是由醫生選擇基于“患者是否患有高血壓”還是“患者所患高血壓級別”下診斷結論所決定的。相比于“高血壓Ⅲ”,“高血壓Ⅱ”人群病情稍好,因而住院比例略微低一些。

3.3 疾病診斷共現圖譜社區分析

在3.1 對疾病診斷共現網絡模塊化分析中,得到社區分組11 個,但未對社區內節點內容進行分析研究,探討各社區疾病診斷節點內容的關聯性。本節對社區節點數排名前3且所占比例大于10%的3個社區進行研究。

圖6a~c分別是社區1、社區2、社區3疾病診斷節點的關系網絡,分別占總節點數的36.73%、26.53%、14.97%。由于社區內節點仍然較多,現過濾掉社區中度數相對較低的診斷節點,使圖像更加清晰,便于展示分析。

在社區1 中,高血壓、肝囊腫、腎結石、先天性腎囊腫、惡性腫瘤維持性化學治療度數最高,且從邊的粗細可以看出彼此之間共現次數較高,在社區中無論是接近中心性還是中介中心性都相對較高,處于社區核心地位。可見高血壓、肝囊腫、腎結石、先天性腎囊腫之間共現關系較為密切,但目前臨床上僅認為上述4種疾病處于合并癥的關系,彼此之間的作用機制尚未查閱到相關文獻資料,因此,上述四者的關系仍需進一步探究。

在社區2 中,高血壓、2 型糖尿病、冠狀動脈粥樣硬化性心臟病、頸動脈動脈硬化等診斷節點的度數、中介中心性和接近中心性都較高,處于社區1的中心地位。高血壓與動脈粥樣硬化兩種疾病互為因果,相互作用,兩者常同時存在。高血壓和糖尿病均為常見病,兩者關系密切,患有其中一種疾病的患者會大大增加患有另一疾病的風險,同時動脈粥樣硬化與糖尿病關聯性也較強,糖尿病患者動脈粥樣硬化的發病率較無糖尿病者高兩倍。

圖6 社區內診斷節點共現網絡Fig.6 Community-wide diagnostic node co-occurrence network

在社區3 中,節點數量雖然達到總節點數的14.97%,但其處于中心位置節點的度數比社區1和社區2 的要小,以心臟擴大、腎性貧血、腎性高血壓、慢性腎功能不全尿毒癥期為代表。該社區主要包括心臟功能異常、高血壓、腎功能異常之間的關系。高血壓可導致心臟擴大,造成心臟功能異常,與腎臟疾病更是互為因果,彼此都可引起或加重另一方的病情,腎臟調解水與鈉的能力會影響血壓,而高血壓和動脈粥樣硬化會導致流入腎臟的血液也會減少,導致腎臟病變,或是加速既有的損傷。

4 結 論

常規的共現模型十分的直接和成熟,在文本挖掘等多領域均被有效利用,面對醫療領域的問題,該方法表現得“預測”能力較弱,“提取整理”能力較強[19]。在共現圖譜中表現的關聯關系多為臨床上所熟知,其主要作用是對病案首頁數據的提取、整理、發現,輔助挖掘未知或者未確認關聯關系,而其自身的數據挖掘能力較弱。本研究采用Gephi 復雜網絡分析軟件對高血壓相關疾病診斷進行提取整理分析,發現其與糖尿病、腎臟疾病、肝臟疾病、心臟疾病等共現關聯性較強,可能與高血壓導致心臟負荷大、血液供給不足等有關,其中一些疾病的發生存在集群現象,通過可視化圖譜展示疾病之間的內部關系,有助于觀察多疾病間的聯系。

在本研究基礎上,可以引入新的共現邏輯、關聯邏輯和有效的電子病歷記錄相似度匹配算法,數據源更加多元化,包含基因、疾病、癥狀等多方面的研究數據,可以有效提高圖譜的預測效果[20]。其中對非結構化數據進行自然語言處理,通過專業的術語詞典過濾,提取出有效的命名實體,可極大豐富圖譜的內容。

猜你喜歡
高血壓分析研究
FMS與YBT相關性的實證研究
全國高血壓日
西部醫學(2021年10期)2021-10-28 08:25:50
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
如何把高血壓“吃”回去?
基層中醫藥(2018年4期)2018-08-29 01:25:58
高血壓,并非一降了之
基層中醫藥(2018年6期)2018-08-29 01:20:14
電力系統及其自動化發展趨勢分析
主站蜘蛛池模板: 午夜天堂视频| 国产鲁鲁视频在线观看| 国产91丝袜在线播放动漫 | 国产亚洲欧美在线人成aaaa| AV不卡在线永久免费观看| 91国内视频在线观看| 国产日韩AV高潮在线| 国产成人综合亚洲欧美在| 成人免费一级片| 九色视频最新网址| 波多野结衣中文字幕一区二区| 免费a级毛片视频| 色综合手机在线| 国产va免费精品观看| 日韩福利视频导航| 亚洲三级视频在线观看| 久久这里只精品热免费99 | 中字无码av在线电影| 国产第一页免费浮力影院| 日韩精品无码免费一区二区三区| 亚洲无码视频图片| 国产亚洲欧美日韩在线一区二区三区 | 欧美中文一区| 手机看片1024久久精品你懂的| 国产网站在线看| 99久久这里只精品麻豆| 无码精品国产VA在线观看DVD| 国产9191精品免费观看| 欧美日韩在线观看一区二区三区| 国产亚洲精| 国产精品福利在线观看无码卡| 白浆视频在线观看| AV在线麻免费观看网站| 黄色三级毛片网站| 97视频精品全国免费观看| 国产欧美日韩免费| 国产第一福利影院| 久久久久无码精品国产免费| 丰满人妻久久中文字幕| 国产一区二区三区精品欧美日韩| 国产网站一区二区三区| 亚洲精品视频在线观看视频| 国产成人av大片在线播放| 少妇精品网站| 一级片免费网站| 久久国产香蕉| 91麻豆国产视频| 欧美精品一区在线看| 精品国产网| 亚洲色图在线观看| 国产精品视频观看裸模| 丰满少妇αⅴ无码区| 最新痴汉在线无码AV| 亚洲码一区二区三区| 国产精彩视频在线观看| 不卡色老大久久综合网| 2021国产精品自拍| 国产91色在线| 凹凸精品免费精品视频| 久草网视频在线| 亚洲国产精品无码AV| 91探花国产综合在线精品| 久久黄色毛片| 91精品国产91欠久久久久| 国产SUV精品一区二区6| 中美日韩在线网免费毛片视频| 久久精品娱乐亚洲领先| 国产美女91视频| 二级特黄绝大片免费视频大片 | 久久免费视频播放| 亚洲美女高潮久久久久久久| 曰韩免费无码AV一区二区| 国产美女无遮挡免费视频| 在线看AV天堂| 中文字幕人成乱码熟女免费| a级毛片免费网站| 欧美一区福利| 日韩在线成年视频人网站观看| AⅤ色综合久久天堂AV色综合| 久久精品女人天堂aaa| 欧美日韩成人在线观看| 久久9966精品国产免费|