999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向多模態醫療健康數據的知識組織模式研究

2023-10-07 12:09:54葉東宇陳文祺
現代情報 2023年10期
關鍵詞:語義模態文本

韓 普 葉東宇 陳文祺 顧 亮

(1.南京郵電大學管理學院,江蘇 南京 210003;2.江蘇省數據工程與知識服務重點實驗室,江蘇 南京 210023)

以習近平同志為核心的黨中央始終“把保障人民健康放在優先發展的戰略位置”,黨的二十大報告也提出“推進健康中國建設,把保障人民健康放在優先發展的戰略位置”。醫療健康事關人民生命健康安全,對經驗和知識依賴性強,需要精準、全面、高質量的知識服務[1-2]。知識組織是知識服務的前提和基礎[3-5],醫療健康數據的知識組織水平很大程度上決定了醫療健康知識服務的效率和質量[1]。

隨著互聯網和信息技術的快速發展,各類醫療健康活動產生了海量的文本、圖片、視頻和音頻等多模態數據。多模態數據雖然在底層表征上是異構的,但是相同實體的不同模態數據在高層語義上是一致的,表達相同或相似的語義信息。傳統知識組織體系主要針對單模態數據進行知識組織,難以支撐醫療健康領域多模態數據的語義表示、知識關聯和融合,當前迫切需要一種更為完善的知識組織方法對類型繁多、專業性強、分布稀疏的多模態醫療健康數據進行序化和組織。有效的知識組織模式不僅有助于縮小多模態數據間的異構鴻溝,獲得更強的語義理解、知識補全和知識推理能力,而且有助于提升多模態數據資源的利用效率和知識服務水平,從而更好地服務于“健康中國”國家戰略。

1 相關研究工作

知識組織概念最早由分類法專家Bliss在1929年首次提出,1964年袁翰青教授在國內最早使用了知識組織的表述[6],隨后劉洪波[7]和王知津[8]等國內學者針對知識組織概念、模型、方法和應用進行了早期的理論和實踐探索。作為圖情理論和實踐研究的核心與熱點研究問題,隨著信息技術不斷發展,知識組織相關理論和實踐都取得了顯著進步。尤其是得益于大數據和深度學習的進步,知識組織的理論、方法和技術研究成為近些年圖書情報學領域的前沿課題[9-10]。本小節主要從模態視角和領域視角對知識組織的最新研究進展進行梳理。

1.1 面向多模態數據的知識組織

大數據時代信息傳播豐富多彩,用戶獲取的信息不僅局限于傳統文本模態,還包含了圖像、音頻和視頻等多模態數據。在此背景下,如何將多模態數據進行知識序化形成科學有效的知識組織體系成為當前學界的關注熱點[11]。已有研究主要從多模態知識融合、知識表示和實踐應用方面進行了重點關注。在方法和技術方面,Wang M等[12]借助維基百科圖像描述中的超鏈接信息關聯文本和圖像,以生成多模態語義關系。在實踐應用方面,Su J等[13]構建了可捕捉文本和圖像語義信息交互的多模態神經機器翻譯模型;蔣雨肖等[14]利用深度學習模型融合文本和圖像的語義特征,進而實現多模態信息分類。隨著深度學習和多模態學習的發展,多模態知識圖譜成為知識組織的重要方法和工具[15]。Xia F等[16]在已有醫學知識圖譜基礎上,借助圖像檢索構建醫學多模態知識圖譜;張瑩瑩等[17]在中文癥狀知識圖譜基礎上,融入圖片以豐富實體的視覺信息。在數字人文領域,視覺資源對象語義內容豐富[18-19];曾子明等[18]提出一種基于關聯數據的視覺資源組織方法來揭示知識間內在語義關聯;夏立新等[20]和莊文杰等[21]分別以資源社會化標簽和視頻知識元進行非遺視覺資源的知識組織;周知等[22]提出了一種4層架構的數字人文圖像資源知識組織模型。

已有研究主要對多模態知識組織中的相關方法和技術進行了研究,這些研究大大拓展了多模態知識組織實踐的范圍,為多模態知識組織深入研究奠定了基礎。總體上,相關研究主要停留在傳統的描述階段,盡管有部分文獻根據資源特征構建了基于關聯數據的知識組織模型,但主要依賴不同模態數據的元數據,難以充分利用多模態數據的深層語義信息,多模態數據資源的深度序化和模態間語義關聯迫切需要充分利用多模態數據的固有特征信息進行知識組織。

1.2 醫療健康領域知識組織

隨著知識組織研究的深入以及用戶精準知識服務的需求的推動,知識組織正走向領域知識組織時代[5-6]。醫療健康領域知識專業性強,實體數量巨大、更新速度快且實體間語義關系非常復雜[23-24]。已有文獻主要對醫療健康領域知識組織中的實體識別、實體對齊和關系抽取等關鍵問題進行了研究。在實體識別方面,Li L等[25]基于注意力機制與雙向長短期記憶網絡,提出一種改進的中文電子病歷實體識別模型,解決了長文本中遠距離帶來的信息缺失問題;Ji B等[26]基于多神經網絡協同合作方法,構建了中文醫學命名實體識別模型,并通過遷移學習引入非目標場景數據集提高模型泛化能力。在實體對齊方面,Hao J等[27]基于本體論、語義網和圖神經網絡提出了一種端到端實體對齊框架Medeto,有效提高了醫學知識庫中本體匹配的準確率;Su F等[28]采用關系聚合網絡提取文本特征,通過輔助信息不參與網絡反向傳播有效地提高了實體對抽取的效率。在關系抽取方面,Alicante A等[29]提出一種無監督方法來抽取臨床記錄中的實體和實體間關系;Bai T等[30]設計了一種基于卷積神經網絡的分段關注機制,進而抽取中醫草藥文獻中實體間的語義關系。

作為實現醫療健康領域知識組織目標的最佳途徑之一,知識圖譜能夠以一種便于機器存儲、識別和理解的方式對數據進行有效的組織與管理[31],相關研究近些年受到了學界的極大關注[32]。為解決多源健康知識的異構問題,馬費成等[9]采用五元組形式進行健康知識表示。王文韜等[33]基于粒度原理將健康領域知識解構成不同知識單元。Warnat H S等[2]利用醫療健康數據和機器學習模型構建了疾病分類系統。以醫學學術文獻為數據源,Zhu C等[34]構建了疾病知識圖譜,蔡妙芝等[23]采用SPO語義三元組進行疾病知識組織。基于尋醫問藥網結構化信息,武家偉等[35]構建了“疾病—癥狀”知識圖譜。陸泉等[36]提出了一個基于擴展疾病本體的醫學數據組織模型,實現電子病歷大數據的知識描述與組織。

綜上所述,現有的醫療健康知識組織傾向于在單模態視角下探討不同應用場景下的具體問題,部分研究關注了不同模態數據技術層面的知識融合,但缺少系統的多模態知識組織理論架構。多模態醫療健康數據的涌現使跨模態語義理解與知識組織變得更加迫切,有效的知識組織不僅能夠更全面地揭示不同模態醫療健康數據之間的語義關聯,同時也能夠利用多模態數據補全做出更準確的疾病預測[37]。本研究將從多模態和多粒度視角下探究醫療健康數據的知識單元抽取、多模態知識單元構建和多模態知識圖譜補全等問題,進而構建醫療健康領域多模態知識組織模式,并在醫療健康知識問答等應用場景進行分析。

2 面向多模態醫療健康數據的知識組織模式設計與技術分析

多模態醫療健康知識組織模式最終是實現多模態醫療健康數據的有效組織和應用。多模態醫療健康知識組織模式的關鍵步驟是通過醫療健康數據內涵特征分析,在已有的醫療知識圖譜基礎上融入其他模態信息以補全語義知識,并通過語義關聯為用戶提供醫療健康知識服務。其中,相較于傳統的知識組織模式,本文的多模態知識組織模式創新之處在于從醫療健康數據知識單元抽取和多模態知識單元構建方面強化多模態知識的深度處理與利用。具體如圖1所示。

圖1 多模態醫療健康數據的知識組織模式設計及應用方案

本文以醫療健康領域電子病歷文本和圖像數據為知識組織案例,按照圖1進行數據獲取及預處理、知識單元抽取、多模態知識單元構建、多模態知識組織表示以及知識服務應用的技術流程論證分析。

2.1 多模態醫療健康數據的獲取和預處理

高質量的多模態數據集是實現醫療健康知識組織的基礎,本文的多模態醫療健康數據來源于醫療機構、在線健康平臺和醫學知識庫,主要包含文本、圖像、音頻和視頻4種模態數據。本研究一方面從合作醫療機構的臨床電子病歷獲取文本及CT、X光和超聲等醫學圖像數據,并對用戶隱私信息進行脫敏處理;另一方面利用爬蟲獲取疾病百科、醫學文獻和在線健康平臺的文本及圖像數據;另外,還通過在線短視頻平臺獲取音視頻模態數據。

盡管可利用的多模態醫療健康數據較多,但是不同來源的數據質量參差不齊,尤其是包含大量用戶生成內容的在線健康平臺數據需要清洗和加工。具體而言,首先通過去重、填補缺失值、處理異常值等方法對多模態數據進行預處理;然后利用YEDDA、CVAT、Praat和VoTT等標注工具對文本、圖像、音頻和視頻數據進行多輪標注;接著基于人工隨機檢查標注結果對多模態知識實體及語義關系標注規范進行適時修正;最終通過標注一致性檢驗,獲得高質量的多模態醫療健康標注數據集。

2.2 醫療健康數據的知識單元抽取

知識單元是知識的基本組分,對知識序化和知識組織有著極其重要的作用。雖然知識單元的分類標準與表達形式目前尚未統一,但已有研究多傾向于使用N元組描述知識單元[38]。一方面采用N元組形式可以將知識單元更好地表示為機器可處理的形式;另一方面可以更方便地實現知識圖譜的知識補全[39]。基于以上考慮,本文將使用三元組形式表示各模態醫療健康數據中的知識單元,進而為后續的多模態知識單元構建和知識圖譜補全奠定基礎。本研究中,每個模態數據知識單元定義為實體與實體間關系所構成的三元組,因此各模態數據中實體和實體間關系抽取是后續研究的關鍵環節。

盡管已有研究驗證了深度學習在實體識別任務上的優勢,但醫療健康領域多模態數據具有高度的專業性,存在不同模態數據均指向同一實體的現象。如圖2所示,多模態醫療健康數據中文本描述“腫塊”、音頻數據“占位”、醫學影像中A區域和視頻中B部分,雖然描述方式不同,但均表征“腫瘤”疾病這一實體。此外,醫療健康領域各實體間還存在大量的一對多關系。這些因素給多模態醫療健康數據的知識單元抽取帶來了很大挑戰。因此,如何解決多模態數據中實體對齊和關系抽取是本部分的研究重點。

圖2 多模態醫療健康數據實體對齊

實體對齊是判斷不同數據源和不同模態實體是否為指向同一對象的過程。在已有研究基礎上,本小節首先利用深度神經網絡對文本、圖像、音頻和視頻數據進行特征抽取;然后借助AlignE、AVR-GCN和Cross-KG等方法實現多模態知識實體對齊和消融;最終構建<腫塊/占位/圖像A/視頻B>的實體對。

本研究中關系抽取任務主要是針對文本模態數據。由于醫療健康領域專業性強、實體表述多樣,實體間語義關系復雜,尤其關系重疊現象比較常見,如圖3中文本模態數據“左肺見高密度腫塊”中的實體“腫塊”與“左肺”和“高密度”均存在語義關系。考慮到傳統聯合抽取和Pipeline抽取方法難以解決此類問題,本研究采用端到端多模態生成模型抽取實體間語義關系。

圖3 多模態醫療健康數據中醫學實體關系抽取模型

在實體關系抽取任務中,首先將文本模態和圖像模態數據輸入編碼器(Encoder),然后將編碼后的信息輸入到解碼器(Decoder)中進行解碼,接著由解碼器生成包含實體和關系的序列“腫塊左肺腫塊高密度”,具體如圖3所示。

圖3中,“腫塊左肺”代表“腫塊”的發病位置位于“左肺”,“腫塊高密度”代表腫塊的屬性是“高密度”。基于上述實體對齊和關系抽取流程,可得到知識單元<腫塊/占位/A/B,左肺,位置屬性>和<腫塊/占位/A/B,高密度,密度屬性>。

2.3 醫療健康數據的多模態知識單元構建

現有的多模態知識融合和知識組織研究大多直接將圖片與文本實體構成的知識單元嵌入知識圖譜[17,40]。但知識單元不是獨立存在的,只有將其置于原始語境下,才能夠最大化地理解知識單元的價值和作用[39]。本研究提出的知識組織模式創新之處在于整合多模態醫療健康數據以構建多模態知識單元,并在此基礎上實現醫療健康知識圖譜的模態補全,其中多模態知識單元是在特定語境下對特定知識實體及其關系的整合,相較于單模態的知識單元在內容上更加豐富。具體而言,多模態知識單元構建分為知識評估與知識融合兩個步驟。首先,對三元組形式的知識單元進行評估以剔除噪聲和無關信息進而得到知識真值;其次,融合知識真值與醫學知識庫中的專業知識得到包含上下文語義信息的多模態知識單元。本部分以圖4為例,通過知識評估與知識融合生成多模態知識單元。

圖4 醫療健康多模態知識單元構建過程

知識評估是通過關系構建、概率計算和評估排序得到多模態醫療健康數據中知識真值的過程。具體而言,首先基于YOLO和BiLSTM-CRF等算法對圖4中腦膜瘤多模態數據進行實體識別,分別抽取其圖像實體T1和T2,以及文本實體“右側鞍旁”和“形狀規則占位”;接著通過關系構建枚舉多模態知識實體間所有的關系路徑;然后將每條路徑作為訓練專家,通過隨機游走關系路徑圖來計算每條關系路徑終點的概率值[41];最后利用醫學知識庫中語義關系對預測結果進行排序評估并得到知識真值“<右側鞍旁,T2,形狀規則占位>”。

2.4 醫療健康多模態知識組織表示

鑒于已有單模態文本的醫學知識圖譜研究已較為成熟[34-35],本研究在文本知識圖譜基礎上進行多模態醫療健康知識組織表示和補全,該部分工作主要包含多模態知識五元組構建和知識圖譜補全兩部分。五元組構建是在各模態知識單元基礎上,采用五元組形式對多模態醫療健康知識進行組織,具體以<多模知識單元U,實體E,關系R,領域D,參考源S>五元組形式TM進行存儲。其中,U包括文本單元UL、圖像單元UP、視頻單元UV和音頻單元UA,E表示實體集合,R表示實體間關系集合,D表示領域集合,S是描述參考源集合,TM=(UL∪UP∪UV∪UA)×E×R×D×S。如圖5所示,首先將包含圖像單元UP和文本單元UL的多模知識單元“神經源性腫瘤”存儲在U中;接著將通過實體識別和關系抽取的各部分實體以及實體間語義關系集分別存儲在E和R中;最后基于本體知識表示方法,將其他模態信息存儲在領域D中,將數據來源信息存儲在參考源S。

圖5 多模態醫療健康知識五元組構建(以文本—圖像為例)

知識圖譜補全是指將多模態知識五元組融入現有單模態醫學知識圖譜。本部分采用語義相似度計算和語義映射的方法將多模態知識五元組融入現有的知識圖譜,具體包含實體映射和關系映射兩部分。如圖6所示,多模態知識五元組中,實體E存在文本實體T1“右下縱膈”和T6“神經源性腫瘤”,關系R中具有T6-T1“發病部位”和T6-P1“圖片對應”;單模態醫學知識圖譜包含實體“縱膈”和“神經源性腫瘤”與表示關系的三元組“<神經源性腫瘤,發病部位,后縱膈、椎管內、腹膜后等>”。實體映射是將多模態知識五元組中的文本實體T1和T6分別同單模態醫學知識圖譜中的實體1和實體2建立映射;關系映射是將關系“T6-T1”和單模態醫學知識圖譜中關系1建立映射。由于單模態醫學知識圖譜不存在圖片數據,因此將“T6-P1”作為關系2“圖片對應”補全到單模態知識圖譜中,最終以三元組M記錄映射結果,其中O為源域數據,T為目標域數據,Si為相似度。

圖6 多模態醫療健康知識補全過程

3 基于多模態醫療健康知識圖譜的健康知識服務

本研究構建的多模態醫療健康知識組織模式可應用于跨模態知識檢索、視覺問答和輔助決策支持等應用場景。本節以醫療健康問答系統為實踐應用,驗證多模態知識組織模式在語義消歧和知識補全方面的優勢,增強知識服務的有效性和全面性。

本研究構建的醫療健康知識問答系統主要分為用戶知識需求分析和動態知識匹配兩部分。知識需求分析通過獲取用戶的基本信息和主題意圖生成用戶知識需求模型。具體而言,首先通過基于規則和統計的方法獲取用戶基本信息,接著采用主題挖掘抽取用戶請求的主題意圖進而構建用戶知識需求模型;知識匹配是在多模態知識圖譜基礎上,利用語義相關度計算得到與用戶知識需求相關度高的知識標引結果集,并通過語義關聯實現用戶知識需求與多模態醫療健康知識的精準匹配。

本文以網上問診為例,構建基于多模態知識圖譜的醫療健康知識問答系統,具體如圖7所示。在知識需求分析階段,首先利用多模態實體識別、目標檢測和關系抽取等方法獲取用戶提交數據的關鍵信息,然后采用主題挖掘方法對用戶查詢請求的主題意圖進行識別,進而構建用戶知識需求模型。具體地,首先分析和處理用戶提交的數據,抽取如“疼痛”“不均”“陰影”和醫學影像圖中病變部位等關鍵信息,然后基于主題挖掘算法識別用戶查詢請求的主題意圖并構建用戶知識需求模型。在知識匹配階段,首先計算用戶知識需求模型與多模態醫療健康知識單元的語義相關度,得到相關度較高的知識標引結果集,并利用多模態實體的語義關聯實現語義消歧,最終向用戶提供匹配度高的多模態醫療健康知識。具體地,通過語義相似度計算得到與用戶知識需求匹配度較高的知識標引結果集“肝膿腫”和“脂肪肝”。實際情況下,知識標引結果集中相關概念與用戶知識需求可能存在歧義,這將造成系統推送錯誤信息,如“脂肪肝”的病癥“密度降低”是指全肝密度降低,而用戶知識需求模型中“低密度陰影”則表明病變部位密度較低。因此系統將知識標引結果集與用戶知識需求進行多模態實體的語義關聯,計算出用戶知識需求中“低密度”“不均”等實體與“肝膿腫”中文本和圖像實體具有最高關聯度,進而實現語義消歧,最終系統將可能性最高的結果“肝膿腫”及相關信息推送給用戶。

圖7 基于多模態知識圖譜的醫療健康問答系統

4 結 語

隨著信息技術的發展和大數據時代的到來,醫療健康領域文本、圖像、視頻數據增長迅速,傳統知識組織體系主要針對文本模態數據進行知識組織,目前迫切需要一種有效的組織方法對多模態數據進行序化整理組織以提升數據資源的利用效率,進而為用戶提供多維度多樣化知識服務。本文從多模態視角,通過分析文本、圖像、音頻和視頻多模態數據的內在特性和多模態數據間深層語義關系,基于多模態知識圖譜和語義知識組織框架,提出一種面向多模態醫療健康數據的知識組織模式,重點從多模態醫療健康數據的獲取和預處理、醫療健康數據的知識單元抽取、多模態知識單元構建、多模態知識組織表示和基于多模態醫療健康知識圖譜的知識服務等關鍵層面分析了具體實現路徑。本研究一方面推進了多模態知識組織的理論深度;另一方面有助于提升多模態數據資源的利用效率和知識服務水平,對提升國民健康信息素養和創新知識服務具有重要的現實意義。

猜你喜歡
語義模態文本
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
認知范疇模糊與語義模糊
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 爽爽影院十八禁在线观看| 久久中文电影| 亚洲综合九九| 国产精品国产三级国产专业不| 国产乱视频网站| 久久这里只有精品66| 亚洲国产成熟视频在线多多| 久久国产精品麻豆系列| 久久久精品国产SM调教网站| 国产精品va免费视频| 98精品全国免费观看视频| 婷婷色婷婷| 成人综合网址| 亚洲综合在线网| 91精品小视频| 在线观看亚洲人成网站| yjizz国产在线视频网| 亚洲一区精品视频在线| 欧美一级夜夜爽| 亚洲日韩精品伊甸| 国产va在线| 国产福利小视频高清在线观看| 视频二区中文无码| 另类欧美日韩| 在线观看免费国产| 另类欧美日韩| 99这里只有精品6| 激情亚洲天堂| 思思热在线视频精品| 亚洲成av人无码综合在线观看| 成人无码区免费视频网站蜜臀| 欧美在线伊人| 国产精品人成在线播放| 国产成a人片在线播放| 日韩a级毛片| 国产香蕉在线视频| 国产色婷婷| 久久91精品牛牛| 久久久久免费看成人影片| 免费看的一级毛片| 97国产在线播放| 国内精品小视频在线| 国产麻豆aⅴ精品无码| 亚洲一级毛片在线观播放| 欧美日韩成人| 国产门事件在线| 在线观看亚洲人成网站| 亚洲欧美日韩另类| 少妇精品网站| 99在线观看国产| 久久a级片| 国产av无码日韩av无码网站| 亚洲综合第一页| 福利一区三区| 青青青国产精品国产精品美女| 国产精品大白天新婚身材| 国模沟沟一区二区三区| 久久国产精品娇妻素人| 热久久这里是精品6免费观看| 亚洲国产欧洲精品路线久久| 影音先锋丝袜制服| 久久鸭综合久久国产| 成人无码区免费视频网站蜜臀| 五月天福利视频| 亚洲国产综合精品一区| 亚洲第一区在线| 露脸一二三区国语对白| 色国产视频| 91精品国产福利| 免费在线色| 免费在线不卡视频| 久久青青草原亚洲av无码| 99精品高清在线播放| 视频二区欧美| 国产色爱av资源综合区| 国产一区二区三区日韩精品| 欧美午夜久久| 婷婷色狠狠干| 91麻豆精品国产高清在线| 国产精品区视频中文字幕| AⅤ色综合久久天堂AV色综合| 国产欧美另类|