摘要:構建面向在線健康社區用戶生成內容(User Generated Content,UGC)數據的醫療健康知識圖譜,探究基于用戶潛在需求的健康知識抽取,對優化在線健康社區信息組織與檢索,支撐在線健康社區知識服務創新具有重要意義。提出基于在線健康社區UGC數據的實體識別組合模型LDA-BERT-BiLSTM-CRF,首先利用LDA主題模型對在線健康社區UGC數據進行主題聚類分析從而提取實體類型,基","Introduction":"","Columns":"知識組織","Volume":"","Content":"
摘要:構建面向在線健康社區用戶生成內容(User Generated Content,UGC)數據的醫療健康知識圖譜,探究基于用戶潛在需求的健康知識抽取,對優化在線健康社區信息組織與檢索,支撐在線健康社區知識服務創新具有重要意義。提出基于在線健康社區UGC數據的實體識別組合模型LDA-BERT-BiLSTM-CRF,首先利用LDA主題模型對在線健康社區UGC數據進行主題聚類分析從而提取實體類型,基于細分實體類型利用BERTBiLSTM-CRF模型進行命名實體識別;然后采用MC-BERT-CasRel模型抽取在線健康社區UGC數據中的重疊三元組,并通過SBERT模型實現實體對齊;最后利用Neo4j圖數據庫完成知識圖譜的存儲和可視化。以小兒腹瀉病為例,基于所提方法最終構建包含939個實體和3 224個關系的小兒腹瀉病知識圖譜。與目前主流模型進行對比實驗,結果表明,所采用的組合模型LDA-BERT-BiLSTM-CRF與關系抽取模型MC-BERT-CasRel較傳統方法知識抽取更準確,實體分類也更具針對性。
關鍵詞:知識圖譜構建;在線健康社區;用戶生成內容;LDA;知識抽取
中圖分類號:G250.73 DOI:10.3772/j.issn.1673-2286.2024.08.002
引文格式:孟秋晴,鄭銘瑞,田玥璐,等. 面向在線健康社區UGC的醫療健康……