廖開際, 王 瑩
(華南理工大學工商管理學院,廣州 510641)
隨著人們健康意識的不斷提高,現有醫療服務水平已不能滿足人們的需求,醫療系統智能化刻不容緩.智能醫療的建立需要科學強大的知識體系來支撐,于是醫療知識庫應運而生. 醫療知識庫的應用使得非結構化的知識被有效地管理和利用,簡化了患者看病的流程,減輕了醫生的工作量,提高了醫生的工作效率.醫療知識庫常用于疾病診斷決策、醫療知識檢索等. 由于醫療知識分布廣泛,且不同數據源所獲取的知識也是有差異的,因此多來源醫療知識庫中的知識冗余問題比較嚴重. 為了減少醫療知識庫中的知識冗余,知識融合工作不可或缺.
知識融合是將來自多個數據源的屬于同一實體或者概念的描述信息融合起來,以獲得較單一數據源更加完全、準確、可靠的知識庫. 知識融合目前已在各個領域得到應用,如Freebase[1]、Google知識圖譜[2]等,它們通過知識的鏈接和融合來實現知識庫的大規模化,從而使知識發揮最大的價值.
知識圖譜是一個結構化存儲知識的知識庫,其保存的知識是以三元組的形式存在的. 知識圖譜KG由實體E、關系R、關系三元組Tr構成,即KG=(E,R,Tr),其中Tr=(h,r,t),h和t代表實體,r代表實體間的關系. 對來自多個數據源的知識圖譜進行實體對齊的目的是找出多個知識圖譜中所有語義相同的實體,即為KG生成實體修剪后的鄰接矩陣A,其中A=(ei,ej),ei∈KG1,ej∈KG2,ei=ej,ei和ej分別代表KG1和KG2中的實體.
實體對齊是指從異構數據源的知識圖譜中,找出表述不同但對應現實世界同一指代的實體,是知識融合最主要的工作. 現有的實體對齊方法分為以下三種:一是基于概率模糊匹配的方法,如支持向量機SVM[3];……