王文斌 顧君忠 周子力 張非凡
電子病歷檢索中基于詞權調整的查詢重構
王文斌1顧君忠1周子力2張非凡1
1(華東師范大學計算機科學技術系 上海 200241)
2(曲阜師范大學物理工程學院 山東 曲阜 273165)
電子病歷EMR(Electronic Medical Records)檢索是信息檢索研究中的一個新領域。醫學術語在電子病歷檢索中占有重要地位,通常用來限定檢索條件、表達用戶的檢索意圖。針對這種情況,提出一種基于醫學術語權重調整的查詢重構方法,以提高電子病歷檢索的性能。該方法首先從原始查詢語句中篩選出醫學術語,然后使用自信息來度量每個醫學術語的權重,最后將加權的醫學術語與原始查詢語句按照一定的權重比例結合,構造出新的查詢語句。將該方法在TREC數據集上進行實驗,結果表明與原始查詢結果相比,重構后的查詢結果在MAP、bpref和P10這三項指標上,分別提高了14.2%、10.1%和9.6%,驗證了該方法的有效性。
信息檢索 電子病歷 查詢重構 醫學術語 權重調整 自信息
隨著醫療系統的信息化,電子病歷EMR被醫療機構廣泛使用。電子病歷包含了病人的臨床信息,比如:病史、檢查報告、治療藥物等。這些豐富的醫療信息,可以用來協助醫生診斷病人的病情,為病人提供個性化的健康關懷,更有利于臨床醫學研究,可以更好地診斷、預防和治療人類的疾病。
文獻[1]指出,雖然電子病歷系統能夠有效地訪問病歷中的結構化文本,但是結構化文本很難描述病人之間的差異性,所以病歷的主要內容還是由大量自由文本組成。自由文本為醫護人員記錄病歷提供了方便,卻對電子病歷檢索帶來了巨大困難,因此如何有效地檢索電子病歷成為信息檢索領域中一個熱點問題。
電子病歷檢索是一種篩選符合限制條件的病歷集合的檢索任務。限制條件中通常包含了各種醫學術語,比如:青光眼(glaucoma)、阿莫西林(amoxicillin)、內窺鏡檢查(endoscopy)等等。這些醫學術語描述了病人的病情、使用過的藥物、接受過的檢查等重要醫療信息。從直覺上來講,這些醫學術語表達了用戶的檢索意圖,應該加大權重。基于這種假設,本文提出一種基于醫學術語權重調整的查詢重構方法(UMLS-W),通過提取查詢語句中的醫學術語,在概率模型的框架下,用自信息度量這些術語的權重,同時結合查詢語句中的非醫學術語,重構原始查詢語句。在TREC 2011 Medical數據集上進行實驗,與原始查詢結果相比,經UMLS-W重構后的查詢結果在MAP、bpref和P10這三項指標上,分別提高了14.2%、10.1%和9.6%。
隨著EMR系統的推廣,研究人員嘗試著將搜索引擎技術應用到電子病歷檢索中,EMERSE (Electronic Medical Record Search Engine)系統因此而產生,該系統是最早的電子病歷檢索系統之一。為了更好地研究EMR檢索,文本檢索會議TREC(Text REtrieval Conference)在2011年推出了病歷檢索任務。TREC任務的基本規則是,組織者提供文檔集合和一些測試主題,要求參賽者從文檔集合中檢索出與測試主題相關的文檔,按照文檔與主題的相關度降序排序。病歷任務的規則略有不同,文檔集是病歷(report)的集合,病人一次就診(visit)會產生一到多份report,檢索結果按照visit與主題的相關度降序排序。
查詢重構是信息檢索領域中的一種常用技術,其方式一般有兩種,即擴展查詢關鍵詞[2-4]和關鍵詞權重調整[5]。大多數病歷檢索的參賽者都利用一些醫學相關的外部資源,比如:UMLS,MeSH,ICD-9編碼等,通過擴展查詢關鍵詞重構查詢。Zhu[6]等人嘗試從不同的外部醫學資源中提取新關鍵詞加入到原始查詢中,構造新查詢,以提高病歷檢索的質量。他們還研究了資源大小與質量,以及混合使用不同資源對查詢重構效果的影響。實驗結果表明,這些擴展關鍵詞的重構方法,相對于原始查詢,各種評價指標都有了不同程度的提高,綜合所有評價指標,udelmx[6]方法效果最好。然而Daoud[7]等人和He[8]等人也使用了醫學相關的外部資源,檢索結果相對于各自的基準線,只獲得少許提升,甚至沒有提升。分析其中原因,主要是擴展關鍵詞的方法容易引入查詢漂移的問題。查詢漂移是指擴展查詢詞后的主旨偏離了用戶的原始檢索意圖,導致查準率的下降。為了減少主題漂移的影響,Dinh[9]等人從關鍵詞權重調整的角度出發重構原始查詢,實驗結果表明,綜合所有評價指標,LGD[9]方法的檢索效果最好。然而Dinh等人的LGD方法與Zhu等人的方法相比,并沒有利用醫學相關的信息。因此,本文嘗試將醫學相關信息加入到權重調整算法中,更多地考慮查詢語句中醫學術語的權重調整。
本文通過分析病歷檢索的查詢語句和檢索目標,提出了一種基于醫學術語權重調整的查詢重構方法UMLS-W,其中重構過程如圖1所示。UMLS-W重構查詢的流程可以分為三個步驟:步驟1,從輸入的Qorigin中識別出醫學術語,并對其進行篩選;步驟2,對于步驟1中得到的醫學術語,采用自信息度量其權重;步驟3,結合Qorigin和步驟2中帶權重的醫學術語,構造新查詢Qnew。本節將詳細介紹這三個步驟,并以測試集的Topic 104為例進行說明。

圖1 UMLS-W流程圖
2.1 醫學術語識別及篩選
UMLS是統一醫學語言系統的簡稱,由元敘詞表、語義網絡和專家詞典三個組件構成。元敘詞表是UMLS的核心數據庫,是由各種醫學概念和術語以及它們之間的關系所構成的集合。MetaMap是由Aronson[10]基于UMLS元敘詞表開發的一款醫學術語識別工具。
本文采用MetaMap識別查詢語句中的醫學術語。因為MetaMap識別出的醫學術語中包含了醫學停用詞,比如:病人(patient)、醫生(doctor)、治療(treat)、診斷(diagnosis)等詞,所以需要將醫學停用詞從識別結果中篩掉。本文采用的醫學停用詞表來源于文獻[11],如表1所示(僅列出原型詞)。篩選后的醫學術語記為MUMLS={M1,M2,…,Mx,…,Mn}。因為醫學術語一般由幾個詞組成,所以每個醫學術語可以表示為單詞的集合,即Mx={t1,t2,…,ty,…,tmx}。比如,測試集中的Topic 104的查詢主題為:Patients diagnosed with localized prostate cancer and treated with robotic surgery, 通過MetaMap識別之后,得到patients, diagnosed, localized prostate cancer, treated, robotic surgery, 其中patients, diagnosed, treated屬于醫學停用詞,去掉之后,最后得到:
MUMLS={M1,M2}
M1={localized,prostate,cancer}
M2={robotic,surgery}

表 1 本文使用的醫學停用詞表
2.2 醫學術語權重計算
自信息用來衡量單一事件發生時所包含信息量的多寡。假設隨機事件ωn發生的幾率是p(ωn),自信息I(ωn)的定義為:
I(ωn)=-log(p(ωn))
(1)
從定義可以看出,事件發生的機率越低,在事件發生時,包含的自信息越大。本文在權重計算時借鑒了這種思想,即醫學術語在文檔集合中表現出的自信息大小,反映了其在查詢語句中重要程度的高低。因此,本文引入自信息作為醫學術語權重的度量方式。根據自信息的定義,醫學術語Mx的權重wx可以表示為:
wx=-ln(p(Mx|θC))
(2)
其中,p(Mx|θC)表示Mx由文檔集合模型θC生成的概率,本文采用自然對數。接下來我們需要估算p(Mx|θC),對文檔采用一元語言模型建模,即詞與詞之間是相互獨立的,那么:
(3)

(4)
(5)
問題轉換為求文檔集合模型θC生成詞t的概率。本文采用泊松分布來擬合詞t在文檔中的出現次數T的概率分布情況,即T~Poisson(λ)。在泊松概率分布模型下,使用p(T≥1)估算p(t|θC),那么:
p(t|θC)=p(T≥1)=1-p(T=0)=1-e-λ
(6)
基于整個文檔集合,式(6)中的參數λ可以使用極大似然估計計算得到,即:
(7)
其中,n表示文檔集合的大小,ki表示詞t在文檔Di中的出現次數。在文檔集合固定的前提下,每個詞對應的λ可以通過預處理方式先計算出來,這樣可以避免重復計算,降低計算量。根據式(7)估算,測試集中Topic 104的localized prostate cancer對應的λ值分別為0.0447, 0.0482, 0.1280(保留4位小數),robotic surgery對應的值分別為0.0006, 0.2641(保留4位小數),代入式(5)、式(6)計算得到:w1=8.31和w2=8.88(保留2位小數)。
2.3 新查詢構造
由于醫學術語只是原始查詢語句的一部分,如果僅僅使用它們進行查詢會丟失部分信息,我們將原始查詢語句Qorigin和醫學術語結合起來,構造新查詢,具體的過程如下:
(1) 對于原始查詢語句Qorigin內部,組成Qorigin的詞之間的權重平均分配,得到查詢子句1;
(2) 對于醫學術語Mx內部,Mx中每個詞的權重平均分配;

(4) 將查詢子句1和查詢子句2,按照α:(1-α) 的比例分配權重,得到新查詢語句,其中參數α的取值范圍是[0, 1]。

(8)
根據式(8),對于測試集中的Topic 104,可以計算得到兩個醫學術語的權重分別為:
本文使用TREC 2011 Medical任務的數據集進行實驗評估。數據集共有100 866篇report,對應17 198次visit,平均5.86篇report對應一次visit。測試集共包含34個主題(實際有35個,其中一個主題因為沒有相關文檔而被去掉),每個主題的描述部分平均由9.79個詞組成,其中平均5.06個詞屬于醫學術語。
3.1 評價標準
由于平均準確率均值MAP(Mean Average Precision)是信息檢索的常用評價指標,以及二值偏好(bpref)和Top-10準確率(P10)是TREC Medical 2011任務的官方評價指標。因此,本文采用MAP、bpref和P10作為評價標準,其中MAP作為主要的評價指標,三種指標的介紹如下:
(1) P10:測量單個檢索結果中排名前十的文檔準確率。
(2) MAP:單個主題的平均準確率是每篇相關文檔檢索出后的準確率的平均值,MAP是每個主題的平均準確率的平均值,是反映系統在全部相關文檔上性能的單值指標。
(3) bpref:主要關心不相關文檔在相關文檔之前出現的次數,具體公式為:
(9)
其中,對每個主題已判定結果中有R個相關結果,r表示相關文檔,n表示Top R篇不相關文檔集合的子集,n ranked higher than r是指當前相關結果項之前有n個不相關的結果。需要注意的是,本文之后提到的P10或者bpref是指所有主題的P10或者bpref的均值,并且本文把MAP作為最主要的評價標準。
3.2 實驗設置
首先介紹實驗的基本設置:(1) 采用Indri檢索系統,以report為單位建立索引和進行檢索,其中,建立索引時,使用Porter[12]算法進行詞干提取;(2) 檢索模型采用Indri支持的語言模型[13],使用Dirichlet平滑方法[14],參數μ取默認值2500;(3) 檢索結果需要做report到visit的聚合,聚合的方法是根據report的排名,計算visit的得分score(v),visit按照score(v)降序排序。score(v)的計算公式見式(10),其中rank(r)表示report的排名。
(10)
為了驗證本文方法的有效性,我們設計了3組實驗作為對比:(1) 直接將主題的描述作為查詢語句進行檢索,得到的結果作為基準結果(Baseline);(2) 參考2.3節的新查詢構造過程,除了Mx之間的權重分配方式修改為平均分配,其余保持一致,檢索結果記為UMLS-E;(3) 使用本文提出的方法進行查詢,檢索結果記為UMLS-W。為了評估參數α的作用,從0到1按照0.1的步長,取用α的11個數值,對UMLS-E和UMLS-W分別設計了11組實驗。
本文的實驗采用Indri系統,經UMLS-E和UMLS-W重構后的查詢語句,可以很容易地使用Indri的查詢語法進行形式化表示,如圖2和圖3所示。其中,#weight和#combine都是Indri查詢語法的操作符,#weight表示按照給定的比例進行權重分配,#combine是特殊的#weight,表示權重平均分配。

圖2 UMLS-E的查詢語句

圖3 UMLS-W的查詢語句
3.3 實驗結果與分析
首先,我們分析α值對查詢的影響。圖4是在不同α值下,UMLS-E和UMLS-W的MAP值變化的折線圖。從圖4中可以看出:(1) 無論是UMLS-E還是UMLS-W,僅使用醫學術語(即α=0)進行查詢得到的MAP值要高于僅使用原始查詢語句(即α=1)進行查詢得到的MAP值,說明了醫學術語在電子病歷查詢語句中的重要性;(2) 除了Baseline(即α=1)這個點,UMLS-W折線始終在UMLS-E折線的上方,說明查詢的整體性能,UMLS-W方法完全優于UMLS-E;(3) 當α=0.6時,UMLS-E和UMLS-W的MAP值達到最大值,因此我們將α的取值定為0.6。在下文的分析中,如果不作特別說明,UMLS-E和UMLS-W的各項指標都是在α=0.6時得到的結果。

圖4 α對UMLS-E和UMLS-W的影響
接著,我們分析使用自信息度量醫學術語權重的效果。作為對比的三個實驗Baseline,UMLS-E和UMLS-W的實驗結果如表2所示。其中,括號內的數據,是相對Baseline變化的百分比。可以看出:(1) 與Baseline相比, UMLS-E和UMLS-W在三項指標上提高了5%~14%,說明更多地考慮醫學術語的權重有助于提高電子病歷檢索的性能;(2) UMLS-W相對Baseline比UMLS-E相對Baseline提高得更多,說明利用自信息分配醫學術語之間的權重更有助于提高檢索的性能,驗證了采用自信息度量醫學術語權重的有效性。

表2 Baseline,UMLS-E和UMLS-W的對比
最后,Baseline、UMLS-E和UMLS-W的準確—召回率折線圖如圖5所示。從圖5中可以看出,UMLS-E的折線完全在Baseline的右上方,而UMLS-W的折線完全在UMLS-E的折線的右上方,說明整體的檢索性能是UMLS-W > UMLS-E > Baseline。

圖5 準確-召回率折線圖
最終,我們將UMLS-W和Zhu[6]等人提出的udelmx方法以及Dinh[9]等人提出的LGD方法進行對比。udelmx側重于擴展關鍵詞,LGD則側重于關鍵詞權重的調整。表3給出了UMLS-W、udelmx、LGD三種方法對比的結果。通過對比表3中的數據我們可以發現,在bpref指標上,三者的性能相差不多,UMLS-W稍勝一籌。在P10指標上,UMLS-W相比udelmx有6.6%的提高,其原因分析為udelmx擴展關鍵詞之后,過多的擴展詞不但不會起到優化原查詢的作用,反而加入噪聲,使得查詢的歧義性增加,導致查準率下降。而UMLS-W和LGD并不存在這種問題,甚至LGD的P10值還略優于UMLS-W。在MAP指標上,UMLS-W相比udelmx和LGD分別提高4.8%和6.5%。究其原因,UMLS相比udelmx不受主題漂移問題的影響,而它又考慮了醫學術語這一因素,因此比LGD的查詢效果更好。

表3 UMLS-W與LGD,udelmx的對比。*和**
總體而言,本文的UMLS-W方法使用自信息度量醫學術語的權重,被證實可以更合理地分配權重,重構的查詢語句可以提高電子病歷檢索系統的性能。
電子病歷檢索的查詢語句中通常包含一些醫學術語作為限制條件。本文研究了如何利用這些醫學術語進行查詢重構,最后提出了使用自信息度量醫學術語,結合原始查詢語句,進行查詢重構的方法,提高了電子病歷檢索系統的性能。實驗表明,相對于原始查詢結果,使用UMLS-W重構后的查詢結果在MAP、bpref和P10這三項指標上,分別提高了14.2%、10.1%和9.6%。
目前,在本文中參數α的值是統一設置的。在接下來的工作中,我們計劃研究針對不同的查詢,自適應地設置α的值,進一步提高電子病歷檢索的性能。
[1] Voorhees E,Hersh W.Overview of the TREC 2012 medical records track[C]//Proceedings of the 21st Text REtrieval Conference Proceedings TREC,2012.
[2] Weerkamp W,Balog K,De Rijke M.Exploiting external collections for query expansion[J].ACM Transactions on the Web (TWEB),2012,6(4):18.
[3] Xu J,Croft W B.Query expansion using local and global document analysis[C]//Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,1996:4-11.
[4] Gao J,Xu G,Xu J.Query expansion using path-constrained random walks[C]//Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:563-572.
[5] Chang Y C,Chen S M.A new query reweighting method for document retrieval based on genetic algorithms[J].Evolutionary Computation,IEEE Transactions on,2006,10(5):617-622.
[6] Zhu D,Carterette B.Using Multiple External Collections for Query Expansion[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.
[7] Daoud M,Kasperowicz D,Miao J,et al.York University at TREC 2011:Medical Records Track[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.
[8] He J,Hollink V,Boscarino C,et al.CWI at TREC 2011:session,web,and medical[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.
[9] Dinh D,Tamine L.IRIT at TREC 2011:Evaluation of query reformulation techniques for retrieving medical records[C]//Proceedings of the 20th Text REtrieval Conference Proceedings TREC,2011.
[10] Aronson A R,Lang F M.An overview of MetaMap:historical perspective and recent advances[J].Journal of the American Medical Informatics Association,2010,17(3):229-236.
[11] Hersh W.Information Retrieval: A Health and Biomedical Perspective[M].3rd ed.Springer,2009.
[12] Porter M F.An algorithm for suffix stripping[J].Program:electronic library and information systems,1980,14(3):130-137.
[13] Lavrenko V,Croft W B.Relevance based language models[C]//Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,2001:120-127.
[14] Zhai C,Lafferty J.A study of smoothing methods for language models applied to ad hoc information retrieval[C]//Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,2001:334-342.
QUERY REFORMULATION IN ELECTRONIC MEDICAL RECORDS RETRIEVAL BASED ON REWEIGHTING
Wang Wenbin1Gu Junzhong1Zhou Zili2Zhang Feifan1
1(DepartmentofComputerScienceandTechnology,EastChinaNormalUniversity,Shanghai200241,China)2(SchoolofPhysicsandEngineering,QufuNormalUniversity,Qufu273165,Shandong,China)
Electronic medical record (EMR) retrieval is a new field in information retrieval. Medical terms occupy an important position in EMR retrieval, and they are usually used to limit the retrieval conditions and to suggest users’ search intention. Aiming at the importance of medical terms, we proposed a medical terms reweighting-based query reformulation method to improve the performance of EMR retrieval. First, the method screens out medical terms from original query sentences, and then measures the weight of each medical term by its own self-information. Finally, it constructs new query sentences by combining the weighted medical terms and the original query sentences proportionally. Our method has been experimented on TREC dataset, results showed that compared with original query results, the reformulated query results improved in three items of MAP (+14.2%), bpref (+10.1%) and P10 (+9.6%) respectively, and this verified the effectiveness of the method.
Information retrieval Electronic medical record Query reformulation Medical terms Reweighting Self-information
2014-12-08。上海市國際科技合作基金項目(134307 10100)。王文斌,碩士生,主研領域:語義搜索。顧君忠,教授。周子力,副教授。張非凡,碩士生。
TP391.1
A
10.3969/j.issn.1000-386x.2016.04.019