齊磊 齊瑩瑩 堯玉恒

關鍵詞:電子病歷;臨床表型;標準化;語料收集
中圖法分類號:TP391 文獻標識碼:A
1引言
當前,生物醫學領域的非結構化文本形式提供的數據量呈爆炸式增長。有效識別生物醫學實體,是提取非結構化文本中隱藏的生物醫學知識,并將其轉化為結構化格式的前提。因此,BioNER(生物命名實體識別)任務具有重要的研究價值。其中,基于人類表型本體(HPO)的表型識別非常重要。
1.1生物醫學命名實體識別
隨著以非結構化文本形式提供的數據量呈爆炸式增長,截至2022年3月,PubMed中已經收錄了3300多萬份生物醫學相關的文獻。其中包含生物醫學、健康和臨床科學方面的知識,生物醫學方面的命名實體識別(BioNER)變得越來越重要[1]。由于目前沒有對這些科學方面的知識進行自動處理,因此大部分信息仍隱藏在文本的細節之中,無法進一步使用或分析。因此,自然語言處理(NLP)和文本挖掘方法被用于從此類出版物中提取信息。而命名實體識別(NER,也稱為實體識別或實體提取)是信息提取(文本分析)的子任務,旨在發現和分類文本中的特定實體。“命名實體”一詞是1996年在第六屆消息理解會議(MUC)上創造的,當時從非結構化文本中提取信息成為一個重要問題。
在語言領域,命名實體識別涉及自動掃描非結構化文本以定位“實體”,用于術語規范化和分類,如人名、組織(包括公司、非營利組織等)、位置(包括城市、國家、河流等)或日期和時間;在生物醫學領域,實體分為基因/蛋白質、藥物、代謝物、疾病、組織、器官、毒素、食物等類別。因此,科研工作者如果不借助工具,需要人為查詢數百萬個非結構化文本語料庫以查找目標信息,故自動化的BioNER無疑已成為研究中的非常重要的工具。有效識別生物醫學實體,是提取非結構化文本中隱藏的生物醫學知識,并將其轉化為結構化格式的前提。因此,BioNER任務具有重要的研究價值。
1.2人類表型本體(HPO)
在遺傳學中,表型是生物體可觀察到的特征或特征的集合。生物體的表型源于兩個基本因素,即基因型以及環境因素的影響。這兩個因素都會互相影響,從而會進一步影響表型。而“臨床表型”是醫生在診斷中或者病人在檢查中所描述的相關癥狀及狀態說明。所述測量或臨床觀察能夠與臨床條件或者疾病的狀況相關聯。
為了對臨床表型進行更規范化的整理,2008年國際生物醫藥組織OBO聯盟成員德國柏林夏洛特(Charité)醫學院聯合Monarch Initiative啟動了第一個人類表型術語本體數據庫HPO(Human? Phenotype Ontology)項目[2]。利用該在線數據庫,可便捷瀏覽、查詢生物醫療領域的專業術語,聚集疾病、表型、模型生物、基因等大量結構化的語義數據。人類表型本體論(HPO)提供了在人類疾病中遇到的表型異常的標準化詞匯表。每個術語在HPO描述了一種表型異常,如房間隔缺損等。目前,HPO包含超過13000個術語和超過156000個遺傳疾病注釋。迄今為止,HPO已被國際20余家頂級科研機構廣泛應用于人類遺傳學的臨床診斷研究。以上人類表型數據庫都是英文數據庫。目前,國內還缺乏針對臨床表型統一的結構化和規范化的數據庫標準。2015年年底,由國內臨床、遺傳咨詢、分子生物學領域知名人士自愿組織、共同發起成立了中文人類表型標準用語聯盟(CHPO,The Chinese Human? Phenotype Ontology Consortium),他們對國外已有的HPO詞條進行翻譯優化,從而形成了中國的HPO數據庫,給中國的電子病歷臨床術語標準化提供了條件。
2中英文臨床表型的在線Web預測系統
目前,中英文領域都開發出了針對生物醫學文獻和電子病歷來對其中的臨床表型術語進行標準化的方法。但是這些方法大多基于源代碼,不便于用戶使用。我們希望把該算法的中英文版本向臨床醫生或者科研工作者進行推廣應用,從而幫助推進中英文臨床表型相關研究的發展。
中英文臨床表型的在線Web預測系統基于Django的框架,通過Python腳本控制電子病歷或者相關生物醫學文本的網頁端獲取、服務器后臺的HPO標準化預測、數據庫查詢以及預測結果報告的返回和頁面展示等功能。現從服務器界面和實現功能兩個方面介紹中英文臨床表型的在線Web預測系統。
2.1在線Web預測系統界面
在線Web預測系統的主界面的導航欄中包含Home,TeamtoIntroduce,Download,PatientManage?ment,Server,Contact,Help等條目,這些條目可以跳轉到新的標簽頁或者跳轉到頁面的相應位置。Home欄目主要介紹了標準化系統任務的摘要,對整個任務進行了總結和概括;Download欄目儲存了在線Web預測系統所有程序的源代碼、數據集、訓練好模型的二進制文件以及說明文檔等;Patient Management欄目可以對預測病歷的歷史結果進行展示和調取;Help欄目可以對在線Web預測系統的使用進行圖文結合的介紹和說明;Server欄目則是在線Web預測系統的核心部分,即預測輸入信息入口。
2.2在線Web預測系統實現的功能
在線Web預測系統實現的主要功能包括三塊,即在線預測功能、報告展示功能以及HPO樹狀結構圖展示功能。
在線預測功能就是Server欄目的預測輸入信息的入口,需要輸入用戶的姓名以及身份證號碼用于驗證用戶的真實性,防止惡意爬蟲的爬取和攻擊,保證服務器資源的合理利用以及服務器的安全性。接下來,用戶可以手動輸入電子病歷或者生物醫學文獻的文本,或者選擇上傳以電子病歷或者生物醫學文獻文本為主要內容的txt文檔。在線Web預測系統會自動判別輸入的文本語言是中文還是英文,據此選擇相應的模型進行預測,減少了用戶進行選擇的參數。以上步驟完成之后,就可以點擊提交,后臺程序會自動識別輸入的語言來選擇模型,并調用相關程序進行HPO標準化,之后在線Web預測系統會展示出完整的預測報告。
報告展示功能主要對輸入的電子病歷或生物醫學文獻文本和標準化輸出的結果進行規范化展示。其中,第一欄是輸入的電子病歷或生物醫學文獻原始文本;第二欄是預測的結果展示,結果主要以表格的形式從6個方面進行展示,包括預測短語文本在原始文本中的開始位置、結束位置以及預測短語文本、標準化HPO、標準化HPO的名稱和預測的概率值(該值越大表明預測的結果越可信)。預測結果展示預測短語文本在原始文本中的開始位置和結束位置,可以方便用戶在原文中找到相應的位置,可以結合上下文語境來判斷預測短語是否分割得準確。預測的結果同時展示了預測短語文本和對應標準化HPO的名稱,可以讓用戶對預測的結果進行再次判斷,從而判斷預測結果是否可靠;第三欄是預測概率值,能夠以數據的形式向用戶直觀展示預測的可信度,供用戶參考。
HPO樹狀結構圖展示功能主要用于可視化HPO的樹狀層級結構,使用了JavaScript語言進行編寫,能夠實現網頁與用戶進行交互的操作,可以通過點擊模型預測出的HPO字段來展示該HPO對應的祖先節點的樹狀結構和孩子節點的樹狀結構。當懸浮在樹狀結構的HPO上時,會以彈窗形式展示HPO的編號和對應名稱等詳細信息,幫助用戶篩選預測HPO的祖先節點或孩子節點是否有著更恰當的HPO標準化術語。
3基于用戶反饋的臨床表型語料收集的Web交互系統
雖然已有模型在臨床術語標準化任務方面取得了不錯的效果,但是若要讓模型不斷優化和進步,仍然需要付出更多的努力。為了模型訓練,要標注大量的語料,通過對比研究發現,訓練語料的多少對模型有著非常重要的影響。而我們知道,語料標注的代價是巨大的,并且臨床表型術語相關的語料又很匱乏,英文僅包含HPO,GSC+和68?ID語料庫,中文更是沒有相關的HPO注釋的語料。因此,如何減少標注的成本,一直是深度學習和機器學習者需要面對的一大難題。由于序列數據的復雜性較高,標注的工作更加困難,針對以上問題暫時沒有更好的解決方法。針對標注語料不足的問題,近年來學者們提出了不少方法,如利用自訓練算法構建訓練語料。為此,我們開發了基于用戶反饋的臨床表型語料收集的Web交互系統,目的在于克服現有技術的不足。我們開發了一種基于用戶反饋的訓練語料收集方法,代價比較小,卻能達到更好的效果。
基于用戶反饋的臨床表型語料收集的Web交互系統主要包括三個部分,即標準化模塊、用戶反饋結果、語料庫重新訓練(圖1)。主要流程如下:首先用戶通過Server欄目的預測板塊輸入需要預測的文本,這些文本通過txt的形式保存到服務器,接下來服務器把該txt文件作為標準化模型的輸入經過模型預測后返回給用戶預測的結果。當用戶接收到信息之后,會根據信息結果的不同進行判斷,并且產生不同的操作,即如果返回結果正確,用戶會通過點擊勾選預測結果前面的方框來進行選擇;反之,如果判斷返回的預測結果錯誤或者不符合預期,用戶則不會點擊勾選預測結果前面的方框。通過JavaScript實現的與用戶交互的功能,能夠使得用戶把預測正確的結果保存到服務器的數據庫上。保存到數據庫的信息主要包括用戶的ID、用戶輸入的文本、預測的時間以及相應的語料標注結果。
通過基于用戶反饋的臨床表型語料收集的Web交互系統,我們可以將標準化模塊和用戶以及語料庫形成完整的、不斷增加訓練語料庫提升模型效果的閉環系統,即標準化模塊進行標準化結果的預測反饋給用戶,用戶基于JavaScript交互反饋給服務器形成更大的語料庫,而該擴充的語料庫又可以進一步進行訓練,從而提升模型的魯棒性及效果。通過不斷循環,該閉環系統更能夠最大限度地發揮出標準化模型的性能,并且為其他相關研究者提供更多的HPO標注語料,從而促進相關領域的發展。
4結語
本文開發了中英文電子病歷臨床表型標準化Web系統,并且建立了基于用戶反饋的語料收集系統。通過基于用戶反饋的臨床表型語料收集的Web交互系統,我們可以將標準化模型和用戶以及語料庫形成完整的、不斷增加訓練語料庫,從而建立具有模型效果的閉環系統。通過不斷循環,該閉環系統能夠最大限度地發揮出標準化模型的性能,并且為其他相關研究者提供更多的HPO標注語料,減少了數據集不足的問題,以促進領域的發展。
作者簡介:
齊磊(1997—),碩士,研究方向:自然語言處理。
齊瑩瑩(1991—),本科,護師,研究方向:護理學。
堯玉恒(1983—),碩士,工程師,研究方向:教育信息化與云計算。