999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫療大數據的認知命名實體識別分析

2021-11-05 07:47:56浙江萬里學院竺佳琦謝宇濤林施婷鐘逸倫
電子世界 2021年17期
關鍵詞:信息檢索方法

浙江萬里學院 竺佳琦 謝宇濤 林施婷 鐘逸倫 陳 浩 董 晨 金 冉

近幾年來,醫療健康大數據呈現蓬勃發展的態勢。在醫療領域已經積累了足夠規模的臨床數據的基礎上,同時擁有規范的數據采集流程,保障了持續的數據更新和足夠的可靠性。然而數據的利用率依然問題涌現,既包括數據本身的問題,也有數據管理問題和數據使用權限問題。針對醫療藥品數據中的自然語言的關系抽取和信息檢索任務,命名實體識別(Named Entity Recognition,NER)是一個高效且強有力的重要工具。

1 NER網絡架構

1.1 NER引入

命名實體識別是自然語言處理辦法中的一項基礎任務,也是NLP領域中進行例如關系抽取、信息檢索等復雜任務的基礎任務。其主要作用就是從輸入的自然語言文本中抽取相關實體,標注出其位置以及類型,并可以按照項目需求識別其他相關實體。

NER作為NLP領域中的研究熱點,正在不斷的實踐中逐步成長起來,從早期基于詞典和規則的方法、無監督學習方法,到傳統機器學習的方法,再到近年來基于深度學習的方法,命名實體識別技術也在逐步精進,在計算機視覺、語音識別、自然語言處理等領域都發揮了極為重要的作用。

但仍有部分問題還沒有得到很好地解決,例如:能夠使命名實體識別充分發揮效果的文本類型和實體類別是有限的;信息檢索領域更注重高準確率,命名實體識別則更側重高召回率;與其他信息檢索領域相比,實體命名評測預料較小,容易產生過擬合;面對識別多種類型時命名實體的系統性能較差等。對此,本項目開始了進一步的探索。

1.2 搭建標注框架

在實現算法標注之前,搭建切實符合項目需求及源數據特征的標注框架尤為重要,知識圖譜(Knowledge Graph)主要由實體、關系和屬性構成,信息抽取(Information Extraction)是構建知識圖譜的重要環節,用于實現從文本中抽取出三元組信息,然后將抽取后的多個三元組信息儲存到關系型數據庫中,便可得到一個簡單的知識圖譜,為接下來的算法標注明確了實體結構。

1.3 算法標注

自然語言普遍利用連貫的詞匯來描述事物、表達情感、闡述觀點等,同時不同語種詞匯的組合方式也不同,例如在詞法結構上中文與英文就存在較大的差異,其中最為明顯的差別是英文將詞組以空格的形式區分開來,所以自動化抽取的過程也相對簡便,而中文的詞組彼此相連,且一個詞組往往由兩個及以上的字來組成,則需要通過分詞工具來將語句拆分,正確實現拆分,才能進一步理解自然語言的內容和意圖。

關系抽取的常用算法一般有三種:基于規則的方法、監督學習的方法、半監督學習的方法。本項目結合了前面兩種方法,即保證了標注的召回率,同時也大大提高了效率和準確度,下面是方法介紹。

基于規則的方法。例如找出盡可能多的擁有”is-a”關系的實體對(entity,is-a,entity),提取出前后兩個實體。這個方法在工業實踐中被普遍利用,其優點是不需要訓練數據且結果比較準確,但召回率較低,且規則難以設計。

監督學習的方法。該方法需要定義實體類型以及關系類型,同時準備足夠比例的訓練數據以確保實體標注和關系標注的準確率,利用NER實體識別工具定義出實體類型,再提取其特征放入分類算法。還可以通過抽取位置特征:如單詞是否在第一位,兩個實體單詞之間還有多少單詞。最后將訓練數據放入LR,SVM或者神經網絡模型中進行訓練。

1.4 搭建神經網絡

如圖1所示,應用于NER中的biLSTM-CRF模型主要由Embedding層,雙向LSTM層,以及CRF層構成。NER方法中的主流模型biLSTM-CRF,可利用窗口方法與句子方法兩種網絡結構來進行NER。

圖1 NER網絡架構

窗口方法是指僅使用當前預測詞的上下文窗口進行輸入,然后使用傳統的NN結構;句子方法則是以整個句子作為當前預測詞的輸入,以便加入句子中相對位置特征來實現詞組區分,然后使用了一層循環神經網絡CNN結構。從而摒棄了原始的特征工程,使用詞向量和字符向量完成了較為精確的詞組區分,如果詞典特征可以有更高的質量,還能實現更好的效果。

2 NER網絡架構訓練結果

2.1 語料準備

Embedding:我們選擇Medscape語料來訓練字向量和詞向量。

基礎語料1:采用Medscape2011語料作為訓練語料。

基礎語料2:Medscape語料作為官方語料,其權威性與標注正確率是有保障的。但由于時間相隔較久,且實體類型種類較少。為了提升對新類型實體的識別能力,我們收集了Medscape2013語料。主要包括Drug,Brand,Group,Drug_n,包含了人類藥品、品牌名、藥物組乃至人類無法使用的物質,例如農藥或毒素。

2.2 標注樣式

本項目選用BIO標注法,實體起始位置以“B”標注,實體內容位置以“I”標注,非實體則以“O標注”。在本項目利用的語料庫中包含“DDI2011數據集”以及“DDI2013數據集”。

其中“DDI2011數據集”中只含有一種實體名稱:藥物。于是我們將句子中的每個單詞都標記為“B/I-DRUG”或“O”訓練和測試的數據集分別包含435和144個文檔,4267和1539個句子,11,260和3689種藥物。

而“DDI2013數據集”中含有四種實體名稱:Drug,Brand,Group,Drug_n。包含了人類藥品、品牌名、藥物組乃至人類無法使用的物質。訓練和測試的數據集分別包含507和163個文檔,5239和2095個句子,13,875和4972種藥物。

實際應用中,NER模型通常只要識別出人名、地名、組織機構名、日期時間即可,一些系統還會給出專有名詞結果(比如縮寫、藥物組、產品名等)。貨幣、百分比等數字類實體可通過正則搞定。

2.3 識別結果

訓練集、驗證集、測試集以“7:1:2”的比例劃分。其中訓練集達到49600條的樣本數,標注實體共88192個。

命名實體識別結果案例:

結合Bert-NER和特定的分詞、詞性標注等中文語言處理方式,獲得更高的準確率和更好的效果,能在特定領域的信息抽取任務中取得優異的效果。

2.4 數據增強

對于深度學習方法,一般需要大量標注語料,否則極易出現過擬合,無法達到預期的泛化能力。我們在實驗中發現,通過數據增強可以明顯提升模型性能。具體地,我們對原語料進行分句,然后隨機地對各個句子進行bigram、trigram拼接,最后與原始句子一起作為訓練語料。

2.5 訓練結果

本項目結合了基于規則的方法和監督學習的方法,即保證了標注的召回率,同時也大大提高了效率和準確度。順利的在醫療藥物領域的信息抽取任務中取得優異的效果,組準確率為0.94。

總結:基于神經網絡結構的NER方法,繼承了深度學習方法的優點,無需大量人工特征,只需詞向量和字符向量就能達到主流水平,加入高質量的詞典特征能夠進一步提升效果。本項目結合了基于規則的方法和監督學習的方法,即保證了標注的召回率,同時也大大提高了效率和準確度。針對醫療藥品數據中的自然語言的關系抽取和信息檢索任務,命名實體識別是一個高效且強有力的重要工具,推動了本項目的順利進行。

猜你喜歡
信息檢索方法
基于同態加密支持模糊查詢的高效隱私信息檢索協議
學習方法
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
基于神經網絡的個性化信息檢索模型研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 国产在线一区二区视频| 日韩毛片免费观看| 97久久精品人人| 精品人妻无码中字系列| 亚洲色偷偷偷鲁综合| 久久久久久高潮白浆| 亚洲专区一区二区在线观看| 再看日本中文字幕在线观看| 国产精品太粉嫩高中在线观看 | 欧美福利在线| 无码有码中文字幕| 亚洲国内精品自在自线官| 手机精品福利在线观看| 任我操在线视频| 高清无码一本到东京热| 亚洲一区二区三区在线视频| 麻豆精品国产自产在线| 亚洲国产中文精品va在线播放 | 欧美色视频在线| 久久这里只精品热免费99| 国产一区免费在线观看| 亚洲综合色婷婷| 色综合中文| 好紧太爽了视频免费无码| 日韩无码真实干出血视频| 亚洲乱码在线播放| 亚洲制服丝袜第一页| 国产无码网站在线观看| 国产成人盗摄精品| 99爱在线| 免费看美女自慰的网站| 美女免费精品高清毛片在线视| 欧美有码在线| 动漫精品中文字幕无码| 久久动漫精品| 欧洲av毛片| 亚洲中文字幕精品| 亚洲欧洲日韩综合| a亚洲视频| 婷婷午夜影院| 午夜视频免费试看| 国产欧美精品午夜在线播放| 一级爱做片免费观看久久 | 欧美第一页在线| 狼友av永久网站免费观看| 国产Av无码精品色午夜| 手机精品视频在线观看免费| 国产91视频免费| 91视频国产高清| 日韩色图区| 亚洲αv毛片| 亚洲人成成无码网WWW| 毛片视频网址| 色婷婷国产精品视频| 欧美成在线视频| 亚洲视频三级| 日韩在线第三页| 天天综合亚洲| 国产在线视频福利资源站| 一区二区无码在线视频| 亚洲男人的天堂久久香蕉网| 嫩草影院在线观看精品视频| 精品少妇人妻一区二区| 国产成人无码播放| a级毛片免费看| 欧美a级在线| 国产激情无码一区二区免费| 三区在线视频| 91蜜芽尤物福利在线观看| 激情综合图区| 高清免费毛片| 亚洲天堂网2014| 直接黄91麻豆网站| 亚洲天堂啪啪| 日韩精品成人网页视频在线| 67194成是人免费无码| 国产一区二区三区精品欧美日韩| 国产69囗曝护士吞精在线视频| 成人精品区| 性激烈欧美三级在线播放| 青青青国产精品国产精品美女| 精品国产成人a在线观看|