999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中醫(yī)文本實(shí)體關(guān)系的聯(lián)合抽取

2021-11-07 03:11:29盧苗苗牛亞琴王亞文王培
電腦知識(shí)與技術(shù) 2021年25期

盧苗苗 牛亞琴 王亞文 王培

摘要:中醫(yī)典籍凝聚了古人的智慧結(jié)晶及臨床經(jīng)驗(yàn)。近年來(lái),中醫(yī)領(lǐng)域的實(shí)體識(shí)別和關(guān)系抽取任務(wù)受到了廣泛關(guān)注,并且一些聯(lián)合抽取方法得到了應(yīng)用。為了進(jìn)一步提高實(shí)體關(guān)系聯(lián)合抽取的效果,采用一種分層二進(jìn)制標(biāo)注框架對(duì)中醫(yī)領(lǐng)域的實(shí)體關(guān)系進(jìn)行聯(lián)合抽取,充分結(jié)合了預(yù)訓(xùn)練語(yǔ)言模型的優(yōu)勢(shì),解決了三元組重疊問(wèn)題。實(shí)驗(yàn)證明,該框架能有效地解決三元組重疊問(wèn)題,在不同重疊模式下的中醫(yī)語(yǔ)料數(shù)據(jù)集上F1值均超過(guò)了75%。

關(guān)鍵詞:中醫(yī)文本;聯(lián)合抽取;實(shí)體識(shí)別;關(guān)系抽取;三元組重疊

中圖分類號(hào):TP3? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)25-0179-02

1引言

一直以來(lái),醫(yī)學(xué)實(shí)體關(guān)系抽取的相關(guān)研究大多都是面向英文醫(yī)學(xué)文獻(xiàn)的,且多為西醫(yī)知識(shí)的獲取。隨著自然語(yǔ)言處理(NLP)的廣泛應(yīng)用,面向中文醫(yī)學(xué)文獻(xiàn)的研究需求不斷增加。在NLP任務(wù)中,命名實(shí)體識(shí)別和關(guān)系抽取任務(wù)是構(gòu)建知識(shí)庫(kù)的必不可少的步驟,同時(shí)也是最重要的部分,并且基于這兩個(gè)任務(wù)的聯(lián)合抽取方法越來(lái)越受到關(guān)注。當(dāng)前針對(duì)中醫(yī)領(lǐng)域的相關(guān)實(shí)體識(shí)別以及實(shí)體之間的關(guān)系抽取的研究仍然非常稀少。為了能夠獲取大量的中醫(yī)語(yǔ)料,并進(jìn)行深入挖掘,在未標(biāo)注的語(yǔ)料中先進(jìn)行預(yù)訓(xùn)練,然后與下游任務(wù)模型進(jìn)行結(jié)合。

實(shí)體關(guān)系聯(lián)合抽取可以自動(dòng)化地從輸入文本中抽取出包含某種關(guān)系類型的實(shí)體對(duì),構(gòu)成實(shí)體關(guān)系三元組。因此,科研人員提出了使用聯(lián)合模型,利用兩個(gè)任務(wù)之間的潛在信息來(lái)解決這個(gè)難題,但是傳統(tǒng)的聯(lián)合模型一般又嚴(yán)重依賴于復(fù)雜的特征工程。Miwa[1]等人沒(méi)有直接對(duì)整個(gè)句子建模,沒(méi)有考慮同一句子中其他實(shí)體對(duì)的關(guān)系。2017年,Katiyar[2]直接對(duì)整個(gè)句子建模,但是無(wú)法處理多關(guān)系的問(wèn)題。Wang[3]等人通過(guò)設(shè)計(jì)一個(gè)有向圖機(jī)制將聯(lián)合抽取任務(wù)轉(zhuǎn)換為一個(gè)有向圖問(wèn)題,使用基于轉(zhuǎn)移的解析框架來(lái)解決,但是只解決了一個(gè)實(shí)體和多個(gè)實(shí)體之間存在關(guān)系的重疊問(wèn)題,并沒(méi)有解決同一實(shí)體對(duì)存在多個(gè)關(guān)系的重疊問(wèn)題。2018年,Zeng[4]等人是第一個(gè)在關(guān)系三重提取中考慮重疊三重問(wèn)題的人,并嘗試通過(guò)具有復(fù)制機(jī)制的序列到序列(Seq2Seq)模型來(lái)提取三元組。

本文所采用的框架思想來(lái)源于Wei[5]等人提出了一個(gè)分層二進(jìn)制標(biāo)注框架,該框架由基于BERT模型的編碼器模塊和分層解碼器模塊組成。其中,分層解碼器模塊又由主題標(biāo)記模塊和對(duì)象標(biāo)記模塊組成,圖1展示了框架的整體結(jié)構(gòu),下文稱為聯(lián)合框架。

2聯(lián)合框架

在這種聯(lián)合框架下,首先,確定中醫(yī)文本句子中所有可能的主題實(shí)體,比如“前胡清肺熱,化痰熱,推陳致新之藥也”,然后針對(duì)“前胡”這個(gè)主題實(shí)體,應(yīng)用關(guān)系特定標(biāo)記器來(lái)同時(shí)識(shí)別所有可能的關(guān)系和相應(yīng)的對(duì)象。

2.1 編碼器模塊

采用預(yù)訓(xùn)練的BERT模型對(duì)輸入的中醫(yī)文本上下文進(jìn)行編碼。從句子中提取特征信息,并將提取的[hN]、[vksub]等信息放入后續(xù)的標(biāo)記模塊中。BERT是基于多層雙向Transformer的語(yǔ)言表示模型,其中[x]表示輸入向量。具體操作如公式(1)(2)所示:

其中[S]是輸入句子中子詞索引的一元向量的矩陣,[Ws]是詞嵌入矩陣,[Wp]是位置嵌入矩陣,其中[p]代表輸入序列中的位置索引,[hα ]是隱藏狀態(tài)向量,即輸入句子在第[α]層的上下文表示,[N]是Transformer塊的數(shù)量,[Trans(·)]—Transformer塊。

2.2 解碼器模塊

分層解碼器由主題標(biāo)記模塊和特定于關(guān)系的標(biāo)記模塊組成。主題標(biāo)記模塊通過(guò)直接解碼[N]層BERT編碼器產(chǎn)生的編碼向量[hN]來(lái)識(shí)別輸入句子中的所有可能主體。更準(zhǔn)確地說(shuō),它通過(guò)選擇兩個(gè)相同的二進(jìn)制分類器分別為每個(gè)標(biāo)簽分配0或者1的標(biāo)簽來(lái)指示主實(shí)體的開(kāi)始和結(jié)束位置,從而分別檢測(cè)實(shí)體的開(kāi)始和結(jié)束位置。主題標(biāo)記器對(duì)每個(gè)標(biāo)簽的詳細(xì)操作如公式(3)(4)所示:

其中[pistart_s]和[piend_s]分別表示將輸入序列中的第[i]個(gè)標(biāo)簽識(shí)別為對(duì)象的開(kāi)始和結(jié)束位置的概率。如果概率超過(guò)某個(gè)閾值,則將為相應(yīng)的標(biāo)簽分配為1,否則分配為0。[xi]是輸入序列中第[i]個(gè)標(biāo)簽的編碼表示,即[xi=hN[i]],其中[W]表示可訓(xùn)練的權(quán)重,[b]是偏差,而[σ]是sigmoid激活函數(shù)。

3實(shí)驗(yàn)

3.1實(shí)驗(yàn)數(shù)據(jù)

本文以中醫(yī)古籍文本為實(shí)驗(yàn)對(duì)象,研究中醫(yī)文本實(shí)體關(guān)系的聯(lián)合抽取。首先通過(guò)中醫(yī)相關(guān)的醫(yī)學(xué)專業(yè)網(wǎng)站對(duì)中醫(yī)文本爬取了總計(jì)約700本中醫(yī)古籍。并用正則的表達(dá)式對(duì)字符串進(jìn)行清洗,除去漢字以外的字符、換行符以及空格等。例如,將“淡白而瘦小,- -氣血兩虛”這句話,經(jīng)過(guò)正則方式處理完之后就變成了“淡白而瘦小,氣血兩虛”。接著以句子為單位對(duì)文檔按照句號(hào),問(wèn)號(hào)進(jìn)行拆分,得到大約180萬(wàn)個(gè)句子。由于中醫(yī)文本具有中國(guó)古代的語(yǔ)言風(fēng)格,通常也會(huì)出現(xiàn)一些虛詞,停用詞,且對(duì)句子含義的理解毫無(wú)意義,我們通過(guò)剔除停用詞表中出現(xiàn)的詞,進(jìn)行特征提取,這本質(zhì)上也屬于特征選擇工作的一部分。最后,對(duì)句子使用jieba分詞工具加載詞典的方法來(lái)為中醫(yī)文本分詞,得到對(duì)應(yīng)的詞序列。

經(jīng)過(guò)以上處理,得到一批訓(xùn)練、測(cè)試數(shù)據(jù),將數(shù)據(jù)按照關(guān)系三元組是否存在共享同一實(shí)體的情況,即存在重疊關(guān)系,按照不同重疊模式將句子劃分為兩類:一對(duì)一實(shí)體無(wú)關(guān)系重疊,多實(shí)體多關(guān)系重疊共享,并對(duì)這些中醫(yī)實(shí)體關(guān)系三元組進(jìn)行詳細(xì)實(shí)驗(yàn)。

3.2實(shí)驗(yàn)結(jié)果

為進(jìn)了證明聯(lián)合框架具有良好的解決三元組重疊問(wèn)題的能力,本文分別在不同重疊情況的中醫(yī)語(yǔ)料數(shù)據(jù)集上統(tǒng)計(jì)聯(lián)合框架的查準(zhǔn)率、召回率和F1值。表1為聯(lián)合框架在中醫(yī)語(yǔ)料數(shù)據(jù)集上不同重疊模式下的F1值。

實(shí)驗(yàn)結(jié)果表明,在不同重疊程度的中醫(yī)數(shù)據(jù)集上F1值都高于75%,說(shuō)明該聯(lián)合框架具有優(yōu)越的解決三元組重疊問(wèn)題的能力。

主站蜘蛛池模板: 无码不卡的中文字幕视频| 久久一级电影| 操操操综合网| 91色老久久精品偷偷蜜臀| 91成人精品视频| 国产内射在线观看| 美女无遮挡免费视频网站| av手机版在线播放| 无码专区国产精品第一页| 日韩福利在线观看| 99re免费视频| 激情综合激情| 欧美国产综合视频| 依依成人精品无v国产| 91网址在线播放| 欧美国产在线一区| 777国产精品永久免费观看| 亚洲人成网站色7799在线播放| 亚洲欧美日韩另类在线一| 五月天福利视频| 四虎国产永久在线观看| 国产成人一区免费观看| 欧洲亚洲欧美国产日本高清| 欧美日本二区| 久久人妻系列无码一区| 欧美久久网| 国产男人的天堂| 亚洲男人的天堂在线观看| 亚洲欧美日韩成人高清在线一区| 国产va欧美va在线观看| 国产丝袜无码一区二区视频| 啊嗯不日本网站| 97av视频在线观看| 国产人免费人成免费视频| 国产在线拍偷自揄拍精品| 国产不卡在线看| 久久久久无码精品| 高潮爽到爆的喷水女主播视频| 国产探花在线视频| av一区二区三区在线观看| 国产成人91精品| a免费毛片在线播放| h视频在线播放| 在线色综合| 国产成人av一区二区三区| 丁香婷婷激情综合激情| 国产后式a一视频| 欧美亚洲香蕉| 欧美色亚洲| 日韩福利在线视频| 色有码无码视频| 手机在线看片不卡中文字幕| 日本午夜精品一本在线观看| 在线观看91香蕉国产免费| 91在线中文| 青草国产在线视频| 日本a级免费| 超碰91免费人妻| 99热这里只有免费国产精品| 日韩在线观看网站| 国产精品密蕾丝视频| 91精品情国产情侣高潮对白蜜| 国产高颜值露脸在线观看| 欧美在线黄| 日本不卡在线播放| 99久久99这里只有免费的精品| 人妻无码一区二区视频| 日韩精品亚洲人旧成在线| 亚洲精品桃花岛av在线| 中文字幕在线不卡视频| 亚洲综合第一区| 九九免费观看全部免费视频| 国产尤物jk自慰制服喷水| 久久综合一个色综合网| 亚州AV秘 一区二区三区| 亚洲男人的天堂网| 成人91在线| m男亚洲一区中文字幕| 成人免费一级片| 成色7777精品在线| 亚洲综合天堂网| 久久久久久久97|