999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

開(kāi)放域信息抽取研究綜述

2021-05-12 10:52:44高躍
現(xiàn)代計(jì)算機(jī) 2021年7期
關(guān)鍵詞:信息方法

高躍

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

0 引言

隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,網(wǎng)絡(luò)上產(chǎn)生了海量的非結(jié)構(gòu)化數(shù)據(jù),自然語(yǔ)言處理(Natural Language Processing,NLP)中的信息抽取(Information Extraction,IE)技術(shù)被用于從海量的非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化的信息,這些結(jié)構(gòu)化信息常用關(guān)系三元組(實(shí)體1;關(guān)系;實(shí)體2)的形式表示。傳統(tǒng)的信息抽取任務(wù)預(yù)先給定一組關(guān)系類別集合,限定關(guān)系類別以及文本的領(lǐng)域,在給定實(shí)體對(duì)的情況下可以將信息抽取看作是對(duì)實(shí)體對(duì)的多分類問(wèn)題。但開(kāi)放域信息抽取(Open Domain Information Extraction,Open IE)[1]不限定關(guān)系類別,從文本中抽取所有可能的關(guān)系三元組,例如:給定句子“自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)的一個(gè)方向”,開(kāi)放域信息抽取能夠從中提取出關(guān)系三元組(自然語(yǔ)言處理;是;計(jì)算機(jī)科學(xué)的一個(gè)方向),其中的關(guān)系類別不受限制。這些提取出的關(guān)系三元組可以用于許多下游工作,如:?jiǎn)柎鹣到y(tǒng)[2]、信息檢索[3]和知識(shí)圖譜構(gòu)建[4]等。

Banko 等人[1]首次提出開(kāi)放域信息抽取任務(wù),吸引了大量研究者的關(guān)注,早期的開(kāi)放域信息抽取方法大多使用從標(biāo)注文本中自動(dòng)學(xué)習(xí)[1,5-6]或者人工構(gòu)造的模板[7-9],依賴句子的依存特征進(jìn)行關(guān)系三元組的抽取,由于使用領(lǐng)域獨(dú)立的句法特征等信息,這些方法可以適用于不同領(lǐng)域和關(guān)系類型。一些研究者認(rèn)為關(guān)系三元組缺失完整的上下文信息不利于下游任務(wù)的理解,且可能抽取出非事實(shí)性的、假設(shè)性的三元組,因此一些方法也探索了如何抽取具備完整上下文信息的關(guān)系三元組。Mausam 等人[5]分析三元組的上下文,并將其作為三元組的額外字段,Gashteovski 等人[10]用上下文信息對(duì)提取的三元組進(jìn)行標(biāo)注,一些系統(tǒng)[11-13]從三元組的上下文中提取額外的關(guān)系三元組,并使用修辭關(guān)系或依賴關(guān)系信息將其聯(lián)系起來(lái),以獲得具有完整上下文信息的關(guān)系三元組。結(jié)構(gòu)復(fù)雜的句子對(duì)于Open IE 方法來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn),難以使用規(guī)則等方法從復(fù)雜句子中抽取關(guān)系三元組,因此為了提高關(guān)系三元組抽取的準(zhǔn)確度,一些方法[13-15]提出了將復(fù)雜的句子轉(zhuǎn)化為簡(jiǎn)單的子句,并在這些簡(jiǎn)單的子句中使用簡(jiǎn)單的模板抽取三元組。隨著近幾年深度學(xué)習(xí)方法發(fā)展,基于深度學(xué)習(xí)的開(kāi)放域信息抽取成為主流,Cui 等人[16]、Stanovsky 等人[17]將開(kāi)放域信息抽取轉(zhuǎn)換為序列生成和序列標(biāo)注問(wèn)題,在多個(gè)數(shù)據(jù)集上取得了優(yōu)秀的成績(jī)。

1 相關(guān)工作

自從Banko 等人[1]首次提出,開(kāi)放域信息抽取任務(wù)已經(jīng)獲得了長(zhǎng)足的發(fā)展,現(xiàn)有的開(kāi)放域信息抽取方法大致可以分為四類:基于學(xué)習(xí)的方法、基于規(guī)則的方法、基于子句的方法和基于深度學(xué)習(xí)的方法。此外,一些研究者針對(duì)不同語(yǔ)言的開(kāi)放域信息抽取也進(jìn)行了研究。

1.1 基于學(xué)習(xí)的方法

由于開(kāi)放域信息抽取任務(wù)缺少大規(guī)模的標(biāo)注數(shù)據(jù),早期的方法都通過(guò)啟發(fā)式方法、遠(yuǎn)監(jiān)督方法等自動(dòng)獲取大量標(biāo)注數(shù)據(jù),使用這些自動(dòng)標(biāo)注的數(shù)據(jù)自動(dòng)學(xué)習(xí)得到抽取模板或者分類器進(jìn)行關(guān)系三元組的抽取。TextRunner[1]首先識(shí)別句子中可能的實(shí)體,然后利用一組啟發(fā)式規(guī)則自動(dòng)標(biāo)注句子中可能的三元組集合,使用這些標(biāo)注數(shù)據(jù)訓(xùn)練樸素貝葉斯分類器,判斷兩個(gè)實(shí)體之間的文本是否表達(dá)了關(guān)系。類似地,WOE[6]使用維基百科信息框中的數(shù)據(jù)作為監(jiān)督源進(jìn)行遠(yuǎn)監(jiān)督標(biāo)注,使用訓(xùn)練的分類器判斷實(shí)體對(duì)之間的最短依存路徑是否隱含表達(dá)關(guān)系。WOE 系統(tǒng)首次顯示利用依存解析特征相比于淺層語(yǔ)言特征(如:詞性序列)能取得更好的結(jié)果,大多數(shù)后續(xù)開(kāi)放域信息抽取方法都利用了依存解析特征。后續(xù)的OLLIE[5]也使用了依存解析,從遠(yuǎn)監(jiān)督標(biāo)注數(shù)據(jù)的依存解析樹(shù)中自動(dòng)學(xué)習(xí)抽取模板,在依存解析上進(jìn)行關(guān)系三元組的抽取。最近有研究者提出ATP-OIE[18],與OLLIE 類似地從依存解析樹(shù)上學(xué)習(xí)模板,但不同的是ATP-OIE 針對(duì)關(guān)系三元組的每個(gè)部分單獨(dú)學(xué)習(xí)抽取模板,取得了較好的效果。

1.2 基于規(guī)則的方法

除了從標(biāo)注數(shù)據(jù)中自動(dòng)學(xué)習(xí)抽取的模板,早期還有一些方法使用人工總結(jié)的規(guī)則進(jìn)行關(guān)系三元組的抽取,REVERB[7]通過(guò)定義一組人工定義的詞性序列模板對(duì)關(guān)系短語(yǔ)進(jìn)行句法約束,避免不連貫和無(wú)信息的抽取,同時(shí)REVERB 作者認(rèn)為正確的關(guān)系短語(yǔ)應(yīng)該在語(yǔ)料庫(kù)中和不同的論元共同出現(xiàn),對(duì)關(guān)系短語(yǔ)進(jìn)行詞匯約束以減少關(guān)系短語(yǔ)的過(guò)度抽取。EXEMPLAR[8]使用一組人工構(gòu)造的基于依存解析樹(shù)的模板,檢測(cè)關(guān)系觸發(fā)詞和與它相連的論元實(shí)體。PropS[19]認(rèn)為從依存解析樹(shù)中直接抽取三元組很困難,使用一組規(guī)則將依存解析樹(shù)轉(zhuǎn)化為帶標(biāo)注的有向圖,由于有向圖的形式比依存解析樹(shù)更簡(jiǎn)單,只包含幾種節(jié)點(diǎn)和邊,因此從轉(zhuǎn)化后的有向圖中可以輕松抽取出關(guān)系三元組。與PropS 很相似,PredPatt[9]也基于普遍依存解析(Universal Dependency Parse)對(duì)句子構(gòu)建了有向圖,使用規(guī)則在其上進(jìn)行抽取。這些基于規(guī)則的方法往往能夠帶來(lái)精確的抽取,但構(gòu)造規(guī)則需要觀察大量語(yǔ)料,耗時(shí)耗力。

1.3 基于子句的方法

結(jié)構(gòu)復(fù)雜的長(zhǎng)句子一直是開(kāi)放域信息抽取的挑戰(zhàn),為了提高開(kāi)放域信息抽取在復(fù)雜長(zhǎng)句子上的抽取效果,研究者嘗試將復(fù)雜的句子轉(zhuǎn)換為結(jié)構(gòu)簡(jiǎn)單的獨(dú)立子句,從這些子句中抽取關(guān)系三元組更簡(jiǎn)單。經(jīng)典的ClausIE[14]識(shí)別句子中的所有動(dòng)詞,然后根據(jù)語(yǔ)法知識(shí)和依存關(guān)系識(shí)別依賴于這些動(dòng)詞的子句部分,得到的子句會(huì)被判斷屬于哪一種類型,以便使用對(duì)應(yīng)的模板抽取關(guān)系三元組。Angeli 等人[15]提出了Stanford OIE,巧妙地使用一個(gè)依存解析樹(shù)上遞歸向下的邊搜索算法解決了子句位置的識(shí)別問(wèn)題,同時(shí)采用自然邏輯對(duì)得到的子句進(jìn)行處理,使得從這些子句中抽取得到的三元組在下游任務(wù)中更有用。最近的Graphene[13]使用一組人工定義的簡(jiǎn)化規(guī)則移除句子中不重要的從句和短語(yǔ),最終將復(fù)雜的句子轉(zhuǎn)換為簡(jiǎn)單緊湊的獨(dú)立句子,并使用模板從中抽取關(guān)系三元組。

1.4 基于深度學(xué)習(xí)的方法

近幾年,自然語(yǔ)言處理領(lǐng)域的許多任務(wù)運(yùn)用深度學(xué)習(xí)技術(shù)取得了不俗的成果,基于深度學(xué)習(xí)的方法也逐漸在開(kāi)放域信息抽取任務(wù)中占據(jù)主流。目前這些方法主要將開(kāi)放域信息抽取看作是序列生成、序列標(biāo)注和基于分塊(span-based)的選擇問(wèn)題。Cui 等人[16]將開(kāi)放域信息抽取看作是序列到序列的生成問(wèn)題,使用編碼器-解碼器框架對(duì)輸入句子進(jìn)行編碼,生成包含關(guān)系三元組序列和分隔符的輸出序列。簡(jiǎn)單的序列生成模型可能會(huì)生成大量相似的冗余抽取,同時(shí)Beam 搜索無(wú)法很好處理句子中的三元組個(gè)數(shù)問(wèn)題,Kolluru 等人[20]在序列生成模型的基礎(chǔ)上提出將生成的三元組序列添加到編碼端重新編碼,以指導(dǎo)后續(xù)三元組的生成。Stanovsky 等人[17]將開(kāi)放域信息抽取轉(zhuǎn)化為序列標(biāo)注問(wèn)題,首先識(shí)別句子中可能的關(guān)系詞,然后針對(duì)每個(gè)關(guān)系詞對(duì)輸入句子進(jìn)行BIO 標(biāo)注,得到對(duì)應(yīng)的關(guān)系三元組序列。SenseOIE[21]也使用序列標(biāo)注方法,但將多個(gè)開(kāi)放域信息抽取方法的輸出作為序列標(biāo)注模型的輸入特征,利用了之前方法的優(yōu)點(diǎn)。使用一個(gè)基于分塊的選擇模型,SpanOIE[22]得到句子中每個(gè)分塊屬于各個(gè)標(biāo)簽的得分,為關(guān)系三元組中的每個(gè)角色(關(guān)系,論元)從句子中選擇得分最高的分塊作為相應(yīng)的抽取。這些基于深度學(xué)習(xí)的方法相比于之前的基于規(guī)則的系統(tǒng)更靈活,同時(shí)不存在錯(cuò)誤傳播等問(wèn)題。

1.5 多語(yǔ)言方法

現(xiàn)有的開(kāi)放域信息抽取研究大多集中在英語(yǔ)文本,但不同的語(yǔ)言在詞匯、句法和語(yǔ)義等層面具備很大差異,因此一些研究者針對(duì)英語(yǔ)之外的其他語(yǔ)言進(jìn)行研究,提出了特定語(yǔ)言的開(kāi)放域信息抽取方法。ZORE[23]在中文的依存解析樹(shù)上使用模板和語(yǔ)法知識(shí)進(jìn)行抽取,最近有研究者提出使用端到端的指針-生成器的網(wǎng)絡(luò)[24]解決錯(cuò)誤傳播問(wèn)題,在中文上取得了較好的效果。針對(duì)西班牙語(yǔ),有方法使用與REVERB 類似的基于詞性序列模板的句法約束進(jìn)行開(kāi)放域信息抽取[25]。

2 數(shù)據(jù)集

開(kāi)放域信息抽取工作中常用的數(shù)據(jù)集有OIE2016、CaRB、PENN、Web、NYT 等,其中Web、NYT、PENN 數(shù)據(jù)集是人工標(biāo)注的數(shù)據(jù)集。Web 數(shù)據(jù)集[8]中的句子來(lái)自網(wǎng)頁(yè)和新聞,這些句子往往不完整或者包含錯(cuò)誤的語(yǔ)法,并且句子結(jié)構(gòu)一般比其他數(shù)據(jù)集更簡(jiǎn)單。NYT 數(shù)據(jù)集[8]中的句子來(lái)自《紐約時(shí)報(bào)》語(yǔ)料庫(kù),書(shū)寫(xiě)更加正式規(guī)范。OIE2016 數(shù)據(jù)集[26]是由QA-SRL 自動(dòng)轉(zhuǎn)換而來(lái),被現(xiàn)有的開(kāi)放域信息抽取方法廣泛采用作為評(píng)價(jià)數(shù)據(jù)集,最近IMOJIE[20]采用眾包對(duì)OIE2016中的驗(yàn)證集和測(cè)試集重新進(jìn)行了標(biāo)注,得到了更準(zhǔn)確的數(shù)據(jù)集CaRB。表1 顯示了這些數(shù)據(jù)集的更多細(xì)節(jié)。

表1 數(shù)據(jù)集

3 結(jié)語(yǔ)

隨著互聯(lián)網(wǎng)上海量非結(jié)構(gòu)化文本的產(chǎn)生,越來(lái)越多的研究工作從傳統(tǒng)的信息抽取轉(zhuǎn)向了開(kāi)放域信息抽取,本文介紹了開(kāi)放域信息抽取任務(wù),對(duì)目前的開(kāi)放域信息抽取研究工作進(jìn)行了總結(jié)和梳理,列舉了被廣泛使用的評(píng)價(jià)數(shù)據(jù)集。近幾年深度學(xué)習(xí)技術(shù)的使用使得開(kāi)放域信息抽取模型更加靈活,解決了之前方法的錯(cuò)誤傳播問(wèn)題,取得了不錯(cuò)的效果,但目前這方面研究還是有一定的問(wèn)題。一方面深度學(xué)習(xí)方法需要更加大量的標(biāo)注數(shù)據(jù),目前開(kāi)放域信息抽取任務(wù)并沒(méi)有特別可靠的大規(guī)模標(biāo)注數(shù)據(jù),另一方面復(fù)雜句子的抽取仍然是一個(gè)很大的挑戰(zhàn),同時(shí)對(duì)于抽取結(jié)果的評(píng)價(jià)方式也存在爭(zhēng)議。未來(lái)的開(kāi)放域信息抽取工作可以思考如何自動(dòng)標(biāo)注更可靠的數(shù)據(jù),或者引入外部信息輔助抽取,例如對(duì)遠(yuǎn)監(jiān)督獲得的標(biāo)注數(shù)據(jù)進(jìn)行去噪。后續(xù)工作也可以考慮對(duì)復(fù)雜句子進(jìn)行處理,降低開(kāi)放域信息抽取任務(wù)復(fù)雜度,使模型更好地學(xué)習(xí)到抽取需要的特征,同時(shí)在英語(yǔ)外的其他語(yǔ)言上的開(kāi)放域信息抽取任務(wù)也還有很大的研究空間。

猜你喜歡
信息方法
學(xué)習(xí)方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: аⅴ资源中文在线天堂| 91久久国产成人免费观看| 国产H片无码不卡在线视频| 亚洲成a人片| 久久久国产精品无码专区| 播五月综合| 亚洲AV无码乱码在线观看裸奔 | 六月婷婷激情综合| 久久久噜噜噜久久中文字幕色伊伊| 久无码久无码av无码| 中文字幕欧美日韩高清| 午夜毛片免费观看视频 | 77777亚洲午夜久久多人| 99久久精品免费看国产免费软件| 伊人久久大香线蕉成人综合网| 99re视频在线| 69av在线| 亚洲乱亚洲乱妇24p| 中文毛片无遮挡播放免费| jizz在线观看| 人妖无码第一页| 四虎在线观看视频高清无码| 国产区福利小视频在线观看尤物| 亚洲欧洲日韩综合| 日本国产在线| 欧美高清视频一区二区三区| 国产成人av一区二区三区| 欧美激情一区二区三区成人| 久久精品91麻豆| 91日本在线观看亚洲精品| 东京热一区二区三区无码视频| 久久人人97超碰人人澡爱香蕉| 色久综合在线| 日本午夜影院| 精品人妻无码中字系列| 欧美成人a∨视频免费观看| 九九热免费在线视频| 国产视频大全| 国产亚洲视频中文字幕视频| h网址在线观看| AV熟女乱| 亚洲va在线∨a天堂va欧美va| 国产人碰人摸人爱免费视频| 亚洲性网站| 久热re国产手机在线观看| 中文字幕免费视频| 国产色爱av资源综合区| 高清欧美性猛交XXXX黑人猛交 | 亚洲欧美国产五月天综合| 国产精品视频白浆免费视频| 草逼视频国产| 亚洲色婷婷一区二区| 99久视频| 亚洲国产一区在线观看| 欧美成人国产| 久草视频精品| 亚洲三级视频在线观看| 香蕉网久久| 无码免费的亚洲视频| 亚洲精品麻豆| 日韩视频福利| 亚洲成a人片77777在线播放| 中文字幕波多野不卡一区| 国产乱视频网站| 在线日韩日本国产亚洲| 久久99精品久久久久纯品| 在线看免费无码av天堂的| 亚洲人成在线精品| 国产精品午夜电影| 亚洲最大在线观看| 欧美伦理一区| 三区在线视频| 亚洲综合18p| 亚洲综合第一区| 国产在线观看人成激情视频| 毛片a级毛片免费观看免下载| 国产18页| 成人在线观看不卡| 日韩精品亚洲一区中文字幕| 国产精品冒白浆免费视频| 亚洲美女一级毛片| 国产91导航|