999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

實體關系抽取技術的研究

2020-12-03 01:54:22王瀚琳
數(shù)碼設計 2020年13期

王瀚琳

摘要:實體關系信息抽取涉及基于實體的上下文信息和來自注釋的信息,從不規(guī)則文本中提取與任務關聯(lián)的實體之間的關系信息。實體關系抽取是指根據(jù)實體的上下文信息和命名實體的注釋信息,從不規(guī)則文本中提取任務相關實體之間的關系信息。本文介紹了幾種具有代表性的實體關系抽取技術,以望為之后的研究者提供一定的參考。

關鍵詞:實體關系;監(jiān)督學習;半監(jiān)督學習;無監(jiān)督學習

中圖分類號:TP391.1文獻標識碼:A文章編號:1672-9129(2020)13-0045-01

隨著機器學習和深度學習的發(fā)展,統(tǒng)計機器學習方法在挖掘相關任務中的應用變得越來越普遍,包含的種類也有很多,本文將介紹它的幾個主要的類別。

1關系抽取研究現(xiàn)狀

目前,在信息抽取領域中,SemEval-2010的評測任務八數(shù)據(jù)集,至今仍然是關系抽取任務中重要的評測數(shù)據(jù)集。

通過有監(jiān)督的機器學習方法從不規(guī)則的文本中抽取出實體之間的主要關系的方法主要有兩種:一是將文本的語義信息表示為向量;二是將文本的語義信息通過核函數(shù)映射到高維空間,從高維空間中抽取出實體之間主要關系的方法。

基于半監(jiān)督機器學習的實體關系抽取模型,首先,是用人工的方式選取少量的高質量的規(guī)則作為模板。然后,根據(jù)模板不斷地從數(shù)據(jù)集中進行迭代抽取出新的模板,新的模板評估結果符合預期后,會被添加到模板的集合中用于后續(xù)的迭代計算。具有代表性的基于半監(jiān)督機器學習的實體關系抽取工作,是2015年Agichtein開發(fā)的Snowball系統(tǒng)。

基于無監(jiān)督機器學習的實體關系抽取模型主要是通過聚類的方式從數(shù)據(jù)集中抽取出實體關系,此種方法雖然在技術和操作流程上比較簡答,但它在效果和性能方法并不令人滿意。

2基于規(guī)則匹配的關系抽取

在研究初期,研究者主要采用基于規(guī)則匹配的方法用于提取實體之間的關系,它適用于沒有規(guī)律的文本,但這些類型的規(guī)則對于較長范圍的模式和具有更大多樣性的序列來說是不適用的。這種方法在進行實體關系抽取任務時需要較多的人工干預,根據(jù)不同的任務需要相應領域的專家設計抽取規(guī)則,因此基于規(guī)則匹配的關系抽取方法存在很強的局限性,而且泛化能力差可移植性不強。

隨著規(guī)則集合的擴充,使用基于規(guī)則匹配的方法處理復雜的實體關系類型抽取的任務時,規(guī)則之間可能會發(fā)生沖突從而降低模型的效果。

3基于監(jiān)督學習的關系抽取

在監(jiān)督學習的框架下,需要將數(shù)據(jù)集中的數(shù)據(jù)進行標注。這一類方法一般將關系抽取任務作為分類問題進行建模,從文本中抽取兩個實體之間的關系可以看作找到一個合適的映射函數(shù),通過映射函數(shù)計算出兩個實體之間概率最大的實體關系類型。

監(jiān)督學習模型需要進行數(shù)據(jù)的處理和特征的提取,以便使用機器學習或深度學習過程中構造分類器,從而有利于模型進行分類和測試數(shù)據(jù)中實體之間的關系。

根據(jù)句子的特征信息構建表示句子特征的方法,常使用的特征信息有實體信息、實體類型信息、實體相對距離信息、實體之間單詞序列信息等。但是基于句子特征信息的關系抽取只獲取了淺層的句子信息,而基于核函數(shù)的關系抽取可以將特征映射到高維空間,從高維空間對句子進行分析,常用的核函數(shù)有字符串核、句法樹核、詞袋核、依存句法核等核函數(shù)。

優(yōu)點是高質量的監(jiān)督信號和有明確的負樣本,缺點是標注樣本成本高,增加新的關系難且成本高,對于新領域不具有很好的泛華性,使用范圍小,只對一小部分相關類型可用,不具有遷移性。

無論是基于句子特征信息的關系抽取方法,還是基于核函數(shù)的關系抽取方法,都需要人工設計特征的表示方法。

4基于半監(jiān)督學習和無監(jiān)督學習的關系抽取

基于半監(jiān)督學習中的bootstrap方法的關系抽取模型的研究重點,是通過少量標注的數(shù)據(jù)集進行規(guī)則的學習,然后根據(jù)少量的實例或模板,在大規(guī)模的未標注的數(shù)據(jù)中抽取新的模板,為了防止誤差的疊加,需要對新模板進行評估,將準確率達到閾值標準的模板添加到模板庫中,然后繼續(xù)進行迭代抽取。雖然基于無監(jiān)督學習的關系抽取方法省略了人工標注數(shù)據(jù)集的步驟,減少了人工干預,但是,通過聚類的方式抽取出的結果很難映射到實際的實體關系類型中,無法對結果進行分類。

半監(jiān)督學習的優(yōu)點是可以發(fā)現(xiàn)比基于規(guī)則的關系提取更多的關系和更少的人力投入,因為它只需要高質量的種子。缺點是隨著每次迭代,模式的集合更容易出錯、在通過元組共現(xiàn)生成新模式時必須十分小心和新的關系類型需要新的種子,即需要手動提供。

無監(jiān)督學習的優(yōu)點是幾乎不需要標注訓練數(shù)據(jù),且不需要我們手動預先指定每個甘心去的關系,而是考慮所有可能的關系類型。缺點是系統(tǒng)的表現(xiàn)在很大程度上取決于約束和啟發(fā)法的構造有多好和關系不像預先指定的關系類型那樣規(guī)范化。

5實體關系抽取技術的創(chuàng)新

針對空間實體識別任務,在傳統(tǒng)的雙向長短期記憶網(wǎng)絡和條件隨機場混合模型的基礎上進行了改進。在特征表示層增加用于提取詞向量語義特征的全連接神經(jīng)網(wǎng)絡,這種改進方式可以提升模型的特征提取能力。

通過在關系抽取的流程中添加空間實體類型識別模塊,對傳統(tǒng)的關系抽取方法進行了改進。改進后的方法可以識別出訓練樣本中未出現(xiàn)的關系類型。

6總結

根據(jù)不同的應用場景,選取合適的模型方法來對抽取實體之間的關系以滿足認為的需求是重要的研究領域。實體關系技術作為信息抽取技術的重要組成部分,人具有重要意義,如何根據(jù)不同場景選取合適的實體關系抽取技術,仍需要研究者們進一步探索與創(chuàng)新。

參考文獻:

[1] 張春云.實體關系抽取算法研究 [D].北京:北京郵電大學,2015.

[2] 譚鋒,李天真,崔亮亮.Web信息抽取系統(tǒng)研究綜述 [J].科技創(chuàng)新導報

[3] 李保利,陳玉忠,俞士汶.信息抽取研究綜述 [J].計算機工程與應用,2003 (10):1-5.

主站蜘蛛池模板: 日本亚洲成高清一区二区三区| 免费精品一区二区h| 免费高清自慰一区二区三区| 国产精品私拍99pans大尺度| 亚洲精品中文字幕无乱码| 中文成人无码国产亚洲| 午夜激情婷婷| 天堂成人在线视频| 五月婷婷中文字幕| 国产精品浪潮Av| 亚洲一区二区精品无码久久久| 性69交片免费看| 九九视频免费看| 毛片在线播放网址| 国产亚洲高清视频| 亚洲男人在线| 国产精品爽爽va在线无码观看| 国产香蕉一区二区在线网站| 欧美精品1区2区| 国产午夜精品一区二区三| 伊人狠狠丁香婷婷综合色 | 欧美一级高清免费a| 天天躁夜夜躁狠狠躁躁88| 在线播放91| 在线99视频| 一级毛片免费不卡在线| 91一级片| 婷婷五月在线| 51国产偷自视频区视频手机观看| 一级片免费网站| 国产麻豆精品手机在线观看| 国产精品高清国产三级囯产AV| 国产亚洲欧美日韩在线一区| 日韩国产一区二区三区无码| 国内熟女少妇一线天| 精品国产91爱| 久久国产精品波多野结衣| 久久精品视频亚洲| 欧洲亚洲一区| 性欧美在线| 精品人妻系列无码专区久久| 免费国产高清视频| 午夜国产不卡在线观看视频| 亚洲天堂久久久| 狠狠色综合久久狠狠色综合| 亚洲色图综合在线| 亚洲精品制服丝袜二区| 97国产在线视频| 91久草视频| 日韩二区三区无| 亚洲最大福利视频网| 欧美啪啪一区| 在线另类稀缺国产呦| 日韩成人在线视频| 爆操波多野结衣| 国产偷国产偷在线高清| 四虎影院国产| 国产传媒一区二区三区四区五区| 在线高清亚洲精品二区| 亚洲无线国产观看| 日韩成人午夜| 自拍偷拍一区| 国内老司机精品视频在线播出| 国产精品大尺度尺度视频| 成人免费黄色小视频| 欧洲亚洲一区| 制服丝袜在线视频香蕉| 高清无码手机在线观看| 亚洲中文精品人人永久免费| 波多野吉衣一区二区三区av| 99er精品视频| 真实国产精品vr专区| 国内黄色精品| 国产成人精品第一区二区| 九九香蕉视频| 欧美日韩福利| 久久综合丝袜日本网| 亚洲精品va| 成人午夜天| a欧美在线| a色毛片免费视频| 无码精品国产dvd在线观看9久|