999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

命名實體識別研究發(fā)展綜述

2016-05-30 11:26:40周玉新
科技風 2016年16期

周玉新

摘 要:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和極大普及,以及相關(guān)領(lǐng)域研究的不斷深入,可用信息資源得到了極大豐富。人們迫切需要從海量的非結(jié)構(gòu)化文本中獲取有用的信息。在這一背景下,信息抽取技術(shù)應(yīng)運而生。命名實體識別自誕生之日起,就被看作信息抽取系統(tǒng)的一個重要子任務(wù),受到廣大國內(nèi)外學者的廣泛關(guān)注。本文探討了命名實體識別的基本概念和意義,并對現(xiàn)有的命名實體識別技術(shù)、特征、評估方法進行了總結(jié)。

關(guān)鍵詞:命名實體識別;信息抽取;評估方法

目前廣泛應(yīng)用于自然語言處理領(lǐng)域的“命名實體”最初于1996年在第六屆信息理解會議(MUC-6)上提出,那時,MUC主要側(cè)重于信息抽取任務(wù)。信息抽取是從給定文本中抽取諸如公司活動和國防活動等特定的信息,這些文本可以是結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。在進行信息抽取任務(wù)時,人們發(fā)現(xiàn)識別文本中某些具有特殊意義的實體,如包括人名、機構(gòu)名稱和地名在內(nèi)的名稱和包括具有特殊意義的時間、日期及百分數(shù)在內(nèi)的數(shù)字是必不可少的。在文本中識別這些實體的任務(wù)被稱為“命名實體識別”,普遍被認為是信息抽取的一個重要子任務(wù),它的主要任務(wù)是抽取文本中的專有名詞、生物物種和有意義的時間、日期扥數(shù)量短語并進行分類。

早期的命名實體識別研究工作主要對文本中的“專有名詞”進行識別,其中研究最多的三種“專有名詞”是人名、地名和結(jié)構(gòu)名稱,這些名稱可以被轉(zhuǎn)換為更細化的類型,如地名可以被細化為:城市、州和國家。同樣,人名可以細化為政治家和演員等。

近年來,除了識別一般文本中的專有名詞外,一些生物醫(yī)學語料庫,如GENIA的出現(xiàn)引起了一些命名實體識別研究者對生物醫(yī)學實體識別研究的興趣,這些命名實體主要包括蛋白質(zhì)、DNA、RNA和細胞類型等。大多數(shù)生物醫(yī)學領(lǐng)域的命名實體識別研究主要集中于對蛋白質(zhì)的識別,也有一些關(guān)于藥品和化學名稱實體識別的研究。

最近的一些研究并不局限于抽取這些可能的實體類型,一些細化的類如博物館、河流或機場等引起了一些研究人員的興趣,并且還增加了一些范圍更廣的類,如產(chǎn)品和事件,以及物質(zhì)、動物、種族或顏色等。隨著命名實體識別研究范圍的進一步擴大,針對不同的特定領(lǐng)域,越來越多的實體類型得到了廣大實體識別研究工作者的關(guān)注。

1 學習方法

在信息抽取系統(tǒng)中,識別未知實體的能力是一個非常重要的部分,這樣的能力取決于系統(tǒng)所使用的識別和分類規(guī)則,這些規(guī)則由與正例和負例相關(guān)的特有規(guī)則觸發(fā)。早期的研究大多采用基于人工構(gòu)造規(guī)則的方法,而現(xiàn)在大多使用監(jiān)督的機器學習方法。

監(jiān)督學習方法的思想是在大量標注的文檔上學習命名實體正例和負例的特征并設(shè)計捕獲給定類型本質(zhì)的規(guī)則。而語料庫的缺乏和構(gòu)造這些資源的高昂成本導(dǎo)致了兩種可替代的學習方法:半監(jiān)督學習和無監(jiān)督學習。

1.1 監(jiān)督學習

目前,命名實體識別所使用的主流技術(shù)是監(jiān)督學習。監(jiān)督學習包括隱馬爾科夫模型、決策樹、最大熵模型、支持向量機、條件隨機域等[ 4 ],這些方法都是命名實體識別系統(tǒng)的變體,這些系統(tǒng)都是讀取大量的標注語料,存儲一系列實體,并且構(gòu)造基于特征的判別規(guī)則。

通常提出的基本監(jiān)督方法包括標注測試語料庫的詞,這些詞在訓練集中被注釋為實體。系統(tǒng)的性能依賴于同時出現(xiàn)在訓練語料庫和測試語料庫中的詞所占的比例,通常稱之為詞匯轉(zhuǎn)移。

1.2 半監(jiān)督學習

由于可用標注語料庫的匱乏以及大量未標注語料庫的存在,研究人員提出了一種半監(jiān)督學習方法,也稱為弱監(jiān)督學習。主要的半監(jiān)督學習方法被稱為“bootstrapping”,它只需要提供少量的標注數(shù)據(jù),例如一組種子用于開始的學習。然后,系統(tǒng)搜索包含這些已提供數(shù)據(jù)的句子并嘗試發(fā)現(xiàn)出現(xiàn)在相似上下文中實體的其他實例。接著將學習過程應(yīng)用于新發(fā)現(xiàn)的例子以發(fā)現(xiàn)新的相關(guān)上下文。通過重復(fù)這一過程收集大量命名實體和大量上下文信息。半監(jiān)督方法只需要較少的已標注數(shù)據(jù),從而在大量無標注數(shù)據(jù)的條件下獲得可以與監(jiān)督學習方法相媲美的性能。

1.3 無監(jiān)督學習

由于現(xiàn)實中存在的大量無標注數(shù)據(jù),在未進行標注的數(shù)據(jù)中,試圖找到隱藏的實體,即無監(jiān)督學習問題被提上日程。提供給系統(tǒng)的實例是無標記的,這區(qū)別于監(jiān)督學習和半監(jiān)督學習。典型的無監(jiān)督學習方法是聚類[ 5 ],我們可以嘗試根據(jù)上下文的相似性從聚類組中收集命名實體。

2 命名實體識別的特征空間

特征是用來描述命名實體的各種屬性,對不同的識別系統(tǒng)來說所采用的特征也不同。我們通常用特征向量來描述系統(tǒng)所使用的特征,特征向量描述是由一個或多個布爾型數(shù)據(jù)、數(shù)值數(shù)據(jù)和標量數(shù)據(jù)所表示的每個詞的文本抽象。經(jīng)常用于命名實體識別和分類的特征通常包括三種:詞級特征、列表查找特征以及文檔和語料特征。

3 評估指標

對命名實體識別系統(tǒng)的發(fā)展來說,對系統(tǒng)的全面評估是必不可少的,許多系統(tǒng)被要求根據(jù)它們標注文本的能力來對系統(tǒng)進行排序。目前,通常采用的評估指標主要有正確率、召回率和F值,它們的定義如下:

正確率=識別出的正確實體數(shù)/識別出的實體數(shù)

召回率=識別出的正確實體數(shù)/樣本中的實體數(shù)。

兩者的取值都在0和1之間,數(shù)值越接近1,正確率或召回率就越高。正確率和召回率有時會出現(xiàn)矛盾的情況,這時需要綜合考慮它們的加權(quán)調(diào)和平均值,也就是F值,其中最常用的F1值,當F1值較高時說明試驗方法比較有效。F1值定義如下:

F1值=(2*正確率*召回率)/(正確率+召回率)。

4 結(jié)語

命名實體識別作為信息抽取的重要子任務(wù),從提出伊始就得到了廣大國內(nèi)外學者的廣泛重視,并且受到了各方面的持續(xù)關(guān)注,取得了巨大的進展。本文探討了命名實體識別的基本概念和意義,并對現(xiàn)有的命名實體識別技術(shù)、特征、評估方法進行了總結(jié)。目前,對某些領(lǐng)域如新聞的命名實體識別研究已經(jīng)相當成熟,如何將新聞領(lǐng)域中成熟的技術(shù)方法應(yīng)用于一些新興領(lǐng)域如生物醫(yī)學等是未來命名實體識別系統(tǒng)發(fā)展的趨勢。

參考文獻:

[1] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計算機工程與應(yīng)用,2003(10):1-5.

[2] 俞鴻魁,張華平,劉群,呂學強,施水才.基于層疊隱馬爾科夫模型的中文命名實體識別[J].通信學報,2006(02).

[3] 張祝玉,任飛亮,朱靖波.基于條件隨機場的中文命名實體識別特征比較研究[C].第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集,2008.

[4] 王丹,樊興華.面向短文本的命名實體識別[J].計算機應(yīng)用,2009,29(1).

主站蜘蛛池模板: www中文字幕在线观看| vvvv98国产成人综合青青| 国产精品成人第一区| 亚洲视频二| 国产成人高清在线精品| 亚洲最大福利视频网| 国产无人区一区二区三区| 久久精品人人做人人综合试看| 国产在线麻豆波多野结衣| 在线亚洲精品自拍| 久久一级电影| 一级毛片中文字幕| 亚洲成人精品| 国产手机在线小视频免费观看| 狠狠五月天中文字幕| 亚洲三级电影在线播放| 久久99热66这里只有精品一| 99久久精品国产综合婷婷| 欧美精品v日韩精品v国产精品| 99热这里只有精品久久免费| 99在线视频精品| 在线播放国产99re| 国产精品区网红主播在线观看| 亚洲成A人V欧美综合| 国产免费高清无需播放器| 美女被躁出白浆视频播放| 久久黄色小视频| 国产玖玖视频| P尤物久久99国产综合精品| 久久婷婷六月| 国产亚洲男人的天堂在线观看| 呦视频在线一区二区三区| 一区二区三区四区日韩| 日韩中文无码av超清| 国产精品刺激对白在线| 国产男女XX00免费观看| 国产福利免费在线观看| 91色在线观看| 日韩精品欧美国产在线| 精品免费在线视频| 色综合天天综合| 亚洲国模精品一区| 亚洲成人精品在线| 国产哺乳奶水91在线播放| 激情成人综合网| 女高中生自慰污污网站| 国产一区二区丝袜高跟鞋| 欧美区一区| 一本大道无码日韩精品影视| av一区二区三区在线观看| 免费看a级毛片| 亚洲欧洲自拍拍偷午夜色无码| 国产精品成人一区二区| 99久久精品国产麻豆婷婷| 欧美国产日韩在线观看| 5555国产在线观看| 国产成人久久777777| 视频一区视频二区日韩专区| 99视频只有精品| 欧美亚洲激情| 黄色网在线| 久久香蕉国产线看观| 精品在线免费播放| 黄色网页在线播放| 亚洲欧美自拍中文| 免费观看国产小粉嫩喷水| 精品少妇人妻一区二区| 视频在线观看一区二区| 亚洲欧美自拍一区| 国产乱论视频| 国内精品免费| 美美女高清毛片视频免费观看| 欧美无专区| 国产丝袜丝视频在线观看| 国产九九精品视频| 亚洲午夜片| 人妻91无码色偷偷色噜噜噜| 亚洲午夜国产精品无卡| 97超级碰碰碰碰精品| 无码精油按摩潮喷在线播放| 日本高清视频在线www色| 园内精品自拍视频在线播放|