999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于半監督學習的命名實體識別的方法

2020-04-21 07:40:59劉一鳴
數字技術與應用 2020年1期

劉一鳴

摘要:命名實體識別是信息抽取中基礎且關鍵的一項子任務。本文根據不同領域文本的特性,設置了通用的特征模板,利用半監督學習的方法,對新聞文本和橋梁文本分別進行了命名實體識別。實驗表明,僅使用少量標注的語料也可以達到較好的識別效果。

關鍵詞:命名實體識別;自學習方法;半監督學習

中圖分類號:TP391.4 文獻標識碼:A 文章編號:1007-9416(2020)01-0207-02

命名實體識別概述

隨著信息技術的發展,網絡數據出現飛速增長的趨勢,并呈現出多源異構等大數據特征。對其進行信息抽取,獲得有效信息對于文本數據分析具有重要的研究意義。

命名實體識別是信息抽取過程中十分基礎且關鍵的一項子任務。命名實體識別是指識別出文本中例如人名,地名,時間或組織名等具有特定意義的實體。

大多數命名實體識別的方法都是基于規則[1]的方法或基于監督學習[2]的方法。其中基于規則的方法需要專業人員去設置規則模板,但是規則之間可能會出現沖突,且可移植性和擴展性差。基于監督學習的方法十分依靠大量的標注文本,在通常情況下標注文本是極難獲取的,且使用人工標注的成本較大。因此,只需要少量標注語料的基于半監督學習的命名實體識別方法成為了領域內研究的熱門。

2 研究現狀

命名實體識別一直是自然語言處理領域研究的基礎性問題,其本質可看作序列化數據標記問題[3]。

早期的命名實體方法是在限定文本領域、限定語義單元類型的條件下進行的,采用的是基于規則與詞典的方法。Rau等人采用啟發式算法與人工編寫規則相結合的方法,首次實現了從文本中自動抽取公司名,但擴展性差,規則制定費時費力。

Wang等人采用有監督的統計學習方法,針對于臨床醫學的記錄進行命名實體識別,利用大量的標注樣本進行條件隨機場模型(conditional random fields,CRF)的學習,并最終取得了F值81.48%的成績。

條件隨機場是Lafferty等人于在隱馬爾可夫模型(HMM)和最大熵模型(MEMM)的基礎上提出的一種概率式判別模型。它可以充分結合觀察序列中的多種特征信息,來克服HMM中嚴格的強獨立性假設問題。以上的方法都需要大量的標注語料作為數據支撐,僅需少量語料的半監督學習方法[4]也取得一定成就。Jonnalagadda等人在醫學領域采用了半監督CRF的方法對臨床醫學實體進行識別,并提出了分布式語義方法,最終實驗F值為0.823%。Ke等人在少量標注語料的情況下, 結合大量的未標注語料,應用協同訓練算法實現中文組織名的識別, 協同訓練CRF模型和SVM模型,最終模型F值比單個模型F值高出10%。

設X與Y為隨機變量,P(Y|X)是在給定X的條件下,Y的條件概率分布。設P(Y|X)為條件隨機場,X取值為x的條件下,Y取值為y的條件概率如下公式:

自學習方法是有監督和無監督學習相結合的統計機器學習方法,其可通過大量未標注語料與少量已標注語料自行進行訓練及分類,整個過程不需要人工來干預。而其中自舉法(Bootstrapping)是自學習中常用的一種方法,具體的流程如圖1所示。自學習算法流程如圖1所示,首先,利用獲得的少量標注語料L放入CRF模型中學習,用訓練好的CRF模型c0對大量的未標注預料U進行預測,將置信度高于80%的句子u加入到標注集L中并在未標注集U中刪除,重復此過程直到模型收斂,最終得到模型Cn。

在CRF模型的訓練中,選取合適的特征并創建特征模板是影響模型性能的關鍵[5]。為了設置適合于多領域的文本特征模板,我們選取了以下5個特征。

(1)上下文特征:本文選擇上下文2個詞作為上下文特征,例如,“造就一支穩定的基礎研究的隊伍”這句話中,“研究”一詞上文兩個詞特征為“的”和“基礎”兩個詞。(2)位置特征:詞語在句子的位置在命名實體識別中起到了關鍵的作用,在“開展各種形式的科學普及教育”一句中,“科學”一詞位置為5。(3)長度特征:本文選取詞語的長度作為基礎特征之一,例如,“新年”詞語的長度為2。(4)字符特征:在命名實體中,通常存在詞語中包含數字、符號或者英文字母的實體。例如,“3#人行天橋”和“1994年”兩詞語中都包含數字,前者還包含了特殊符號。(5)詞向量特征:利用詞向量工具Word2Vec對大量未標注數據進行詞向量訓練并進行聚類,類別作為特征的一部分加入到模板中。例如,“遼寧省”聚類類別為64。

為測試自學習方法在不同領域語料的效果,我們選擇了橋梁語料和新聞語料兩個領域的語料,分別為1998年人民日報語料庫和自標注的橋梁語料庫。

本文使用爬蟲技術,在網絡上爬取了兩個領域的大量未標注語料,利用分詞工具jieba對其分詞,并利用詞向量工具Word2Vec進行詞向量訓練和聚類。

實驗結果如表1所示,在使用特征模板后,模型的效果獲得較大幅度提升,通過自學習算法,最終模型效果進一步加強,根據文本特性選取適合的特征和選取的學習方式同樣重要,在僅有少量語料的情況下使用自學習方法可以提高模型的質量。

本文針對不同領域語料,采用CRF模型,選取上下文特征、位置特征、長度特征、字符特征,同時利用大規模的未標注數據,通過詞向量訓練和聚類獲取詞向量特征,并進行了對比實驗。實驗表明,利用半監督學習的方式,無論在橋梁領域還是新聞領域效果都有所提升,詞向量特征能夠從大規模的未標注數據集中獲取詞的語義信息,并且相比于人工選取和設置的特征,無監督學習可以減少大量的工作量,提高命名實體識別的性能。

[1] 閆丹輝,畢玉德.基于規則的越南語命名實體識別研究[J].中文信息學報,2014,28(05):198-205+214.

[2] 潘清清,周楓,余正濤,等.基于條件隨機場的越南語命名實體識別方法[J].山東大學學報(理學版),2014,49(01):76-79.

[3] 張海楠,伍大勇,劉悅,等.基于深度神經網絡的中文命名實體識別[J].中文信息學報,2017,31(04):28-35.

[4] 蔡月紅,朱倩,程顯毅.基于Tri-training半監督學習的中文組織機構名識別[J].計算機應用研究,2010,27(01):193-195.

[5] 邱泉清,苗奪謙,張志飛.中文微博命名實體識別[J].計算機科學,2013,40(06):196-198.

主站蜘蛛池模板: 亚洲综合一区国产精品| 久久久久久国产精品mv| 麻豆AV网站免费进入| 91午夜福利在线观看| 亚洲一区二区无码视频| 青青青国产视频| 中文字幕 日韩 欧美| 波多野结衣久久高清免费| 精品国产网站| 免费国产一级 片内射老| 亚洲一区二区三区国产精华液| 97se亚洲综合在线| 成年人免费国产视频| 国产亚洲精久久久久久久91| 在线观看网站国产| 激情六月丁香婷婷| 亚洲AV电影不卡在线观看| 狠狠色噜噜狠狠狠狠奇米777| www亚洲天堂| 手机精品视频在线观看免费| 亚洲精品视频免费看| 免费一级无码在线网站| 亚洲第一成网站| www.youjizz.com久久| 无码免费视频| 亚洲,国产,日韩,综合一区 | 日本免费精品| 露脸一二三区国语对白| 国产精品亚洲va在线观看| 在线免费看黄的网站| 国产在线视频福利资源站| 久久国产精品嫖妓| 国产成人免费视频精品一区二区| 找国产毛片看| 免费在线成人网| 国产精品2| 最新国产你懂的在线网址| 国产哺乳奶水91在线播放| 久久青草精品一区二区三区 | 国产午夜精品一区二区三区软件| 欧洲欧美人成免费全部视频| 亚洲伦理一区二区| 国产欧美日韩精品综合在线| 亚洲欧洲美色一区二区三区| 毛片久久网站小视频| 日本国产精品一区久久久| 国产小视频网站| 免费AV在线播放观看18禁强制| 最新国产在线| 亚洲av片在线免费观看| 欧美成人第一页| 久草性视频| 色综合久久88色综合天天提莫| 亚洲无线视频| 四虎影视8848永久精品| 99热这里只有免费国产精品| 香蕉eeww99国产在线观看| 婷婷色在线视频| 精品人妻系列无码专区久久| 国产成人1024精品| 日韩在线中文| www.99精品视频在线播放| 国产精品99r8在线观看| 国产情侣一区二区三区| 亚洲成人播放| 日本免费精品| 久热re国产手机在线观看| 2022精品国偷自产免费观看| 亚洲男女在线| 免费又爽又刺激高潮网址| 国产成人一区| 国产99在线| 欧美劲爆第一页| 最新国语自产精品视频在| 亚洲欧美日韩久久精品| 青草视频久久| 在线看片国产| 久久成人免费| 国产精品无码作爱| 国产免费看久久久| 色综合热无码热国产| 国产一区二区三区精品欧美日韩|