999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞向量與CRF的命名實體識別研究

2017-02-23 05:45:22
無線互聯科技 2017年1期
關鍵詞:特征文本實驗

敬 星

(貴州師范大學 大數據與計算機科學學院,貴州 貴陽 550001)

基于詞向量與CRF的命名實體識別研究

敬 星

(貴州師范大學 大數據與計算機科學學院,貴州 貴陽 550001)

文章提出了一種基于詞向量與CRF中文命名實體。核心觀點為:命名實體識別任務本質上為序列標注任務。常見的序列標注模型有HMM,MEMM,CRF。HMM模型是對轉移概率和表現概率建立模型。MEMM模型為將轉移概率與表現概率構建為聯合概率,統計為條件概率。MEMM經常為局部最優,原因是MEMM歸一在部分。CRF模型計算了整體概率,當歸一時,顧及信息在整體的出現,所以避免了MEMM標記偏移的出現。

CRF 標注;轉移概率;條件概率

在統計自然語言處理領域,經常要面對的是序列標注問題:根據觀察值序列來確定其狀態序列。例如在詞性標注任務中,需要對每個詞標注其詞性。在這里,詞就是觀察值,而詞性就是觀察值的狀態。一個觀察值可能有多個狀態,這個狀態是隱藏在觀察值下面不可見的。如何對整個觀察值序列進行建模,來求出最佳的觀察值序列,是統計自然語言處理經常要面對的一個決策問題。

在本文的命名實體識別實驗中,筆者將文本內容采用單字分割的方法。結合前人的研究成果,基于單個字的識別效果擁有很多的好處。第一,對文本內容的處理方便,只需要把文本進行字符分割就行。第二,實驗效果好,在命名實體識別系統中[1],將使用采用單個字的模型。采用詞的模型與采用類的模型進行了對比。把采用字的模型整體性能比另外兩種方法好。最后,可以防止不正確的分詞造成的錯誤。在實際的實驗過程中,采用B(開始),I(中間),E(結束),N(空),對每個處理字符進行表述,所以對人名、地名、機構名識別的任務定義了10種字符串的集合,L={BPER,I-PER,E-PER ,B-LOC ,I-LOC,E-LOC,B-ORG,I-ORG,E-ORG,N}。對于每個字符串的含義為:中文人名起始,中文人名中間,中文人名末,中文地名起始,中文地名中間,中文地名末,中文機構名起始,中文機構名中間,中文機構名末,空。

例如下面的一句話,“巴菲特是美國的慈善家”,依據前文描述筆者把它分割為原始字符,打標隊列:“巴……B-PER, 菲……I-PER,特……E-PER,是……O,美……B-LOC,國……E-LOC,的……O,慈……O,善……O,家……O。”此時的輸入序列為:

X={巴,菲,特,是,美,國,的,慈,善,家}

對應的標注序列為:

把人民日報1998年的文本資料通過上述方法處理就能得到可使用的訓練文本,文本由原始字符,打標隊列{i(x),j(y)}組成。

2 基于CRF的實體識別

2.1 函數集合

函數集合在條件隨機場中作為一個關鍵的概念。筆者先通過訓練文本獲得函數fj=(yi-1,yi,x,i),接著再給不同的函數相應的權重。fj=(yi-1,yi,x,i)為狀態與轉移函數相結合的表達。該函數只有兩個函數值,為0或1。為了構建該函數的需要,筆者先定義原始文本上觀察特征b(x,i)的集合。該函數如公式1表示。

公式中b(x,i)代表實際值,出現某種情況是1,其余是0。

公式中wi="b"代表i的實際值是“b”,如果獲得了所有i位置的實際值的b(x,i),就能得到模型的函數集。對于i位置的實際值,在具體應用中會給合適的窗口。

2.2 條件隨機場的特征模板

特征模板是用來配置特征的。在CRF中,使用的特征函數是已知的,模型訓練的參數只是各特征的權重。因此你配置的是特征的位置關系,在訓練預料中出現的符合這個位置的,成為一個特征。根據你的特征模板,CRF++從訓練語料中得到了好多特征函數,然后訓練得到各特征函數的權重。

每個模板都只考慮一種因素。

Y[-3,1],Y[-1,0],Y[1,1],Y[1,0],Y[-2,1],在括號內的首個數字代表窗口位置,末位數字代表特征種類。

2.3 確認模型參數

獲得CRF模型分為兩個階段,首先獲取特征函數集,最后確認模型里面的參數。

確認模型參數本質上就是獲取λ,λ是相應特征函數的權重,極大似然估計(MLE)通過似然函數獲取λ。

2.4 參數估計的訓練算法

本文實驗使用L-BFGS算法[2]進行模型訓練。

如GIS和IIS的迭代梯度算法為經典學習算法[3]。CRF模型符合最大熵原理,所以迭代梯度算法能夠適用CRF模型訓練,然而采用了L-BFGS算法,基于該算法獲取CRF模型比傳統方法迅速,并且比變化斜率方法效果更好[4]。

3 詞向量

詞向量是深度學習的產物,它包含了豐富的句法、語義特征,同時由于詞向量的連續性,使得它能夠在原本離散的無關聯的詞與詞之間建立關系,更重要的是,在產生詞向量時,可以使用各種領域的語料來一起訓練,因而,詞向量具有領域獨立性,所以將詞向量特征使用到模型訓練中,可以讓模型具有更強適用性。

4 實驗分析

4.1 原始文本來源

該實驗選擇1998年1月《人民日報》公開文本用作原始數據。把該文本劃分為訓練文本和測試測試,其文本長度比例為4∶1。訓練文本的句子數目共21 569。

4.2 工具的選擇

word2vec 是一個使用比較廣泛的開源的詞向量生成工具包,它可以將輸入的分好詞的文本中的詞語轉換成向量的形式。條件隨機場的訓練和測試使用CRF++。CRF++可用于各種自然語言處理的問題,如命名實體識別、信息抽取、文本分塊等等。

4.3 實驗結果

實驗結果如表1所示,其中P,R,F分別表示精確率,召回率和F值。

表1 實驗結果數據

5 結語

通過實驗發現,使用條件隨機場進行命名實體識別實驗時準確率較高,但召回率比較低,認為是條件隨機場模型對訓練數據產生了一定程度的過擬合造成的。

[1]郭家清.基于條件隨機場的命名實體識別研究 [D].沈陽:沈陽航空工業學院,2007.

[2]WALLACH H. Conditional Random Field: An Introduction[D]. University of Pennsylvaania CIS Technical Report MS-CIS-04-21,2004 .

[3]ANDREWB A. Maximum Entrop Approach to Natural Language Processing[J].Computation Linguistics,1996(1):39-72.

[4]JAYNES E T.Information Theory and Statistical Mechanics[J].Physics Reviews,1957(106):620-630.

Research on named entity recognition based on word vector and CRF

Jing Xing
(Data and Computer Science College of Guizhou Normal University, Guiyang 550001, China)

In this paper, a Chinese named entity based on word vector and CRF is proposed. The key point of this paper is: named entity recognition task is essentially a sequence tagging task. Common sequence annotation models includes HMM, MEMM, CRF. HMM model is a model of the transition probability and performance probability. The MEMM model is a model for the transition probability and the performance probability. The MEMM model is to construct the transition probability and the probability of expression as the joint probability, which is statistics of the conditional probability. Often MEMM is the local optimum, for MEMM is part normalization. CRF model calculated the overall probability, when normalization, taking into account the emergence of information in the whole, so avoid the emergence of MEMM mark offset.

CRF annotation; transition probability; conditional probability

敬星(1990— ),男,四川南部,碩士;研究方向:自然語言處理。

猜你喜歡
特征文本實驗
記一次有趣的實驗
如何表達“特征”
在808DA上文本顯示的改善
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 一区二区三区四区精品视频 | 亚洲AV一二三区无码AV蜜桃| 伊人成人在线| 国产精品尹人在线观看| 尤物成AV人片在线观看| 青草精品视频| 伊人久热这里只有精品视频99| 欧美精品亚洲精品日韩专区va| 亚洲国产日韩一区| 人妻无码中文字幕一区二区三区| 国产精品主播| 人妻精品久久无码区| 高潮毛片免费观看| 国产精品林美惠子在线播放| 亚洲欧美综合精品久久成人网| 91亚瑟视频| 亚洲日韩AV无码一区二区三区人| 午夜a视频| 国产永久在线观看| 人人爽人人爽人人片| 人人澡人人爽欧美一区| 亚洲天堂网视频| 欧美日韩理论| 久久99久久无码毛片一区二区| 国产无码性爱一区二区三区| 黄色网页在线观看| 国产jizz| 国产中文一区a级毛片视频| 波多野结衣爽到高潮漏水大喷| 国产亚洲视频中文字幕视频| 国产区在线观看视频| 成年人久久黄色网站| 99热免费在线| 91亚洲国产视频| 美女毛片在线| 亚洲自拍另类| 色AV色 综合网站| 伊人中文网| 欧美亚洲第一页| 99久久精品视香蕉蕉| 欧美在线一级片| 国产成人一级| 一区二区影院| 国产男人天堂| 欧美 亚洲 日韩 国产| 在线观看亚洲天堂| 亚洲国产天堂在线观看| 免费xxxxx在线观看网站| 国产成人91精品免费网址在线 | 国产一区二区免费播放| 国产91av在线| 天天婬欲婬香婬色婬视频播放| 波多野结衣中文字幕久久| 呦女精品网站| 欧美精品在线免费| 欧美性色综合网| 欧美成人h精品网站| 国产亚洲一区二区三区在线| 国产Av无码精品色午夜| 91成人在线免费观看| 日韩精品高清自在线| 青草国产在线视频| 精品福利视频网| 大香网伊人久久综合网2020| 无码aaa视频| a天堂视频在线| 久久国产乱子| 性喷潮久久久久久久久 | 免费人成视频在线观看网站| 国产主播一区二区三区| 狠狠色综合久久狠狠色综合| 一区二区影院| 国产成人精品第一区二区| 国产女人在线视频| 在线永久免费观看的毛片| 无码人妻免费| 亚洲欧美成aⅴ人在线观看| 热这里只有精品国产热门精品| 韩国v欧美v亚洲v日本v| 色综合久久久久8天国| 天堂在线www网亚洲| 欧美亚洲综合免费精品高清在线观看|