999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能問答系統(tǒng)中命名實體識別問題研究

2017-09-09 15:08:33費建軍

費建軍

摘要:信息化時代的到來,人們從互聯(lián)網(wǎng)中快速獲得大量的信息。如何高效的從海量數(shù)據(jù)中獲取有用的資源的需求和人工智能的興起,促進(jìn)了問答系統(tǒng)的發(fā)展。問答系統(tǒng)是構(gòu)架于信息抽取之上,其影響著知識庫的結(jié)構(gòu)和解析問句的方式。命名實體是信息抽取領(lǐng)域的一個子集。所以本文主要是針對實體識別模型進(jìn)行研究,本文介紹了三中主流實體識別模型的,并將股票實體作為研究對象,最終采用了CRF(Conditional Random Field)條件隨機場模型。在該模型基礎(chǔ)上根據(jù)上下文和詞性特征,提出了CC-CRF識別算法。利用CRF++訓(xùn)練得到能夠識別代碼和名稱的CC-CRF實體識別模型。

關(guān)鍵詞:股票;命名實體識別;CRF模型

中圖分類號:TP391.6 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)07-0093-04

命名實體通常指的是現(xiàn)實中獨立存在的具體的或者抽象的事物[2]。如何使計算機能夠理解自然語言是智能問答系統(tǒng)需要解決的一個關(guān)鍵問題。自然語言處理的研究范圍包括詞法分析、信息抽取、自動文摘等[1]。 信息抽取領(lǐng)域中,命名實體識別作為重要分支[3],其任務(wù)是標(biāo)注語句中的實體,所以命名實體的識別有著非常關(guān)鍵的意義。作為文本的基本單位,它包含大量的語義信息,因此對命名實體進(jìn)行識別可以保證最簡單快捷的獲得文本信息。他存在的價值就是標(biāo)注語句中的實體,實體的識別對正確解析自然語言有著極其重要的作用。識別的實體領(lǐng)域一般為人名、機構(gòu)名、地名以及專有名詞等。在實際研究中,還需要根據(jù)具體要求來確定。本文中,要識別的實體為股票名稱與股票代碼[4]。命名實體識別在問句處理和知識庫的構(gòu)建方面發(fā)揮著關(guān)鍵性的作用。

命名實體識別的方法主要有:基于規(guī)則和詞典的方法、基于統(tǒng)計的方法和二者混合的方法[5]。

本文介紹了四種命名實體識別模型(基于規(guī)則和詞典的方法、隱馬爾科模型、最大熵模型、條件隨機場模型)以及每種模型的優(yōu)缺點。在經(jīng)過對比并且結(jié)合股票命名實體的特點,選擇條件隨機場作為投資領(lǐng)域命名實體的模型。并在此基礎(chǔ)上提出了引入了上下文特征和詞性特征的CC-CRF識別算法。使用該模型對語料訓(xùn)練得到CC-CRF模型,并對模型的識別效果進(jìn)行測試。

1 相關(guān)工作與常規(guī)實體識別模型

1.1 基于規(guī)則和詞典的方法

基于規(guī)則和詞典的方法的核心是規(guī)則模板構(gòu)造,但是模板的構(gòu)造必須由相關(guān)領(lǐng)域的專業(yè)人士來進(jìn)行。用其來識別該領(lǐng)域的命名實體。這種方式是該領(lǐng)域剛剛起步時候的識別方式。這種方式的缺點十分明顯:成本太高、需要大量的人力時間構(gòu)造相關(guān)領(lǐng)域規(guī)則模板、可移植性差。因此此類方法不是本文的研究重點。

1.2 基于統(tǒng)計的方法

基于統(tǒng)計的方法的核心是機器學(xué)習(xí)。此類方法以訓(xùn)練語料為輸入,利用語料對模型進(jìn)行訓(xùn)練,最終得到命名實體識別模型并輸出?;诮y(tǒng)計的方式不需要專業(yè)的語言學(xué)人才,也極大地降低了時間成本?;诮y(tǒng)計的方法主要包括:隱馬爾科夫模型、條件隨機場、最大熵模型等[6]。

1.2.1 隱馬爾科夫模型

馬爾科夫模型[7]用來描述一個隨機過程,該隨機過程不可被直接觀察,但是可以通過另外一個可觀察的隨機過程間接觀察。該模型有其局限性,他必須是建立在以下的條件上:嚴(yán)格的獨立性假設(shè),即觀察值只受狀態(tài)的影響,而不受其他條件的影響。并且作為一種產(chǎn)生式模型,它需要通過枚舉出所有可能的觀察序列來獲得標(biāo)注序列和觀察序列的聯(lián)合概率。這對于長距離序列來說,窮舉所有的觀察序列是不現(xiàn)實的。

1.2.2 最大熵模型

為了保證概率預(yù)測的隨機性和正確性,在推測一個隨機事件的概率時,不要作出除了客觀約束條件規(guī)定以外的任何干涉。滿足上述要求的模型,熵值一定是最大的[8]。在自然語言處理中,熵就是信息的不確定程度。熵值越大,分布所受的干涉越少,預(yù)測越接近真實情況。最大熵模型不需要嚴(yán)格的獨立性假設(shè),上下文信息可以被充分挖掘。它避免了隱馬爾科夫模型的缺陷。另外,最大熵模型只需考慮如何選擇特征。但是最大熵模型的時間復(fù)雜度非常高,而且可能發(fā)生標(biāo)記偏置的情況。

1.2.3 條件隨機場模型(CRF)

條件隨機場(conditional random field,CRF)模型指的是給定輸入變量的條件下得到輸出變量的條件概率[9]。對應(yīng)到命名實體識別中,條件隨機場即為判別給定觀察序列的標(biāo)注序列的條件概率模型。條件隨機場模型既保留了最大熵模型和隱馬爾可夫模型的優(yōu)點,又克服了他們存在的缺陷。CRF模型不需要獨立性假設(shè)。它也避免了標(biāo)記偏置問題。而且在性能上,條件隨機場要優(yōu)于其他兩種方式。然而,較高的時間和空間消耗是制約條件隨機場性能的缺點。

CRF模型一般被看做無向圖模型。設(shè)G=(V,E)為一個無向圖,其中的頂點集合為V,邊的集合為E。X為觀察序列,Y為對應(yīng)的標(biāo)注序列。則標(biāo)注序列中的隨機變量與G中的點V對應(yīng)。馬爾科夫特性指的是某點是頂點的概率只和與它相連接的頂點有關(guān)。如果任一個隨機變量都服從馬爾科夫特性,即:

則將符合上述條件的(X,Y)稱為條件隨機場。

設(shè)表示線性鏈條件隨機場,則有如下等式:

2 CC-CRF命名實體識別算法

CC-CRF識別算法在CRF模型的基礎(chǔ)上引入了上下文特征(Context)和詞性特征(Characteristic)。提出面向股票領(lǐng)域的CC-CRF實體識別算法。使用CRF++在此算法上對標(biāo)注好的股票相關(guān)語料進(jìn)行訓(xùn)練,得到CRF模型。最后并對模型進(jìn)行測試,并對識別結(jié)果進(jìn)行分析。

CC-CRF算法具體的實現(xiàn)方式如下:

(1)進(jìn)行語料標(biāo)注。根據(jù)2.3章節(jié)中的表3、表4進(jìn)行語料標(biāo)注。具體請參照2.3章節(jié)。

(2)定義特征模板。根據(jù)2.1、2.2章節(jié)中的表1、表2寫入CRF++的template文件中,完成CRF++的特征模板設(shè)定。具體請參照2.1、2.2章節(jié)。endprint

(3)模型訓(xùn)練。本文的實驗環(huán)境是ubuntu 14.04,在終端中執(zhí)行如下代碼:

crf_learn -f 3 -c 4.0 template corpus_train.txt crf_model

其中 -f為使用屬性的出現(xiàn)次數(shù) -c為代價參數(shù),訓(xùn)練結(jié)果將產(chǎn)生一個CRF模型——crf_model。

2.1 上下文特征說明

為了更好的描述模型,CRF的特征模板可以借助上下文信息,充分的挖掘其內(nèi)在的規(guī)律加以利用。在實際訓(xùn)練中,上下文的長度將會對結(jié)果產(chǎn)生影響。過長會增加模板的數(shù)量、訓(xùn)練時間的空耗、極大可能產(chǎn)生擬合;過短則會使信息挖掘力度不夠不能產(chǎn)生最優(yōu)特征函數(shù)。在股票領(lǐng)域的文本中,股票名稱往往和“股票”等詞相連,并且股票代碼一般緊挨著股票名稱”出現(xiàn)。因此,上下文特征的引用可以增加股票實體識別的精準(zhǔn)率。在本文中,選擇設(shè)置上下文信息長度為2。上下文特征模板如表1所示。

2.2 詞性特征說明

除了上下文特征外[10],詞性特征也可以反映文本中和實體有關(guān)的信息。一般來說,股票名是名詞(n),代碼是數(shù)詞(m),股票一般是名詞和動詞(v)連在一起。因此,也將詞性特征引入股票實體的識別模型中。詞性特征模板如表2所示。

2.3 訓(xùn)練語料制作和標(biāo)注

本文主要針對投資領(lǐng)域中的股票類命名實體進(jìn)行識別,標(biāo)注文本中的股票名稱和股票代碼。由于并沒有投資領(lǐng)域語料庫,因此相關(guān)訓(xùn)練語料需要人工獲取并制作。本文在同花順財經(jīng)上抓取了股票相關(guān)的文本,主要范圍是財經(jīng)新聞及題目,從中挑選了800條語句作為實驗材料。從這800條語句中,隨機抽取100條來制作測試用語句,其余用來制作訓(xùn)練語料。

在CRF的訓(xùn)練中,語料必須遵循嚴(yán)格的格式要求:每個字(詞)及其屬性為一行。因此,在得到分詞結(jié)果后,再對分詞結(jié)果進(jìn)行格式處理,分別得到11316條訓(xùn)練語料和5018條測試語料。

在得到語料后,還需要對語料進(jìn)行標(biāo)注。本文定義的標(biāo)注集如表3所示。

在確定了標(biāo)注集以后,手工標(biāo)注訓(xùn)練語料和測試語料。標(biāo)注樣例如表4所示。

最后得到本文CRF模型訓(xùn)練所需的語料,將標(biāo)注好的11316條語料寫入文件corpus_train.txt作為訓(xùn)練語料,剩下的寫入文件corpus_test.txt作為測試語料。

3 結(jié)果與分析

在終端中執(zhí)行如下代碼:crf_test -m crf_model test_001 > result.txt

執(zhí)行完該語句后,模型將對測試語料test_001進(jìn)行命名實體識別并且標(biāo)注,生成結(jié)果寫入文件result.txt中。測試結(jié)果圖1所示。

3.1 結(jié)果分析

在對模型進(jìn)行測試后,需要分析標(biāo)注結(jié)果。準(zhǔn)確率、召回率和F值可以全面的反映識別的性能。

設(shè)識別出的正確的實體數(shù)量為n*,識別出的全部實體數(shù)量為n,集合中全部正確的實體數(shù)量為N,則有:

準(zhǔn)確率:

召回率:

F值:

其中,F(xiàn)值綜合了P值和R值,F(xiàn)值越高,說明P值和R值越高,模型的性能越好。通過對test_result.txt的處理,得到CC-CRF模型的識別結(jié)果如表5所示。

3.2 實驗總結(jié)

從結(jié)果來看,CC-CRF算法在股票實體方面的識別效果已經(jīng)非常好。CC-CRF保證了模型效果的均衡性和穩(wěn)定性,在準(zhǔn)確率和召回率方面基本比較優(yōu)秀。

4 結(jié)語

信息化時代的到來,人們從互聯(lián)網(wǎng)中快速獲得大量的信息。如何高效的從海量數(shù)據(jù)中獲取有用的資源的需求和人工智能的興起,促進(jìn)了問答系統(tǒng)的發(fā)展。而本文講述的命名實體對智能問答系統(tǒng)的架構(gòu)和發(fā)展也起到著非常關(guān)鍵的作用。

本文的主要內(nèi)容是研究以命名實體識別為代表的信息抽取問題。在綜合研究面向的對象以及三種常見模型的優(yōu)缺點后,并以股票為例進(jìn)行說明,選擇條件隨機場作為投資領(lǐng)域命名實體的模型。并且在CRF模型的基礎(chǔ)上,引入了上下文特征和詞性特征,提出了CC-CRF識別算法。通過數(shù)據(jù)收集、語料制作、訓(xùn)練、識別等步驟,利用CRF++訓(xùn)練出了針對股票代碼和股票名稱的CC-CRF模型。其結(jié)果在準(zhǔn)確率與召回率方面均比較優(yōu)秀。為智能投資問答系統(tǒng)的架構(gòu)和實現(xiàn)做到了拋磚引玉。

參考文獻(xiàn)

[1]李生.自然語言處理的研究與發(fā)展[J].燕山大學(xué)學(xué)報,2013,(05):377-384.

[2]楊燕.面向電商領(lǐng)域的智能問答系統(tǒng)若干關(guān)鍵技術(shù)研究[D].華東師范大學(xué),2016.

[3]郭喜躍,何婷婷.信息抽取研究綜述[J].計算機科學(xué),2015,(02):14-17+38.

[4]吳陽.財經(jīng)領(lǐng)域命名實體識別方法的研究與系統(tǒng)實現(xiàn)[D].哈爾濱工業(yè)大學(xué),2015.

[5]孫鎮(zhèn),王惠臨.命名實體識別研究進(jìn)展綜述[J].現(xiàn)代圖書情報技術(shù),2010,(06):42-47.

[6]王峰.基于CRF的中文命名實體識別方法研究[D].中北大學(xué),2011.

[7] Liu J. Chinese named entity recognition algorithm based on the improved hidden Markov model [J].Journal of Chemical & Pharmaceutical Research, 2014, 6(7): 1474-1478.

[8]Ratnaparkhi A. Maximum Entropy Models for Natural Language Processing [J]. Encyclopedia of Machine Learning, 2011, (25):647-651.

[9]Baltrusaitis T, Banda N, Robinson P. Dimensional affect recognition using Continuous Conditional Random Fields[J]. Automatic Face and Gesture Recognition (FG), 2013, 4(26):1-8.

[10]史海峰.基于CRF的中文命名實體識別研究[D].蘇州大學(xué),2010.endprint

主站蜘蛛池模板: 最新国语自产精品视频在| 欧美丝袜高跟鞋一区二区| 国产成人做受免费视频| 亚洲中文字幕无码爆乳| 韩日无码在线不卡| 国产无遮挡裸体免费视频| 亚洲欧美在线精品一区二区| 国产成人AV大片大片在线播放 | 成人精品午夜福利在线播放| 国产精品免费p区| 天堂网亚洲系列亚洲系列| 亚洲有码在线播放| 国产极品嫩模在线观看91| 国产高清国内精品福利| 国产丰满大乳无码免费播放 | 99久久成人国产精品免费| 国产亚洲欧美日韩在线一区| 国产成人精品优优av| 国产成人禁片在线观看| 亚洲av无码成人专区| 2021国产乱人伦在线播放| 亚洲电影天堂在线国语对白| 免费三A级毛片视频| 国产白浆视频| 国产精品亚洲欧美日韩久久| 国产欧美中文字幕| 国产日韩精品欧美一区灰| 99久久这里只精品麻豆| 欧美有码在线| 美女免费精品高清毛片在线视| 露脸一二三区国语对白| 全午夜免费一级毛片| 欧美一区中文字幕| 亚洲欧美日韩成人高清在线一区| 日韩av电影一区二区三区四区| 国内精品视频在线| 日本精品视频| 国产精品片在线观看手机版| 国产高清自拍视频| 99这里只有精品在线| 日韩精品亚洲一区中文字幕| 国产超薄肉色丝袜网站| 无码精油按摩潮喷在线播放| 中文成人无码国产亚洲| 九色视频一区| 欧美福利在线播放| 久爱午夜精品免费视频| 亚洲色图在线观看| 国产尤物在线播放| 亚洲va视频| 亚洲欧美日韩成人在线| 波多野结衣一区二区三区四区视频 | 国产乱人伦AV在线A| www.99精品视频在线播放| 欧美亚洲国产一区| 91无码人妻精品一区二区蜜桃| 亚洲欧美在线看片AI| 亚洲色图欧美视频| 国产精品露脸视频| 日韩性网站| 亚洲人成色在线观看| 国产精品美女网站| 高潮毛片无遮挡高清视频播放| 色噜噜中文网| www亚洲精品| 国产美女在线免费观看| 国产高清自拍视频| 亚洲国产精品日韩专区AV| 国产精品区视频中文字幕| 中文字幕欧美日韩| 四虎永久在线精品国产免费| 国产JIZzJIzz视频全部免费| 91精品国产麻豆国产自产在线| 国产乱子精品一区二区在线观看| 国产精品对白刺激| 国产在线无码av完整版在线观看| 天天操天天噜| 综合网天天| 亚洲乱码在线视频| 国产高潮视频在线观看| 日韩在线欧美在线| 亚洲成aⅴ人片在线影院八|