999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隱馬爾科夫模型對于文本數(shù)據(jù)處理的應(yīng)用

2017-07-13 03:06:12侯垚國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系
消費(fèi)導(dǎo)刊 2017年19期
關(guān)鍵詞:模型

侯垚 國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系

隱馬爾科夫模型對于文本數(shù)據(jù)處理的應(yīng)用

侯垚 國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系

一階隱馬爾科夫模型有兩個(gè)假設(shè):①馬爾科夫假設(shè),即某特定狀態(tài)只與其前一個(gè)狀態(tài)有關(guān);②輸出獨(dú)立性假設(shè),一個(gè)輸出某觀察值的概率只與產(chǎn)生該觀察值的狀態(tài)有關(guān),而與其他任何狀態(tài)和任何觀察值無關(guān)。

馬爾科夫模型 文本數(shù)據(jù)處理

一、詞語切分的應(yīng)用

運(yùn)用馬爾科夫模型在中文分詞中時(shí),需要確定模型的參數(shù)值具體指代什么含義。文獻(xiàn)[1]指出,在漢語詞性標(biāo)注時(shí),可以將輸入詞的序列作為觀測值序列,將詞性序列作為狀態(tài)轉(zhuǎn)移序列,該問題可以轉(zhuǎn)化為,已知詞語的字符串,求出最優(yōu)的詞性標(biāo)注序列(解碼問題)。在參數(shù)的訓(xùn)練中,初始狀態(tài)的概率分布矩陣可以用統(tǒng)計(jì)的方法求得,而狀態(tài)轉(zhuǎn)移矩陣可用詞性轉(zhuǎn)移次數(shù)與詞性出現(xiàn)總數(shù)的比值求得,發(fā)射概率矩陣也可用輸出詞頻數(shù)與詞性頻數(shù)的比值來確定。對于一個(gè)分詞模型來說其設(shè)計(jì)思路流程大體分為如下幾步[2]:

①帶切分句子;②生成解的空間集合(即候選的切分集);③在解空間中求最優(yōu)解(解決切分歧義);④切分結(jié)果。

文獻(xiàn)[2]分析了基于中文分詞的一階隱馬爾科夫模型和在生語料庫中的算法,并建立了基于HMM模型進(jìn)行中文分詞的仿真系統(tǒng)。文獻(xiàn)[3]在進(jìn)行詞語切分時(shí)對HMM進(jìn)行改進(jìn),將經(jīng)過初步切分的兼類詞串和未登錄詞串的詞匯單獨(dú)抽取出來,利用Viterbi算法求得某一詞串的最大概率。

在對詞語進(jìn)行切分時(shí),由于分詞詞典樣本并不能將所有詞語都包容在內(nèi),會造成通用的詞語粗切分將一些專業(yè)術(shù)語切分成孤立的、沒有意義的若干個(gè)字詞。比如“有限自動狀態(tài)機(jī)”一詞會被切分為“有限”、“自動”、“狀態(tài)”、“機(jī)”4個(gè)完全失去原始含義的孤立字詞。文獻(xiàn)[4]通過建立雙層隱馬爾科夫模型,從中文語法的構(gòu)成角度上來識別專業(yè)術(shù)語,比如在“名詞”+“動詞”后面會出現(xiàn)一個(gè)完整的名詞語義單元并被視為一個(gè)整體。其底層為上文所提到的詞性標(biāo)注序列的問題,上層模型以其為基礎(chǔ),以粗切分的詞性標(biāo)注序列為輸入觀測序列,而輸出的則是文本的最佳邊界標(biāo)記序列,邊界的起點(diǎn)代表一個(gè)未登錄詞的開始,終點(diǎn)代表結(jié)束,有利于提高未登錄詞的識別率。

而隱馬爾科夫模型在詞性標(biāo)注中存在的問題主要有:①為了達(dá)到較高的準(zhǔn)確率,需要的訓(xùn)練語料較多。②隱馬爾科夫模型并沒有較好的結(jié)合語言學(xué)的知識。這些仍有待提高。

二、命名實(shí)體的應(yīng)用

文獻(xiàn)[5]綜合考慮機(jī)構(gòu)名的結(jié)構(gòu)和上下文文本信息,采取人工輔助和機(jī)器學(xué)習(xí)相結(jié)合的方法對金融領(lǐng)域的機(jī)構(gòu)命名實(shí)體進(jìn)行識別。文獻(xiàn)[6]使用Viterbi算法,對切分的結(jié)果進(jìn)行角色標(biāo)注成為角色序列,并在此基礎(chǔ)上進(jìn)行字符串和機(jī)構(gòu)名稱的識別,具有較高的準(zhǔn)確率。文獻(xiàn)[7]針對機(jī)構(gòu)命名實(shí)體識別的難點(diǎn),使用HMM對原文分詞進(jìn)行詞性標(biāo)注,使用Viterbi算法來對最有可能的詞性進(jìn)行選擇。考慮其所分析的京劇領(lǐng)域機(jī)構(gòu)命名實(shí)體的特征,建立特征詞庫來定制符合機(jī)構(gòu)名稱的識別規(guī)則,從而實(shí)現(xiàn)對原文命名實(shí)體的識別工作。

三、詞性標(biāo)注的應(yīng)用

在詞義標(biāo)注的應(yīng)用領(lǐng)域,1988年Church等首先設(shè)計(jì)出基于詞語出現(xiàn)與轉(zhuǎn)移概率的隱馬爾科夫英文標(biāo)注器,隨后Schvtze、Scott和Sang-Zoo等人提出了各式的改進(jìn)的隱馬爾科夫模型[8];文獻(xiàn)[9]對傳統(tǒng)隱馬爾科夫模型對于詞性標(biāo)注的應(yīng)用予以分析與改進(jìn),不同學(xué)者也提出了改進(jìn)的模型[10][11]。

四、語義傾向性的應(yīng)用

文獻(xiàn)[12]提出了利用統(tǒng)計(jì)手段來對詞語進(jìn)行語義傾向判斷的方法,即把語義傾向判別看做一個(gè)褒貶的分類問題,將文本數(shù)據(jù)處理的方法應(yīng)用到語義傾向性判別研究中。其狀態(tài)值為褒義(支持)、貶義(反對)和中性(中立)三種,可能的觀測值數(shù)目取權(quán)重較高的一部分詞語即可,減少了處理龐大詞語數(shù)量的壓力。

五、對隱馬爾可夫模型的具體改進(jìn)

原有的隱馬爾科夫模型在進(jìn)行中文文本的數(shù)據(jù)處理時(shí),根據(jù)自身模型的局限,只能使用其臨近的詞語,使結(jié)果不夠優(yōu)化。文獻(xiàn)[13]提出了基于語義格改進(jìn)的模型,將隱含的狀態(tài)值表示為詞義,將觀察值的數(shù)目表示為一個(gè)句子中所包含的單詞數(shù)目。然而在不少情況下被標(biāo)注的語義常常是是由需要標(biāo)注的詞語和其距離較遠(yuǎn)得此共同決定,為了解決這一問題,在原有隱馬爾科夫模型基礎(chǔ)上引入了格關(guān)系[14](一種研究句子核心謂詞與周圍體詞的方法),提高了中文詞義的標(biāo)注性能。文獻(xiàn)[15]使HMM模型在應(yīng)用時(shí),既使一個(gè)詞(觀察值)出現(xiàn)的概率與它的詞性有關(guān),也與之前的觀察值有關(guān)。文獻(xiàn)[16]把觀察值對狀態(tài)的影響也考慮其中,在原有HMM的基礎(chǔ)上,增加了從前一觀察值到后一狀態(tài)的轉(zhuǎn)移矩陣,提出了基于特征的詞匯標(biāo)注模型,由于觀察值(詞語數(shù))眾多,所以將多個(gè)詞對應(yīng)一類特征集,這樣既保證了一定的精確度又減小了概率轉(zhuǎn)移矩陣的大小。文獻(xiàn)[17]對傳統(tǒng)隱馬爾可夫模型進(jìn)行改進(jìn),通過對參數(shù)進(jìn)行修改,使其不僅依賴當(dāng)前狀態(tài)的上文信息還將下文信息加入到模型當(dāng)中,一定程度上克服了傳統(tǒng)HMM的不足之處。同時(shí)使用了線性插值平滑算法,有效地解決了數(shù)據(jù)比較稀疏的問題,也提高了一定的未登錄詞匯的識別率。文獻(xiàn)[18]改進(jìn)分詞方法,使用雙向最大匹配進(jìn)行預(yù)處理,對于有歧義的切分詞選擇概率最大值,使用隱馬爾科夫模型來識別新詞,用“詞首”、“詞中”、“詞尾”和“單獨(dú)成詞”對單詞進(jìn)行狀態(tài)標(biāo)記,有效地減少了歧義,提高了切分的正確率。文獻(xiàn)[19]在對隱馬爾科夫模型進(jìn)行改進(jìn)時(shí),在保證了傳統(tǒng)隱馬爾科夫模型具有前向依賴性的基礎(chǔ)上,增加了后一個(gè)狀態(tài)對觀察值的影響,即一個(gè)觀察值由相鄰兩個(gè)狀態(tài)決定,一個(gè)狀態(tài)也具有兩個(gè)觀察值。采取了既考慮正序又考慮逆序的解碼模型,綜合雙序,使抗干擾性得到增強(qiáng),解碼更加精確。

在對隱馬爾科夫模型算法的改進(jìn)方面:維特比算法的概率值是若干個(gè)概率的乘積,為避免計(jì)算機(jī)進(jìn)行過多的浮點(diǎn)運(yùn)算,會將概率擴(kuò)大若干倍,但是這樣處理后,即對若干概率進(jìn)行乘法運(yùn)算后,可能導(dǎo)致乘法結(jié)果向上溢出,文獻(xiàn)[20]對維特比算法進(jìn)行了改進(jìn),將該結(jié)果取對數(shù),將乘法運(yùn)算轉(zhuǎn)換為加法,縮小了乘積的值域,使結(jié)果更精確。文獻(xiàn)[28]在建立發(fā)射概率矩陣時(shí),將卡方統(tǒng)計(jì)和TFIDF方法引入到其中,建立出特征詞的語義相關(guān)性的反映,有利于保證文本分類過程更加穩(wěn)定的運(yùn)行。文獻(xiàn)[21]利用短語構(gòu)成的特征,采用滑動窗口算法,避免了HMM中傳統(tǒng)的前向算法和后向算法的較高的計(jì)算量。

在如隱馬爾可夫模型這種統(tǒng)計(jì)標(biāo)注方法時(shí),在求每一個(gè)觀察值序列對應(yīng)的最佳詞性標(biāo)注序列時(shí),不僅要考慮上下文的影響,也可以計(jì)算二元或三元概率參數(shù)使結(jié)果更為優(yōu)化。目前的條件下,訓(xùn)練語料較為充足且具有人工標(biāo)注,并且統(tǒng)計(jì)模型的魯棒性較好,使得統(tǒng)計(jì)方法成為較為主流的詞性標(biāo)注方法。

[1]趙紅丹,王希杰.基于隱馬爾科夫模型的詞性標(biāo)注[J].安陽師范學(xué)院學(xué)報(bào), 2010(5):9

[2]李家福,張亞非.一種基于概率模型的分詞系統(tǒng)[J].系統(tǒng)仿真學(xué)報(bào),2002, 14(5):544-546.

[3]梁以敏,黃德根.基于完全二階隱馬爾可夫模型的漢語詞性標(biāo)注[J].計(jì)算機(jī)工程,2005, 31(10):177-179.

[4]岑詠華,韓哲,季培培.基于隱馬爾科夫模型的中文術(shù)語識別研究[J].現(xiàn)代圖書情報(bào)技術(shù), 2008(12):54-58.

[5]Chan T,Vese L.Active Contours Without Edges[J].IEEETransactions on Image Processing, 2001, 10(2):266-277.

[6]楊勇,馬志明,徐春.LCV模型在醫(yī)學(xué)圖像分割中的應(yīng)用[J].計(jì)算機(jī)工程,2010, 36(10):184-186.

[7]樂娟,趙璽.基于HMM的京劇機(jī)構(gòu)命名實(shí)體識別算法[J].計(jì)算機(jī)工程,2013, 39(6):266-271.

[8]袁里馳.基于改進(jìn)的隱馬爾科夫模型的詞性標(biāo)注方法[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2012, 43(8):3053-3057.

[9]魏歐,吳健.基于統(tǒng)計(jì)的漢語詞性標(biāo)注方法的分析與改進(jìn)[J].軟件學(xué)報(bào),2000,11(4):473-480.

[10]梁以敏,黃德根.基于完全二階隱馬爾可夫模型的漢語詞性標(biāo)注[J].計(jì)算機(jī)工程,2005, 31(10):177-179.

[11]屈剛, 陸汝占.一個(gè)改進(jìn)的漢語詞性標(biāo)注系統(tǒng)[J].上海交通大學(xué)學(xué)報(bào),2003, 37(6):897-900.

[12]Turney P D, Littman M L.Measuring praise and criticism: Inference of semantic orientation from association[J].Acm Transactions on Information Systems, 2003, 21(4):315-346.

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美、日韩、国产综合一区| 91偷拍一区| 日本在线免费网站| 欧美yw精品日本国产精品| 99精品免费欧美成人小视频 | 久久久久免费精品国产| 欧美第一页在线| 亚洲欧洲自拍拍偷午夜色| 2021无码专区人妻系列日韩| 色精品视频| 91精品福利自产拍在线观看| 色综合久久88色综合天天提莫| 在线观看视频99| 青青操视频在线| 婷婷亚洲最大| 国产欧美综合在线观看第七页| 国产成人久久777777| 又爽又黄又无遮挡网站| 亚洲日本www| jizz在线观看| 免费全部高H视频无码无遮掩| 国产乱子伦无码精品小说| 精品亚洲国产成人AV| 国产精品主播| 91在线播放国产| 香蕉国产精品视频| 99久久性生片| 一级高清毛片免费a级高清毛片| 国产成人无码综合亚洲日韩不卡| 久久亚洲国产最新网站| 国产福利影院在线观看| 成人亚洲国产| 一级毛片网| 中文字幕日韩丝袜一区| 国产高清自拍视频| 制服丝袜一区二区三区在线| 国产一区二区三区免费| 亚洲无码高清一区二区| 欧美在线天堂| 四虎永久在线精品影院| 午夜日韩久久影院| 欧美日韩专区| 97人妻精品专区久久久久| 手机永久AV在线播放| 91极品美女高潮叫床在线观看| 国产精品亚洲日韩AⅤ在线观看| 毛片免费在线| jizz国产视频| 国产呦视频免费视频在线观看| 中文字幕免费在线视频| 又黄又爽视频好爽视频| 色婷婷成人| 亚洲天堂精品在线| 青草精品视频| 青青久久91| 久久www视频| 色悠久久久| 国产成人一区在线播放| 欧亚日韩Av| 国产91精选在线观看| 亚洲国产中文欧美在线人成大黄瓜 | 91福利免费视频| 欧美在线观看不卡| 国产久操视频| 午夜免费小视频| 国产精品一区二区久久精品无码| 亚洲男人的天堂久久香蕉网| 日本一区中文字幕最新在线| 91色在线观看| 亚洲手机在线| 国产白浆在线观看| 国产在线观看人成激情视频| 国产一区在线观看无码| 国产人免费人成免费视频| 日韩精品一区二区三区免费| 国产sm重味一区二区三区| 久青草免费在线视频| 国产福利小视频高清在线观看| 无码日韩视频| 少妇精品网站| 色有码无码视频| 97国产精品视频人人做人人爱|