999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統計學中的n元語法模型

2017-01-17 21:11:34路佳佳代愛鳳李美芳
東方教育 2016年9期
關鍵詞:深度語言方法

路佳佳++代愛鳳++李美芳

摘要:目前國內外對統計語言模型在數據處理,經濟學,自然語言處理,地質統計等領域的研究越來越廣泛。n元語法模型是神經網絡語言模型是將深度學習的思想用于語言模型而構建的,在自然語言處理中n元語法模型有很重要的地位,它在語音識別,詞性標注,機器翻譯等領域有廣泛應用。本文詳細論述了模型的原理,并對該模型的優缺點進行分析,并說明了該模型在自然語言處理中的應用。

關鍵詞:n元語法模型;自然語言處理

一:詞向量

“詞向量”這個詞最早由1986年hinton的文章“learning distributed representations of concepts”中提出,將單個詞用“詞向量”的方式表示是將deep learning的算法引入NLP 領域的一個核心技術,deep learning中的詞向量是一種低維實數向量,詞向量使得一些詞的距離更近比如相關詞或者相似詞,這種距離通過歐式距離,夾角余弦來定義。“詞向量”不僅可以避免維數災難問題,而且由于相似詞或者相關詞的距離很小,應用詞向量構造的模型本身具有平滑性。

詞向量是通過訓練語言模型得到。從大量的無標簽的語料庫中進行無監督學習的想法有了語言模型。語言模型是針對某種語言建立的概率模型。語言模型的一般描述就是給定一個詞序列,詞序列 ,求該詞序列是自然語言的概率 ,其中, 表示詞序列的第t個詞,在n元語法模型中用 表示 。下面具體介紹n元語法模型。

二:n元語法模型

2.1模型的形式化表示。

假設有 個詞, , 個詞構成的詞序列記為 ,詞序列的概率為

(2.1)

上下文H中詞A的極大似然概率計算公式為

(2.2)

其中 是在訓練數據中詞序列 出現的次數,上下文 可以由幾個詞組成,對于通常的三元模型, ,當 時,它沒有考慮歷史,該模型稱為一元模型。

由于n元語法模型比較簡單,目前最常使用的語言模型基于n元語法模型,但是該模型由于數據缺乏需要采用一些平滑算法。影響n元語法模型的最重要的因素是順序和平滑技術的選擇,常用的平滑技術有加法平滑算法,Knerser-Ney平滑方法,Katz平滑方法,Jelinek-Mercer平滑方法等。對于基于詞的語言模型,修正的Knerser-Ney平滑方法(KN)在平滑技術中有較好的結果。

基于n元語法的統計數據模型的最大優勢在于速度,簡單和普遍性(只要存在一些訓練數據,該模型可以應用到任何領域)。直到今天n元語法模型依然是最先進的技術,不是因為沒有更好的技術,而是因為更好的技術計算過于復雜,僅僅進行了邊際分布的改善,對于給定應用的成功不是至關重要的。

2.2模型的優缺點

n元語法模型的最大缺點在于隨著上下文長度的增加,n元語法的數量成指數形式的增加。阻止這些模型有效的捕獲較長的上下文類型。如果有大量的訓練數據可用,從訓練數據得到的模式不能通過n元語法進行有效地表示。因此產生了將神經網絡應用到語言模型(LM)的思想,通過相似事件之間的共享參數來克服參數的指數增加,不再需要精確的歷史 的匹配。下面具體介紹幾種不同的神經網絡語言模型。

n元語法的n體現了該詞間的獨立性,n越小獨立性越強。則可根據不同語料的獨立性特點選擇不同的模型了。通常n=3。直觀上講,第i位置的詞與前面多少個詞的相關性并不一定,另外,“詞”是一個籠統的概念(可以代表字、詞短語等),它的選取也不確定,而一個模型直接賦予n一個確定的值,這本身是一種近似。所以說,模型不可能精確表達,根據這種局限性,一個好的模型的重要性就可想而知了。

2.3模型的改進

由于在自然語言處理中,如通過音素匹配法處理后,部分存在著缺失的可能。而且已識別的詞對未識別詞會有一定程度的影響,為了解決這種問題,所以華南理工大學陳偉雄[3]在論文"基于n元語法模型的領域語音指令識別"中對n元語法模型做一些改進。

Bengio[1]等人建議通過學習詞的分布式表示來避免維數災難,分布式表示允許每一個句子形成關于語義相近句子的指數數量的模型。該模型可以同時學習每一個詞的分布式表示和詞序列的分布式表示的概率函數。在合理的時間訓練包含數以萬計參數的如此大的模型本身是一種挑戰,使用神經語言模型的方法進行實驗,結果顯示在兩個文本預料(Brown corpus和AP new corpus)上該神經語言模型的方法極大地提高了n元語法模型的最先進的性能,并且該方法允許利用較長的上下文。

三:n元語法模型在自然語言處理中的應用

自然語言處理就是如何讓計算機正確處理人類語言并作出正確的響應,近年來作為人工智能的一個重要組成部分得到了快速發展,使得人機之間直接采用語言作為交互方式成為了可能。

自2006年Hinton等人提出深度學習的概念之后,將深度學習的思想用于語言模型中形成的神經網絡語言模型不僅僅是三層的神經網絡,而是多層的神經網絡語言模型。深度學習也就是深層神經網絡算法,每次訓練一層,逐層訓練,上一層的輸出作為下一層的輸入。將深度學習的思想應用于語言模型中形成的神經網絡語言模型可以應用于自然語言處理的很多領域,比如,詞性標注,句法分析,框架排歧,語義角色標注等任務。

n元語法模型在語音指令識別中也有廣泛應用.可以用一種音素匹配法[3]結合改進了的n元語法模型的方法對語音指令進行理解。指令按照結構劃分類別通過提取其中關鍵要素來獲取指令語義。音素匹配法可以提取指令中部分或全部要素對于指令中未識別的要素則根據已正確采用改進的n元語法模型進行推測。實驗表明該方法取得了較好的效果,并在原有的基礎上有一定的提高。

參考文獻:

[1]陳偉雄.基于n元語法模型的領域語音指令識別.2009.5

[2]Bengio,Yoshua,Rejean Ducharme,and Pascal Vincent..A neural probabilistic language model.In T.K.Leen,T.G.Dietterich,and V.Tresp,eds.,Adv ances in NIPS 13,MIT Press.2001:932-938.

[3]翟劍鋒.深度學習在自然語言處理中的應用..電腦編程技巧與維護.中國青年政治學院計算機中心,2013

[4]楊瑩,吳誠煒,胡蘇基.于受限玻爾茲曼機的中文文檔分類.科技創新導報,中國電子科技集團公司第七研究所.廣東廣州.2012.

猜你喜歡
深度語言方法
深度理解一元一次方程
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
深度觀察
深度觀察
深度觀察
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
我有我語言
主站蜘蛛池模板: 3D动漫精品啪啪一区二区下载| 五月天婷婷网亚洲综合在线| 国产亚洲精品资源在线26u| 日本一区二区三区精品视频| 91口爆吞精国产对白第三集 | 精品成人一区二区三区电影| 综合人妻久久一区二区精品| 99re在线观看视频| 中文字幕日韩丝袜一区| 精品少妇三级亚洲| 一级毛片视频免费| 国产不卡网| AV不卡在线永久免费观看| 亚洲六月丁香六月婷婷蜜芽| 亚洲免费三区| 永久免费av网站可以直接看的 | 欧美一区二区精品久久久| 亚洲人成色77777在线观看| 最新无码专区超级碰碰碰| 日本成人精品视频| 欧美精品xx| 亚洲 欧美 日韩综合一区| 久久亚洲国产一区二区| 婷婷色一二三区波多野衣| 国产v精品成人免费视频71pao | 午夜福利视频一区| www成人国产在线观看网站| 有专无码视频| 中文字幕久久亚洲一区| aa级毛片毛片免费观看久| 国产SUV精品一区二区| 亚洲人视频在线观看| 污网站在线观看视频| 欧美特黄一免在线观看| 自拍偷拍欧美| 色综合狠狠操| 精品综合久久久久久97超人该| 成人年鲁鲁在线观看视频| 日韩AV无码免费一二三区| 国产精品久久精品| 欧美精品在线免费| 欧美a在线看| 日韩在线永久免费播放| 国产成人午夜福利免费无码r| 久久视精品| 亚洲成a人片在线观看88| 欧美亚洲激情| 国产成人精品高清在线| 97se亚洲综合在线天天| 欧美成人在线免费| 免费观看三级毛片| 日韩高清成人| 91福利在线观看视频| 久久久精品国产亚洲AV日韩| 91久久夜色精品| 日韩高清在线观看不卡一区二区| 午夜免费小视频| 欧美日韩中文国产| av大片在线无码免费| 青青操国产| 国产农村妇女精品一二区| 四虎永久免费地址| 国产手机在线ΑⅤ片无码观看| 久久精品无码中文字幕| 亚洲美女操| 亚洲区一区| 91青青草视频在线观看的| 在线国产你懂的| 欧美色视频网站| 亚洲美女一级毛片| 国产高清又黄又嫩的免费视频网站| 一级毛片视频免费| 欧美日韩国产在线观看一区二区三区| 精品人妻AV区| 好吊色妇女免费视频免费| 久久伊伊香蕉综合精品| 在线人成精品免费视频| 国产精品浪潮Av| 波多野结衣无码视频在线观看| 国产精品大白天新婚身材| 日本免费a视频| 美女一级毛片无遮挡内谢|