999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學(xué)習(xí)的自然語言處理技術(shù)

2020-11-24 17:40:34馮少迪臺灣長庚大學(xué)
數(shù)碼世界 2020年3期
關(guān)鍵詞:人工智能動作文本

馮少迪 臺灣長庚大學(xué)

引言

隨著人工智能技術(shù)的發(fā)展,機器翻譯作為自然語言處理(Natural Language Processing,簡稱NLP)研究的重要組成部分受到人們的廣泛關(guān)注。經(jīng)過了多年的研究和努力,以機器翻譯為代表的自然語言處理技術(shù)取得了巨大的進(jìn)展,并且在未來有著廣闊的應(yīng)用前景。機器翻譯(Machine Translation)是指通過特定的計算機程序?qū)⒁环N文本形式或聲音形式的人工自然語言,翻譯成另一種形式的人工自然語言,是計算機語言學(xué)、人工智能和數(shù)理邏輯相結(jié)合的一門交叉學(xué)科。現(xiàn)在,機器翻譯已經(jīng)成為世界自然語言處理研究的熱門。網(wǎng)絡(luò)化和國際化對翻譯的需求日益增大,翻譯軟件商業(yè)化的趨勢也非常明顯。近年來,加入深度學(xué)習(xí)、強化學(xué)習(xí)(Reinforcement Learning,簡稱RL)等人工智能的機器翻譯已經(jīng)不止于簡單的將一個個單詞翻譯成另一種自然語言,而是能夠像人工翻譯一樣,不斷向前回顧,能夠理解結(jié)構(gòu)復(fù)雜的句子,同時能夠聯(lián)系上下文進(jìn)行翻譯。最為明顯的就是現(xiàn)在的部分機器翻譯軟件已經(jīng)可以理解每一個代詞具體指代何人或何事物,這在許多年前是不可想象的。實現(xiàn)這種功能的關(guān)鍵,分別依賴于兩種神經(jīng)網(wǎng)絡(luò)架構(gòu):循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡稱RNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)。

1 強化學(xué)習(xí)

強化學(xué)習(xí)是人工智能領(lǐng)域熱門的研究方向,它是一種與監(jiān)督學(xué)習(xí)不一樣的學(xué)習(xí)范式,即通過一個智能體與環(huán)境進(jìn)行交互從而達(dá)到學(xué)習(xí)的目標(biāo)。強化學(xué)習(xí)在機器人AI方面獲得了很大的成功,從而引起了越來越多的關(guān)注。利用強化學(xué)習(xí)技術(shù),可以更好地解決NLP中的兩個經(jīng)典任務(wù):關(guān)系抽取和文本分類。在關(guān)系抽取中,用強化學(xué)習(xí)可以解決遠(yuǎn)程監(jiān)督方法自動生成的訓(xùn)練數(shù)據(jù)中的噪音問題;在文本分類中,利用強化學(xué)習(xí)文本能夠獲得更好的結(jié)構(gòu)化表示,并利用該表示得到了更好的文本分類效果。

強化學(xué)習(xí)的優(yōu)勢主要體現(xiàn)在:序列決策,即當(dāng)前決策影響后面的決策;試錯,即不告訴智能體怎樣決策,讓其不斷試錯;探索和開發(fā),即探索一些低概率事件,開發(fā)是利用當(dāng)前的最佳策略;未來收益,即當(dāng)前收益可能不是最佳的,對未來來講當(dāng)前決策最佳。由Google DeepMind使用強化學(xué)習(xí)訓(xùn)練出了一個智能體,它在Atari 2600游戲中取得了令人感嘆的表現(xiàn)。更令人驚訝的是,這種強大的性能僅僅是通過將游戲的屏幕和游戲過程中取得的獎勵作為輸入來實現(xiàn)的,這使通用人工智能的發(fā)展向前邁出了一大步。強化學(xué)習(xí)的目標(biāo)是生成一個與環(huán)境自主交互的智能體,通過反復(fù)試驗來學(xué)習(xí)最優(yōu)行為。目前,研究人員已經(jīng)開發(fā)了三種主要的方法來解決RL問題:基于價值函數(shù)的方法、基于策略的方法和行為批評家的方法。Google DeepMind使用的是一種基于價值函數(shù)的方法,即Deep Q-Network,它是一種深度卷積神經(jīng)網(wǎng)絡(luò)。以Atari 2600游戲中的Breakout為例,智能體的目標(biāo)是通過控制小球,使它擊中磚頭來獲取獎勵,并用球拍接住小球來避免生命的損失。這是一個典型的RL問題,它訓(xùn)練一個智能體與游戲環(huán)境進(jìn)行交互,并努力通過使用某些策略來獲得最大的獎勵。最終,通過迭代訓(xùn)練,智能體變得更加智能,能夠與游戲環(huán)境進(jìn)行交互并獲得很高的回報。

DQN模型有幾個重要的擴展。有些研究人員提出了一種使用競爭網(wǎng)絡(luò)來學(xué)習(xí)狀態(tài)的價值函數(shù)和與狀態(tài)相關(guān)聯(lián)的優(yōu)勢函數(shù),并將它們結(jié)合起來來估計動作的價值函數(shù)的方法。Double-DQN使用兩個估計量來解決DQN網(wǎng)絡(luò)的過度估計問題。還有一個重要的擴展是優(yōu)先級經(jīng)驗重放[,它使用了更加頻繁地對重要經(jīng)驗進(jìn)行采樣的方法。

2 自然語言處理

目前,強化學(xué)習(xí)在NLP方向的研究主要在對話管理、文本生成、機器翻譯、自動文本摘要、文本游戲、熱點預(yù)測和推薦等方面。在對話管理方面,Williams等人提出了使用混合編碼網(wǎng)絡(luò)(Hybrid Code Networks,簡稱HCNs)與監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)混合的方法,HCNs可以大大減少所需的訓(xùn)練數(shù)據(jù)的數(shù)量,同時還可以保留對話狀態(tài)的潛在的關(guān)鍵點,并且他們還通過改變梯度的更新策略來使用監(jiān)督學(xué)習(xí)或者強化學(xué)習(xí)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,對原有的對話管理技術(shù)進(jìn)行了優(yōu)化。

現(xiàn)實世界中的許多問題都可以使用序列到序列(sequence to sequence)的方式來學(xué)習(xí)。其中重要的應(yīng)用包括文本生成、機器翻譯等。這類問題可以表示為將一個單詞句子映射到另一個單詞序列。對這些任務(wù)進(jìn)行建模最主要的挑戰(zhàn)是文本序列的長度是可變的,這些通常是未知的先驗知識。為了解決這個問題,有研究人員提出了一種編碼器-解碼器-長-短期存儲器(Long Short-Term Memory ,簡稱LSTM)體系結(jié)構(gòu),它被證明是一種有效的解決方式。其核心思想是使用一個LSTM對輸入序列進(jìn)行編碼,從而得到一個固定維度的向量來表示輸入序列。隨后,使用這個固定維度的向量,作為另外一個LSTM的輸入,進(jìn)行解碼得到最終的輸出序列。解碼過程本質(zhì)上是一個遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,簡稱RNN)語言模型。Guo[3]等人,提出了一種使用深度Q網(wǎng)絡(luò)(Deep Q-Network,簡稱DQN)來進(jìn)行迭代解碼的策略,首先使用編碼器-解碼-LSTM網(wǎng)絡(luò)對輸入序列進(jìn)行編碼,在此過程中自動生成文本的信息特征來表示DQN的內(nèi)部狀態(tài)和潛在的操作列表。然后使用DQN對輸出序列進(jìn)行迭代解碼,DQN會從操作列表中選擇哪個單詞來修改當(dāng)前解碼序列,新編輯的輸出序列隨后作為輸入,送入下一解碼迭代的DQN當(dāng)中。

關(guān)于提取文本摘要,最著名的解決方案就是Goldstein等人提出的使用最大邊際相關(guān)性(MMR)。然而,由于其貪婪性,MMR不能考慮整個摘要的質(zhì)量。另一種解決方案是使用優(yōu)化技術(shù),如整數(shù)線性規(guī)劃(ILP)來推斷句子的分?jǐn)?shù)并且同時考慮整個摘要的質(zhì)量。此外,還有少數(shù)研究者提出了使用RL來進(jìn)行自動文本摘要的方法(Goldstein等人)。他們的研究主要是在基于RL的文本自動摘要中使用手工來標(biāo)記復(fù)雜的特征。然而,為任務(wù)選擇重要的特征以及為新應(yīng)用程序重新生成新的特征是非常困難且耗時的工作。目前,最主流的NLP程序都是用深度學(xué)習(xí)來減輕手工標(biāo)記特征的負(fù)擔(dān),有研究人員提出了一種在RL方法中使用簡單特征嵌入的方法來對自動文本摘要任務(wù)進(jìn)行優(yōu)化。

從文本中學(xué)習(xí)控制策略也引起來研究人員極大的興趣。主要的應(yīng)用方向包括解釋軟件幫助文檔、導(dǎo)航和計算機游戲方面。游戲為基礎(chǔ)語言分析提供了一個豐富的領(lǐng)域。Gorniak和Roy開發(fā)了一個游戲角色,可以通過語音指令來適應(yīng)游戲環(huán)境。命令到動作的基礎(chǔ)是從一個用動作和狀態(tài)屬性手動注釋的腳本中學(xué)習(xí)獲得的。He和Ostendorf[6]提出了一種引入在線流行度預(yù)測和跟蹤任務(wù)作為基準(zhǔn)任務(wù),以結(jié)合組合的自然語言動作空間進(jìn)行強化學(xué)習(xí)的方法,采取以自然語言為特征的選項,以最大化長期回報為目標(biāo),考慮具有組合動作空間的任務(wù),其中每個動作是一組多個相互依賴的子動作。

3 結(jié)論

強化學(xué)習(xí)與自然語言處理作為人工智能領(lǐng)域最熱門研究方向,已經(jīng)吸引了越來越多學(xué)術(shù)界和工業(yè)界人士對其不斷的研究與發(fā)展,本文介紹了強化學(xué)習(xí)與自然語言處理結(jié)合使用的方法,將強化學(xué)習(xí)融入到自然語言處理當(dāng)中可以很好的對現(xiàn)有算法進(jìn)行優(yōu)化,對于自然語言處理的發(fā)展起到了極大的促進(jìn)作用。

猜你喜歡
人工智能動作文本
在808DA上文本顯示的改善
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
人工智能與就業(yè)
動作描寫要具體
畫動作
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
動作描寫不可少
下一幕,人工智能!
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 四虎影视8848永久精品| 少妇精品在线| 精品无码视频在线观看| 人妻21p大胆| 一级做a爰片久久毛片毛片| 日本亚洲最大的色成网站www| 无码国产伊人| 成色7777精品在线| 亚洲嫩模喷白浆| 国产原创自拍不卡第一页| 国产成人高清精品免费| 韩日免费小视频| 99热这里都是国产精品| 久久国产精品娇妻素人| 99久久亚洲综合精品TS| 国产精品夜夜嗨视频免费视频| 91午夜福利在线观看精品| 日韩AV无码免费一二三区| 国产午夜一级毛片| 国产第一页免费浮力影院| 午夜无码一区二区三区| 高清码无在线看| 国产你懂得| 亚洲人成网站色7799在线播放| 五月六月伊人狠狠丁香网| 久久人搡人人玩人妻精品一| 欧美午夜在线观看| 午夜性爽视频男人的天堂| 又猛又黄又爽无遮挡的视频网站| 9啪在线视频| 欧美一级高清片欧美国产欧美| 国产精品开放后亚洲| 丁香综合在线| 99热国产这里只有精品无卡顿"| 亚洲成人精品在线| 亚洲另类色| 亚洲女同欧美在线| 午夜三级在线| 韩国v欧美v亚洲v日本v| 亚洲欧美另类视频| 欧美日韩专区| 亚洲aⅴ天堂| 成色7777精品在线| 免费在线视频a| 国产美女免费| 亚洲欧美另类日本| 性网站在线观看| 亚洲欧洲日产国产无码AV| 国产成人亚洲综合A∨在线播放| 毛片一级在线| 五月婷婷丁香综合| 丁香婷婷久久| 亚洲欧州色色免费AV| 国产视频一二三区| 在线中文字幕日韩| 69国产精品视频免费| 天天综合色网| 韩国福利一区| 日韩中文精品亚洲第三区| 成人va亚洲va欧美天堂| 欧美曰批视频免费播放免费| 欧美精品H在线播放| 女人毛片a级大学毛片免费| 日本亚洲欧美在线| 老司机精品久久| 日本91视频| 亚洲丝袜第一页| 国产免费福利网站| 在线免费观看AV| 波多野结衣在线一区二区| 欧美在线一级片| 成人av手机在线观看| 国产波多野结衣中文在线播放 | 欧美一区二区三区国产精品| 亚洲激情区| av尤物免费在线观看| 成人午夜视频网站| 伊人久久大香线蕉影院| 91极品美女高潮叫床在线观看| 午夜爽爽视频| a天堂视频| 精品伊人久久久久7777人|