999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用深度學(xué)習(xí)對(duì)托福聽(tīng)力部分進(jìn)行機(jī)器理解

2021-01-28 03:35:42胡蓉田時(shí)宇
微型電腦應(yīng)用 2021年1期
關(guān)鍵詞:模型

胡蓉, 田時(shí)宇

(湖南信息學(xué)院 通識(shí)教育學(xué)院, 湖南 長(zhǎng)沙 410151)

0 引言

隨著共享視頻、社交網(wǎng)絡(luò)和在線課程等的普及,多媒體或音頻內(nèi)容的數(shù)量增長(zhǎng)速度遠(yuǎn)遠(yuǎn)快于人們可以觀看或收聽(tīng)的內(nèi)容。用戶可以輕松地瀏覽文本,但音頻內(nèi)容則不是這樣,因?yàn)樗鼈儾荒苤苯语@示在屏幕上,因此,訪問(wèn)大量的多媒體或音頻內(nèi)容對(duì)人類來(lái)說(shuō)是困難和耗時(shí)的。因此,利用機(jī)器實(shí)現(xiàn)自動(dòng)理解語(yǔ)音內(nèi)容,并為人類提取甚至可視化關(guān)鍵信息是非常必要的。盡管文本和視覺(jué)內(nèi)容的機(jī)器理解已經(jīng)得到了廣泛的研究,但是口語(yǔ)內(nèi)容的機(jī)器理解仍然是一個(gè)研究較少的問(wèn)題[1-2]。因此本文對(duì)口語(yǔ)內(nèi)容的機(jī)器理解進(jìn)行了初步嘗試。

本文以托福考試為研究目標(biāo),針對(duì)托福考試中的聽(tīng)力部分,利用深度學(xué)習(xí)進(jìn)行機(jī)器理解。本研究提出了一種新的框架TAL,利用基于注意力的Tree-LSTM來(lái)構(gòu)造考慮詞序的句子表示[3]。本文利用自然語(yǔ)言的層次結(jié)構(gòu)和注意機(jī)制的選擇能力,證明了該模型優(yōu)于樸素方法和其他基于神經(jīng)網(wǎng)絡(luò)的模型。

1 對(duì)聽(tīng)力的機(jī)器理解

1.1 系統(tǒng)架構(gòu)

TAL網(wǎng)絡(luò)架構(gòu),如圖1所示。

由圖1可知,模型中有兩個(gè)關(guān)鍵模塊:第一個(gè)是Tree-LSTM[4],它將句子編碼成連續(xù)的表示形式,由依賴解析器提供層次結(jié)構(gòu),而不是簡(jiǎn)單的順序結(jié)構(gòu),因此它利用了人類語(yǔ)言的內(nèi)在屬性;第二個(gè)關(guān)鍵模塊是注意模塊(attention module)。在接下來(lái)的實(shí)驗(yàn)中,發(fā)現(xiàn)將這兩個(gè)模塊結(jié)合在一起比以前僅使用Tree-LSTM和注意力機(jī)制(attention mechanism)更為出色。

模型不同組件的詳細(xì)信息如下所示。在圖1的左側(cè),基于Tree-LSTM的句子表示模塊用于根據(jù)問(wèn)題的單詞序列生成問(wèn)題向量的表示;ASR系統(tǒng)轉(zhuǎn)錄音頻故事,圖1底部的故事模塊以ASR轉(zhuǎn)錄本為輸入,將轉(zhuǎn)錄本中的句子轉(zhuǎn)換成一個(gè)向量序列,每個(gè)向量代表一個(gè)短語(yǔ)或一個(gè)句子;注意力模塊在中間,注意機(jī)制可以應(yīng)用多次。在圖的右側(cè),這四個(gè)選項(xiàng)也由句子表示模塊表示為向量。最后,評(píng)估答案選擇的置信度得分,并生成答案。系統(tǒng)是端到端學(xué)習(xí)的,除了ASR模塊。

1.2 句子表征

句子表示模塊的目標(biāo)是通過(guò)捕獲句子語(yǔ)義的向量來(lái)表示句子。輸入問(wèn)題Q和選擇C都是一個(gè)單詞組成的序列。在句子表示模塊中,問(wèn)題Q表示為向量VQ0,選擇C表示為VC。一個(gè)問(wèn)題可以由多個(gè)句子Si組成,每個(gè)句子首先可以表示為VSi。那么問(wèn)題向量VQ是問(wèn)題中所有Si的VSi之和。使用遞歸神經(jīng)網(wǎng)絡(luò)Tree-LSTM獲得句子表示。Tree-LSTM基于其子節(jié)點(diǎn)的向量表示為依賴樹中的每個(gè)節(jié)點(diǎn)生成向量表示。

圖1 TAL網(wǎng)絡(luò)架構(gòu)

1.3 故事表征

故事抄寫是一個(gè)很長(zhǎng)的單詞序列,有很多句子。故事模塊的目標(biāo)是將單詞序列表示為一組向量表示O={o1,o2,…,ot},其中ot表示Tree-LSTM的短語(yǔ)或句子。

短語(yǔ)層次:O={o1,o2,…,ot}中,每個(gè)ot是句子的Tree-LSTM中節(jié)點(diǎn)的隱藏狀態(tài),或者每個(gè)ot表示一個(gè)短語(yǔ)。因此,t大于故事中的句子數(shù)。

句子層次:每一個(gè)ot是故事中某個(gè)句子上Tree-LSTM的根節(jié)點(diǎn)的隱藏狀態(tài),或者每一個(gè)ot代表一個(gè)句子。在這種情況下,t等于句子數(shù)。

1.4 注意力機(jī)制

存儲(chǔ)模塊基于從故事模塊獲得的表示來(lái)提取故事中與問(wèn)題VQ相關(guān)的信息。設(shè)O={o1,o2,…,ot}為故事的向量表示集。集合O中的向量首先由嵌入矩陣W(m)和W(c)轉(zhuǎn)換成記憶向量M={m1,m2,…,mt}和證據(jù)向量C={c1,c2,…,ct},如式(1)。

(1)

(2)

(3)

式中,⊙表示余弦相似性。每個(gè)注意權(quán)重αt對(duì)應(yīng)于一個(gè)證據(jù)向量ct。故事向量Vs是以注意力為權(quán)重的證據(jù)向量ct的加權(quán)和,如式(4)。

(4)

式中,Vs可以看作是從音頻故事中提取的與查詢相關(guān)的信息。

1.5 多跳

在圖1的左側(cè),首先使用句子表示模塊將輸入問(wèn)題轉(zhuǎn)換為問(wèn)題向量VQ0。該VQ0用于計(jì)算注意值αt以獲得故事向量VS1。然后將VQ0和VS1相加形成新的問(wèn)題向量VQ1。在圖1中,該處理是第一跳(1跳)。第一跳VQ1的輸出可用于計(jì)算新的注意以獲得新的故事向量VS1。這可以被看作是機(jī)器再次遍歷故事,用一個(gè)新的問(wèn)題向量重新聚焦故事。再次,VQ1和VS1相加形成VQ2(2跳)。在n跳(n是預(yù)定義的)之后,最后一跳VQn的輸出將用于下一小節(jié)中的答案選擇。

1.6 應(yīng)答模塊

(5)

2 實(shí)驗(yàn)與評(píng)估

2.1 實(shí)驗(yàn)設(shè)置

對(duì)于聽(tīng)力評(píng)估使用了預(yù)訓(xùn)練的300維GloVe矢量模型[5],以獲得每個(gè)單詞的矢量表示。為了減少詞匯量,在這里使用了斯坦福大學(xué)自然語(yǔ)言處理小組[6]的工具來(lái)對(duì)問(wèn)題選擇和故事抄寫中的單詞進(jìn)行詞素化。在訓(xùn)練之前,刪減了故事中的那些話語(yǔ),這些話語(yǔ)的矢量表示與問(wèn)題之間的余弦距離很遠(yuǎn),刪減話語(yǔ)的百分比由開(kāi)發(fā)集上模型的性能決定。

2.2 結(jié)果與評(píng)估

對(duì)于前文描述的模型,前向和后向GRU網(wǎng)絡(luò)的隱藏層的大小都是128。為了避免過(guò)度擬合,模型中的所有雙向GRU網(wǎng)絡(luò)和樹LSTM共享同一組參數(shù)。使用RmsProp[7],初始學(xué)習(xí)率為1e-5,動(dòng)量為0.9。輟學(xué)率為0.2。Tree-LSTM的隱藏層大小和內(nèi)存模塊的嵌入大小均為75。使用AdaGrad[8],初始學(xué)習(xí)率為0.002。梯度裁剪的閾值為20,批量大小為40,使用開(kāi)發(fā)集將跳數(shù)從1調(diào)整到3。

使用準(zhǔn)確性(正確回答的問(wèn)題的百分比)作為評(píng)估指標(biāo)。在訓(xùn)練集的故事和問(wèn)題/答案的手動(dòng)轉(zhuǎn)錄上對(duì)模型進(jìn)行了訓(xùn)練,并在測(cè)試集(Manual)和ASR轉(zhuǎn)錄(ASR)上進(jìn)行了測(cè)試,為了進(jìn)行公平的比較,統(tǒng)計(jì)了10次運(yùn)行的平均準(zhǔn)確度和標(biāo)準(zhǔn)差,如表1所示。

表1 不同方法比較結(jié)果

本文提出的TAL分別用于1跳和2跳的短語(yǔ)/句子級(jí)的注意力模型,其準(zhǔn)確度比其他方法都要高很多。1跳句子級(jí)注意力模型在manual中的平均準(zhǔn)確率最高,達(dá)到49.2%,顯著高于其他方法的結(jié)果;2跳短語(yǔ)級(jí)注意模型在ASR結(jié)果中的平均準(zhǔn)確率最高,達(dá)到48.9%,僅略低于1跳。還可以觀察到,增加跳數(shù)會(huì)提高短語(yǔ)級(jí)注意的表現(xiàn),但不會(huì)提高句子級(jí)注意的表現(xiàn),這可能是因?yàn)閷?duì)于短語(yǔ)級(jí)推理,模型首先在1跳中選擇關(guān)鍵短語(yǔ),然后在2跳中根據(jù)這些關(guān)鍵短語(yǔ)改變其注意力。對(duì)于句子級(jí)推理,在1跳中只選擇了幾個(gè)關(guān)鍵句子,而更多的跳則無(wú)法找到額外的關(guān)鍵句子。

令人驚訝的是,ASR錯(cuò)誤對(duì)聽(tīng)力理解的影響很小。為了進(jìn)一步分析結(jié)果,進(jìn)行了額外的實(shí)驗(yàn)。在測(cè)試階段,用一個(gè)概率為34.3%(與WER相同)的隨機(jī)詞替換了manual中的每個(gè)詞。結(jié)果顯示在標(biāo)有隨機(jī)的列中。通過(guò)比較ASR和隨即兩欄的結(jié)果,我們發(fā)現(xiàn)ASR錯(cuò)誤對(duì)聽(tīng)力理解準(zhǔn)確性的影響小于隨即替換,如表2所示。

表2 ASR和隨機(jī)的結(jié)果

3 總結(jié)

在本文中,提出了兩個(gè)與語(yǔ)音內(nèi)容的機(jī)器理解有關(guān)的目標(biāo)——托福聽(tīng)力和口語(yǔ)理解。在托福聽(tīng)力理解中,提出的TAL框架在樹狀結(jié)構(gòu)的LSTM網(wǎng)絡(luò)中結(jié)合了多跳注意力機(jī)制,其準(zhǔn)確性為48.8%;在對(duì)口語(yǔ)理解中,利用CNN網(wǎng)絡(luò)改進(jìn)現(xiàn)有的模型,證明了ASR錯(cuò)誤會(huì)大大降低閱讀理解模型的性能,并建議使用不同種類的子字單元來(lái)減輕這些錯(cuò)誤的影響。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 91视频99| 久久精品91麻豆| 国模极品一区二区三区| 亚瑟天堂久久一区二区影院| 国产精品短篇二区| 欧美日韩第三页| 欧美精品v欧洲精品| 日本人又色又爽的视频| 91精品最新国内在线播放| 丁香婷婷久久| 黄色网在线| 亚洲第一成年网| 四虎精品免费久久| 精品91自产拍在线| 日韩在线影院| 动漫精品啪啪一区二区三区| 精品少妇人妻无码久久| 亚洲人成高清| 美女国产在线| 日韩精品久久无码中文字幕色欲| 国产一区二区三区在线观看免费| 国产H片无码不卡在线视频| 亚洲国产欧美目韩成人综合| 亚洲a级在线观看| 99ri国产在线| 91蜜芽尤物福利在线观看| www.亚洲一区| 极品国产一区二区三区| 囯产av无码片毛片一级| 亚洲日韩AV无码精品| 40岁成熟女人牲交片免费| 日韩无码黄色网站| 成人年鲁鲁在线观看视频| 国产另类视频| 欧美午夜一区| 午夜国产在线观看| 亚洲午夜福利在线| 亚洲精品老司机| 狠狠做深爱婷婷综合一区| 一本久道久综合久久鬼色| 欧美中文字幕一区二区三区| 国产精品短篇二区| 黄色网站在线观看无码| 免费人欧美成又黄又爽的视频| 国产欧美日韩另类精彩视频| 久久久噜噜噜| A级毛片高清免费视频就| 久久综合伊人 六十路| 亚欧美国产综合| 99爱视频精品免视看| 国产SUV精品一区二区6| 成人午夜久久| 亚洲αv毛片| 就去色综合| 免费高清毛片| 伊人无码视屏| 中文字幕在线日本| 91原创视频在线| 999国内精品视频免费| 国产无人区一区二区三区| 亚洲欧美日韩久久精品| 国产乱人乱偷精品视频a人人澡| www.91在线播放| 国产综合无码一区二区色蜜蜜| 亚洲精品男人天堂| 日韩国产精品无码一区二区三区| 无码精油按摩潮喷在线播放| 亚洲水蜜桃久久综合网站 | 97色伦色在线综合视频| 日本免费a视频| 粗大猛烈进出高潮视频无码| 久久精品视频一| 精品久久国产综合精麻豆| 国产无码制服丝袜| 成人在线第一页| 九九久久精品国产av片囯产区| 国产亚洲欧美日韩在线一区| 国产精品美人久久久久久AV| 国产精品视频免费网站| 亚洲精品视频免费看| 日韩免费成人| 国产免费高清无需播放器|