利用深度學(xué)習(xí)對(duì)托福聽(tīng)力部分進(jìn)行機(jī)器理解

2021-01-28 03:35:42胡蓉田時(shí)宇

微型電腦應(yīng)用 2021年1期

關(guān)鍵詞：模型

胡蓉，田時(shí)宇

(湖南信息學(xué)院通識(shí)教育學(xué)院，湖南長(zhǎng)沙 410151)

0 引言

隨著共享視頻、社交網(wǎng)絡(luò)和在線課程等的普及，多媒體或音頻內(nèi)容的數(shù)量增長(zhǎng)速度遠(yuǎn)遠(yuǎn)快于人們可以觀看或收聽(tīng)的內(nèi)容。用戶可以輕松地瀏覽文本，但音頻內(nèi)容則不是這樣，因?yàn)樗鼈儾荒苤苯语@示在屏幕上，因此，訪問(wèn)大量的多媒體或音頻內(nèi)容對(duì)人類來(lái)說(shuō)是困難和耗時(shí)的。因此，利用機(jī)器實(shí)現(xiàn)自動(dòng)理解語(yǔ)音內(nèi)容，并為人類提取甚至可視化關(guān)鍵信息是非常必要的。盡管文本和視覺(jué)內(nèi)容的機(jī)器理解已經(jīng)得到了廣泛的研究，但是口語(yǔ)內(nèi)容的機(jī)器理解仍然是一個(gè)研究較少的問(wèn)題[1-2]。因此本文對(duì)口語(yǔ)內(nèi)容的機(jī)器理解進(jìn)行了初步嘗試。

本文以托福考試為研究目標(biāo)，針對(duì)托福考試中的聽(tīng)力部分，利用深度學(xué)習(xí)進(jìn)行機(jī)器理解。本研究提出了一種新的框架TAL，利用基于注意力的Tree-LSTM來(lái)構(gòu)造考慮詞序的句子表示[3]。本文利用自然語(yǔ)言的層次結(jié)構(gòu)和注意機(jī)制的選擇能力，證明了該模型優(yōu)于樸素方法和其他基于神經(jīng)網(wǎng)絡(luò)的模型。

1 對(duì)聽(tīng)力的機(jī)器理解

1.1 系統(tǒng)架構(gòu)

TAL網(wǎng)絡(luò)架構(gòu)，如圖1所示。

由圖1可知，模型中有兩個(gè)關(guān)鍵模塊:第一個(gè)是Tree-LSTM[4]，它將句子編碼成連續(xù)的表示形式，由依賴解析器提供層次結(jié)構(gòu)，而不是簡(jiǎn)單的順序結(jié)構(gòu)，因此它利用了人類語(yǔ)言的內(nèi)在屬性；第二個(gè)關(guān)鍵模塊是注意模塊(attention module)。在接下來(lái)的實(shí)驗(yàn)中，發(fā)現(xiàn)將這兩個(gè)模塊結(jié)合在一起比以前僅使用Tree-LSTM和注意力機(jī)制(attention mechanism)更為出色。

模型不同組件的詳細(xì)信息如下所示。在圖1的左側(cè)，基于Tree-LSTM的句子表示模塊用于根據(jù)問(wèn)題的單詞序列生成問(wèn)題向量的表示；ASR系統(tǒng)轉(zhuǎn)錄音頻故事，圖1底部的故事模塊以ASR轉(zhuǎn)錄本為輸入，將轉(zhuǎn)錄本中的句子轉(zhuǎn)換成一個(gè)向量序列，每個(gè)向量代表一個(gè)短語(yǔ)或一個(gè)句子；注意力模塊在中間，注意機(jī)制可以應(yīng)用多次。在圖的右側(cè)，這四個(gè)選項(xiàng)也由句子表示模塊表示為向量。最后，評(píng)估答案選擇的置信度得分，并生成答案。系統(tǒng)是端到端學(xué)習(xí)的，除了ASR模塊。

1.2 句子表征

句子表示模塊的目標(biāo)是通過(guò)捕獲句子語(yǔ)義的向量來(lái)表示句子。輸入問(wèn)題Q和選擇C都是一個(gè)單詞組成的序列。在句子表示模塊中，問(wèn)題Q表示為向量VQ0，選擇C表示為VC。一個(gè)問(wèn)題可以由多個(gè)句子Si組成，每個(gè)句子首先可以表示為VSi。那么問(wèn)題向量VQ是問(wèn)題中所有Si的VSi之和。使用遞歸神經(jīng)網(wǎng)絡(luò)Tree-LSTM獲得句子表示。Tree-LSTM基于其子節(jié)點(diǎn)的向量表示為依賴樹中的每個(gè)節(jié)點(diǎn)生成向量表示。

圖1 TAL網(wǎng)絡(luò)架構(gòu)

1.3 故事表征

故事抄寫是一個(gè)很長(zhǎng)的單詞序列，有很多句子。故事模塊的目標(biāo)是將單詞序列表示為一組向量表示O={o1,o2,…,ot}，其中ot表示Tree-LSTM的短語(yǔ)或句子。

短語(yǔ)層次：O={o1,o2,…,ot}中，每個(gè)ot是句子的Tree-LSTM中節(jié)點(diǎn)的隱藏狀態(tài)，或者每個(gè)ot表示一個(gè)短語(yǔ)。因此，t大于故事中的句子數(shù)。

句子層次：每一個(gè)ot是故事中某個(gè)句子上Tree-LSTM的根節(jié)點(diǎn)的隱藏狀態(tài)，或者每一個(gè)ot代表一個(gè)句子。在這種情況下，t等于句子數(shù)。

1.4 注意力機(jī)制

存儲(chǔ)模塊基于從故事模塊獲得的表示來(lái)提取故事中與問(wèn)題VQ相關(guān)的信息。設(shè)O={o1,o2,…,ot}為故事的向量表示集。集合O中的向量首先由嵌入矩陣W(m)和W(c)轉(zhuǎn)換成記憶向量M={m1,m2,…,mt}和證據(jù)向量C={c1,c2,…,ct}，如式(1)。

(1)

(2)

(3)

式中,⊙表示余弦相似性。每個(gè)注意權(quán)重αt對(duì)應(yīng)于一個(gè)證據(jù)向量ct。故事向量Vs是以注意力為權(quán)重的證據(jù)向量ct的加權(quán)和，如式(4)。

(4)

式中，Vs可以看作是從音頻故事中提取的與查詢相關(guān)的信息。

1.5 多跳

在圖1的左側(cè)，首先使用句子表示模塊將輸入問(wèn)題轉(zhuǎn)換為問(wèn)題向量VQ0。該VQ0用于計(jì)算注意值αt以獲得故事向量VS1。然后將VQ0和VS1相加形成新的問(wèn)題向量VQ1。在圖1中，該處理是第一跳(1跳)。第一跳VQ1的輸出可用于計(jì)算新的注意以獲得新的故事向量VS1。這可以被看作是機(jī)器再次遍歷故事，用一個(gè)新的問(wèn)題向量重新聚焦故事。再次，VQ1和VS1相加形成VQ2(2跳)。在n跳(n是預(yù)定義的)之后，最后一跳VQn的輸出將用于下一小節(jié)中的答案選擇。

1.6 應(yīng)答模塊

(5)

2 實(shí)驗(yàn)與評(píng)估

2.1 實(shí)驗(yàn)設(shè)置

對(duì)于聽(tīng)力評(píng)估使用了預(yù)訓(xùn)練的300維GloVe矢量模型[5]，以獲得每個(gè)單詞的矢量表示。為了減少詞匯量，在這里使用了斯坦福大學(xué)自然語(yǔ)言處理小組[6]的工具來(lái)對(duì)問(wèn)題選擇和故事抄寫中的單詞進(jìn)行詞素化。在訓(xùn)練之前，刪減了故事中的那些話語(yǔ)，這些話語(yǔ)的矢量表示與問(wèn)題之間的余弦距離很遠(yuǎn)，刪減話語(yǔ)的百分比由開(kāi)發(fā)集上模型的性能決定。

2.2 結(jié)果與評(píng)估

對(duì)于前文描述的模型，前向和后向GRU網(wǎng)絡(luò)的隱藏層的大小都是128。為了避免過(guò)度擬合，模型中的所有雙向GRU網(wǎng)絡(luò)和樹LSTM共享同一組參數(shù)。使用RmsProp[7]，初始學(xué)習(xí)率為1e-5，動(dòng)量為0.9。輟學(xué)率為0.2。Tree-LSTM的隱藏層大小和內(nèi)存模塊的嵌入大小均為75。使用AdaGrad[8]，初始學(xué)習(xí)率為0.002。梯度裁剪的閾值為20，批量大小為40，使用開(kāi)發(fā)集將跳數(shù)從1調(diào)整到3。

使用準(zhǔn)確性(正確回答的問(wèn)題的百分比)作為評(píng)估指標(biāo)。在訓(xùn)練集的故事和問(wèn)題/答案的手動(dòng)轉(zhuǎn)錄上對(duì)模型進(jìn)行了訓(xùn)練，并在測(cè)試集(Manual)和ASR轉(zhuǎn)錄(ASR)上進(jìn)行了測(cè)試，為了進(jìn)行公平的比較，統(tǒng)計(jì)了10次運(yùn)行的平均準(zhǔn)確度和標(biāo)準(zhǔn)差，如表1所示。

表1 不同方法比較結(jié)果

本文提出的TAL分別用于1跳和2跳的短語(yǔ)/句子級(jí)的注意力模型，其準(zhǔn)確度比其他方法都要高很多。1跳句子級(jí)注意力模型在manual中的平均準(zhǔn)確率最高，達(dá)到49.2%，顯著高于其他方法的結(jié)果；2跳短語(yǔ)級(jí)注意模型在ASR結(jié)果中的平均準(zhǔn)確率最高，達(dá)到48.9%，僅略低于1跳。還可以觀察到，增加跳數(shù)會(huì)提高短語(yǔ)級(jí)注意的表現(xiàn)，但不會(huì)提高句子級(jí)注意的表現(xiàn),這可能是因?yàn)閷?duì)于短語(yǔ)級(jí)推理，模型首先在1跳中選擇關(guān)鍵短語(yǔ)，然后在2跳中根據(jù)這些關(guān)鍵短語(yǔ)改變其注意力。對(duì)于句子級(jí)推理，在1跳中只選擇了幾個(gè)關(guān)鍵句子，而更多的跳則無(wú)法找到額外的關(guān)鍵句子。

令人驚訝的是，ASR錯(cuò)誤對(duì)聽(tīng)力理解的影響很小。為了進(jìn)一步分析結(jié)果，進(jìn)行了額外的實(shí)驗(yàn)。在測(cè)試階段，用一個(gè)概率為34.3%(與WER相同)的隨機(jī)詞替換了manual中的每個(gè)詞。結(jié)果顯示在標(biāo)有隨機(jī)的列中。通過(guò)比較ASR和隨即兩欄的結(jié)果，我們發(fā)現(xiàn)ASR錯(cuò)誤對(duì)聽(tīng)力理解準(zhǔn)確性的影響小于隨即替換，如表2所示。

表2 ASR和隨機(jī)的結(jié)果

3 總結(jié)

在本文中，提出了兩個(gè)與語(yǔ)音內(nèi)容的機(jī)器理解有關(guān)的目標(biāo)——托福聽(tīng)力和口語(yǔ)理解。在托福聽(tīng)力理解中，提出的TAL框架在樹狀結(jié)構(gòu)的LSTM網(wǎng)絡(luò)中結(jié)合了多跳注意力機(jī)制，其準(zhǔn)確性為48.8%；在對(duì)口語(yǔ)理解中，利用CNN網(wǎng)絡(luò)改進(jìn)現(xiàn)有的模型，證明了ASR錯(cuò)誤會(huì)大大降低閱讀理解模型的性能，并建議使用不同種類的子字單元來(lái)減輕這些錯(cuò)誤的影響。