999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自聯(lián)想記憶與卷積神經(jīng)網(wǎng)絡(luò)的跨語(yǔ)言情感分類(lèi)

2019-01-22 03:32:14崔榮一趙亞慧
中文信息學(xué)報(bào) 2018年12期
關(guān)鍵詞:語(yǔ)義分類(lèi)記憶

劉 嬌,崔榮一,趙亞慧

(延邊大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 智能信息處理研究室,吉林 延吉 133000)

0 引言

情感分類(lèi)屬于較為典型的二分類(lèi)問(wèn)題,即給含有情感色彩的文檔一個(gè)態(tài)度偏向,支持或者反對(duì)。西方語(yǔ)言對(duì)情感分類(lèi)研究起步較早,具有豐富的情感詞典語(yǔ)料等資源,而中文情感資源相對(duì)匱乏。研究跨語(yǔ)言情感分類(lèi)不僅是為了消除語(yǔ)言之間的應(yīng)用屏障,還可以將資源豐富型語(yǔ)言的研究資源應(yīng)用到資源匱乏型語(yǔ)言中去,幫助其他語(yǔ)言發(fā)展,跨越語(yǔ)言之間的鴻溝。本文提出的自聯(lián)想記憶模型可以減小資源不均衡對(duì)分類(lèi)精度帶來(lái)的影響,適用于跨語(yǔ)言情感分類(lèi)任務(wù)。

跨語(yǔ)言情感分類(lèi)領(lǐng)域近年來(lái)顯現(xiàn)出許多優(yōu)秀的模型。文獻(xiàn)[1]提出混合自訓(xùn)練模型和協(xié)同訓(xùn)練模型,分別訓(xùn)練兩個(gè)語(yǔ)種的數(shù)據(jù),采用雙視圖來(lái)得到最終的分類(lèi)結(jié)果,分類(lèi)性能超過(guò)了自訓(xùn)練和協(xié)同訓(xùn)練中最好的結(jié)果,并在當(dāng)時(shí)取得了NLPCC跨語(yǔ)言情感分類(lèi)評(píng)測(cè)任務(wù)(2013)的第一名。文獻(xiàn)[2]在解決跨語(yǔ)言模型的問(wèn)題時(shí)采用遷移學(xué)習(xí)的方法,將源語(yǔ)言和目標(biāo)語(yǔ)言分別視作兩個(gè)領(lǐng)域,在此引入基于樣例遷移的監(jiān)測(cè)機(jī)制來(lái)避免發(fā)生負(fù)遷移情況,可以減少樣本數(shù)據(jù)中的噪音,提高分類(lèi)性能。文獻(xiàn)[3]結(jié)合雙視圖與遷移學(xué)習(xí)兩種方法構(gòu)建模型。雙視圖中將英文視為標(biāo)準(zhǔn)的參考知識(shí),并在英文空間中進(jìn)行訓(xùn)練,通過(guò)對(duì)英文樣本的翻譯來(lái)得到中文視圖中的數(shù)據(jù)集,并引入知識(shí)驗(yàn)證函數(shù)來(lái)過(guò)濾中文翻譯樣例中由于翻譯產(chǎn)生的可能存在的噪音。

深度學(xué)習(xí)模型在情感分類(lèi)上的應(yīng)用研究也取得了不小的進(jìn)展。文獻(xiàn)[4] 通過(guò)注意力機(jī)制來(lái)捕獲不同上下文信息對(duì)給定特征的重要性,將注意力機(jī)制與LSTM結(jié)合起來(lái)對(duì)句子進(jìn)行語(yǔ)義建模。文獻(xiàn)[5]提出一個(gè)端到端的對(duì)抗記憶網(wǎng)絡(luò)去解決跨領(lǐng)域的情感分類(lèi)。使用注意力機(jī)制來(lái)自動(dòng)抓取特征,模型框架包括兩個(gè)參數(shù)共享的記憶網(wǎng)絡(luò)。其中,一個(gè)用于情感分類(lèi),一個(gè)用于主題分類(lèi),聯(lián)合訓(xùn)練的同時(shí)自動(dòng)選擇特征以最小化情感分類(lèi)的誤差。文獻(xiàn)[6]提出了使用降噪自編碼器或者長(zhǎng)短時(shí)記憶遞歸網(wǎng)絡(luò)(LSTM)結(jié)合上下文情感模糊詞,以學(xué)習(xí)中英文雙語(yǔ)特征的信息表示。

在跨語(yǔ)言語(yǔ)義表示方面,融合和轉(zhuǎn)換語(yǔ)言空間的方法也是研究的重點(diǎn)。Gliozzo等[7]通過(guò)使用比較語(yǔ)料庫(kù)對(duì)英語(yǔ)和意大利語(yǔ)進(jìn)行跨語(yǔ)言文本分類(lèi),對(duì)比較語(yǔ)料庫(kù)做潛在語(yǔ)義分析,建立一個(gè)由兩種語(yǔ)言的潛在語(yǔ)義構(gòu)成的低維投影空間,并將兩種語(yǔ)言構(gòu)成的詞—文檔矩陣都投影到該空間以后進(jìn)行分類(lèi)。Hanneman等[8]通過(guò)構(gòu)造基于句法的全文翻譯算法來(lái)提高分類(lèi)的正確率。Faruqui等利用典型相關(guān)性分析[9-10]進(jìn)行跨語(yǔ)言文本分析,即找出兩個(gè)語(yǔ)言空間下相關(guān)系數(shù)最大的向量,建立起跨語(yǔ)言橋梁。而本文以翻譯語(yǔ)料庫(kù)為基礎(chǔ)獲得評(píng)論語(yǔ)料在不同語(yǔ)種下的表示,利用不同語(yǔ)種的詞匯之間的共現(xiàn)程度和它們對(duì)應(yīng)詞嵌入的空間關(guān)系來(lái)構(gòu)造跨語(yǔ)言自聯(lián)想記憶關(guān)系。在合并的語(yǔ)言空間下,使用擴(kuò)展的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行跨語(yǔ)言情感分類(lèi)任務(wù)。證明了在對(duì)跨語(yǔ)言評(píng)論語(yǔ)料進(jìn)行情感正負(fù)面分類(lèi)時(shí),語(yǔ)義的融合方法比轉(zhuǎn)換方法更有效,即使在小規(guī)模數(shù)據(jù)集下也可以獲得較高的分類(lèi)精度。

1 跨語(yǔ)言自聯(lián)想記憶構(gòu)造算法

自聯(lián)想記憶是指模型能夠?qū)W習(xí)并回憶不同對(duì)象個(gè)體間的關(guān)系。比如,精通中英雙語(yǔ)的人通過(guò)中文文本可以聯(lián)想到同一語(yǔ)義的英文文本,任意給出一種語(yǔ)言的信息都可進(jìn)行聯(lián)想以獲得該文本語(yǔ)義在融合語(yǔ)種模型空間中的完整表示。由文獻(xiàn)[11]中的分布假設(shè)推導(dǎo)可知單詞的關(guān)聯(lián)程度可以用基于語(yǔ)料庫(kù)的方法來(lái)獲得。在一個(gè)大規(guī)模語(yǔ)料庫(kù)中,每個(gè)文檔中字詞的分布都可以用向量來(lái)表示,詞與詞之間的關(guān)聯(lián)程度也可以用這個(gè)向量來(lái)計(jì)算。通常在平行語(yǔ)料庫(kù)中,如果分別屬于兩種語(yǔ)言的兩個(gè)詞出現(xiàn)在同一篇語(yǔ)義的文檔中,一般情況下我們可以確定這兩個(gè)詞匯具有高度的語(yǔ)義相關(guān)性。根據(jù)這個(gè)關(guān)系,對(duì)特定語(yǔ)言中的每一個(gè)詞匯,找出另一種語(yǔ)言中與該詞匯相關(guān)度最大的詞,可以得到一種語(yǔ)言關(guān)于另一種語(yǔ)言的共現(xiàn)詞匯表。互相共現(xiàn)的兩個(gè)不同語(yǔ)種的詞不一定能互譯,但在語(yǔ)義上具有高度相關(guān)性[12],它們之間的關(guān)系已經(jīng)被證明適用于跨語(yǔ)種文檔檢索和相似度計(jì)算。

1.1 共現(xiàn)詞匯表

根據(jù)Word2Vec模型的計(jì)算原理可知[13],它計(jì)算詞向量時(shí)體現(xiàn)的是詞和它的局部上下文的共現(xiàn)關(guān)系。根據(jù)上下文窗口的滑動(dòng)來(lái)迭代計(jì)算所有詞的向量表示,詞之間具有高度的可比性,詞之間的語(yǔ)義距離可以在向量的空間中衡量,這證明了詞之間可以直接用向量線(xiàn)性表示[14]。在不同的語(yǔ)言中,即使源語(yǔ)言文檔ds和目標(biāo)語(yǔ)言文檔dt存在互譯關(guān)系,文檔中的詞在各自語(yǔ)種的語(yǔ)料庫(kù)中分布相近,但不具有上下文關(guān)系。即ds和dt中的詞不能在同一個(gè)詞上下文窗口中計(jì)算得到。因此,它們只能遵循如“vFrance-v法國(guó)≈vItaly-v意大利”這樣的語(yǔ)義關(guān)系。本文結(jié)合詞的共現(xiàn)計(jì)算方法和詞嵌入向量的特點(diǎn)設(shè)計(jì)了共現(xiàn)詞對(duì)如式(1)所示。

Ls|t= { |xVs∧yVt∧y

=T-index(x) } (1)

其中:

(2)

式中Vs和Vt分別表示源語(yǔ)言和目標(biāo)語(yǔ)言下語(yǔ)料中的詞項(xiàng)序號(hào)集。vi和vj分別表示目標(biāo)語(yǔ)言中和源語(yǔ)言中序號(hào)為i、j的詞的詞向量,α代表經(jīng)驗(yàn)參數(shù),mij表示這兩個(gè)詞共同在平行語(yǔ)料中的出現(xiàn)次數(shù)。

式(2)旨在找出兩種語(yǔ)言中統(tǒng)計(jì)關(guān)系最大的兩個(gè)詞。在平行語(yǔ)料中共同出現(xiàn)次數(shù)最多的詞i和詞j在跨語(yǔ)言語(yǔ)義中具有理應(yīng)有更強(qiáng)的關(guān)聯(lián)性,但詞j關(guān)聯(lián)度最高的候選詞可能不止一個(gè)。因此,公式中加入詞嵌入向量vi和vj的內(nèi)積結(jié)果來(lái)加強(qiáng)相關(guān)性的計(jì)算,且使共現(xiàn)詞對(duì)的結(jié)果具有唯一性。

1.2 跨語(yǔ)言自聯(lián)想記憶映射方法

自聯(lián)想記憶是指兩個(gè)同形態(tài)的數(shù)據(jù)相互之間存在聯(lián)系的形式或概念構(gòu)成知識(shí)存儲(chǔ)在記憶中的具體形態(tài)。依據(jù)這個(gè)概念提出將共現(xiàn)詞表作為兩種語(yǔ)言的數(shù)據(jù)之間的橋梁,將自聯(lián)想記憶方法應(yīng)用到神經(jīng)網(wǎng)絡(luò)中。自聯(lián)想記憶映射如式(3)、式(4)所示。

式(4)中,根據(jù)輸入的源語(yǔ)言向量可以聯(lián)想到目標(biāo)語(yǔ)言的相關(guān)向量。在跨語(yǔ)言任務(wù)中,只需要對(duì)不同的語(yǔ)言之間互相建立共現(xiàn)詞表,輸入任何語(yǔ)言的向量都可以聯(lián)想到任意其他語(yǔ)言。分類(lèi)模型的底層輸入通常為詞向量,對(duì)給定某個(gè)語(yǔ)種文本中的每一個(gè)詞都生成一個(gè)詞向量。根據(jù)自聯(lián)想記憶關(guān)系,該詞在任一其他語(yǔ)言下都有語(yǔ)義對(duì)應(yīng)的詞,依據(jù)式(3)對(duì)輸入的源語(yǔ)言中每一個(gè)樣本數(shù)據(jù)進(jìn)行擴(kuò)展,如圖1所示。

圖1 基于自聯(lián)想記憶的語(yǔ)言擴(kuò)展

在Word2Vec的計(jì)算下,每一個(gè)詞都被表示成為一個(gè)維數(shù)固定為k的向量。每篇文檔由它的詞生成的詞向量以出現(xiàn)次序排列成一個(gè)輸入矩陣,文本信息轉(zhuǎn)化為可計(jì)算的向量組合。圖右側(cè)第一個(gè)框?yàn)樵凑Z(yǔ)言文本的輸出詞向量,根據(jù)共現(xiàn)詞匯表找到每一個(gè)詞對(duì)應(yīng)的目標(biāo)語(yǔ)言下的語(yǔ)義關(guān)聯(lián)詞,在目標(biāo)語(yǔ)言空間中的同樣位置輸入獲得的關(guān)聯(lián)詞的詞向量。通過(guò)自聯(lián)想記憶關(guān)系,源語(yǔ)言中的文檔矩陣di|s可以映射到目標(biāo)語(yǔ)言中,其文檔表示為di|t,di|s是s語(yǔ)言空間中m行k列的矩陣,di|t是另一種t語(yǔ)言中同樣m行k列的矩陣。文本模型是將源語(yǔ)言空間中的矩陣拼接映射結(jié)果矩陣,如式(5)所示。

通過(guò)式(5)合并一篇文檔在不同語(yǔ)言下的矩陣表示后,可以在合并的空間中對(duì)同語(yǔ)義不同語(yǔ)種的文檔進(jìn)行分類(lèi)。

2 基于自聯(lián)想記憶的卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)模型

假設(shè)自聯(lián)想記憶關(guān)系產(chǎn)生的數(shù)據(jù)互相具有語(yǔ)義補(bǔ)充關(guān)系,因此自聯(lián)系記憶關(guān)系適用于融合不同語(yǔ)言的語(yǔ)義信息。在情感分類(lèi)任務(wù)中,文本的情感傾向通常只由少數(shù)詞語(yǔ)決定,而卷積神經(jīng)網(wǎng)絡(luò)可用于提取顯著特征并忽略對(duì)分類(lèi)器作用較小的信息[15]。因此本文提出基于自聯(lián)想記憶卷積神經(jīng)網(wǎng)絡(luò)MeCL-CNN (Auto-associative Memory Cross-Linguistic Convolutional Neural Network) 的跨語(yǔ)言情感分類(lèi)方法。通過(guò)自聯(lián)想記憶映射方法,文本模型可以獲取任意語(yǔ)種文本作為輸入。根據(jù)輸入語(yǔ)種的語(yǔ)義映射向量作為記憶來(lái)幫助模型生成融合的語(yǔ)種空間,在合并的空間中進(jìn)行卷積局部特征提取。

本文中卷積神經(jīng)網(wǎng)絡(luò)模型如圖2所示,其中擴(kuò)展的模型一共包括9層,疊加了更深的卷積層和歸一化層(batch normlization)。輸入層是由詞嵌入向量拼接構(gòu)成的文本矩陣,卷積層中每一個(gè)卷積核窗口寬度k與詞向量寬度一致,卷積結(jié)果向量s的第i個(gè)值的計(jì)算,如式(6)所示。

其中,A代表輸入數(shù)據(jù),W表示與A計(jì)算內(nèi)積的卷積核權(quán)重參數(shù),b是偏置項(xiàng)。長(zhǎng)度為2代表卷積核可以提取兩個(gè)詞組成的短語(yǔ)信息。同理,其他長(zhǎng)度的卷積核也可表示對(duì)相應(yīng)詞數(shù)組成的短語(yǔ)特征的提取。卷積核的深度表示同一卷積層在相同卷積核尺寸下,卷積層由不同的特征提取規(guī)則集構(gòu)成。

歸一化層的計(jì)算過(guò)程,如式(7)~式(10)所示。

其中,μβ是對(duì)輸入的這一批數(shù)據(jù)的平均值,σβ2是輸入數(shù)據(jù)的方差,m為輸入數(shù)據(jù)的數(shù)量,通過(guò)式(7)~式(10)來(lái)歸一化數(shù)據(jù)的分布[16],使之具有固定的均值和方差,由于神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個(gè)參數(shù)化模型,不同的數(shù)據(jù)分布理應(yīng)在不同的參數(shù)模型下才能更好地?cái)M合。對(duì)于評(píng)論類(lèi)型長(zhǎng)度的情感分類(lèi)語(yǔ)料,當(dāng)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的分布差距較大時(shí),模型的效果將大打折扣。此外,在網(wǎng)絡(luò)層數(shù)增加的過(guò)程中,較低層網(wǎng)絡(luò)參數(shù)的變化對(duì)高層網(wǎng)絡(luò)的影響將越來(lái)越大,而在式(9)的影響下,每層的輸入數(shù)據(jù)都轉(zhuǎn)變成均值0與方差為1的分布。因此,對(duì)數(shù)據(jù)的歸一化可以改善這個(gè)問(wèn)題,但是在這個(gè)操作下,網(wǎng)絡(luò)的表達(dá)能力會(huì)變?nèi)酰虼瞬捎檬?10)對(duì)歸一化后的數(shù)據(jù)進(jìn)行縮放和平移。

圖2 擴(kuò)展的TextCNN模型

激活層函數(shù)選擇ftanh和frelu, 如式(11~12)所示。

ftanh(x)的輸出區(qū)間為(-1,1),并且在輸入數(shù)據(jù)x絕對(duì)值非常大時(shí)函數(shù)值達(dá)到飽和,這使得它的作用接近生物神經(jīng)元,可抑制或刺激神經(jīng)元的信息傳遞。因它具有均值為0的特性,故收斂速度較快。relu函數(shù)的存在極大地解決了飽和函數(shù)所遇到的問(wèn)題。即在函數(shù)值飽和到0或1時(shí),網(wǎng)絡(luò)層導(dǎo)數(shù)接近0。因此,會(huì)影響梯度的反向傳遞。在高層網(wǎng)絡(luò)中適宜用relu函數(shù)來(lái)保證梯度的傳輸,緩解梯度消失的問(wèn)題。

池化層采用Chunk-Max Pooling方法。其思想是把pooling層中每一個(gè)深度上的向量進(jìn)行等長(zhǎng)分段,將特征向量切割成若干段后,只保留每個(gè)子段中最顯著的特征值。在情感分類(lèi)任務(wù)中,池化層可以有效地過(guò)濾噪音,增強(qiáng)分類(lèi)器性能。

最后一層為分類(lèi)結(jié)果輸出層,將全連接層與softmax層組合,可組成softmax回歸分類(lèi)器。假設(shè)卷積層、激活層和池化層等可將向量從原始輸入映射到隱層特征空間中,則全連接層的作用是將隱層空間中的分布式特征向量表示映射到樣本標(biāo)簽上,從而完成分類(lèi)任務(wù)。softmax函數(shù)如式(13)所示。

其中,zi代表前一層第i個(gè)單元的輸出,pi的值代表輸出層上第i個(gè)神經(jīng)元的輸出,即分類(lèi)標(biāo)簽屬于第i類(lèi)的概率。

模型中在全連接層添加了dropout機(jī)制。dropout的工作原理是在神經(jīng)網(wǎng)絡(luò)的傳遞過(guò)程中,以某個(gè)特定的概率隨機(jī)放棄一些單元。類(lèi)似于特征選擇的作用,只保留一部分優(yōu)秀的特征傳遞下來(lái),還可以降低隱含層單元之間的聯(lián)合適應(yīng)性。用生物學(xué)的角度來(lái)說(shuō),它使得復(fù)雜的整段神經(jīng)元的組合聯(lián)動(dòng)變成比較小的神經(jīng)元片段之間的聯(lián)合適應(yīng)。在簡(jiǎn)單的線(xiàn)性空間中,只學(xué)習(xí)一個(gè)空間的特征集合足以應(yīng)付當(dāng)前的輸入,但是在數(shù)據(jù)分布波動(dòng)較大且通常存在于非線(xiàn)性不連續(xù)的空間中時(shí),只適應(yīng)一個(gè)空間中的特征集合會(huì)造成過(guò)擬合的現(xiàn)象,模型對(duì)與當(dāng)前數(shù)據(jù)分布差別較大的輸入沒(méi)有識(shí)別能力,此時(shí)對(duì)局部空間的特征集合進(jìn)行隨機(jī)采樣可以增強(qiáng)了模型的泛化能力。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)主要對(duì)NLPCC2013會(huì)議中提供的“跨語(yǔ)言情感分類(lèi)”評(píng)測(cè)任務(wù)進(jìn)行實(shí)驗(yàn)。該語(yǔ)料源自Amazon網(wǎng)站的中英文產(chǎn)品評(píng)論數(shù)據(jù),訓(xùn)練數(shù)據(jù)中含有英文語(yǔ)料2 000條。含書(shū)籍、DVD和音樂(lè)三種商品的評(píng)論標(biāo)注語(yǔ)料,測(cè)試數(shù)據(jù)為同等規(guī)模的中文語(yǔ)料。該任務(wù)針對(duì)情感的正負(fù)類(lèi)提供了一批用于計(jì)算情感分類(lèi)的情感詞典,另有一大部分未標(biāo)注的中文語(yǔ)料,數(shù)量是訓(xùn)練數(shù)據(jù)的10倍,所有文檔都以XML格式進(jìn)行存儲(chǔ)。為了獲得不同語(yǔ)言之間的關(guān)系,需要將所有標(biāo)注與未標(biāo)注的中文語(yǔ)料通過(guò)google翻譯成英文,通過(guò)翻譯語(yǔ)料庫(kù)來(lái)獲取如第2節(jié)所示的跨語(yǔ)言自聯(lián)想記憶關(guān)系。實(shí)驗(yàn)需要采用英文語(yǔ)料訓(xùn)練本文所示模型AMCL-CNN,并對(duì)任務(wù)重提供的中文語(yǔ)料進(jìn)行情感正負(fù)類(lèi)。經(jīng)過(guò)多次實(shí)驗(yàn),訓(xùn)練過(guò)程中參數(shù)設(shè)置如下:

(1) 設(shè)置詞向量維度為200,卷積核組合為[2,3,4,5],卷積核深度為64;

(2) 設(shè)置L2正則方法且正則系數(shù)為0.05,深度學(xué)習(xí)模型容忍度為10;

(3) 選擇帶動(dòng)量的隨機(jī)梯度下降法,隨機(jī)梯度步長(zhǎng)為0.01,動(dòng)量系數(shù)為0.5。

3.2 Dropout對(duì)情感分類(lèi)的影響

dropout率的經(jīng)驗(yàn)值一般為0.5,但通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),在情感分類(lèi)任務(wù)中,dropout率對(duì)分類(lèi)的正確率影響非常大。

圖3 不同dropout的分類(lèi)正確率

dropout正確率/%書(shū)籍DVD音樂(lè)Average0.581.7582.1381.2081.690.382.2083.7983.2883.090.283.1484.3884.3583.950.185.6286.6785.3285.870.0584.8485.0183.4684.43

為了更直觀地體現(xiàn)實(shí)驗(yàn)結(jié)果的整體差別,對(duì)三種商品的評(píng)論分類(lèi)的正確率計(jì)算宏平均。與上一個(gè)任務(wù)保持參數(shù)不變的情況下,不同的dropout參數(shù)對(duì)結(jié)果精度的影響較大,如圖3所示。dropout的經(jīng)驗(yàn)值一般選取0.5,而從圖中可以看出,當(dāng)dropout的比例取0.5時(shí),各項(xiàng)類(lèi)別的情感分類(lèi)效果都為最低。當(dāng)單元的保留比例增高時(shí),分類(lèi)精度也隨之增高,但是在dropout比例為0.1時(shí)達(dá)到了最高。因dropout的本質(zhì)是在神經(jīng)單元的信號(hào)傳輸過(guò)程中放棄一部分單元的工作能力,故將這些神經(jīng)單元看作特征。dropout自動(dòng)完成了對(duì)輸入信號(hào)進(jìn)行特征選擇的過(guò)程。從實(shí)驗(yàn)結(jié)果的角度分析,情感分類(lèi)的語(yǔ)料特點(diǎn)是需要上下文特征來(lái)協(xié)助分類(lèi),又因情感分類(lèi)是二分類(lèi)任務(wù),故不需要通過(guò)dropout來(lái)提高模型的復(fù)雜程度。這個(gè)實(shí)驗(yàn)證明深度學(xué)習(xí)訓(xùn)練過(guò)程中,不同的數(shù)據(jù)分布和任務(wù)需要不一樣的超參數(shù)。

3.3 跨語(yǔ)言文檔相似度計(jì)算結(jié)果

對(duì)跨語(yǔ)言情感分類(lèi)研究做了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)中沒(méi)有平行語(yǔ)料,采用機(jī)器翻譯獲得雙語(yǔ)語(yǔ)料,繼而根據(jù)式(2)計(jì)算詞嵌入向量之間的距離,與上一個(gè)實(shí)驗(yàn)過(guò)程相同,采用基于CNN的自聯(lián)想記憶模型。實(shí)驗(yàn)結(jié)果如表2所示。

表2 不同方法的分類(lèi)正確率

文獻(xiàn)[1]中雙視圖與自訓(xùn)練協(xié)同訓(xùn)練相結(jié)合的方法在當(dāng)時(shí)取得了最好成績(jī)。它的不足在于分別訓(xùn)練源語(yǔ)言和目標(biāo)語(yǔ)言的分類(lèi)模型時(shí),沒(méi)有充分利用兩種語(yǔ)言之間的語(yǔ)義信息。文獻(xiàn)[2]和文獻(xiàn)[3]均基于遷移學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)跨語(yǔ)言的過(guò)程繼而進(jìn)行情感分類(lèi)。其中文獻(xiàn)[3]取得的平均準(zhǔn)確率高達(dá)83.59%,但它存在的明顯問(wèn)題是同一個(gè)模型在3個(gè)類(lèi)別上的正確率差距太大。這是由于此模型中采用任務(wù)提供的未標(biāo)注數(shù)據(jù)來(lái)做機(jī)器翻譯的可信度認(rèn)證,所以測(cè)試集的結(jié)果會(huì)在一定程度上依賴(lài)未標(biāo)注數(shù)據(jù)的翻譯質(zhì)量和數(shù)據(jù)分布。換言之,當(dāng)未標(biāo)注數(shù)據(jù)與測(cè)試數(shù)據(jù)分布相近,未標(biāo)注數(shù)據(jù)可以幫助模型提高分類(lèi)精度。當(dāng)數(shù)據(jù)分布相差較大時(shí),會(huì)產(chǎn)生負(fù)遷移的現(xiàn)象。同時(shí),測(cè)試集中抽取的數(shù)據(jù)信息不具有代表性,分類(lèi)性能下降。實(shí)驗(yàn)表明,未標(biāo)注的數(shù)據(jù)分布對(duì)應(yīng)用于跨語(yǔ)言任務(wù)的遷移學(xué)習(xí)方法影響非常大。文獻(xiàn)[6]中提出的方法通過(guò)情感詞的上下文情感的模糊信息表示,判斷模糊限制句來(lái)表達(dá)特定語(yǔ)境下的語(yǔ)義和情感信息的融合。該方法以情感詞為中心,一方面可增強(qiáng)句子的情感表示,另一方面也受限于情感詞的分布。沒(méi)有充分利用語(yǔ)料本身的語(yǔ)義表達(dá),所以分類(lèi)效果有限。

相比之下,本文沒(méi)有用到情感詞典,僅用測(cè)評(píng)任務(wù)中給出的文本語(yǔ)料就取得了最高的準(zhǔn)確率。且對(duì)三個(gè)產(chǎn)品類(lèi)的評(píng)論分類(lèi)精度都比較高,未曾出現(xiàn)不平衡的現(xiàn)象。這是因?yàn)楸灸P涂梢詮某橄髮用嫔咸崛×瞬煌Z(yǔ)種的語(yǔ)義特征,特征之間的隱含聯(lián)系對(duì)分類(lèi)的效果提高非常有幫助。且本模型的擴(kuò)展度高,不僅適用于跨語(yǔ)言任務(wù),還適用于多語(yǔ)種特征任務(wù)。從實(shí)驗(yàn)結(jié)果可以得知,基于聯(lián)想記憶模型的CNN分類(lèi)模型對(duì)跨語(yǔ)言情感分類(lèi)非常高效。

4 結(jié)論

本文一方面分析了dropout大小對(duì)分類(lèi)器性能的影響;另一方面對(duì)跨語(yǔ)言文本信息的提取方法與現(xiàn)有的方法進(jìn)行了實(shí)驗(yàn)結(jié)果對(duì)比,證明了dropout的選取可以有效提高普通的分類(lèi)器對(duì)短文本語(yǔ)義的識(shí)別度。通過(guò)自聯(lián)想記憶關(guān)系對(duì)跨語(yǔ)言短文本語(yǔ)義進(jìn)行融合,減少了在語(yǔ)言交換過(guò)程中語(yǔ)義的丟失,加強(qiáng)了短文本語(yǔ)義的完整表示程度。與其他學(xué)者提出的方法相比,本文設(shè)計(jì)的跨語(yǔ)言情感分類(lèi)模型獲得了非常好的效果,驗(yàn)證了本文所提出方法的有效性。

此次訓(xùn)練只針對(duì)了電商網(wǎng)站上的商品評(píng)論,下一步研究計(jì)劃將該應(yīng)用擴(kuò)展到其他應(yīng)用環(huán)境中,進(jìn)一步驗(yàn)證算法的有效性。

猜你喜歡
語(yǔ)義分類(lèi)記憶
分類(lèi)算一算
語(yǔ)言與語(yǔ)義
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
記憶中的他們
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
兒時(shí)的記憶(四)
兒時(shí)的記憶(四)
記憶翻新
海外文摘(2016年4期)2016-04-15 22:28:55
主站蜘蛛池模板: 日本福利视频网站| 国产欧美成人不卡视频| 日本伊人色综合网| 国产一二视频| 精品欧美日韩国产日漫一区不卡| 国产麻豆精品久久一二三| 福利视频久久| 亚洲国产中文在线二区三区免| 欧美精品1区2区| 国产精品福利社| 在线观看免费人成视频色快速| 日本一区二区三区精品视频| 国产网友愉拍精品视频| 狠狠做深爱婷婷久久一区| 国产18页| 欧美激情视频在线观看一区| 免费国产福利| 99在线观看视频免费| 国产99视频精品免费观看9e| 亚洲av日韩综合一区尤物| 国产麻豆精品在线观看| 久无码久无码av无码| 日韩美毛片| 在线观看网站国产| 丁香六月激情综合| 亚洲经典在线中文字幕| 久久综合国产乱子免费| 男女男免费视频网站国产| 欧美日韩国产在线播放| 91在线高清视频| 中文字幕人成人乱码亚洲电影| 永久毛片在线播| 欧亚日韩Av| 欧美国产菊爆免费观看| 亚洲精品福利视频| 国产国产人成免费视频77777 | 一级毛片无毒不卡直接观看 | 无码'专区第一页| 亚洲精品va| 成人精品午夜福利在线播放| 伊人久久大香线蕉aⅴ色| 国产a网站| 欧美激情视频二区| h视频在线播放| 久久精品国产精品青草app| 在线看片免费人成视久网下载| 婷婷丁香色| av手机版在线播放| 蜜桃臀无码内射一区二区三区| 国产精品七七在线播放| 2021天堂在线亚洲精品专区| 国模沟沟一区二区三区| 精品人妻一区二区三区蜜桃AⅤ| 欧美日韩国产综合视频在线观看| 秋霞午夜国产精品成人片| 欧美国产日韩在线| 国产激情国语对白普通话| 无码粉嫩虎白一线天在线观看| 久久黄色小视频| 亚洲精品无码不卡在线播放| 日韩精品久久无码中文字幕色欲| 欧美一区中文字幕| 国产91小视频| 精品国产中文一级毛片在线看| 亚洲国产天堂久久综合226114| 波多野结衣亚洲一区| 亚洲欧美自拍视频| 国产成人精品午夜视频'| 国产精品欧美日本韩免费一区二区三区不卡 | 欧美成人区| 国内精品一区二区在线观看| 亚洲一区国色天香| 亚洲成人在线网| 婷婷五月在线视频| 久久窝窝国产精品午夜看片| 精品人妻无码中字系列| 亚洲免费黄色网| 日韩国产黄色网站| 亚洲区视频在线观看| 2021国产乱人伦在线播放 | av在线手机播放| 欧美日韩亚洲国产主播第一区|