999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RNN 弱監(jiān)督網(wǎng)絡(luò)的英語語義分析技術(shù)研究

2021-08-15 11:36:22潘紅麗
電子設(shè)計工程 2021年15期
關(guān)鍵詞:單詞文本情感

潘紅麗

(西安航空學(xué)院外國語學(xué)院,陜西西安 710077)

隨著人們在互聯(lián)網(wǎng)上發(fā)布的信息越來越多,如何篩選其中的有用信息尤為重要,傳統(tǒng)的文本分析效果有限,無法及時處理大量數(shù)據(jù)。因此,建立有效的英語情感分析體系[1]變得日趨重要。

自然語言處理(NLP)旨在使用計算資源從語言數(shù)據(jù)(即語音和文本)中提取重要特征,以結(jié)構(gòu)化形式對數(shù)字化帶注釋的語言數(shù)據(jù)進行處理,以提供可供機器分析使用的信息。近年來,深度學(xué)習(xí)算法已成功解決了各個領(lǐng)域的問題,例如圖像分類、機器翻譯、語音識別、文本到語音的生成以及其他相關(guān)領(lǐng)域,這些領(lǐng)域的進步促使其通過計算機分析方法了解、分析人類情感成為可能。

文中基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)網(wǎng)絡(luò),設(shè)計了一種英語語義分析方法。RNN[2]可以提取文本中所有單詞的信息,長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)作為一種RNN 網(wǎng)絡(luò)結(jié)構(gòu)[3],能夠準確識別文本數(shù)據(jù)的長短模式,精準識別真實隨機的英語文本包含的情感信息。

1 語義情感分析框架設(shè)計

單詞之間的拓撲關(guān)系對文本情感分析至關(guān)重要,基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的語言模型較為適合處理文本序列數(shù)據(jù)。RNN 由3 個模塊組成,分別是輸入層、隱藏層與輸出層[4]。在RNN 模型中,時間輸入層與時間隱藏層匯總為一個新的輸入層,同時也作為時間t處的隱藏層。RNN 的循環(huán)結(jié)構(gòu)可使隱藏層保留先前單詞中的所有信息,以提高識別單詞之間順序關(guān)系的能力[5]。

RNN 模型通過時間優(yōu)化算法(BPTT)進行的反向傳播中存在過多展開狀態(tài)層,這會導(dǎo)致訓(xùn)練時歷史信息梯度衰減[6]。文中采用LSTM 來避免模型對詞語的長期依賴,其結(jié)構(gòu)如圖1 所示。

圖1 單個單元的LSTM存儲模塊

LSTM 的計算過程主要包括4 個步驟:①計算忘記門與輸入門的值;②更新LSTM 單元的狀態(tài)[7];③計算輸出門的值;④更新整個單元的輸出。詳細步驟如下公式所示,輸入門由式(1)計算得出。

忘記門由式(2)計算得出:

忘記門單元狀態(tài)由式(3)計算得出:

輸出門由式(4)計算得出:

輸出門單元狀態(tài)由式(5)計算得出:

在上述函數(shù)中,s(·)是Sigmoid 型函數(shù)[8],h(·)是Tanh 函數(shù)。

具有LSTM 的RNN 可看作是傳統(tǒng)RNN 語言模型的改進模型,其將文本語句作為輸入序列來計算每個模型的誤差。但當(dāng)文本序列信息較長時,帶有LSTM 的RNN 模型可以有效克服序列信息衰減問題[9]。

對于英語句子,首先應(yīng)用分詞標(biāo)準CRF++-0.58將句子轉(zhuǎn)換為分詞;然后對LSTM 進行正向計算,按照從左到右的順序依次搜索句子中的分詞,輸出單詞在概率時間t之前的單詞序列概率[10];最終通過所有單詞的聯(lián)合分布概率來測量句子的誤差值,較高的聯(lián)合分配概率可以有效降低文本語句的錯誤值。

在訓(xùn)練階段,將訓(xùn)練數(shù)據(jù)根據(jù)其情感標(biāo)簽分為多個種類,針對每個種類的數(shù)據(jù),分別訓(xùn)練LSTM 模型,并產(chǎn)生多個LSTM 模型,將每個LSTM 模型用于相應(yīng)的情感評論。為了預(yù)測新輸入評論的情感偏向,在訓(xùn)練階段獲得的LSTM 模型將在新輸入評論上進行評估,并給出檢測誤差值。誤差值最小的模型被指定為新輸入評論的情感類別。

訓(xùn)練階段的主要過程如圖2 所示。其中,數(shù)據(jù)分為3 類:積極、消極與中性。

圖2 情感偏向分類流程圖

與傳統(tǒng)的RNN 語言模型相比,具有LSTM 的RNN 可以完全覆蓋較長的句子[11],其在多次驗證實驗中表現(xiàn)均優(yōu),尤其是對于帶有連接詞的英語語句結(jié)構(gòu)。

2 語義分析模型訓(xùn)練與使用

2.1 RNN模型參數(shù)訓(xùn)練設(shè)置

文中使用交叉熵損失加L2 調(diào)節(jié)懲罰作為優(yōu)化目標(biāo),并使用小型批處理SGD 的優(yōu)化程序Ada delta將優(yōu)化目標(biāo)最小化[12]。使用Ada delta而不是Adam 進行最小化優(yōu)化的原因是,實驗發(fā)現(xiàn)通過Ada delta 優(yōu)化的LSTM-RNN 可以實現(xiàn)更高的穩(wěn)定性,性能較Adam 更優(yōu)[13]。實驗相關(guān)的參數(shù)詳細信息如表1所示。

表1 RNN網(wǎng)絡(luò)訓(xùn)練參數(shù)

2.2 自然語言推理實例化

自然語言推理(NLI)的目的是建立前提句子與相應(yīng)假設(shè)句子之間的語義關(guān)系,語義關(guān)系包括必然、中立或矛盾。文中使用基準斯坦福自然語言推理(SNLI)數(shù)據(jù)集[14]比較了不同的模型。

遵循Bowman 的標(biāo)準程序,文中推出了兩個句子編碼模型,分別帶有前提句子與假設(shè)句子的綁定參數(shù)。給定假設(shè)前提的輸出編碼sp與sh,其關(guān)系可表示為sp、sh、sp-sh與sp?sh的串聯(lián)。將其饋送到300 D 完全連接層中,然后反饋入3 個單元的輸出層與Softmax,用于計算NHI 模型3 種關(guān)系的概率分布。

2.3 數(shù)據(jù)收集

文中使用基于LSTM 的RNN 網(wǎng)絡(luò)需要帶有注釋的語言數(shù)據(jù)集,為了訓(xùn)練、開發(fā)、培訓(xùn)與評估該系統(tǒng),從各大英文網(wǎng)站收集相關(guān)數(shù)據(jù),使用Beautiful Soup 2開發(fā)了一個自定義搜尋器[15],使用可擴展Python 庫從指定網(wǎng)站提取與解析結(jié)構(gòu)化信息。

2.4 數(shù)據(jù)預(yù)處理

與大多數(shù)NLP 系統(tǒng)相同,文中首先使用數(shù)據(jù)預(yù)處理簡化輸入,并以適合計算機處理消耗的運算資源減少特征空間。文中直接在帶注釋的原始數(shù)據(jù)上進行文本預(yù)處理:

1)刪除URL:眾多新聞文本均包含指向相關(guān)信息的鏈接,由于這些URL 不傳達任何真實含義,因此將其刪除。

2)刪除標(biāo)點符號:由于每個單詞均以一行空格隔開,標(biāo)點符號不表示任何實際含義,因此將其刪除。

3)文本分割:文本分割是將每個有意義的實體單位(如單詞、短語、句子)分開的處理方法。由于需要將句子中的每個單詞及其相關(guān)的含義標(biāo)簽排成一行,因此使用了Python 字符串拆分功能來標(biāo)記句子中的單詞。

2.5 培訓(xùn)與測試

類似于監(jiān)督式機器學(xué)習(xí)方法,文中將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)[16]。然后使用訓(xùn)練數(shù)據(jù)對模型進行訓(xùn)練,以學(xué)習(xí)網(wǎng)絡(luò)的相關(guān)參數(shù),其次,將測試數(shù)據(jù)輸入模型以評估性能。因為數(shù)據(jù)集的大小有限,所以此處不使用驗證數(shù)據(jù)。同時,由于系統(tǒng)考慮了與語言無關(guān)的注釋方案,因此可以使用K-fold 驗證來提高數(shù)據(jù)集的性能。

2.6 第三方函數(shù)庫工具

TensorFlow 2 是一個用于數(shù)值計算與大規(guī)模機器學(xué)習(xí)的開源庫,其支持絕大多數(shù)機器學(xué)習(xí)、深度學(xué)習(xí)模型及算法,可以通過通用接口使用,文中選取其作為RNN 網(wǎng)絡(luò)的后端工作。Theano 4 是執(zhí)行大量運算工作的Python 庫,支持計算、優(yōu)化與高維數(shù)組有關(guān)的復(fù)雜數(shù)學(xué)計算,其也被用作后端來改善網(wǎng)絡(luò)含義背景計算。Scikit-Learn5 Python 庫具有簡潔、統(tǒng)一以及流線型的API,并支持一系列機器學(xué)習(xí)算法的實例化,文中還使用其來處理與簡化網(wǎng)絡(luò)。

3 實驗驗證

為訓(xùn)練模型,文中使用了4 種類型的數(shù)據(jù):網(wǎng)站評論、購物網(wǎng)站、旅行評論網(wǎng)站與英文電影評論。考慮到模型訓(xùn)練的錯誤率以及計算速度,文中采用2013 年Graves 的開源C++代碼庫,在具有4 GB RAM、Intel Core2 Quad 的個人計算機上進行測試,GPU為NVIDIA 2 GB RAM GTX 560。實驗流程如圖3所示。

圖3 驗證實驗流程

經(jīng)過必要的數(shù)據(jù)清理后,購物網(wǎng)站的評論被手動分為3 類:積極情緒、中性情緒與消極情緒。樣本數(shù)據(jù)集的總數(shù)為39 000,3 個類別的比例為1∶1∶1。選擇每個種類的3 000 個隨機樣本作為測試集,而其他樣本用作訓(xùn)練集。評論分為兩類:積極情緒與消極情緒,積極情緒訓(xùn)練數(shù)據(jù)的數(shù)量為19 493;消極情緒訓(xùn)練數(shù)據(jù)的數(shù)量為23 955,積極情緒測試數(shù)據(jù)的數(shù)量為10 000;消極情緒測試數(shù)據(jù)的數(shù)量為8 000。

此外,將英文旅行網(wǎng)站與英文電影評論網(wǎng)站的評論手動分為兩類:積極情緒與消極情緒。對于來自旅行網(wǎng)站的數(shù)據(jù)集,每個類別的訓(xùn)練數(shù)據(jù)數(shù)量為6 000,每個類別的測試數(shù)據(jù)數(shù)量為2 000。英文電影評論數(shù)據(jù)中,訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的數(shù)量均為12 500。

RNN 模型中展開狀態(tài)層的數(shù)量會影響訓(xùn)練的準確性,更多的展開狀態(tài)層通常會帶來更優(yōu)的結(jié)果,但同時也會帶來較高的計算復(fù)雜性。LSTM 結(jié)構(gòu)的先天優(yōu)勢使其需要更少的展開狀態(tài)層數(shù),即可獲得與常規(guī)RNN 相當(dāng)?shù)慕Y(jié)果。因此在實驗中,將模型中的展開狀態(tài)層數(shù)設(shè)置為10。

在每個數(shù)據(jù)集上,同時使用具有LSTM 的RNN與常規(guī)RNN。情緒分析結(jié)果如表2、表3 所示。

表2 LSTM-RNN網(wǎng)絡(luò)識別結(jié)果

表3 傳統(tǒng)RNN識別結(jié)果

分析表2 與表3 結(jié)果可知,與傳統(tǒng)RNN 相比,帶有LSTM 的RNN 可以帶來更優(yōu)的準確率與召回率。具體而言,具有LSTM 的RNN 可以識別較多結(jié)構(gòu)為“Although…But…”“,Not only…but also…”、“But”等的文本實例,因此,LSTM-RNN 相較傳統(tǒng)RNN 更優(yōu)地標(biāo)識出了一些長語句。

4 種不同模型在不同長度的英文句子上的表現(xiàn)如圖4 所示。在大多數(shù)評論句子的長度范圍(5,12)內(nèi),LSTM-RNN 明顯優(yōu)于其他模型。同時,對于在(25,38)范圍內(nèi)稍長的句子或段落,LSTM-RNN 也顯示出較為理想的性能。

圖4 細粒度情感分析準確性與句子長度的關(guān)系

4 結(jié)束語

文中提出了一種基于改進RNN 的語言模型LSTM,其涵蓋了所有歷史序列信息,性能優(yōu)于常規(guī)RNN,可用于實現(xiàn)英文文本情感屬性的多分類,且較傳統(tǒng)的RNN 可以更準確地識別出文本情感屬性。

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練工作需要強大的理論支撐與計算機硬件性能支持,后續(xù)的工作重點將是如何設(shè)計模板化的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方案,使用云端服務(wù)器訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。

猜你喜歡
單詞文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
單詞連一連
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
看圖填單詞
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 成人福利视频网| 免费精品一区二区h| 国产视频自拍一区| 一级一级一片免费| 91久久偷偷做嫩草影院| 伊人久久精品无码麻豆精品 | 国产a v无码专区亚洲av| 丝袜亚洲综合| 性网站在线观看| 全部免费特黄特色大片视频| 日韩毛片免费观看| 国产第一页亚洲| 欧美视频在线第一页| 国产一区免费在线观看| 国内熟女少妇一线天| 91外围女在线观看| 欧美在线伊人| 99久久精品久久久久久婷婷| 在线观看热码亚洲av每日更新| 精品91视频| 在线欧美日韩| 久久人搡人人玩人妻精品一| 日韩一区精品视频一区二区| 日韩av在线直播| 久久99热这里只有精品免费看| 国产欧美在线| 国产凹凸视频在线观看| 在线观看国产网址你懂的| 制服丝袜 91视频| 热热久久狠狠偷偷色男同| 欧美成人一区午夜福利在线| 欧美色综合网站| 又猛又黄又爽无遮挡的视频网站 | 国内精品小视频在线| 欧美亚洲中文精品三区| 狠狠色丁香婷婷综合| 久久久久九九精品影院| 亚洲人成网18禁| 亚洲黄色高清| 制服丝袜国产精品| 这里只有精品在线播放| 亚洲人成电影在线播放| 精品国产www| 欧美v在线| 精品国产一区91在线| 国产一级做美女做受视频| 高清精品美女在线播放| 久久中文字幕av不卡一区二区| 91人人妻人人做人人爽男同| 色婷婷啪啪| 久草性视频| 免费无码网站| 91精品专区国产盗摄| 六月婷婷精品视频在线观看| 玖玖免费视频在线观看| 熟妇丰满人妻av无码区| 91精品国产91久无码网站| P尤物久久99国产综合精品| 日韩高清成人| 美女扒开下面流白浆在线试听| 国产成人盗摄精品| 香蕉eeww99国产在线观看| 国产乱人伦AV在线A| 日韩精品成人在线| 九色在线视频导航91| 久久综合丝袜日本网| 日韩欧美高清视频| 国产一区成人| 亚洲午夜片| 国产成人精品高清不卡在线| 久久综合九色综合97婷婷| 97av视频在线观看| 成人午夜视频网站| 狠狠色丁香婷婷综合| 国产精品区视频中文字幕| 欧美激情网址| 99精品热视频这里只有精品7| 在线观看av永久| 国产福利小视频高清在线观看| 国内精品久久人妻无码大片高| 亚洲全网成人资源在线观看| 97无码免费人妻超级碰碰碰|