999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合微博語言特征的CNN 反諷文本識別模型研究*

2021-05-20 12:07:18白曉雷霍瑞雪
通信技術(shù) 2021年5期
關(guān)鍵詞:特征文本融合

白曉雷,霍瑞雪

(國家計算機網(wǎng)絡與信息安全管理中心河北分中心,河北 石家莊 050000)

0 引言

目前,微博作為一個典型的自媒體社交工具,其每天會產(chǎn)生海量的話題與評論。如何利用自動化方法對其進行情感判定并提高準確率成為一個重要問題,尤其是針對反諷這一特殊的情感類別。筆者在前期工作中使用了融合微博語言特征的詞袋模型進行訓練,但仍存在準確率、召回率不高的問題。因此,本文在前期工作的基礎(chǔ)上,基于微博數(shù)據(jù)采用融合微博融合語言特征的卷積神經(jīng)網(wǎng)絡模型對中文反諷識別進行了研究。

1 反諷識別研究現(xiàn)狀

Konstantin 等研究人員[1]基于英文語料在各種分類模型下結(jié)合各種反諷特征進行研究,發(fā)現(xiàn)人工選取的特征提高了反諷識別準確率。Aniruddha Ghosh[2]等研究人員率先基于英文語料采用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)和長短期記憶人工神經(jīng)網(wǎng)絡(Long Short-Term Memory,LSTM)來識別反諷,并得出深度學習方法優(yōu)于傳統(tǒng)機器學習方法的結(jié)論。國內(nèi)山西大學盧欣等研究人員使用深度學習的方法對中文反諷識別進行了研究[3],但實驗結(jié)果依然存在準確率等指標不高的問題。

2 微博反諷語言特征分析

本文在收集和分析海量微博反諷語句后,得出了主要4 種類型的語言特征[4]。

(1)固定搭配,如“再……一點”,例子“重慶可以再濕一點嗎?我的衣服晾了兩天一件都沒干”。

(2)特定副詞,如“真有你的”,例子“欠錢逾期不還,找你要還這種態(tài)度,真有你的”。

(3)特定的語氣詞,如“呵呵”等,例子“呵呵,你竟然是這種人”。

(4)網(wǎng)絡梗。微博的用戶以年輕人為主,含有大量年輕人熟知的網(wǎng)絡梗,如“看這大神犀利的操作,我也是醉了”等。

3 融合微博語言特征的CNN 反諷文本識別模型實現(xiàn)

3.1 數(shù)據(jù)采集與文本預處理

本文在前期工作的基礎(chǔ)上先后共爬取了8 萬余條微博的數(shù)據(jù),主要內(nèi)容為用戶評論信息,但這些文本信息存在大量的噪聲,如不規(guī)范的字符等。為濾除這些噪聲,本文在進行訓練前對文本數(shù)據(jù)進行了預處理,如去掉特殊字符等。文本預處理后,人工對其進行標注。標注方法僅區(qū)分反諷與非反諷(反諷標1,非反諷標0)。標注完成后,統(tǒng)計其中有3 000 余條反諷語句。為平衡數(shù)據(jù)集,本文從反諷語句與非反諷語句中各抽取3 000 條共6 000 條作為數(shù)據(jù)集。

3.2 特征選擇

文本分類通常使用卡方檢驗或者TF-IDF 的方法進行特征選擇,本文選擇使用卡方檢驗的方式進行特征選擇。卡方檢驗是通過對特征進行打分后排序,最后選擇排名靠前的特征來表示文本。

卡方檢驗公式為:

式中,A為實際值,T為理論值。

針對反諷數(shù)據(jù)集進行深入分析,人工提取了若干個特征,再通過計算這些特征卡方值得到的TOP5 如表1 所示。

表1 特征卡方統(tǒng)計值

3.3 詞嵌入向量

詞嵌入向量是指把一個詞轉(zhuǎn)換為一個對應的詞向量的過程。由于計算機無法識別文本信息,因此在利用機器學習的方式進行文本訓練時,需要提前將文本轉(zhuǎn)化為詞向量。目前,常用的詞向量訓練模型為Word2Vec 模型,其包含CBOW 模型和skip-gram 模型。本文選擇使用skip-gram 模型訓練詞向量。

skip-gram 模型是從目標詞w的上下文中選擇一個詞,將其詞向量組成上下文的表示。

對于整個語料而言,skip-gram 模型的目標函數(shù)為:

式中,w為中心詞,Context(w)為文本環(huán)境,W為整個語料庫的詞語集。

3.4 模型建立

3.4.1 卷積神經(jīng)網(wǎng)絡在文本處理上的應用

卷積神經(jīng)網(wǎng)絡在文本上的應用一般使用卷積操作處理詞向量,生成多個特征向量。對這些特征向量進行最大或平均池化操作,得到相對應的句子重要特征,最后池化操作得到的特征組合即為文本的向量表示。對于本文的反諷識別問題,將其連接至softmax 層或sigmoid 層,即可構(gòu)建出完整的模型。

卷積神經(jīng)網(wǎng)絡一般由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成。輸入層一般將文本分詞并進行詞向量轉(zhuǎn)換后形成的矩陣輸入至卷積神經(jīng)網(wǎng)絡,如x(x1,x2,…,xn),其中xi∈Rk表示句子中的第i個詞的詞向量,向量維度為k。卷積層使用卷積核對x(x1,x2,…,xn)進行運算,卷積核矩陣為w∈Rh,k,其中h為卷積核處理詞的數(shù)量。卷積層運算為:

式中,f為激活函數(shù),xi:i+h-1表示從第i到第i+h-1 個詞語,b表示偏置量。經(jīng)過單個卷積核操作后得到特征向量c(c1,c2,…,cn-h+1),c的維度為n-h+1。

池化層采用最大池化的方式獲取特征向量c中數(shù)值最大的元素,每個特征向量池化后取其中一個最大值并舍棄其他值。經(jīng)過池化層操作后,得到特征信息c'(c'1,c'2,…,c'm):

全連接層將特征向量映射到向量z(zj)上,并輸入分類器進行分類。根據(jù)softmax 公式得到各個類別的概率分布p(yi|z;θ):

式中,θ為變量參數(shù),bj為偏置參數(shù),yi為分類類別。輸出層輸出概率最大的分類類別作為預測值。

3.4.2 模型結(jié)構(gòu)

本文使用的模型結(jié)構(gòu)如圖1 所示。該模型共分為6 個層,分別為輸入層、融合層、卷積層、池化層、全連接層和輸出層[5]。下面將對模型結(jié)構(gòu)進行詳細介紹。

圖1 模型結(jié)構(gòu)

(1)輸入層。該層主要是把數(shù)據(jù)清洗后的微博句子與經(jīng)卡方檢驗后選取的TOP20 的微博語言特征分別進行分詞與詞向量轉(zhuǎn)換形成句子矩陣與特征矩陣,最后輸入到該模型。

(2)融合層。將特征矩陣與句子矩陣進行融合。

(3)卷積層。對特征數(shù)據(jù)使用多個卷積核進行卷積操作,由于CNN 處理文本時在矩陣的行方向移動卷積核窗口無任何作用,因此卷積核的寬度即為特征向量維度。

(4)池化層。池化層用于接收卷積層提取的特征向量。選擇對這些特征向量進行最大池化處理,以提取特征向量中更加重要的特征。采用最大池化處理能夠有效降低網(wǎng)絡訓練參數(shù)和模型的過擬合程度。

(5)全連接層。全連接層在整個卷積神經(jīng)網(wǎng)絡中起到“分類器”的作用,主要將學到的“分布式特征表示”映射到樣本標記空間。

(6)輸出層。使用sigmoid 函數(shù)對待判定句子進行反諷二分類識別,輸出概率大于等于0.5 則打標簽“1”(判定為反諷),若輸出概率小于0.5 則打標簽“0”(判定為非反諷)。

3.5 模型訓練及評估結(jié)果

3.5.1 模型參數(shù)

數(shù)據(jù)集中最長的句子包含116 個詞,詞向量為300 維,數(shù)據(jù)集中的80%作為訓練集,20%作為測試集。模型卷積窗口大小為3、4、5,每種窗口512個,迭代次數(shù)為20 次,batch size 為32。由于模型按照此參數(shù)設置出現(xiàn)了過擬合現(xiàn)象,且無論如何調(diào)整這些參數(shù)過擬合現(xiàn)象均未得到改善。因此,加入dropout 參數(shù)(drop=0.5)與正則化,最終解決了過擬合問題。以上所有參數(shù)均為多次調(diào)參后的最優(yōu)結(jié)果。

3.5.2 模型評估結(jié)果及分析

前期實驗中,融合微博反諷特征的詞袋模型分別使用隨機森林分類器、樸素貝葉斯分類器、支持向量機分類器的實驗評估結(jié)果,分別如圖2、圖3和圖4 所示。本文使用的融合微博反諷特征的卷積神經(jīng)網(wǎng)絡模型評估結(jié)果如圖5 所示。如表2 所示,與融合微博反諷特征的詞袋模型使用傳統(tǒng)機器學習分類器評估結(jié)果相比,本文使用的融合微博反諷特征的卷積神經(jīng)網(wǎng)絡模型精確率與召回率均有明顯提高,改善了反諷識別率較低的問題。

圖2 融合反諷特征的隨機森林分類器詞袋模型評估結(jié)果

圖3 融合反諷特征的樸素貝葉斯分類器詞袋模型評估結(jié)果

圖4 融合反諷特征的支持向量機分類器詞袋模型評估結(jié)果

圖5 融合反諷特征的卷積神經(jīng)網(wǎng)絡模型評估結(jié)果

表2 融合反諷特征前后訓練結(jié)果對比

4 結(jié)語

本文主要研究融合微博語言特征的卷積神經(jīng)網(wǎng)絡反諷文本識別模型,與前期工作中提出的融合微博語言特征使用傳統(tǒng)機器學習分類器的詞袋模型相比,準確率、召回率等指標均有明顯提升。

猜你喜歡
特征文本融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 日韩国产综合精选| 国产一区二区三区精品久久呦| 国产情侣一区二区三区| 国内精品久久久久久久久久影视| 久久久久青草线综合超碰| 欧美日本在线观看| 伊人无码视屏| 人妻丰满熟妇av五码区| 亚洲动漫h| 亚洲第一极品精品无码| 亚洲精品va| 成人精品午夜福利在线播放| 国产毛片高清一级国语 | 国产另类视频| 婷婷99视频精品全部在线观看| 国产微拍一区| 久久a级片| 97国内精品久久久久不卡| 四虎影视国产精品| 国产一级视频久久| 亚洲三级电影在线播放| 欧美中文字幕在线二区| 欧美综合中文字幕久久| 在线毛片免费| 欧美亚洲激情| 国产欧美日韩va| 大乳丰满人妻中文字幕日本| 日韩精品一区二区三区大桥未久 | 久夜色精品国产噜噜| 日本午夜网站| 成人精品在线观看| 国产精品久久久久鬼色| 色老二精品视频在线观看| 精品国产美女福到在线直播| 久久久久夜色精品波多野结衣| 国产第一色| 欧美在线一级片| 国产麻豆永久视频| 亚洲AV人人澡人人双人| 免费99精品国产自在现线| 91网红精品在线观看| 91人妻在线视频| 日本高清有码人妻| 在线观看av永久| 欧美精品在线观看视频| 99视频精品在线观看| 欧美日韩成人在线观看| 亚洲欧美另类视频| 欧美精品二区| 亚洲欧美极品| 中文字幕欧美成人免费| 国产精品久久久久无码网站| 伊在人亚洲香蕉精品播放| 91麻豆国产在线| 国产va在线观看| 亚洲高清无在码在线无弹窗| 国产真实乱了在线播放| 亚洲高清国产拍精品26u| 亚洲精品色AV无码看| 本亚洲精品网站| 国产乱人视频免费观看| 日韩精品视频久久| 日韩精品一区二区三区大桥未久| 好紧太爽了视频免费无码| 99视频精品全国免费品| 国产情精品嫩草影院88av| 日韩黄色大片免费看| 国产va视频| 欧美不卡视频在线观看| 精品無碼一區在線觀看 | 91久久国产成人免费观看| 在线免费看黄的网站| 日本欧美精品| 国产亚洲精品无码专| aⅴ免费在线观看| 黄色不卡视频| 婷婷午夜天| 激情综合图区| 高潮毛片无遮挡高清视频播放| 色综合天天综合| 亚洲美女操| 久久久国产精品免费视频|