999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用自注意力機制的大規模網絡文檔情感分析

2021-09-16 01:53:08夏輝麗楊立身
計算機工程與設計 2021年9期
關鍵詞:語義分類文本

夏輝麗,楊立身,薛 峰

(1.鄭州經貿學院 計算機與人工智能學院,河南 鄭州 451191;2.河南理工大學 計算機科學與技術學院,河南 焦作 454003)

0 引 言

近年來,社交數據在規模、種類和復雜性方面都在快速增長,因此大量網絡文檔(統稱為“推文”)的分類語義辨識及辨識準確度是利用推文的重要依據[1,2]。

針對推文語義的情感分析,國內外學者進行了大量的研究。文獻[3]基于Lexicon方法對已知情感進行編譯,在一定程度上降低了對情感詞典的依賴程度,但占用了大量計算資源;文獻[4]提出了一種在句子、語義層面進行情感分析的混合方法,提高了語義方向極辨識準確度,但對語義情緒的要求較為嚴格;文獻[5]用表情符號分析了影響文本挖掘和情感分析的因素,但需要大量收集先驗情感“正面”和“負面”的文本數據;文獻[6]提出了一種情感功能分類器,可以提高對未知情感分類的速度,但其分類結果誤差較大;文獻[7]基于支持向量機將推文分為“正面”和“負面”,但綜合性能有待進一步提升。綜上所述,現有研究難以對具有大量信息的推文的語義和情感進行快速、準確的分類和辨識。

為了提高推文情感分析的準確度和速度,基于MapReduce平臺,提出了利用自注意力雙向分層語義模型的大規模網絡文檔情感分析方法,在對文檔預歸類的條件下,通過云平臺對大量數據的并行處理能力,利用自注意力機制分辨詞匯的情感語義,提高對文檔情感的分析效率,具有處理海量文檔數據的能力,實現更高準確度和更低召回率。

1 提出的方法

推文的情感分析需要計算待分析推文與現有文檔之間的語義相似度,其中每個文檔代表一個類(“正面”、“負面”或“中立”),情感分析的目標是給推文提供與其具有最大相似性的文檔類。因此,語義相似度的計算就像一個信息檢索系統,希望找到與查詢所表達的用戶需求相關的文檔。分類的推文將扮演查詢的角色,代表這3個類的3個現有文檔將扮演所尋求的文檔數據庫的角色[8,9]。

1.1 推文預歸類

首先,通過相似度計算對所有待分析的推文進行預歸類。相似性度的計算基于以下原則:給定由本體W形成一組節點和根節點R,X和Y是本體的兩個要素,相似性計算是根據節點X和Y與根節點R的距離(N1和N2)而來的,相似度計算是來源于節點X和Y與根節點R的距離(N1和N2)以及包含歸類概念(subsuming concept,CS),可以使用下式定義

(1)

如果X和Y與之間的語義距離值很小,則兩個概念更相似。相似度是根據連接層次結構中路徑長度定義的。c1和c2之間的相似度為

Sim(c1,c2)=2×D-Lenovo(c1,c2)

(2)

式中:D是連接c1和c2的最長可能路徑,Lenovo(c1,c2)是c1和c2之間的最小路徑。圖1展示了相似度提取的流程。

圖1 相似度提取的流程

將特定概念的熵(信息內容)與所尋求相似度相結合,可得改進的相似度衡量公式,為

(3)

在改進的相似度公式中,c1和c2之間的距離可以通過下式計算

dist(c1,c2)=E(c1)+E(c2)-2(2×E(CS(c1,c2)))

(4)

如果兩個推文通過非常短的路徑連接在一起并且“不改變方向”,那么這兩個推文是相似的。相似度的計算基于從一個語義到另一個語義概念的最短路徑的權重以及方向的變化。

1.2 語義分類

根據3個類別(正面、負面和中性)進行分類,使用深度學習和自注意力機制在語義上進行分類,通過對推文的權重學習,對基本模型進行一定程度上的優化。并通過使用Hadoop集群和Hadoop分布式文件系統在多臺機器之間并行化分類來存儲分類和分類結果[10,11]。使用MapReduce編程模型,并將其用于并行化。

提出的方法代表了一種情緒分析的分類,將推文分為3類,包括正面、負面和中立,是一種主觀性分類。為了使分類結果更易區分,將推文進一步分為兩類:情感推文,這種類別的推文內容是表達情緒或觀點的主觀推文(極性分類)關于某事,它被分為兩類(正面或負面),另一種推文不表達任何情緒或觀點,稱為事實推文或客觀推文(沒有情緒),并且它被分類為一類(中性)。第二種方法將推文分為兩類(正面或負面),稱為極性分類(感性推文)。

自注意力機制的分類方法通過基于神經網絡的雙向雙層長短時間記憶網絡(LSTM)引入,通過雙向長短記憶模型(BiLSTM)學習語義。對于句子L={v1,v2,…,vn},其中,vi表示句子中的第i個詞(i=1,2,…,n),每一個詞都可以通過先驗的詞向量矩陣V映射為m維向量,詞向量的值通過嵌入算法預先得出,因此存在

Q=(v1,v2,…,vn)∈Vm×n

(5)

通過BiLSTM獲取語義的過程中,需要分別計算每層的正向序列和逆向序列隱藏層,前向推算方法為

gk,f=λ(Rg,f·(dt-1,f,vt)+gk-1,f)+gk-1,f

(6)

Tk,f=Sigmoid(RU,f·(dt-1,f,vt)+gk-1,f)+gU,f

(7)

Uk,f=(gk,f+ok,f)⊙Tk,f+gk,f·Uk-1,f

(8)

dt-1,f=gk,f⊙Uk,f

(9)

其中,vt表示句子中第t個詞語義;gk,f,Rg,f,gk-1,f,RU,f,gU,f分別為隱藏層和輸入層向量的更新及操作參數;dt-1,f為隱藏層向量;Tk,f,Uk-1,f為輸入向量。后向推算方法為

gk,b=λ(Rk,b·(dt-1,b,vt)+gk-1,b)+gk-1,b

(10)

Tk,b=Sigmoid(RU,b·(dt-1,b,vt)+gk-1,b)+gU,b

(11)

Uk,b=(gk,b+ok,b)⊙Tk,b+gk,b·Uk-1,b

(12)

dt-1,b=gk,b⊙Uk,b

(13)

其中,角標b表后向推算,其余變量含義與前向推算相同。

句子L經前向推算與后向推算遍歷后,得到語義特征

D=(d1,d2,…,dn)∈Rn×2u

(14)

其中

dt=(vt,dt-1)‖(vt,dt+1)

(15)

其中,u為隱藏層單元數。

經LSTM獲得文本語義后,通過自注意力機制分配詞語權重,對詞語對句子語義的影響打分。對于語義為di的句子,各詞語權重qi表示為

qi=sigmoid(scor(di))

(16)

式中:scor(di)用以度量第i個單詞的重要程度,通過加性注意力機制(additive attention)、點乘注意力機制(multiplicative attention)實現和自注意力機制(self-attention)實現,分別表示為

(17)

(18)

(19)

其中,vq,Rq,gq分別為打分參數,另外加性注意力機制對i時刻句子上下文表示di增加全連接網絡。

判斷詞語權重后,將句子二維映射為矩陣表示,區別于傳統注意力機制,最終經自注意力機制得到的語義分類結果為

F=softmax(Rq2sigmoid(DT))

(20)

式中:DT∈R2u×n;Rq2表示模型訓練參數??梢岳斫鉃?,二維映射后句子的矩陣表示形式,行向量表示不同層面信息,即一個句子得到了多語義層面的理解,豐富了句子表達,減少了一維壓縮后的語義缺失問題。

1.3 多機制分布式系統分析

提出的多機制分布式系統對推文進行分類,其思想是基于多個機制計算推文和3個意見文件之間的語義相似性(正文件dp、負文件dn和中性文件dne)。每個文檔代表一個類,即每個文檔包含代表一個類的單詞,例如,積極類的文檔包含單詞:positive,good,happy等,而消極類的文檔包含單詞:negative,bad,sad等。

使用深度學習和自注意力機制,基于信息檢索系統(information research system,IRS)的概念和語義相似性來設計混合方法,從信息檢索系統的角度來計算用戶需求(請求)和一組文檔之間的語義相似性,找到與請求相關的文檔,在案例中考慮推文將請求分類為3個意見文件,作為信息獲取系統的文件數據庫。引入自注意力機制到輸出層的上一層,為句子的語義提供多角度的矩陣形式的表示。用不同詞語的加權平均表示優化后模型的文本分布形式

(21)

式中:fhi是不同詞語的權值,fai是不同的語義表示。以下公式顯示了如何根據提出的方法對推文進行分類

CV=max[SimLC(t,dp),SimLC(t,dn),SimLC(t,dne)]

(22)

式中:CV是分類值(積極、消極和中性),SimLC(t,dp)是推文和3個意見文檔之間的語義相似性,t是待分類的推文,dp、dn和dne分別表示積極、消極和中性。

以下公式可用來計算與使用或者不使用文本預處理的分類率和錯誤率

(23)

ER=1-SR

(24)

其中,CR為分類率,ER為錯誤率。

對于評估情緒分類系統,僅僅使用CR和ER是不夠的,語義分析評估中最常用的測量是4個指標:準確度、召回率、精確度和F1分數,這些度量由下列公式給出:

準確度:所有預測正確的實例占所有預測實例的部分

(25)

精確度:所有預測為積極樣本并且實際為積極的樣本占所有預測的積極樣本的比例

(26)

召回率:真陽性預測樣本占所有實際正確樣本的比例

(27)

F1分數:精度和召回率的諧波平均

(28)

其中,TP(真陽性):正確預測的正值表示推文類的值為正,并且分類后的預測值為正;TN(真陰性):正確預測的負值意味著推文類的值為負,并且分類后的預測值為負;FP(假陽性):當推文為負數但分類后的預測類為正數;FN(假陰性):當推文是正數但分類后的預測類是負數。

圖2展示了使用提出的推文分類方法的步驟,第一步是收集要分析的推文(分類),使用了兩種方法收集推文,第一種是用基于java的Twitter的高級可編程序中斷控制器(advanced programmable interrupt, API),稱為Twitter4j,它使提出的方法能夠收集用戶的推文。這個API提供了許多功能,可以對推文進行分類。

圖2 提出方法的語義分類步驟

收集推文的第二種方法是阿帕奇飲水法,它是一種工具/服務/數據的提取機制,用于收集聚合和傳輸大量流數據,例如日志文件,來自各種源的事件到集中式數據存儲。該方法具有高可靠性、分布式和可配置的優點,它主要用于將各種服務器的流數據(日志數據)復制到分布式文件系統。Apache Flume使收集大量數據成為可能,如推文,并將它們存儲在分布式文件系統(Hadoop distributed file system,HDFS)。使用Flume來促進收集推文并將它們直接存儲在HDFS中以便在之后進行分析[12,13]。

收集推文之后,第二步是創建3份意見文件。每個文檔都是一個文本文件,其中包含代表一個類的單詞,也就是說在其中的積極意見文檔中放入積極詞匯,如快樂、善良、愉快、友善等。

第三步是應用文本預處理方法。在對推文進行分類之前,重要的是對其進行一些處理以便于分類并減少其中存在的噪聲。這些處理稱為文本預處理。

文本預處理包括消除或轉換推文的內容以減少其噪音并促進分類階段。在文獻中本文發現了幾種類型的文本預處理,即替換否定提及、刪除鏈接,將包含重復字母的單詞還原為其原始英語形式、刪除數字、刪除停用詞以及通過使用首字母縮寫詞典將首字母縮略詞擴展為其原始單詞。本文也發現了一些經常使用的表情符號。在本文的工作中,主要使用了一下方法:

(1)標記化。通過刪除空格、逗號和其它符號將推文拆分為術語或標記的階段。這是一個重要的步驟,因為在我們的工作中,我們專注于單個詞來計算它們之間的語義相似性;

(2)刪除停用詞。刪除停止詞,如介詞,are,is,am和冠詞(a,an,the)等。停用詞不強調任何情緒,因此刪除它們以減少停止詞是很重要的來自推文的噪音;

(3)刪除Twitter標記。例如主題標簽(#),轉發(RT)和賬戶ID(@)等;

(4)刪除數字。數字不表達任何情緒或態度。一般來說,在測量情緒時數字是沒用的,從推文中刪除它們可以改進推文內容的質量。

在文檔預歸類后,使用深度學習和自注意力機制計算待分析推文中的語義相似性,建立自注意力雙向分層語義模型,對模型進行預訓練來更新訓練參數,并且在計算語義相似性后,推文將采用與其具有最大相似性的文檔的類。

1.4 分類的并行化

如果有一個大的推文數據庫,那么在對推文進行分類時出現的問題之一就是等待獲得分類結果的時間。為了克服這個問題,使用Hadoop框架,通過在多個機器(Hadoop集群)之間共享分類,使用分布式文件,將推文分類的工作與提出的兩種方法并行化。分布式文件系統用于存儲推文以進行分類,也用于存儲分類結果,以及MapReduce編程模型,用于并行化和開發所提出的方法。

需要注意的是,并行化目標不是研究Hadoop集群,而只是描述如何使用Hadoop以及更準確地使用Hadoop MapReduce并行化本文提出的工作。集群安裝在Ubuntu 16.04操作系統中[14],它將作為集群(主)的主機,安裝在虛擬工作站中的兩個Hadoop節點上。

圖3展示了使用HDFS和Hadoop MapReduce并行的步驟。第一步是存儲推文的數據集,以便在HDFS中進行分類,以在多臺機器之間共享存儲(Hadoop集群)。在這一步中,使用Twitter4j API和阿帕奇飲水法來收集推文,在文本預處理步驟之后,它是通過應用我們的方法進行分類的步驟,但這次是使用MapReduce編程模型(以并行方式)。

圖3 HDFS和Hadoop MapReduce并行化流程

每次迭代時,MapReduce操作的輸入(對于每個推文)包含要分類的推文,輸出包含分類的推文。分類是通過應用本文提出的第一個方法完成的,分類結果存儲在HDFS中。在分類過程結束時,將結果存儲在HDFS中作為兩列,一列用于推文作為MapReduce算法的鍵,另一列用于推文的類作為值(積極、消極或中性)。

圖4展示了使用HDFS和Hadoop MapReduce并行化的改進流程。

圖4 改進的HDFS和Hadoop MapReduce并行化的流程

與圖3所示的流程相比,圖4中的流程首先要做的事情是在HDFS中存儲待分類的推文,可以使用Twitter4j API或者阿帕奇飲水法實現。在存儲步驟之后,就是使用本文所提出的第二種方法基于MapReduce 模型(以并行化的方式)進行推文的分類。

每次迭代時MapReduce的輸入都包含一個要進行分類的推文,在應用了不同的文本預處理方法和我們提出的方法之后,本文將推文分為兩類(積極或消極)。在分類過程結束時,將結果存儲在HDFS中作為兩列,一列是被分類的推文,作為MapReduce的鍵,另一列用于推文的類別作為MapReduce的值。

2 實驗結果及分析

通過比較現有方法和所提出方法的實驗結果,驗證提出的方法在語義分析上的優勢。對比內容包括分類率、錯誤率、精確度、召回率和評分。

2.1 實驗設置

語義分類采用并行方式,使用Hadoop框架和HDFS以及數據集的MapReduce編程模型完成,該數據集包含來自Twitter4j API和阿帕奇飲水法收集的不同主題的推文。這兩個工具允許從Twitter收集推文。實驗數據為8000條推文,包含4000個積極推文和4000個消極推文。這8000條推文是從名為Sentiment 150的數據集中隨機選擇的,這一數據集可在http://help.sentiment150.com/for-students上找到[15,16]。

2.2 實驗結果與對比

為了驗證文本預處理方法應用于語義分類及其提高分析質量的效果,做了一個對比實驗,包括使用和不使用文本預處理方法的實驗對比,表1展示了該實驗的結果。

表1 文本預處理對推文情感分類結果的影響

根據表1的實驗結果,當使用文本預處理時,文獻[3]、文獻[4]和文獻[5]方法的分類準確度低于提出的方法的分類準確度??傮w來看,不適用文本預處理的子分類準確度要低于使用文本預處理的分類準確度,也就是說,使用文本預處理方法對分類有正面影響,它允許減少推文中存在的噪音和錯誤分類的推文數量,也就是說,文本預處理提高了分類的質量。

從表1中還能看出,與文獻[3]、文獻[4]和文獻[5]的方法相比,提出的方法可以減少錯誤分類的推文數量。

圖5展示了提出的方法與文獻[3]、文獻[4]和文獻[5]中的方法所得到的模擬結果的準確率結果。如圖5所示,提出的方法在準確度上優于其它3種算法,具有準確度,準確度約為89.6%。實驗結果表明:提出的方法在語義分析的問題上具有更高的準確度和分析質量。

圖5 提出的方法與文獻[3]、文獻[4]和文獻[5]方法的精確度

圖6給出了不使用任何文本預處理方法的情況下,提出的方法獲得的分類率CR,圖7給出了在不適用文本處理方法的情況下提出的方法所得到的錯誤率ER,圖8展示了在使用提出的文本預處理方法的情況下所得到的分類率CR,圖9展示了在使用提出的文本預處理方法的情況下所得到的錯誤率ER。

圖6 在不帶文本預處理情況下的分類率

圖7 在不帶文本預處理情況下的錯誤率

圖8 在帶文本預處理情況下的分類率

從圖6和圖8中可以看出,相比于文獻[3]、文獻[4]和文獻[5]的方法,提出的方法具有更高的分類率CR,這表明提出的方法在進行語義分類時具有更高的分類速度和效率;從圖7和圖9中可以看出,提出的方法具有更高的錯誤率ER,這進一步表明提出的方法在進行語義分類時具有更高的準確度和質量。

圖9 在帶文本預處理情況下的錯誤率

從圖6~圖9中,可以得到一個結論:無論采用文本預處理方法還是不采用文本預處理方法,相比于文獻[3]、文獻[4]和文獻[5]中的方法,提出的方法具有更高質量的語義分類效率和準確度。

圖10展示了提出的方法和文獻[3]、文獻[4]和文獻[5]中的方法所得到的評分結果。相比于文獻[3]、文獻[4]和文獻[5]中的方法,提出的方法具有更高的評分,說明提出的方法在語義分析的問題上能夠提高綜合評分。

圖10 提出的方法所得到的評分結果

圖11展示了提出的方法的計算時間,與文獻[3]、文獻[4]和文獻[5]中的方法相比,提出的方法在語義分析上花費的時間較少,約為文獻[5]的方法的53.2%左右,這驗證了提出的方法具有更高的分析速度和分析效率。

圖11 語義分析的計算時間

3 結束語

提出一種利用自注意力機制的大規模網絡文檔情感分析方法,研究了大規模推文的情感分析問題。通過自注意力機制與深度學習方法進行語句分類,在分布式并行化分類的基礎上,通過二維映射的語句矩陣,有效實現大規模網絡文檔的情感分析,提出的方法能夠有效地對語句進行辨識,完成情感多層次分類,有效提高分析準確度與分類率,在大幅降低語句情感分類錯誤的情況下提高了分析效率。

下一步研究主要針對語義的地域性,討論時空分布對語句情感分析的影響,完善大數據技術下的高效情感內容分析,提高情感分析方法的適用性。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产成人综合亚洲网址| 国产97公开成人免费视频| 亚洲专区一区二区在线观看| 久久亚洲美女精品国产精品| 中文字幕在线观看日本| 国产视频一区二区在线观看| 99免费在线观看视频| 无码丝袜人妻| 久久香蕉欧美精品| 亚洲大学生视频在线播放| 国产呦精品一区二区三区网站| 国产对白刺激真实精品91| 亚洲天堂日韩av电影| 国产99免费视频| 4虎影视国产在线观看精品| 91精品国产麻豆国产自产在线| 欧美日韩专区| 91欧美在线| 欧美精品二区| 亚洲最新网址| 亚洲第一视频免费在线| 91久久精品国产| 国产精品欧美亚洲韩国日本不卡| 91精品日韩人妻无码久久| 亚洲一区色| 特级精品毛片免费观看| 午夜激情福利视频| 99re视频在线| 88国产经典欧美一区二区三区| 久久久噜噜噜| 波多野结衣久久精品| 日日拍夜夜嗷嗷叫国产| 手机看片1024久久精品你懂的| 香蕉eeww99国产在线观看| 99视频在线精品免费观看6| 国模私拍一区二区| 欧美中文字幕无线码视频| 久久久精品国产SM调教网站| 欧美日韩第二页| 亚洲中文字幕无码mv| 国产成人毛片| 国产欧美日韩专区发布| 欧美成人一级| 青青草国产免费国产| 2021国产精品自产拍在线观看 | 亚洲中文无码av永久伊人| 999福利激情视频| 91精品小视频| 国产精品永久免费嫩草研究院| 亚洲免费三区| 国产精品视频导航| 无码专区在线观看| 99这里只有精品在线| 国产在线精品人成导航| 欧美乱妇高清无乱码免费| 国产高清无码麻豆精品| 中文字幕亚洲另类天堂| 狠狠色婷婷丁香综合久久韩国| 国产精品欧美亚洲韩国日本不卡| 国产又大又粗又猛又爽的视频| 老司国产精品视频91| 亚洲一区二区约美女探花| 蜜桃臀无码内射一区二区三区| 日韩精品视频久久| 精品人妻无码中字系列| 国产欧美亚洲精品第3页在线| 波多野结衣一二三| 国产精品99久久久久久董美香| P尤物久久99国产综合精品| 国产成人三级在线观看视频| 真人高潮娇喘嗯啊在线观看| 久久国产精品电影| 91色爱欧美精品www| 666精品国产精品亚洲| 久久无码av三级| 国产福利影院在线观看| 丁香五月亚洲综合在线 | 一本综合久久| 亚洲九九视频| yjizz视频最新网站在线| 狠狠综合久久久久综| 日本精品视频|