呂妹園 張永健 張永強 孫勝娟



摘 要:為了解決分布式詞表示方法因忽略詞語情感信息導致情感分類準確率較低的問題,提出了一種融入情感信息加權詞向量的情感分析改進方法。依據專屬領域情感詞典構建方法,結合詞典和語義規則,將情感信息融入到TF-IDF算法中,利用Word2vec模型得到加權詞向量表示方法,并運用此方法對采集到的河北省旅游景點的評論文本與對照組進行對比實驗。結果表明,與基于分布式詞向量表示的情感分析方法相比,采用融入情感信息加權詞向量的改進方法進行情感分析,積極文本的準確率提高了6.1%,召回率提高了6.6%,F值達到了90.3%;消極評論文本的準確率提高了6.0%,召回率提高了7.2%,F值達到了89.6%。因此,融入情感信息加權詞向量的情感分析改進方法可以有效提高評論文本情感分析的準確率,為用戶獲得更為準確的評論觀點提供參考。
關鍵詞:自然語言處理;語義規則;情感信息;TF-IDF;Word2vec;加權詞向量;情感分析
中圖分類號:TP391.1?? 文獻標識碼:A
doi:10.7535/hbkd.2021yx04008
收稿日期:2021-03-25;修回日期:2021-06-11;責任編輯:王淑霞
基金項目:河北省創新能力提升計劃項目(19456003D)
第一作者簡介:呂妹園(1996—),女,山東濟南人,碩士研究生,主要從事自然語言處理方面的研究。
通訊作者:張永強教授。E-mail:120030009@qq.com
呂妹園,張永健,張永強,等.融入情感信息詞向量的評論文本情感分析方法[J].河北科技大學學報,2021,42(4):380-388.LYU Meiyuan,ZHANG Yongjian,ZHANG Yongqiang, et al.Sentiment analysis method of comment text based on word vector with sentiment information[J].Journal of Hebei University of Science and Technology,2021,42(4):380-388.
Sentiment analysis method of comment text based on word vector with sentiment information
LYU Meiyuan,ZHANG Yongjian,ZHANG Yongqiang,SUN Shengjuan
(School of Information and Electrical Engineering,Hebei University of Engineering,Handan,Hebei 056107,China)
Abstract:In order to solve the problem of low accuracy of sentiment classification caused by neglecting the sentiment information of words in distributed word representation method,an improved sentiment analysis method incorporating weighted word vectors of sentiment information was proposed.According to the exclusive domain sentiment dictionary,combined with the dictionary and semantic rules,the sentiment information is integrated into the TF-IDF algorithm,and the weighted word vector representation method is obtained by using word2vec model.The method is used to compare the collected comments of tourist attractions in Hebei Province with the control group.The results show that compared with the sentiment analysis method based on distributed word vector representation,the accuracy and recall rate of positive text are increased by 6.1% and 6.6%,and the Fvalue reached 90.3%,the accuracy and recall rate of negative text are increased by 6.0% and 7.2%,and the Fvalue reached 89.6% by using the improved method of sentiment analysis integrated with sentiment information weighted word vector.Therefore,the improved method of sentiment analysis integrated with sentiment information weighted word vector can effectively improve the accuracy of sentiment analysis of comment text,and provide valuable reference for users to obtain more accurate comments.
Keywords:
natural language processing;semantic rules;sentiment information;TF-IDF;Word2vec;weighted word vector;sentiment analysis
隨著互聯網的發展,越來越多的互聯網用戶開始在線上發表自己的觀點,如淘寶、攜程網等平臺上用戶對商品和景點的評論,情感分析技術可以讓用戶更便捷地獲取評論的情感傾向。情感分析的主要任務是對評論語料的情感傾向性進行分析,本質上是一種文本分類[1],即對用戶的評論文本進行積極、消極的情感傾向的分類。
最早應用于情感分析的方法是基于情感詞典[2-3]的方法。該方法的核心是利用情感詞典遍歷匹配旅客評論文本中的情感詞,并根據語義規則計算評論文本的情感傾向。文獻[4]—文獻[5]介紹了基于情感詞典的代表研究。基于情感詞典的旅游文本情感分析不需要提前對文本進行標注,操作簡單易于實現,但其太過于依賴情感詞典且目前大多數情感詞典不是專屬領域情感詞典,導致情感分類的準確率較低。基于機器學習情感分析方法[6-9]最早是由PANG等[10]提出,使用最大熵算法和SVM算法進行電影評論的情感分析。CHEN等[11]針對在線旅游情感分類準確率低的問題,把情感分類任務轉變成機器學習中的多分類問題,設計了基于知識圖譜的關鍵詞擴展方法,增加了短文本的特征數量,利用機器學習構建情感分類模型進行情感分析。VALDIVIA等[12]發現TripAdvisor中許多用戶的星級打分和評論文本的情感極性是不同的,研究了用戶情緒與自動情緒檢測算法之間的匹配,利用機器學習模型識別負面意見并發現了負面評價背后的原因。YU等[13]為了對日本旅游網站4Traval景點的評論進行情感分析,提出了3組基于統計的特征選擇函數和傳統的TF-IDF方法且制定了7組基于規則的方法。結果證明,特征選擇函數與權重結合能夠較好地提高算法的整體性能。YANG等[14]提出了以情感詞典為基礎,結合卷積神經網絡(CNN)和基于注意力的雙向門控回歸單元(BiGRU)模型(SICABG),SICABG模型結合了情感詞典和深度學習技術的優點,克服了現有產品評論情感分析模型的不足。
在基于機器學習的情感分析研究中,一般采用分布式詞向量表示方式,分布式的表示方式只考慮詞語的語義信息,忽視了詞語的情感信息,而在情感分析研究中,一個詞語所包含的情感傾向性信息非常重要。本文結合語義規則,利用情感詞典將情感信息融入到TF-IDF算法進行加權詞向量計算,然后利用SVM算法進行情感分析。由于同一個情感詞在不同領域文本中的情感傾向是不同的,因此研究建立一種情感種子詞的篩選標準,并利用SO-PMI算法構建專屬領域情感詞典,避免發生不包含情感信息的特征詞影響情感分析的準確率等問題。
1 融入情感信息的加權詞向量表示
1.1 Word2vec詞向量表示
在情感分析任務中,將詞語表示成低維、非稀疏的向量是關鍵。目前,詞向量表示方法主要有one-hot方法和分布式詞向量表示方法。one-hot方法中詞向量的維數是由詞典中詞語的個數決定的。該方法的缺點是如果詞典的詞語數目過多會導致詞向量的維數過大并且向量稀疏,另外該方法還忽視了詞語之間的語義關聯性。分布式詞向量表示方法可以把詞語表示成低維向量,將所有的詞向量構成一個詞向量空間,并通過計算詞向量的距離來判斷詞語的語義相似度。
研究采用分布式方法中的Word2vec算法訓練詞向量,Word2vec算法中包括2種詞向量訓練模型:CBOW模型和Skip-Gram模型[15],Skip-Gram模型的訓練準確度更好,模型如圖1所示。
由圖1可知,在Skip-Gram模型中輸入中心詞語W(t)的one-hot編碼來預測中心詞的上下文詞語W(t-k),…,W(t-1),W(t+1),…,W(t+k)的概率模型。其中W(t)表示當前句子中位置為t的詞語,k表示與W(t)相鄰的上下文的窗口。
1.2 傳統TF-IDF特征權重算法
TF-IDF算法是文本分類中常用的特征權重的計算方法,該方法考慮了詞語在文檔中的分布情況,可以衡量詞語對文本分類的重要度。
傳統的TF-IDF公式如式(1)所示:
Wij=tfij×logNMj。(1)
式中:Wij表示評論文本Ti中詞語hij的權重值;tfij表示詞語hij在評論文本中的詞頻;N表示評論文本數量;Mj表示所有評論文本中出現詞語hij的評論文本的數量。將式(1)歸一化得到式(2):
Wij=tfij×logNMj∑hij∈Titfij×logNMj2。(2)
式中:hij表示評論文本Ti中的第i個特征詞。
1.3 融入情感信息的加權詞向量
通過將評論文本與情感詞典、程度副詞詞典相匹配,并結合語義規則將情感信息融入到特征權重的計算過程中。
情感詞在不同的修飾詞修飾下對文本情感傾向的貢獻是不同的,情感詞的修飾規則如下。規則1:由程度副詞修飾情感詞時,句中存在關系(adv,STW),則Si=Di+m×Si。規則2:否定詞修飾情感詞時,句中存在關系(negative,STW),如“不高興”,情感詞“高興”被否定詞“不”修飾后由積極情感傾向變成了消極情感傾向,因此Si=-1×Si。規則3:情感詞由否定詞和程度副詞共同修飾,句中存在2種關系:一種為(negative,adv,STW),如“不太滿意”,此時情感詞的情感傾向不改變,但情感詞對文本的情感傾向貢獻會被減弱,并參考文獻[3]得到Si=0.5×Di+m×Si;一種為(adv,negative,STW),如“太不滿意”,此時情感詞的情感傾向被改變,但情感詞“滿意”對文本的消極情感傾向的貢獻程度由程度詞決定,因此,Si=-1×Di+m×Si。式中:Si為情感詞的情感極性值;Di+m為程度副詞的程度極值;STW表示情感詞;negative表示否定詞;adv表示程度副詞,因此,融入情感信息的詞語權重計算分4種情況。
第1種 詞語hij為非情感詞
此種情況下,詞語hij的權重計算公式如式(3)所示:
Wij=tfij×logNMj∑hij∈Titfij×logNMj2。(3)
第2種 詞語hij為情感詞且無修飾詞修飾
此種情況下,詞語hij的權重計算公式如式(4)所示:
Wij=tfij×logNMj×Sj∑hij∈Titfij×logNMj×Sj2。(4)
式中:Sj為情感詞hij的情感極性值。
第3種 詞語hij為情感詞且滿足修飾規則(adv,STW),(negative,STW),(adv,negative,STW)
對于此種情況,藺璜等[16]提出程度副詞的粘著性與定位性強,做狀語時不僅不可前移也不能后置,只能緊靠在謂語周圍,程度副詞與情感詞的距離不超過3個詞。因此,當單詞hij是情感詞且情感詞周圍有程度副詞和否定詞修飾時,則判斷詞語hij前后距離為3的6個詞語是否為程度副詞,并將非程度副詞的程度值設為1。因此,詞語hij的權重計算如式(5)所示:
Wij=tfij×logNMj×Sj×∏-3≤m≤3Dj+m∑hij∈Titfij×logNMj×Sj×∏-3≤m≤3Dj+m2。(5)
式中:m表示與詞語hij的間隔距離,范圍在[-3,3]之間;Dj+m表示距離單詞hij為m的詞語的程度值。
第4種 詞語hij為情感詞且滿足修飾規則(negative,adv,STW)
此種情況下,詞語hij的權重計算如式(6)所示:
Wij=tfij×logNMj×Sj×0.5×∏-3≤m≤3Dj+m∑hij∈Titfij×logNMj×Sj×0.5×∏-3≤m≤3Dj+m2。(6)
設hij為使用Word2vec訓練得詞語hij的詞向量,則融入情感信息詞語的加權詞向量aij表示如式(7)所示。
aij=hij·Wij。(7)
設語料中第i條評論文本為Ti=hi1,…,hij,…,hik,則文本Ti的向量表示如式(8)所示:
ti=∑kj=1hij·Wij。(8)
將向量ti作為特征輸入到SVM(支持向量機)中,訓練可得到情感分析的分類模型。
2 專屬領域情感詞典的構建及特征提取改進方法
2.1 情感詞典的構建
在計算詞語權重時需要使用情感詞典,中文文本語義博大精深,同一個情感詞在不同領域文本中出現時,對文本的情感傾向貢獻是不同的,如,“股票跌了”和“票價跌了”,前一個句子中“跌”的情感傾向是消極的,后一個句子中“跌”的情感傾向是積極的,因此構建專屬領域情感詞典是必須性的[17]。因此在進行情感分析之前依據詞向量構建了一個專屬領域情感詞典[18-19]。
2.1.1 情感種子詞典的構建
從攜程網站上爬取到的15 000條河北省旅游景點的評論文本,使用jieba工具分詞后得到的評論文本詞集(TSet),與知網情感詞典(HowNet[20])取交集,得到一個情感詞集(TSSet={sij},sij指情感傾向為i的j個情感詞語),利用Word2vec模型將情感詞集的詞變換為詞向量(ski),為了使情感種子詞有較好的聚類效果,構建了一個基于余弦相似度的種子詞集篩選標準,如式(9)和式(10)所示。
ADIS(ski)=1n∑ij=1Dis(ski,skj)=1n∑ij=1ski·skj‖ski‖×‖skj‖。(9)
式中:ski和skj表示情感傾向為k的2個不同的詞語的詞向量;ADIS(ski)表示情感傾向為k的第i個情感詞的平均距離。
SThresholdk=1n∑ni=1ADIS(ski),(10)
式中:SThresholdk表示情感傾向為k的情感詞的距離閾值。
當ADIS(ski)>SThresholdk時,將詞語ski存入種子情感詞典(SSDic)中,并標注其情感傾向為k。
2.1.2 專屬領域情感詞典的構建
判斷詞語情感傾向的方法有SO-PMI算法(點互信息算法)和語義相似度算法。本文使用文獻[21]改進后的SO-PMI算法計算詞集(TSet)的詞語與種子情感詞典(SSDic)中詞的SO-PMI值,以得到詞集(TSet)中詞語的情感傾向和情感極值。將SO-PMI值大于零的詞語及該詞語的SO-PMI值作為情感詞的情感極值存入積極情感詞典中,將SO-PMI值小于零的詞語及該詞語的SO-PMI值作為情感詞的情感極值存入消極情感詞典中,得到專屬領域情感詞典。
2.2 改進的特征提取方法
2.2.1 語義規則分析
句子可以分為單句和復雜句。單句指直觀地表達對景點情感的句子,如“景點很美還會來!”,而復雜句是由多個單句以一定的邏輯結構結合在一起,如“城墻不錯其他就一般了,古城內環境不好,衛生狀況差,為什么不能搞得好一點呢?”,句中積極和消極的評論交織在一起,面臨這種情況,需要從句子本身出發,弄清其邏輯結構,分析句子中對情感傾向有較大貢獻的部分以及貢獻較小或沒有貢獻的部分。將復雜句(C)表示為單句的集合,即C=c1,c2,…,ci,…,cn。將sci設置為單句ci對旅游評論文本的情感傾向貢獻值,若sci為零時,單句ci對文本的情感傾向無貢獻,因此在進行文本情感分析時應忽略單句ci。
1)總結詞情感規則
若評論文本這樣描述“一個四面環水的小村落,感覺還是不錯的,但畢竟是有人居住的地方,所以不要四處亂轉。總結一下:家距離景點近的人可以去玩,里面挺好的。”這條評論文本的最后一句含有總結詞“總結一下”,這表明該句為總結句,總之、總而言之、總結一下、反正、整體來說、綜上所述、簡而言之在一段文本中總結句起到點明中心的作用,則該評論文本的情感重心落在總結句上。因此,若復雜句C包含的單句ci中出現總結詞,則sck,sck+1,…,sci-1=0;sci,sci+1,…,scn=1。基于此,構建了總結詞詞典,其部分內容如表1所示。
2)轉折詞情感規則
除了總結詞之外,轉折詞也會改變文本的情感重心,若復雜句C中的單句ci包含“雖然”“盡管”則單句ci對復雜句C的情感傾向無貢獻,即sck,sck+1,…,sci-1=1;sci,sci+1,…,scj=0,因此該類轉折詞其標注為一類轉折詞。若復雜句C中的單句ci包含“然而”等轉折詞,復雜句C的情感重心落在單句ci之后,因此將該類轉折詞標注為二類轉折詞,則sck,sck+1,…,sci-1=0;sci,sci+1,…,scj=1。基于此,構建了轉折詞詞典,部分內容如表2所示。
2.2.2 改進特征提取
對于情感分類的研究,若忽略文本中一些詞對情感極性大小的貢獻進行無差別特征提取[22],勢必影響情感分類的準確性,增加實驗工作量。本文針對復雜句式,通過對語義規則進行分析,改進了特征提取。判斷評論文本中是否存在總結詞。若存在,則直接提取包含總結詞句子的特征詞;若不存在,則判斷句子中是否存在轉折詞。若存在轉折詞,則繼續判斷此轉折詞是一類詞還是二類詞:若是一類詞,則忽略該句;若是二類詞則提取句子中的特征詞。若評論文本中不存在總結詞和轉折詞,則直接提取全句的特征詞。提取流程如圖2所示。
3 實驗驗證
實驗硬件環境是ThinkPadE445,CPU主頻2.5 GHz,內存16 GB;軟件環境是Windows 10操作系統,開發工具是PyCharm 2018.2.2,開發語言是Python,分詞工具是jieba,分類算法使用SVM(支持向量機)算法。
3.1 程度副詞與停用詞詞典的處理
1)程度副詞預處理。使用的程度副詞來自HowNet詞典。依據陳羽等[23]對程度副詞的研究,“透頂”等詞語是形容詞,因此本文參考此標準刪除程度詞典中的此類詞。
2)程度量化值的設定。根據張宗潔[24]對程度副詞的研究,將程度副詞按照修飾情感詞的強度分為極高、高、中、低4類。文獻[25]利用MMTD算法和真值程度函數計算出了程度副詞的真值程度,本文參考文獻[25]計算程度值的方法以及文獻[26]—文獻[29]為程度副詞設置了程度量化值(表中用D表示):1.9,1.5,1.1,0.7。另外,否定詞能顛覆評論文本的情感傾向類[21],將否定詞也存入到程度詞詞典中,量化值設為-1。程度詞詞典部分內容如表3所示。
3)停用詞詞典處理。停用詞在文本中不會傳遞任何信息。去除停用詞詞典中所含有的轉折詞詞典和總結詞詞典中的詞,構建適用于評論文本情感分析的停用詞詞典。
3.2 數據獲取與數據預處理
本文以旅游網站的游客評論文本作為情感分析數據,對提出的改進方法進行實驗,驗證方法的有效性。
1)數據獲取 從攜程網上爬取趙州橋、廣府古城、承德避暑山莊等河北省30個景點的游客評論文本數據。
2)數據清洗 分析后發現,獲取到的游客評論文本中有一些是無用評論,評論文本不包含任何信息,還有一些評論文本是游客對網站服務質量的評論,以及一些重復的文本,這些數據會影響最終情感分析結果的準確性,因此手動刪除此類數據。最終獲取得到了15 000條數據。
3)數據標注 對上述經數據清洗后的攜程網用戶的評論數據進行人工情感傾向標注,為了標注的準確性,參考游客對景點的星級評價,將星級評價為4星、5星并且評論文本明顯具有積極傾向的文本標注為積極評論文本,將星級評價為0星和1星且評論文本具有明顯消極傾向的文本標注為消極評論文本,最終獲取得到了10 000條數據標注過的游客評論文本。
4)文本分詞 本文使用的分詞工具是jieba,在分詞前為了使分詞結果更適用于本文的游客評論情感分析研究,將情感詞典、程度副詞詞典以及轉折詞詞典導入jieba詞庫中。
3.3 旅游專屬領域詞典的構建
將分詞后的攜程網上的游客評論文本按照語義規則分析進行種子情感詞的構建,最終得到89個積極傾向的種子情感詞和82個消極性傾向種子情感詞,然后將種子情感詞存入種子情感詞典(SSDic)。
利用詞典SSDic和專屬領域情感詞典方法構建旅游專屬領域的情感詞典(STW)。STW詞典的部分內容如表4所示。
3.4 實驗評估指標
以準確率、召回率、F值作為評價指標,評價實驗方法的有效性。
準確率是指被正確分類的評論文本數量占總評論文本數量的比值,如式(11)所示:
P=QirightQiright+Qiwrong,(11)
式中:P為準確率;Qiright是屬于情感傾向類別Ci被正確分類的文本數量;Qiwrong是屬于情感傾向類別Ci被錯誤分類的文本數量。
召回率是指屬于某情感傾向的文本Ci被正確分類的文本數量與評論文本中真正屬于情感傾向Ci評論文本數量的比值,如式(12)所示:
R=QirightQiall。(12)
式中:R表示召回率;Qiall表示實際評論文本中屬于情感傾向類別Ci的文本數量。
F值是準確率和召回率的調和平均值,計算公式如式(13)所示:
F=2×P×RP+R。(13)
3.5 結果與分析
將旅客評論文本的加權詞向量作為特征向量,并使用SVM算法對本文采集到的數據進行情感分析,為了測試本文所提方法的有效性,設置了4組對照實驗:第1組 基于情感詞典方法,利用HowNet詞典和語義規則計算游客評論文本的情感傾向;第2組 利用Word2vec詞向量表示方法和機器學習中SVM算法進行游客評論文本的情感分類;第3組 利用HowNet詞典和文本提出的融入情感信息的加權詞向量表示方法和機器學習中SVM算法進行游客評論文本的情感分類;第4組 使用本文提出的構建專屬領域情感詞典方法,構建旅游專屬領域情感詞典(STW),結合文本提出的融入情感信息的加權詞向量表示方法以及機器學習中SVM算法進行游客評論文本的情感分類,實驗結果如表5所示。
由表5及實驗分析可知:
1)第4組實驗比第1組實驗的準確率要高,其中積極評論文本的準確率提高了17.2%,召回率提高了18%,F值提高了17.7%;消極評論文本的準確率提高了17.4%,召回率提高了19.4%,F值提高了18.5%,因此,與基于情感詞典的方法相比,使用本文提出的方法進行情感分析準確率更高,克服了過于依賴情感詞典的缺點。
2) 第4組比第2組實驗的準確率要高,其中積極評論文本的準確率提高了6.1%,召回率提高了6.6%,F值提高了6.4%;消極評論文本的準確率提高了6.0%,召回率提高了7.2%,F值提高了6.6%。提出的方法在進行詞向量表示時考慮了詞語的情感信息,提高了情感分析的準確率。
3) 第4組比第3組實驗的準確率要高,其中積極評論文本的準確率提高了1.3%,召回率提高了1.3%,F值提高了1.3%;消極評論文本的準確率提高了1.5%,召回率提高了2.4%,F值提高了2.0%。實驗表明,利用建立的專屬領域情感詞典方法結合本文提出的融入情感信息詞向量情感分析方法比利用公開的情感詞典HowNet結合本文提出的融入情感信息詞向量情感分析方法更有效,可以提高積極和消極文本的準確率、召回率和F值,因此本文建立的專屬領域情感詞典是有必要的。
4 結 語
本文提出了一種融入情感信息加權詞向量的情感分析方法,用以評論文本的情感傾向。對爬取的河北省游客的評論文本進行情感分析實驗。結果顯示,與傳統的分布式詞向量表示的情感分析方法相比,使用提出的改進方法進行情感分析,積極文本的準確率提高了6.1%,召回率提高了6.6%,F值提高了6.4%;消極評論文本的準確率提高了6.0%,召回率提高了7.2%,F值提高了6.6%。這表明使用提出的融入情感信息加權詞向量的情感分析方法可以有效提高情感分析的準確度。
但是,本研究尚存在一些不足,所提方法無法對未登錄詞進行識別,在進行詞向量表示時沒有考慮到未登錄詞對文本情感傾向的貢獻。未來將就未登錄詞的識別算法進行研究,利用專屬領域情感詞典構建方法,將包含情感信息的未登錄詞加入到情感詞典中,以此獲得未登錄詞融入情感信息的詞向量表示,進而提升文本庫情感分析的準確性。
參考文獻/References:
[1] KHAN F H,BASHIR S,QAMAR U.TOM:Twitter opinion mining framework using hybrid classification scheme[J].Decision Support Systems,2014,57:245-257.
[2] 吳杰勝,陸奎.基于多部情感詞典和規則集的中文微博情感分析研究[J].計算機應用與軟件,2019,36(9):93-99.
WU Jiesheng,LU Kui.Chinese weibo sentiment analysis based on multiple sentiment lexicons and rule sets[J].Computer Applications and Software,2019,36(9):93-99.
[3] 萬巖,杜振中.融合情感詞典和語義規則的微博評論細粒度情感分析[J].情報探索,2020(11):34-41.
WAN Yan,DU Zhenzhong.Fine-grained sentiment analysis of microblog comments based on fusion of sentiment lexicon and semantic rules[J].Information Research,2020(11):34-41.
[4] 涂海麗,唐曉波.基于在線評論的游客情感分析模型構建[J].現代情報,2016,36(4):70-77.
TU Haili,TANG Xiaobo.Tourist sentiment analysis model building based on online reviews[J].Modern Information,2016,36(4):70-77.
[5] ZHANG S X,WEI Z L,WANG Y,et al.Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary[J].Future Generation Computer Systems,2018,81:395-403.
[6] 胡夢雅,樊重俊,朱玥.基于機器學習的微博評論情感分析[J].信息與電腦(理論版),2020,32(12):71-73.
HU Mengya,FAN Chongjun,ZHU Yue.Emotional analysis of Weibo comments based on machine learning[J].China Computer & Communication,2020,32(12):71-73.
[7] KUMAR S,GAHALAWAT M,ROY P P,et al.Exploring impact of age and gender on sentiment analysis using machine learning[J].Electronics,2020,9(2):374.
[8] ALOQAILY A,ALHASSAN M,SALAH K,et al.Sentiment analysis for Arabic tweets datasets:Lexicon-based and machine learning approaches[J].Journal of Theoretical and Applied Information Technology,2014.doi:10.1504/IJSNM.2015.072280.
[9] YASIN S,ULLAH K,NAWAZ S,et al.Dual language sentiment analysis model for YouTube videos ranking based on machine learning techniques[J].Pakistan Journal of Engineering and Technology,2020,3(2):213-218.
[10]PANG B,LEE L,VAITHYANATHAN S.Thumbs up?sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10.USA:Association for Computational Linguistics,2020:79-86.
[11]CHEN W,XU Z Y,ZHENG X Y,et al.Research on sentiment classification of online travel review text[J].Applied Sciences,2020.doi:10.3390/app10155275.
[12]VALDVIA A,VICTORIA LUZON M,HERRERA F.Sentiment analysis in tripadvisor[J].IEEE Intelligent Systems,2017,32(4):72-77.
[13]YU C M,ZHU X Y,FENG B L,et al.Sentiment analysis of Japanese tourism online reviews[J].Journal of Data and Information Science,2019,4(1):89-113.
[14]YANG L,LI Y,WANG J,et al.Sentiment analysis for E-Commerce product reviews in Chinese based on sentiment lexicon and deep learning[J].IEEE Access,2020,8:23522-23530.
[15]MILOLOV T,SUTSKEVER I,CHENK,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems-Volume 2.Red Hook,NY,USA:Curran Associates Inc.2013:3000-3009.
[16]藺璜,郭姝慧.程度副詞的特點范圍與分類[J].山西大學學報(哲學社會科學版),2003,26(2):71-74.
LIN Huang,GUO Shuhui.On the characteristics,range and classification of adverbs of degree[J].Journal of Shanxi University(Philosophy & SociaL Science),2003,26(2):71-74.
[17]嚴仲培,陸文星,束柬,等.面向旅游在線評論情感詞典構建方法[J].計算機應用研究,2019,36(6):1660-1664.
YAN Zhongpei,LU Wenxing,SHU Jian,et al.Construction method of sentiment lexicon for online travel reviews[J].Application Research of Computers,2019,36(6):1660-1664.
[18],et al.Knu korean sentiment lexicon:Bi-LSTM-based method for building a korean sentiment lexicon[J].Journal of Intelligence and Information Systems,2018,24(4):219-240.
[19]趙天銳,劉晨陽.基于深度學習的韓國語影評情感詞典構建[J].信息技術與信息化,2021(1):250-253.
ZHAO Tianrui,LIU Chenyang.A deep learning approach to the sentiment dictionary of korean film critics[J].Information Technology & Informatization,2021(1):250-253.
[20]韋婷婷,陳偉生,胡勇軍,等.基于句法規則和HowNet的商品評論細粒度觀點分析[J].中文信息學報,2020,34(3):88-98.
WEI Tingting,CHEN Weisheng,HU Yongjun,et al.Fine-grained opinion analysis of product reviews based on syntactic rules and HowNet[J].Journal of Chinese Information Processing,2020,34(3):88-98.
[21]李凱.基于詞典與改進信息增益的微博情感分析[D].淮南:安徽理工大學,2019.
LI Kai.Weibo Sentiment Analysis Based on Dictionary and Improved Information Gain[D].Huainan:Anhui University of Science and Technology,2019.
[22]XU G X,MENG Y T,QIU X Y,et al.Sentiment analysis of comment texts based on BiLSTM[J].IEEE Access,2019,7:51522-51532.
[23]陳羽,徐素萍.論程度副詞在書面語和口語內部的層級差異[J].文化創新比較研究,2019,3(22):92-96.
CHEN Yu,XU Suping.On the hierarchy difference between written and spoken adverbs of degree[J].Comparative Study of Cultural Innovation,2019,3(22):92-96.
[24]張宗潔.中英文程度副詞的等級數量含意對比[J].黃山學院學報,2018,20(2):52-56.
ZHANG Zongjie.A comparative study of scalar of Chinese and English degree adverbs[J].Journal of Huangshan University,2018,20(2):52-56.
[25]何霞,杜國平,宗慧.基于中介真值程度度量的模糊語義翻譯研究[J].南京郵電大學學報(自然科學版),2020,40(6):71-77.
HE Xia,DU Guoping,ZONG Hui.Research on fuzzy semantic translation based on intermediate truth degree measurement[J].Journal of Nanjing University of Posts and Telecommunications(Natural Science),2020,40(6):71-77.
[26]敦欣卉.張云秋,楊鎧西.基于微博的細粒度情感分析[J].數據分析與知識發現,2017,1(7):61-72.
GUO Xinhui,ZHANG Yunqiu,YANG Kaixi.Fine-grained sentiment analysis based on weibo[J].Data Analysis and Knowledge Discovery,2017(7):61-72.
[27]李勇泉,李蕊,阮文奇.大型節慶活動微博用戶情感態勢的時空規律——以故宮上元燈會為例[J].華僑大學學報(哲學社會科學版),2019(6):27-38.
LI Yongquan,LI Rui,RUAN Wenqi.Temporal and spatial law of microblog user's emotional state in large-scale festival activities:Taking the Lantern Festival in the Forbidden City as an example[J].Journal of Huaqiao University (Philosophy & Social Sciences),2019(6):27-38.
[28]樊振,過弋,張振豪,等.基于詞典和弱標注信息的電影評論情感分析[J].計算機應用,2018,38(11):3084-3088.
FAN Zhen,GUO Yi,ZHANG Zhenhao,et al.Sentiment analysis of movie reviews based on dictionary and weak tagging information[J].Journal of Computer Applications,2018,38(11):3084-3088.
[29]張青,韓立新,勾智楠.基于詞向量和變分自動編碼器的短文本主題模型[J].河北工業科技,2018,35(6):441-447.
ZHANG Qing,HAN Lixin,GOU Zhinan.Short text topic model based on word vector and variational autoencoder[J].Hebei Journal of Industrial Science and Technology,2018,35(6):441-447.