999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于增強字向量的微博觀點句情感極性分類方法

2017-04-07 01:30:08王素格李德玉
鄭州大學學報(理學版) 2017年1期
關鍵詞:分類情感方法

廖 健, 王素格,2, 李德玉,2, 王 杰

(1.山西大學 計算機與信息技術學院 山西 太原030006; 2. 山西大學 計算智能與中文信息處理教育部重點實驗室 山西 太原030006)

基于增強字向量的微博觀點句情感極性分類方法

廖 健1, 王素格1,2, 李德玉1,2, 王 杰1

(1.山西大學 計算機與信息技術學院 山西 太原030006; 2. 山西大學 計算智能與中文信息處理教育部重點實驗室 山西 太原030006)

針對微博觀點句識別及情感極性分類任務,提出了基于增強字向量的微博觀點句情感極性分類方法.使用單字作為句子表示的基本單元,同時在單字中嵌入了該字所在的詞信息以及該詞的詞性信息,以此訓練得到字向量替代傳統的詞向量融合的句子表示方法.使用基于K-means的方法對向量化的句子進行情感判別,僅需要對文本進行分詞和詞性標注,無需額外的語言學資源.在COAE2015任務2的微博句子數據集上進行測試,取得了較好的結果.

增強字向量; 觀點句分類; 深度學習

0 引言

以微博為代表的社交網絡的興起使得每一個網民都能自由地表達自身的觀點、態度、情感等主觀性信息.截至2015年12月,我國微博用戶規模為2.04億.分析和監測微博所包含的情感信息,能夠了解廣大網民對某產品、人物或者事件的關注程度和情感變化,為決策者提供實時科學的理論依據,具有巨大的商業價值和社會價值,也給自然語言處理(NLP)帶來了新的機遇和挑戰.

微博觀點句情感分析的主要目的就是從用戶發布的微博中識別含有觀點的句子,并判斷其情感極性.目前研究主要集中于基于人工特征工程和基于機器學習的方法.基于人工特征工程的方法通常采用情感詞典和規則相結合,通過在已有的詞典或知識庫資源進行一定的擴展生成情感傾向詞典,或是預先建立一個傾向性語義規則集,進而實現對文本的情感識別.例如,文獻[1]提出一種整合語言學現象、常識推理的概念層的情感分析方法.基于機器學習的方法通常是將情感分析問題看作是一個分類問題,標注好的訓練集通過機器學習算法,以情感詞、主題相關特征等作為分類特征訓練得到分類模型,用于以后的情感分類.例如,文獻[2]在Twitter數據集上實現了基于樸素貝葉斯、支持向量機和條件隨機場的情感分類器,取得了良好的效果.

近年來,深度學習成為NLP領域最熱門的研究之一.對于句子的表示學習,主要有使用詞表示的組合和直接學習句子的分布兩種方法.卷積神經網絡(CNN)[3-4]是一種有效的對句子進行建模的方法,其核心就是對語言片段中出現的詞進行窗口平滑,利用平滑后句子向量進行后續的NLP相關研究.文獻[5]使用遞歸循環神經網絡(RNN)訓練句子表示,RNN剔除了窗口限制,可以充分利用所有上文信息來預測下一個詞.文獻[6]通過將句子ID號作為一個輸入單元訓練,以學習到的向量作為該句子的表示.文獻[7]使用深度置信網,從自動標注的語料集中學習句向量作為獨立的補充特征,可用于微博情緒分類.針對傳統以詞為基本單元的方法在對語言表達建模上存在精度刻畫不足的問題,文獻[8-9]在英文字符級粒度上進行語言建模,這類工作使用字符級的n-gram,并使用CNN學習其特征表示,提高了在語音識別和文本分類上的效果.文獻[10]在詞向量的基礎上,聯合學習了漢字向量,并設計了基于位置和基于聚類的字向量學習方法,將字向量作為詞向量的額外補充信息.這類方法仍是以詞作為主要建模對象,字符表示僅僅作為詞的補充信息.

本文提出了基于增強字向量的微博觀點句情感極性分類方法,使用單字作為句子表示的基本單元,同時在單字中嵌入了該字所在的詞信息以及該詞的詞性信息,以此訓練得到字向量替代傳統的詞向量融合的句子表示方法.利用給定的樣例集信息,使用K-means聚類對向量化的句子進行情感判定.該方法僅需要對文本進行分詞和詞性標注,無需額外的語言學資源.

1 基于增強字向量的觀點句分類

使用合適的句子表示方法是句子級情感分析的核心.傳統基于詞袋模型或詞向量的方法以詞為基本單元進行建模,忽略了更細粒度的字之間含有的語言信息.本文提出了基于增強字向量(enhanced-character vector, ECV)的微博觀點句情感極性分類方法.

1.1 增強字向量訓練

借助Google的Word2vec開源詞向量工具,選用基于霍夫曼編碼的Skip-gram神經網絡模型[11-12]為基礎進行改造,提出了基于ECV的訓練框架,該框架與Skip-gram模型的關系如圖1所示.

給定一個詞wi,Skip-gram模型首先將其映射成一個連續向量ei,使用該映射來預測詞wi的上下文窗口內的詞語wi-n,…,wi-1, wi+1,…, wi+n,2n為窗口大小.優化目標是最大化如下的對數似然:

(1)

其中:

(2)

(3)

式中:σ為Sigmoid函數.在Word2vec的代碼實現中,由輸入向量v(wi)→e(wi)的映射采用的是恒等映射,即v(wi)=e(wi),因此(2)式可以等價為

(4)

為使該模型適應以字向量為基本單元的需要,文本的輸入為三元組ti=〈ci,wi,posi〉, 映射函數設置為

e(ti)=concatenate(Vci,Vwi,Vposi).

(5)

將式(3)、(5)代入式(2)并展開,得

整個模型的對數似然函數為

(7)

使用梯度上升法計算該對數似然的優化,有

(8)

因此,參數更新公式為

(9)

(10)

因為輸入向量三元組ti分別由字向量、詞向量和詞性向量拼接而成,每次迭代完成后,對于得到的上下文向量V(u)也是ti的上下文三元組向量.可以通過將V(u)分別與一個對應位置為1,其余為0的0-1向量作內積截取得到ti中的字、詞、詞性向量表示.而在實際實驗中,因為只需使用三元組ti拼接后的向量表示信息,同時也為了加快模型的訓練速度,在初始對每個三元組單元ti隨機賦值后,在模型迭代過程中將直接使用三元組ti的向量作為下一次迭代的輸入,不再進行拼接與截取操作.

1.2 基于boostrapping的主題詞擴展算法

由于微博文本具有開放性,利用給定小規模樣例中的對象詞作為種子集,使用bootstrapping算法擴展主題詞集合,以濾除主題無關的句子.擴展算法(算法1)如下:

Input: 初始種子主題詞集Sseed,全語料詞集Sall;

Output: 擴展主題詞集Swt.

1: Initialize Swt=Sseed

2: for each word wiin Sall

3: for each word wtjin Swt

4: if wi∈k-NN(wtj) and sim(wtj,wi)≥α

5: Swt=Swt∪{wi}

6: Sall=Sall/{wi}

7: end if

8: end for

9: end for

10:repeat steps 2~9 until Swtno longer change

算法1中k-NN(wtj) 為與種子詞wtj最相似的k詞集合,sim(wtj,wi)表示候選詞wi與種子詞wtj之間的相似度,α為給定閾值參數.經過擴展的主題詞詞典可以有效過濾掉部分主題無關句子,同時可以為觀點句表示提供額外的主題信息.

1.3 觀點句表示

經過1.1訓練得到的字向量,需要對其進行組合以表示句子向量.同時,為了加強主題詞的權重,將主題詞的詞向量拼接到句向量中,句子的向量表示為

(11)

式中:{ck}、{wtk}分別為句子Sk中包含的字集和主題詞集.

1.4 基于K-means的觀點句極性判別算法

使用K-means聚類方法判定觀點句的情感極性,用給定小規模樣例中的句子情感標簽提供初始的情感信息,分別以各情感標簽下句子向量的均值作為初始聚類中心.基于K-means的觀點句極性判別算法(算法2)如下:

Input: 初始樣例句子向量集 Ssample, 待分類句子向量集S;

2: for each sentence Siin S

3:if max(sim(VSj,VCi))≥β

5:{LLabel(Sj)}={LLabel(Sj)}∪{Sj}

6: S=S/{Sj}

7: end if

8: end for

算法2中Ssample-i表示樣例句子集中類別標簽為i的句子,AVG(·)為取向量均值函數,K為類別標簽個數,β為待測閾值參數.

2 數據與實驗

2.1 數據集

使用COAE2015任務2提供的微博句子語料[13]進行實驗.該任務是給定較大規模的微博句子集,要求參賽系統識別其中的觀點句并判定觀點極性.語料規模共計文本50 000篇,133 202條句子,涉及手機、美食、汽車、新聞、娛樂等領域.

2.2 實驗與結果分析

根據算法1和算法2可知,α和β取值越大,則識別出的觀點句精確率越高,反之召回率越高.經過多次實驗綜合考慮,將參數設為α=0.5,β=0.4.具體過程如下:

1) 使用ICTCLAS對所有句子進行基礎分詞.

2) 以給定樣例中的對象詞為種子集,使用Word2vec學習得到種子集和待測數據中詞語的詞向量.為使訓練的詞向量更加精確,在COAE2015任務2數據集的基礎上,額外加入了COAE2014任務3的1 000萬條無標簽微博數據,合并進行學習.得到詞語的詞向量后,根據1.2節擴展主題詞集Swt.

3) 利用Swt對任務數據集進行篩選,得到63 716句.

4) 利用1.1節在全部任務數據上使用Word2vec學習增強字向量.

5) 利用1.3節得到3)中句子的向量表示.

6) 使用1.4節的算法對句子進行情感極性判定.

本文方法參與了COAE2015任務2評測,實驗結果如表1所示.可以看出,本文方法在限定資源使用的提交答案中處于中上水平,其中宏平均F1值在全部18個run中排名第4.分析結果發現:① 本文結果中召回率與最好值差距較大.原因是本次評測不限制各單位提交的結果數,提交結果共計6萬余條,相對其他單位提交結果較少,一定程度上使得本文召回率相對較低.② 對于混合情感極性的結果相對較差.一方面說明基于字向量方法對于混合情感類的句子相對欠缺,另一方面由于給定樣例中混合句子比例過少(占全部樣例的14%),使得初始聚類中心并不準確.③ 準確率與最好值相比還有一些不足.主要是因為本文是以單字為基礎單元,相比詞匯級粒度其多義性問題更加嚴重.在后續的實驗中嘗試加入了單字所屬詞的情感極性特征,然而其分類效果不升反降,是由于在單字組詞過程中,其有較高概率同時出現在褒義詞和貶義詞中,使得加入的情感特征對于單字表示產生了負面影響,特別是對混合情感的判定尤為明顯.此外,在實驗中發現,在全部句子中顯示含有限定情感詞典中的情感詞的句子只有約1萬句,大部分句子無法通過情感詞典獲得有效的情感信息.

表1 實驗結果

3 小結

提出了基于增強字向量的微博觀點句情感極性分類方法,使用單字作為句子表示的基本單元,同時在單字中嵌入了該字所在的詞信息以及該詞的詞性信息,以此訓練得到字向量替代傳統的詞向量融合的句子表示方法.利用給定的樣例集信息,使用K-means聚類對向量化的句子進行情感判定.在COAE2015任務2數據集上的實驗結果表明,基于字向量的觀點句情感極性分類具有一定的可行性.

在未來的工作中,針對性地解決單字的多義性問題,將歸屬于不同語義、情感的單字分別學習其表示,而不僅僅以所屬詞匯進行區分,以達到更精準的表示效果.同時,任務數據為開放領域,而本文方法利用了給定的小規模樣例數據集提供初始主題種子和情感信息,樣例信息的不完備對最終結果有一定影響.此外,本次評測數據是以篇章-句子二級粒度的形式,在今后的工作中還需要充分考慮篇章內的上下文信息,進一步完善對于混合情感句的識別方法.

[1] PORIA S, CAMBRIA E, WINTERSTEIN G, et al. Sentic patterns: dependency-based rules for concept-level sentiment analysis[J]. Knowledge-based systems, 2014, 69(1): 45-63.

[2] PAK A, PAROUBEK P. Twitter as a corpus for sentiment analysis and opinion mining[C]// Proceedings of the International Conference on Language Resources and Evaluation. Stroudsburg,2010: 1320-1326.

[3] BLUNSOM P, GREFENSTETTE E, KALCHBRENNER N. A convolutional neural network for modelling sentences[C]// Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg,2014:655-665.

[4] KIM Y. Convolutional neural networks for sentence classification[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, 2014:1746-1751.

[5] MIKOLOV T, KARAFIT M, BURGET L, et al. Recurrent neural network based language model[C]// Proceedings of 11th Annual Conference of the International Speech Communication Association.Chiba, 2010: 1045-1048.

[6] LE Q V, MIKOLOV T. Distributed representations of sentences and documents[C]// Proceedings of the 31st International Conference on Machine Learning. New York, 2014: 1188-1196.

[7] TANG D, QIN B, LIU T, et al. Learning sentence representation for emotion classification on microblogs[C]// Proceedings of Natural Language Processing and Chinese Computing. Berlin, 2013: 212-223.

[8] SANTOS C N D, ZADROZNY B. Learning character-level representations for part-of-speech tagging[C]// Proceedings of the 31st International Conference on Machine Learning. New York, 2014: 1818-1826.

[9] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[C]// Proceedings of the Advances in Neural Information Processing Systems. Montreal,2015: 649-657.

[10]CHEN X X, XU L, LIU Z Y,et al. Joint learning of character and word embeddings[C]// Proceedings of International Joint Conference on Artificial Intelligence. San Francisco, 2015:1236-1242.

[11]MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J].Computer science,2013:1-12.

[12]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// Proceedings of the Advances in Neural Information Processing Systems. South Lake Tahoe,2013: 3111-3119.

[13]JIAN L, YANG L, SUGE W. The constitution of a fine-grained opinion annotated corpus on Weibo[C]//15th China National Conference on Computational Linguistics.Yantai, 2016: 227-240.

MinistryofEducation,ShanxiUniversity,Taiyuan030006,China)

(責任編輯:孔 薇)

Sentiment Classification of Weibo Opinion Sentences Based on Enhanced-character Vector

LIAO Jian1, WANG Suge1,2, LI Deyu1,2, WANG Jie1

(1.SchoolofComputerandInformationTechnology,ShanxiUniversity,Taiyuan030006,China; 2.KeyLaboratoryofComputationalIntelligenceandChineseInformationProcessingof

A method based on enhanced-character vector was proposed for the identification and classification of Weibo opinion sentences. The characters, which embedded the corresponding information of words and part-of-speech, were used as the basic unit for sentence representation instead of words. Then a method based on K-means was adopted for sentence polarity classification. The proposed method was almost free of linguistic resources (except POS tags), and required no elaborated linguistic rules. Experiment on the data of COAE2015 task 2 showed that this method achieved good results.

enhanced-character vector; opinion sentence classification; deep learning

2016-11-24

國家自然科學基金項目(61632011,61573231,61672331,61432011);山西省科技基礎條件平臺計劃項目(2015091001-0102);山西省回國留學人員科研項目(2013-014).

廖健(1990—),男,湖北鄂州人,博士研究生,主要從事細粒度情感分析研究,E-mail:liaojian_iter@163.com;通訊作者:王素格(1964—),女,河北定州人,教授,主要從事自然語言處理研究,E-mail:wsg@sxu.edu.cn.

TP391

A

1671-6841(2017)01-0039-06

10.13705/j.issn.1671-6841.2016327

猜你喜歡
分類情感方法
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产欧美性爱网| 国产在线视频导航| 欧美翘臀一区二区三区| 国产精女同一区二区三区久| 99色亚洲国产精品11p| 尤物在线观看乱码| 在线免费看片a| 77777亚洲午夜久久多人| 2019年国产精品自拍不卡| 国产精品无码一区二区桃花视频| 亚洲日韩在线满18点击进入| 人妻精品全国免费视频| 一级福利视频| 四虎精品免费久久| 一区二区三区在线不卡免费| 中文字幕亚洲综久久2021| 国产AV无码专区亚洲A∨毛片| 国产又色又爽又黄| 亚洲精品视频免费| 激情综合婷婷丁香五月尤物| 亚洲中文无码h在线观看| 国产精品亚洲一区二区三区在线观看| 国产高清精品在线91| 国产91高跟丝袜| 日韩精品亚洲人旧成在线| 一级毛片基地| 久久免费视频6| 久久美女精品国产精品亚洲| 亚洲水蜜桃久久综合网站| 国产主播在线观看| 亚洲欧美天堂网| 婷婷色中文网| 欧美一级一级做性视频| 国产一区二区影院| 在线视频精品一区| 无码国产伊人| 国产爽妇精品| 美女黄网十八禁免费看| 国产精品久久久久久久久| 永久免费av网站可以直接看的 | 日韩精品资源| 国内熟女少妇一线天| 国产97视频在线| 国产精品 欧美激情 在线播放| 精品少妇人妻av无码久久| 久久综合伊人 六十路| 国产在线自乱拍播放| 国产又色又爽又黄| 欧美国产另类| 亚洲第一中文字幕| 色天天综合| 色综合综合网| 蜜芽一区二区国产精品| 国产精品欧美在线观看| 亚洲国产天堂久久综合| 色一情一乱一伦一区二区三区小说| 欧美成人手机在线观看网址| 72种姿势欧美久久久大黄蕉| 成年人国产视频| 亚洲手机在线| 亚洲性一区| 免费一看一级毛片| 日韩欧美高清视频| 成人免费网站久久久| 国产福利拍拍拍| 亚洲Va中文字幕久久一区| 欧美区国产区| 久久综合色视频| 一级毛片在线播放| 亚洲成a人片7777| 亚洲视频四区| 无码国内精品人妻少妇蜜桃视频| 精品国产香蕉在线播出| 中文字幕亚洲无线码一区女同| 亚洲天堂区| 激情五月婷婷综合网| 亚洲综合经典在线一区二区| av手机版在线播放| 亚洲国产高清精品线久久| 日本a∨在线观看| 国产精品所毛片视频| 9999在线视频|