999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞匯的微博情感分類分析新方法

2020-02-03 05:48:06王晰墨
電子技術與軟件工程 2020年11期
關鍵詞:單詞分類文本

王晰墨

(沈陽化工大學 遼寧省沈陽市 110000)

1 研究意義

當代社會信息快速傳播,人們越來越愛上網瀏覽新聞,發表評論,同時也深受網上信息的影響。例如,在去飯店吃飯的路上,我們就會首先打開評論軟件看一下大家對這家飯店的評論和態度。在買一件東西的時候,也會下意識的看一下其他人對東西的評論。而且我們也越來越愛在各種社交軟件上發表自己的動態,發表自己的日常生活。而微博正是當代最熱門的軟件之一。但是微博上的信息廣泛且雜亂,沒有什么規律,并且用語隨意。而情感分析技術能快速且準確的提取信息,提取主題,對輿論進行監督,快速抓取情感的傾向,所以情感分析的研究意義深遠。

2 常規微博情感分析方法

2.1 依據詞語本身的屬性

對情感詞最簡單的分類分析是通過詞語本身的屬性來區別的,比如可以將詞語的正負屬性作為其中的判決條件之一,如果這個詞是積極的,那么以+1 作為其詞語得分,相反的,如果這個詞表現的是消極的,那么就用-1 作為其詞語的得分。最后我們將句子里所有的單詞的情感得分進行簡單的相加,就會得到一個情感總的分數。最后以情感總分作為整句話的情感定性。有的文章也對情感進行更細化的劃分,分為特別喜歡的,喜歡的,無感的,討厭的,超級討厭的。很顯然,這種計算方法十分的片面,它忽略了上下文之間的銜接性,也忽略了情感之間的聯系性以及在一個句子中看似像是中性的詞匯其實是有著自己的感情傾向的。比如,在這樣一個建議的模型中,“not”作為一個消極詞,其得分為-1,相反的“good”作為一個積極詞匯,其得分為+1。然而當“not good”同時使用時,該語句會被分類到中性詞匯中,但是在實際應用中,人們更傾向于將“not good”分到消極詞語一類。

2.2 監督學習與非監督學習

另一種常見方法是就是利用機器學習算法,例如Adaboost 分類器、支持向量機、線性回歸等方法,通過機器學習的方法可以預測未知數據的情感狀況。但是,這類有監督學習的機器學習方法,在實際應用中,需要根據已知的情感數據作為其訓練集用作參考,并且這類方法的對數據集的規模有較高的要求,需要大量的訓練,這大大增加了工作難度。而非監督的學習適用于樣本數量大,且沒有類別的狀態。

3 神經網絡技術介紹

如圖1 所示,神經網絡不需要我們告訴計算機如何處理問題,而是通過從觀測數據中學習,計算出他自己的解決方案,自動地從數據中學習。神經網絡的結構如下:

3.1 輸入層

輸入層的個數取決于樣本的特征數量。X1,X2,,,Xm 為輸入個數。

3.2 隱藏層

隱藏層就像是“”黑盒子“把輸入的數據特征進行抽象,能更好的線性劃分。

圖3:預測食物詞(藍色)、運動詞(紅色)和天氣詞(綠色)的簇

圖4:基于tweets 訓練數據的logistic 分類器ROC 曲線

3.3 輸出層

輸出期望的特征分類。

4 微博情感分析創新性新方法

本文提出了一種基于Word2Vec 的情感分析新方法,該方法可以對語境、語義進行捕捉,并且可以對數據規模進行壓縮。Word2Vec 包含有兩種不同的方法:Continuous Bag of Words(CBOW)和Skip-gram。

CBOW:可以根據上下文之間的銜接關系來預測當前詞語的幾率。

Skip-gram:通過當前詞語來對上下文的概率進行預判。這兩種方法都是利用人工神經網絡作為其分類算法的基礎。在大量的訓練之后就得到了每個單詞的最優向量。

通過每個單詞的最優向量即可獲得到上下文之間的關聯信息。然后再利用公式來尋找各個單詞之間的關系。利用詞向量可以對未知的數據進行情感狀態的預測。這種算法模型的優點不僅變現在可以銜接上下文語境信息,還可以壓縮數據規模,經實驗檢驗500 個單詞左右的詞匯量可以達到常規分類算法20000 詞匯規模的效果。因為神經網絡可以對語句中的特征信息進行提取,可以減少很多認為的工作。但是對于不同長度的文字段落,我們就只能將所有詞向量的平均值作為一個參考值,從而對整個文本進行分類。

5 情感分類訓練

當通過神經網絡訓練,對情感文本進行分類時,我們可以將各個段落向量作為一個分類單元輸入到情感分類器中,而不用對單個的詞語進行分別處理。這也是當前情感分析領域最優秀的方法。經實驗證明,將此方法應用到微博情感分析分類時,該模型分類錯誤的概率僅為5.32%。在python軟件庫中word2Vec方法是可以調用的。

用word2Vec分類方法可以將各個詞語用高維向量空間來表示,用來承接文本中上下文之間的關系。首先使用word2vec 方法,對情感文本進行訓練提取出各個詞向量的權重,最后根據情感詞典對詞匯的詞性進行評價并篩選出各文本單詞的有用性特征,最后引入人工神經網絡對文本的特征值進行訓練和預測,最終即可達到情感分類的目的。而word2Vec 方法則是為文本情感分類提供了一種新的聚類思路。

圖2 中黃色區域為十分喜歡,綠色為喜歡,紫色為一般,藍色為不喜歡。由此可看出用word2vec 作為基礎方法是可行的。

在訓練完成后,只要輸入想要聚類的詞,即可索引到與其意思最為接近的詞組。

情感詞典的構建:在國內的知網中,中文情感分析用到的詞語集為:

SO-PMI;其中PMI 指的是點互信息,PMI(a,b)=p(a,b)/(p(a)p(b));假設有一個句子的集合,總量為N,其中出現a 的次數為A,出現b 的次數為B;a 和b 同時出現在同一句話中的次數為C,則有p(a)=A/N,p(b)=B/N,p(a,b)=C/N 帶入到公式中就可以算出其PMI 了。

從圖3 可以很好的看出,通過word2vec 情感文本分類新方法可以將不相關的單詞進行很好的分離,并將分離后的單詞進行聚類處理。

經訓練后得到其ROC 曲線如圖4 所示。

當我們利用Scikit-Learn 構建模型并進行神經網絡訓練時,得到的預測精度為87%。我們發現當增加或者刪除標點符號時,預測精度會有所影響,這就說明在使用Word2Vec 模型做聚類處理時,能夠提取到文本中的標點符號所攜帶的信息。在處理單個的詞語時,如果對數據做更多的預處理工作并訓練更長時間,都能夠使模型的預測精度提高。經過實現證明得出結論,在使用人工神經網絡(ANN)模型時可以使預測精度再提高五個百分比達到92%左右。

6 結論

Word2Vec 具有實用性和便捷性。使用一個非常容易而且簡便的算法,我們就可以獲取到非常豐富的詞向量和段落向量,然后就可以把這些向量數據應用到各種各樣的 NLP 應用之中,兩者的結合大大提高了精確度。

猜你喜歡
單詞分類文本
分類算一算
單詞連一連
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 久久精品无码一区二区日韩免费| 亚洲视频免费在线| 日韩无码白| 伊伊人成亚洲综合人网7777| 欧美日韩在线亚洲国产人| 国产h视频在线观看视频| www.亚洲一区| 亚洲一级毛片在线观播放| 国产黑丝视频在线观看| 亚洲精品国产首次亮相| 免费一级毛片在线播放傲雪网| 亚洲欧洲日韩久久狠狠爱| 小说 亚洲 无码 精品| 亚洲av无码久久无遮挡| aaa国产一级毛片| v天堂中文在线| 国产第四页| 国产99久久亚洲综合精品西瓜tv| 久久综合伊人 六十路| 秋霞午夜国产精品成人片| 人人妻人人澡人人爽欧美一区 | 亚洲欧洲日产无码AV| 91美女在线| 欧美国产菊爆免费观看 | 国产色伊人| 国产精品第一区在线观看| 老熟妇喷水一区二区三区| 欧美成人看片一区二区三区 | 国产精女同一区二区三区久| 久久精品中文字幕少妇| 欧洲亚洲一区| 五月天福利视频| 亚洲日本一本dvd高清| 色视频国产| 国产成人在线无码免费视频| 亚洲熟女偷拍| 久久性妇女精品免费| 国产草草影院18成年视频| 国产精品人莉莉成在线播放| 四虎免费视频网站| 精品久久久久久久久久久| 九色91在线视频| 久久综合一个色综合网| 99re热精品视频中文字幕不卡| 成人在线亚洲| 免费A级毛片无码无遮挡| 亚洲日韩AV无码一区二区三区人 | 亚洲第一黄片大全| 天天色综合4| 国产美女精品人人做人人爽| 国产真实乱了在线播放| 伊人激情综合网| 国产成人无码Av在线播放无广告| 亚洲色偷偷偷鲁综合| 国产精品区网红主播在线观看| 99精品这里只有精品高清视频 | 久久中文电影| 热伊人99re久久精品最新地| 欧美中文字幕无线码视频| 激情综合婷婷丁香五月尤物| 国产一级小视频| 国产免费好大好硬视频| 国产精品深爱在线| 色一情一乱一伦一区二区三区小说| 91精品国产情侣高潮露脸| 国产剧情无码视频在线观看| 麻豆精品久久久久久久99蜜桃| 国产69精品久久久久孕妇大杂乱 | 国产精品久久自在自线观看| 亚洲日韩精品无码专区97| 综合色在线| 成年女人18毛片毛片免费| 一本大道在线一本久道| 国产一级视频久久| 性色在线视频精品| 3p叠罗汉国产精品久久| 无码免费的亚洲视频| 55夜色66夜色国产精品视频| 99成人在线观看| 国产精品成人观看视频国产 | 无码视频国产精品一区二区 | 无码aⅴ精品一区二区三区|