999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電商產品評論數據的情感分析

2020-02-03 05:48:12張美頎
電子技術與軟件工程 2020年11期
關鍵詞:數據挖掘文本情感

張美頎

(沈陽化工大學 遼寧省沈陽市 110142)

互聯網行業的高速發展,帶來的是人們越來越喜歡在網絡上公開分享自己對某一事物的看法或情緒,因此微博、商品評論、電影評論等文本信息大量出現。利用信息,并深入的挖掘和分析,可以為消費者和企業提供相關的參照依據,為提高產品的服務與質量提供了數據依據,也可以為政府提供輿情監測和分析。由于網絡上的文本信息量過于龐大,光靠人力是不能夠解決問題的,這時就需要運用當今的信息技術。利用數據挖掘、機器學習等技術對網絡上大量的文本評論進行處理,然后分析其表達的情感傾向,這就是情感分析。主要的工作有抽取評價對象與短語以及搭配關系。

1 確定評論分析目標

首先通過爬蟲技術從京東商城上爬取了“西門子”品牌冰箱的用戶評論數據,并根據評論數據集建立基于商品評論數據的情感分析數據挖掘模型,需要進行數據挖掘建模的目標如下:

(1)根據評論數據分析出“西門子”冰箱用戶使用后的情感傾向;

(2)根據所爬取的評論數據挖掘出“西門子”冰箱所具有的優缺點;

(3)根據對“西門子”品牌冰箱的評論分析,提煉出其它品牌冰箱的賣點。

2 商品評論分析的方法和過程

本文結合從京東商城上以爬蟲技術爬取的“西門子”冰箱的用戶評論數據為基礎建立模型,分別從數據抽取、數據探索與預處理、建模&診斷、結果&反饋等幾個方面對商品評論數據進行分析,然后通過建立以為語義網絡或LDA算法為基礎的數據挖掘模型[3],分析出評論數據情感傾向的分類問題以及其深層次的隱藏含義。分析的流程圖如圖1 所示。

3 數據預處理

根據圖1 中商品評論數據挖掘分析流程圖可知,數據預處理可分為以下3 個部分,分別為:文本去重復、壓縮去詞、刪除短句。

3.1 商品評論數據文本去重復

此步驟的目的主要是為了去除商品評論數據中的重復部分,這樣可以起到去除無用評論和重復評論的目的。一般的文本去重算法的主要思想是利用算法分析文本之間的相似程度,然后根據相似程度的深淺進行文本去重。這類算法包括Simhash 算法、距離去重等。其中距離去重算法是通過計算兩條不同語句間的編輯距離,然后分別對其計算得到的距離閾值進行判斷,如果計算得到的編輯距離與閾值之差為負數,那么將進行去重處理。但是當遇到所要表達意思相近的語句時,該語句也可能因為去重算法而被刪點,這樣就會導致錯刪的情況出現。為了避免錯刪,這里我們采用較為簡單的去重思路,那就是只對完全重復的語句進行去重。

圖1:商品評論數據挖掘分析流程圖

圖2:CBOW 模型

圖3:Skip-gram 模型

圖4:LDA 生成模型

表1:數據集描述

3.2 機械壓縮和短句刪除

雖然進行了文本去重,但是遠未達到數據清洗的目的,因為現實中有一些評論數據中含有一些連續重復的語句,而這些語句并沒有什么實際的意義,所以需要對其進行壓縮,以去掉一些不必要的表達,東西好用好用好用,只需要壓縮為東西好用即可。短句刪除的思想來自于,當機械壓縮完成去詞處理后,應該將過短的句子進行刪除。

3.2.1 壓縮去重復詞

機械壓縮可以去除語句中重復的詞語,在一般的評論中時常會出現一些連續重復的開頭和結尾,因此我們只需要對文本的開頭和結尾進行處理即可。例如:“安裝費怎么這么這么這么貴”。壓縮去重也有其規則,我們可以通過建立兩個字符列表來完成,當讀取到重復詞后,先將重復詞放置在第一個列表中,再將下一個重復詞放置到第二個列表中,以此類推讀取重復字符,當情況不同時觸發相應的詞語壓縮準則,如果再次出現與列表1 和列表2 完全相同的次則對其進行壓縮。根據以上詞語壓縮規則,既可以對開頭或結尾重復的語句進行壓縮處理,這樣即可得到較為精煉的語句。

3.2.2 刪除較短的評論

對短句進行刪除就是通過設置評論字數的最小限制,當評論語句字數小于此最低門限字數限制時即對其進行刪除。

4 商品評論情感分析數據挖掘建模

4.1 結合情感傾向建立模型

首先對現有文本進行訓練,得到相應的詞向量,這樣就可以將文本符號數學化[4],使文本情感分析的問題轉化成了一個深度學習的問題。通常用獨熱編碼、分布式表示來表示詞向量,例如word2vec 模型就是一個分布式表示方法[5]。Word2vec 的核心思想是通過詞的上下文得到詞的向量化表示,利用深度學習的思想,將對文本內容的處理,用向量運算表示,即文本語義上的相似度可以用得到的向量空間上的相似度來表示。Word2vec 包含兩種框架:

(1)CBOW(通過附近詞預測中心詞),本文使用CBOW 框架,結構如圖2 所示。

(2)Skip-gram(通過中心詞預測附近詞)結構如圖3 所示。

4.2 人工標注數據集

在通過詞向量構建得到相應結果后,還需對商品評論文本數據的子集進行人工標注,如果是對商品進行正面積極的評論,那么此評論被標記為1,反之,若此評論語句是對商品進行反面消極的評論,那么此評論則會被標記為-1。評論與向量是一一映射的關系,將語句中所有分詞的詞向量相加之后取平均值,最終得到的詞向量的情感傾向值可以判定為評論的情感傾向[6]。

4.3 基于LDA算法模型對文本主題進行分析

如果從統計學的觀點出發,我們將文本中的主題詞和特征詞進行統計,并對其出現的頻率進行量化。在本文中,運用LDA 算法模型,可以挖掘到更多不同品牌評論中的深層信息。在機器學習和自然語言處理中,LDA算法模型常被用來統計一些抽象的統計模型。LDA 算法是一種無監督深度學習算法。LDA 模型是一種生成模型,如圖4 所示。

LDA 算法模型也叫層貝葉斯概率模型,將文本分為了文檔、語句、詞語的層次結構,可以有效的建立起相應的文本概率分析模型。根據LDA 算法模型[7]的分析,能夠從文本中挖掘到其潛在的主題,進而能夠重點關注文本中的特征詞,精確的把控住文本的大概含義。LDA 模型的生成過程是:先確定一篇文檔D,文檔和主題、主題和詞匯表中的詞分別滿足兩個帶有超參數α 和β 的多項式分布。θ 代表文檔的主題分布,ψ 代表詞分布,其過程就是從θ 中抽取主題,再從其對應的ψ 中抽取一個詞,進行N 次上述操作后得到文檔。這樣,就可以把抽象的文本信息轉化成能夠建立相關數學模型的數字信息[8]。其概率模型公式如公式(1)所示。

5 實驗與結論

本文采用的數據是從京東商城上爬取下來的用戶購買使用后對于西門子冰箱的評論數據,約15000 條,主要信息包括用戶信息,冰箱信息以及文字信息。其中用戶信息包括用戶的名稱、等級;冰箱信息包括外觀外形、制冷效果、保鮮效果、容量大小、噪音大小等;文字信息包括評論者、使用反饋、物品評分、純文字等,表1 是數據的描述。

在數據挖掘、文本聚類等方面,LDA 算法模型被廣泛的應用[9]。相比于其它的文本情感分析神經網絡模型,它引入了狄利克萊函數的先驗概率信息,因此在文本情感分析過程中,該模型有較強的泛化能力,很少產生過擬合。并且該方法是一種無監督的深度學習方法,在只要提供預料數據集的情況下,就可以自動分析并訓練出情感文本[10]的各種情感傾向概率。此算法對于電商評論的情感分析能起到較好的作用。

猜你喜歡
數據挖掘文本情感
探討人工智能與數據挖掘發展趨勢
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 亚洲天堂区| 东京热一区二区三区无码视频| 成年片色大黄全免费网站久久| 亚洲天堂日韩在线| 免费一级毛片| 国产白浆在线| 亚洲AV色香蕉一区二区| 日本一区二区不卡视频| 亚洲天堂伊人| 国产福利小视频在线播放观看| 国产乱人激情H在线观看| 91久久夜色精品| 亚洲日本中文字幕乱码中文 | 亚洲欧洲日产无码AV| 国产幂在线无码精品| 国产真实自在自线免费精品| 欧美狠狠干| 福利国产微拍广场一区视频在线| 久久久久人妻一区精品| 国产人成在线视频| 婷婷激情五月网| 亚洲国产成人无码AV在线影院L| 国产午夜一级毛片| 中文字幕在线日韩91| 国产91熟女高潮一区二区| 国产 在线视频无码| 中国精品自拍| 国产麻豆福利av在线播放| 欧美国产综合视频| 2021国产精品自拍| 高清无码手机在线观看| 无码aaa视频| 欧美一级特黄aaaaaa在线看片| 欧美视频在线播放观看免费福利资源| 国产精品99久久久久久董美香 | 97在线国产视频| 91系列在线观看| 美女毛片在线| 99re在线视频观看| 国产视频a| 亚洲精品福利视频| 亚洲欧洲日产无码AV| 特级aaaaaaaaa毛片免费视频| 精品夜恋影院亚洲欧洲| 在线观看欧美国产| 亚洲色精品国产一区二区三区| 婷婷午夜天| 亚洲黄色视频在线观看一区| 亚洲欧美日韩久久精品| 一级香蕉视频在线观看| 日本亚洲成高清一区二区三区| 欧美劲爆第一页| 国产一级二级三级毛片| 国产成人精品男人的天堂| 国产欧美性爱网| 色视频久久| 精品视频在线观看你懂的一区| 亚洲AV无码久久精品色欲| 波多野结衣中文字幕久久| Aⅴ无码专区在线观看| 欧美精品在线免费| 国产一区二区人大臿蕉香蕉| 欧美成人h精品网站| 99久视频| 中文字幕在线视频免费| 国产欧美在线观看一区| 亚洲性影院| 伊人久久大线影院首页| 精品国产免费人成在线观看| 无码视频国产精品一区二区| 欧美日韩中文字幕二区三区| 2019年国产精品自拍不卡| 大香网伊人久久综合网2020| 69免费在线视频| 国产三级精品三级在线观看| 国产91线观看| 国产精品中文免费福利| 欧亚日韩Av| 中文字幕永久在线看| 成人va亚洲va欧美天堂| 欧美中文字幕无线码视频| 久久黄色毛片|