999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于商品評論文本的情感分析研究

2018-07-12 13:23:42陶莉娜李超萍李健高榮
現代信息科技 2018年4期
關鍵詞:數據挖掘

陶莉娜 李超萍 李健 高榮

摘 要:隨著互聯網絡科技的迅速發展,越來越多的用戶開始網上購物,網絡中的商品評論數據也隨之增加。如何在大量的評論數據中提取有用的信息,使數據價值最大化是值得重視的問題。本文針對京東網站商品的評論數據進行了情感分析,從中提取有用的信息,幫助商家了解消費者的需求,發現商品的不足之處,并制定改進方案,以提高商品的競爭力。

關鍵詞:數據挖掘;商品評論;情感分析

中圖分類號:TP391.1 文獻標識碼:A 文章編號:2096-4706(2018)04-0019-03

Abstract:With the rapid development of internet technology,more and more users have begun to shop online,and the product review data on the internet has also increased. However,how to extract useful information from a large amount of review data and maximize the value of data is a problem worthy of attention. This article analyzes the sentiment data of JD.com website products,provides useful information to help businesses understand the needs of consumers,discovers the inadequacies of products,and formulates improvement programs to improve the competitiveness of products.

Keywords:data mining;commodity reviews;sentiment analysis

1 主要技術實現

1.1 網絡爬蟲

網絡的迅速發展使互聯網成為大量信息的載體,有效地提取并利用這些信息對我們來說是一個很大的挑戰。為了快速的提取有用信息,我們采取網絡爬蟲技術,它的好處是獲取成本小,可以將網頁上的內容按照一定的格式規范進行有針對性地獲取。

1.2 基于文本情感分析

文本的情感分析是指利用計算機語言、自然語言處理和文本挖掘來辨別文本主觀情感信息的一種手段。一般來說,情感分析是對說話者當時的言語評論或建議的一個情感狀況辨析。其研究內容包括非結構化文本的分詞、情感傾向性分類和情感強度等,它涉及到自然語言處理、文本分詞、機器學習等多個研究領域。本文的研究重點是對商品評論文本所表達的正向或負向情感進行分類[1]。

根據情感分析可明顯發現商品的某些不足之處,對應地采取有效措施提高商品質量,比如采集的榨汁機評論信息,從多數評論中可以看出,用戶對榨汁機的噪音大表現出不滿意,那么產品的生產廠家可做出針對性地改進,以贏得更多客戶的信賴,提高商家形象,可更好地維護與客戶之間的關系[2]。

1.3 評論挖掘算法

Apriori算法能夠快速處理數據,并能進行商品價格對用戶行為等的預測。Apriori算法是一種挖掘關聯規則的頻繁項集算法,其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集。

它是Agrawal[3]等設計的一個基本算法,采用兩階段的思想,并且基于多次掃描事務庫來執行。我們運用的是Apriori算法的改良版,即FP Tree算法。FP Tree算法改進了Apriori算法的I/O瓶頸,巧妙地利用了樹結構,提高了算法運行速度。

2 基于京東網站評論的情感分析

2.1 數據準備

利用Python語言編寫的數據抓取程序具有高效率的特點,此次研究使用python語言編寫程序,爬取京東每類排名前六的商品的評論,保存進數據庫作為數據原料庫。

其中用到Python的一個庫Beautiful Soup,它在用戶爬取網頁信息的時候具有高效的網頁解析效率,能快速從網頁中抓取數據,同時使用多線程來處理網絡請求,加快數據的爬取速度,這樣的開發方式的優點是不但使數據采集系統在大數據量傳輸時的速度有明顯提高,而且該系統的性能也得到了顯著的提升[4]。本系統數據爬取流程圖如圖1所示。

圖1 數據采集流程

2.2 數據的采集過程

數據采集過程主要利用網絡爬蟲技術。使用Python語言來實現數據采集,在爬蟲中使用相應的庫,如request、re、bs4等。數據采集過程為通過獲取目標網頁鏈接,再利用XPath和CSS Selector匹配相應標簽,從而獲取相應的評論信息。但由于數據的龐大,單線程模式無法滿足所需的爬取速度,所以采取多線程模式來爬取商品評論信息,提高爬蟲的整體運行效率。

利用數據采集程序爬取京東某品牌榨汁機商品的部分評論信息樣例如表1所示。

2.3 數據預處理

2.3.1 規范數據

以京東獲取的商品評論作為數據分析庫。但評論信息的隨意性很容易造成數據的噪音。比如現在的網絡用語、錯別字、詞不對意等。這些噪音很容易給情感分析造成一定的影響。所以對商品的評論信息做預處理十分重要。預處理要把一些錯意句、網絡用語和錯別字等用規范的語言修改,最終得到語法與表達規范的評論。網絡用語通過在自定義字典的添加,可以在分詞時分析出情感值。

數據處理中采用結巴分析算法,主要原因是它處理速度快,分詞準確,并帶有新詞發現功能。結巴分詞中提供的詞性(part-of-speech)是詞匯基本的語法范疇,主要用來描述一個詞在上下文的作用。然后利用Aprior算法,計算商品的屬性值。該算法應用廣泛,可用于分析消費市場商品的價格,得出商品的情感值等數據,如表2所示,表中數據為不同品牌的榨汁機、熱水器商品的屬性值。

2.3.2 計算情感值

根據運行的結果可以得到三方面的信息:首先我們可以根據情感值來了解用戶對商品的喜愛程度;其次,可根據情感值的平均值來推測出該商品的總評價趨向;最后,可根據情感值的大小繪制每類特征的情感的波動情況。根據情感值的正負,我們將評價粗略地分成正面評價、中性評價和負面評價。從結果集里選出感情值較為平穩的,看出對該商品的喜愛程度達到70%-80%,可根據其情感區間為負數的商品的不足進行改進。比如,該商品是榨汁機,負面評論大多數為“噪音大”,商家據此改進榨汁機的噪音,改進不足。通過數據分析,得出商品的情感值,圖2為針對某品牌榨汁機噪音小的情感值分布。

3 結 論

本文以京東網為例,研究了如何對產品評論進行情感分析,并闡述了結果對實際的指導意義。本文對評論信息的抽樣數據進行的情感分析結果顯示,以“榨汁機”為例,該款榨汁機噪音大等特征方面的情感值的負面情緒較為明顯,說明消費者對于這部分的評價總體來看是不滿意的,生產者需要對此引起足夠的重視,對產品的不足之處進行改進,以滿足客戶的需求,留住這些表現為負面情緒的用戶,從而提升企業競爭力。在競爭激烈的當前社會,企業的響應速度往往決定了企業的未來,根據產品評論信息對商品做出及時反饋的速度大大高于傳統的人工方式,也比較準確。本文使用的方式將會得到廣泛的應用。

參考文獻:

[1] 張衛.互聯網商品評論情感分析研究 [D].重慶:重慶大學,2016.

[2] 馬妍.商品評論情感分析系統的設計與實現 [D].北京:北京交通大學,2015.

[3] Agrawal R,Srikant R. Fast algorithms for mining association rules [A]. In:Proceedings of the 20th International Conference Very Large Data Base,Santiago,Chile,1994:487-499.

[4] 李弈星.多線程技術的優勢及其在測控系統中的應用 [J].技術與市場,2016,23(11):92.

作者簡介:陶莉娜(1997.04-),女,廣西桂林人,本科。研究方向:數據采集與分析;李超萍(1997.06-),女,廣西來賓人,本科。研究方向:數據采集與分析;李健(1998.05-),男,廣西柳州人,本科。研究方向:數據采集與分析;通訊作者:高榮(1979.02-),男,山東濰坊人,講師。研究方向:數據挖掘。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 欧美啪啪一区| 欧美无专区| 日韩无码黄色网站| 九九视频在线免费观看| 2021精品国产自在现线看| 中文字幕在线播放不卡| 亚洲日韩国产精品综合在线观看| 2021精品国产自在现线看| 精品国产三级在线观看| 国产亚洲精品yxsp| 中文字幕亚洲专区第19页| 亚洲福利视频一区二区| 久久免费成人| 国内精自视频品线一二区| 夜夜高潮夜夜爽国产伦精品| 91视频首页| 欧美日韩北条麻妃一区二区| 国产精品v欧美| 在线精品亚洲国产| 亚洲欧美日本国产综合在线 | 2020国产精品视频| 久久久久久尹人网香蕉| 欧美在线综合视频| 午夜国产精品视频黄| 欧美日韩久久综合| 四虎永久在线精品影院| 在线精品亚洲一区二区古装| 国产成人av一区二区三区| 国产主播福利在线观看| 婷婷亚洲最大| 欧美日韩第三页| 玩两个丰满老熟女久久网| 亚洲区欧美区| 亚洲av无码专区久久蜜芽| 日日噜噜夜夜狠狠视频| 亚洲日本中文字幕乱码中文| 特级毛片免费视频| 制服丝袜一区| 亚洲综合中文字幕国产精品欧美 | 免费观看欧美性一级| 香蕉久久国产精品免| 国产麻豆aⅴ精品无码| 伊人91在线| 免费国产小视频在线观看| 韩日无码在线不卡| 国产精品福利导航| 亚洲永久色| 草逼视频国产| 亚洲欧美精品日韩欧美| 国产人成在线视频| 国产区成人精品视频| 91在线免费公开视频| 色老头综合网| 国产成人超碰无码| 波多野结衣第一页| 伊人久久大香线蕉成人综合网| 中文无码影院| 精品无码国产一区二区三区AV| 五月婷婷丁香综合| 亚洲综合中文字幕国产精品欧美| 国产欧美高清| 欧美黄网在线| 日韩精品中文字幕一区三区| 国产午夜不卡| 国内精品自在自线视频香蕉| 国产综合另类小说色区色噜噜| 国产爽爽视频| 激情综合网址| 亚洲美女一区| 伊人91在线| 成年A级毛片| 伊人久久精品无码麻豆精品 | 国产在线视频自拍| 波多野结衣一二三| 久久国产精品娇妻素人| 性色在线视频精品| 国产精品白浆无码流出在线看| 欧美a在线看| 日本高清在线看免费观看| 亚洲日本一本dvd高清| 午夜福利网址| 亚洲日韩久久综合中文字幕|