999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯分類算法在團購餐飲評論中的應用

2017-06-10 01:18:45郭田奇
商情 2017年17期
關鍵詞:分類

郭田奇

【摘要】隨著互聯網的迅速發展,團購作為新興的電子商務盈利模式,已成為整個O2O(Online To Offline)市場不可或缺的一部分 ,對商家和消費者都有一定的引導和借鑒作用,因此運用大數據的方法對團購評論的研究也具有更加現實的意義。本文運用R語言從團購網頁上抓取了蘭州市火鍋店的評論數據,建立語料庫進而實現對評論的篩選,采用樸素貝葉斯分類算法建模,從大量的評論數據中訓練垃圾評論的分類器,通過對已有模型進行改進,使之更加適用于網購評論的分類,最終實現對團購評論的最大化利用。研究結果表明:通過樸素貝葉斯算法模型訓練出的分類器最終對有效評論的識別率達到99.4%,對垃圾評論的識別率達到54.6%,該分類器能準確識別有效評論,對于垃圾評論的識別率有待提高,但仍具有一定的參考價值。

【關鍵詞】R語言 樸素貝葉斯 團購評論 分類

一、研究背景

(一)O2O市場現狀

近年來,資本市場、互聯網巨頭與實體商業紛紛加速布局O2O領域,O2O產業如雨后春筍般在全國各地興起。調查顯示,有43.8%的網民表示喜歡在互聯網上發表評論,其中非常喜歡的占6.7%,比較喜歡的占37.1% 網絡空間已經成為人們發表言論的重要場所。

二線城市團購餐飲美食O2O用戶滲透率為23.2%,網上訂餐訂座O2O用戶滲透率為17.5%。從用戶層面來看,一二線城市餐飲和休閑O2O的用戶滲透率較高,非O2O用戶成功轉化成餐飲和休閑O2O用戶的概率較高,因此餐飲、休閑O2O市場發展已經相對成熟。

(二)研究內容

本文通過分析大量的垃圾評論,設定了一些泛化規則來提取評論所包含的明顯的特征詞,以此作為垃圾評論類的特征項,由于垃圾評論也會隨著網絡用戶的興趣轉移發生變化,為了提高分類器的過濾性能,我們通過對訓練樣本,人工對樣本進行標注,基于樸素貝葉斯的算法思想,通過對蘭州市大眾點評網站上的有關于火鍋店鋪的團購消費的評論數據進行分類,剔除垃圾評論,從而為消費者提供了更為高效的選擇,也為商家提升自己提供了優質數據的支持。

二、基于樸素貝葉斯的垃圾評論過濾算法

基于樸素貝葉斯分類算法的過濾模型包括訓練模塊和分類模塊兩部分,實現步驟首先計算算先驗概率P(C1);

P(C1)=■ (2.1)

P(C2)=■ (2.2)

對訓練集中的所有評論進行分詞處理,統計每個詞的詞頻;依據統計結果以特定的方法提取特征詞,生成特征詞集F=W1,W2,…,Wn計算特征詞Wi的類條件概率P(xi│C),對新輸入的評論進行分詞,特征提取,生成代表該評論的特征向量X;計算P(x│c)和P(c│x)比較兩者計算結果,測試評論屬于概率值較大的那一類。

三、模型求解

(一)數據搜集

本文的數據是基于大眾點評網蘭州市火鍋團購評論數據。數據的爬取工作,主要使用R語言,符合以下特點,認為是垃圾評論:①顯示廣告信息,有超鏈接、色情等;②與餐飲、火鍋和團購沒有關系的評論;③具有人身攻擊或者思想不健康的評論;④含有大量數字和其他符號的。

本文從大眾點評上爬取蘭州市火鍋店的評論數據,共5568條數據。數據分為有效評論和垃圾評論,同時將所有數據分為訓練集和測試集,訓練集為4000條數據,測試集為1568條數據。在訓練集和測試集中有效評論和垃圾評論各自所占的比例為0.11:0.89,0.20:0.80。

(二)模型評估與優化

通過訓練集的數據進行建模,構建樸素貝葉斯分類器,用測試集來評估分類器的表現,預測垃圾評論的準確率偏低,40%左右,原因是不少的垃圾評論被識別為有效評論,垃圾評論在數據集中的分布不均勻,評論中有效詞數量頻率遠高于含有垃圾評論的詞數,導致分類器容易誤判,但分類器對有效評論的識別率高達99.1%。

模型建立詞條-文檔矩陣,擴大進入詞條-文檔矩陣的長度,同時小幅降低進入字典詞語出現的頻率,分類器的識別率由40%上升到54.6%, 通過優化之后的模型,不僅分類器對垃圾評論的識別率大幅提高了將近15個百分點,而且對有效評論的識別率也從99.1%上升到了更為精確的99.4%。

四、結論與展望

本文結合R語言的網絡爬蟲技術,詳細介紹了數據采集的過程,同時給出了基于爬取數據對垃圾評論的定義,運用R語言完成了數據建模,得出了基于樸素貝葉斯的分類器,同時對測試集的數據進行預測和對比,以此來評估分類器的表現,根據預測結果分析分類器對垃圾評論識別準確率偏低的原因,對模型進行了簡單的優化,使分類器對垃圾評論識別準確率顯著提高。

本文對于一些具有明顯特征的垃圾平評論的識別效果不錯,但是對一些沒有明顯特征而且包含大量中性詞語的評論識別效果率不是很好,還有待于進一步的提高和完善,可以考慮從以下幾個方面研究:

(1)很多評論都帶有消費者的主觀感情,因此可以參考情感計算的方法在提取特征詞的時候考慮詞語的感情傾向等問題;

(2)網絡上面的新詞和不合語法的日常用語不斷更新,需要構建一個實時的網絡文本字典,正確區分垃圾評論;

(3)更多的考慮消費者與評論內容所屬行業的聯系,從多角度分析消費者的行為偏好,更加全面的理解消費者的評論內容;

隨著大數據技術的不斷發展,中文文本挖掘的研究也會越來越重要。現階段針對文本分類的研究很多,關于中文分詞的算法也很多,如何將這些研究和算法更好的應用在對垃圾評論的過濾上,值得我們進一步的思考和實踐。

參考文獻:

[1]中國互聯網絡信息中心.中國互聯網絡發展狀況統計報告[R].2015.

[2]王佐仁,楊琳.貝葉斯統計推斷及其主要進展[J].統計與信息論壇, 2012.

[3]許高建,胡學鋼,王慶人.文本挖掘中的中文分詞算法研究及實現[J].計算機技術與發展, 2007.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 91福利片| 国产精品久久久精品三级| 色欲不卡无码一区二区| 国产精品熟女亚洲AV麻豆| 91福利片| 视频国产精品丝袜第一页| 国产精品福利导航| 91偷拍一区| 熟女成人国产精品视频| 精品亚洲欧美中文字幕在线看 | 福利一区三区| 亚洲女人在线| 人人看人人鲁狠狠高清| 中文字幕亚洲精品2页| 亚洲国产成人久久77| 日韩免费毛片| 亚洲男人在线天堂| 欧洲精品视频在线观看| 特级做a爰片毛片免费69| 91久久国产综合精品女同我| 免费又黄又爽又猛大片午夜| 国产欧美高清| 青青操视频在线| 久久精品中文字幕免费| 亚洲开心婷婷中文字幕| 91在线一9|永久视频在线| 国产精品亚洲综合久久小说| 国内a级毛片| 久久一本日韩精品中文字幕屁孩| 无码aⅴ精品一区二区三区| 亚洲综合极品香蕉久久网| 国产美女91呻吟求| 天堂va亚洲va欧美va国产| 91九色视频网| 日本高清有码人妻| 亚洲欧美日韩天堂| 亚洲国模精品一区| 亚洲va在线观看| 91热爆在线| 熟妇丰满人妻| 91成人在线免费视频| 国产资源站| 国产精品人人做人人爽人人添| 天天婬欲婬香婬色婬视频播放| 成人国内精品久久久久影院| 中文字幕 91| 91国内视频在线观看| 精品国产aⅴ一区二区三区| 日本午夜三级| 亚洲三级电影在线播放| 国产成人精品一区二区不卡| 91精品专区国产盗摄| 波多野结衣第一页| 久久久久无码国产精品不卡| 亚洲人在线| 亚洲国产91人成在线| 国产视频入口| 精品伊人久久久大香线蕉欧美 | 欧洲日本亚洲中文字幕| 亚洲国产综合精品中文第一| 日本www在线视频| 噜噜噜综合亚洲| 毛片在线播放网址| 国产精品久久久久久久久久久久| 国产白浆视频| 国产屁屁影院| 国产美女主播一级成人毛片| 2020最新国产精品视频| 欧美日韩北条麻妃一区二区| 91在线无码精品秘九色APP| 亚洲三级成人| 国产一级一级毛片永久| www.91在线播放| 尤物国产在线| 亚洲第一极品精品无码| 不卡网亚洲无码| 91www在线观看| 自拍偷拍欧美日韩| 亚洲欧美日韩成人高清在线一区| 国产午夜看片| 色婷婷电影网| 9久久伊人精品综合|