999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息化的酒店評論情感分析

2022-04-23 01:32:09吳昔遙劉欣凱王孝杰
中國新通信 2022年4期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

吳昔遙 劉欣凱 王孝杰

【摘要】? ? 本文通過爬蟲獲取酒店評論數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、評論內(nèi)容分詞等。為了模型性能更優(yōu),本文對數(shù)據(jù)進(jìn)行特征工程,將其分為兩步:一、使用主成分分析法進(jìn)行數(shù)據(jù)降維;二、使用卡方檢驗(yàn)篩選特征。接下來構(gòu)建分別決策樹和隨機(jī)森林算法并使用處理好的數(shù)據(jù)進(jìn)行訓(xùn)練,通過測試集計(jì)算出兩種算法的ROC性能曲線,發(fā)現(xiàn)隨機(jī)森林算法相比決策樹有著更好的性能,滿足酒店評論情感分析的需求。

【關(guān)鍵詞】? ? 隨機(jī)森林? ? 機(jī)器學(xué)習(xí)? ? 評論分析? ? 機(jī)器學(xué)習(xí)

引言

隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們越來越習(xí)慣于網(wǎng)購,很多人外出住宿都會網(wǎng)上訂購酒店,產(chǎn)生了大量的在線評論[6]。評論信息作為只有入住過的顧客親身體驗(yàn)后的信息,很快就變成了人們看重的酒店服務(wù)質(zhì)量指標(biāo)。現(xiàn)在去哪兒網(wǎng)是中國最大的旅游平臺之一,其中的在線評論由用戶原創(chuàng)且能互動,因此這些評論信息具有很大的挖掘意義[1]。

本文以去哪兒網(wǎng)上的酒店評論信息為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行信息的挖掘,得到酒店情感分析模型。

一、 數(shù)據(jù)爬取和預(yù)處理

(一)數(shù)據(jù)爬取

Scrapy是一個(gè)爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的Python框架, 廣泛利用于數(shù)據(jù)挖掘、信息處理等領(lǐng)域。本文我們使用Scrapy對去哪兒網(wǎng)的酒店信息進(jìn)行爬取。

通過觀察發(fā)現(xiàn),漢庭酒店的某城市下(如廊坊)的所有酒店可在城市頁面得到,具體頁面情況如圖1所示。通過跳轉(zhuǎn)每一個(gè)酒店的頁面來爬取酒店的基本信息,包括城市、名稱、地址、房間數(shù)等;然后爬取酒店的評論信息和評分情況,包括綜合評分、性價(jià)比評分、環(huán)境衛(wèi)生評分等。最終我們得到需要進(jìn)行分析的數(shù)據(jù),部分參數(shù)如表1[2]。

(二)數(shù)據(jù)預(yù)處理

在爬取完相關(guān)數(shù)據(jù)后,需要對數(shù)據(jù)做一些清洗和預(yù)處理,才能做進(jìn)一步的可視化和建立算法。對數(shù)據(jù)使用pandas進(jìn)行導(dǎo)入后,進(jìn)行一系列的預(yù)處理操作,例如對數(shù)據(jù)進(jìn)行連接匯總;對省和市的名稱進(jìn)行清洗,并去除省和市映射的重復(fù)值;對一些數(shù)據(jù)進(jìn)行清洗,轉(zhuǎn)化為數(shù)值類型。經(jīng)過處理后的數(shù)據(jù)集包括434400條樣本,樣本包含四個(gè)屬性,如表2所示[3]。

除上述基本操作外,最重要的操作是將評論信息是用jieba進(jìn)行分詞和關(guān)鍵詞統(tǒng)計(jì)。jieba是一款非常流行中文開源分詞包,具有速度快、準(zhǔn)確、可擴(kuò)展等特點(diǎn),目前主要支持python,其他語言也有相關(guān)版本。它支持多種分詞模式、繁體分詞、自定義詞典等功能。本文將所有評論按照不同評分分組,將評論分成中文的詞語并進(jìn)行詞性標(biāo)注,返回評分、詞語、詞頻。處理后的結(jié)果輸出到csv文件進(jìn)行保存[4]。

(三)中文特征構(gòu)造

在數(shù)據(jù)中評論的評分為1-5,本文將4和5分定義為好評,1和2定義為差評,將評分為3的評論全部刪除。評論中分詞后的詞語實(shí)際上有著一些沒有意義的詞語,通過載入jieba停用詞庫進(jìn)行排除。除此之外還包含一些并無實(shí)際意義的特殊字符也需要對其進(jìn)行篩除,僅保留完全由中文字符組成的詞語。其中詞頻最高的前二十個(gè)詞如圖2所示。

TF-IDF是一種對關(guān)鍵詞進(jìn)行統(tǒng)計(jì)和分析的方式,被廣泛用于預(yù)估一個(gè)詞在文件或語料庫中的重要程度。一個(gè)詞的重要程度跟它在文章中出現(xiàn)的次數(shù)成正比,跟它在語料庫出現(xiàn)的次數(shù)成反比。此方法能有效地避免常用詞對關(guān)鍵詞的影響,提高關(guān)鍵詞與文章之間的相關(guān)性。TF指的是某一個(gè)詞在文章中出現(xiàn)的總次數(shù),通常表示為TF = 某詞在文檔中出現(xiàn)的次數(shù)/文檔的總詞量,這樣可以防止結(jié)果偏向過長的文檔。IDF逆向文檔頻率,包含某詞語的文檔越少,IDF值越大,說明該詞語的區(qū)分能力越強(qiáng)。

本文使用一個(gè)向量化器將文本轉(zhuǎn)換為TF-IDF矩陣。通過設(shè)置文檔中的停用詞,使得停用詞不納入計(jì)算范圍,提高算法的精確性。

二、評論情感分類算法建立

(一)特征工程

模型訓(xùn)練前對數(shù)據(jù)進(jìn)行劃分,訓(xùn)練集為253047條評論,測試集為108450條評論。每一條數(shù)據(jù)由評論id和評論內(nèi)容組成。使用TF矩陣對數(shù)據(jù)進(jìn)行編碼轉(zhuǎn)換,得到1000維的特征向量。

特征工程是從原始數(shù)據(jù)中提取特征的過程,轉(zhuǎn)化后的數(shù)據(jù),可以讓模型更好的擬合問題。經(jīng)過處理,數(shù)據(jù)已經(jīng)轉(zhuǎn)化為1000維的特征向量,通過主成分分析法(PCA)進(jìn)行數(shù)據(jù)的降維,減少冗余信息造成的誤差。畫出所有1000個(gè)特征變量卡方值的直方圖,如圖3所示。可以看出,大部分特征的卡方值都在1000以下,即預(yù)測能力較弱,并不適合進(jìn)行模型的訓(xùn)練。

使用卡方檢驗(yàn)選取預(yù)測能力最強(qiáng)的100個(gè)特征變量,并按照卡方值從大到小排序,前二十個(gè)特征向量如圖4所示。

(二)算法建立

決策樹是將數(shù)據(jù)分為不同的區(qū)域,每個(gè)區(qū)域有獨(dú)立參數(shù)的算法。它基于實(shí)例的歸納學(xué)習(xí),從訓(xùn)練樣本中提煉出樹型模型。決策樹生成分為特征選擇和決策樹生成。特征選擇指從訓(xùn)練集選擇合適的特征為分裂標(biāo)準(zhǔn)。決策樹生成指根據(jù)特征評估,從上到下遞歸生成子樹,直到數(shù)據(jù)集不可分[8]。決策樹模型結(jié)構(gòu)較簡單,訓(xùn)練速度很快,但性能一般。訓(xùn)練時(shí)指定決策樹的相關(guān)超參數(shù)防止過擬合,決策樹最大深度為4,葉子結(jié)點(diǎn)最小樣本為500。使用特征構(gòu)建完的決策樹如圖5所示。

隨機(jī)森林是將多棵樹聯(lián)系起來的集成學(xué)習(xí)算法,它的基本思想是袋裝采樣和決策樹。每棵決策樹都是一個(gè)分類器,而隨機(jī)森林正式集成了所有分類器的結(jié)果,以最靠譜的預(yù)測類別作為最終的輸出。與支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)等算法相比,隨機(jī)森林具有更低的錯誤率,更不易被數(shù)據(jù)噪聲所影響,減少了過擬合,體現(xiàn)了集成學(xué)習(xí)算法的優(yōu)越性[7]。訓(xùn)練時(shí)對隨機(jī)森林的參數(shù)進(jìn)行設(shè)置,決策樹數(shù)量為100,決策樹的最大深度為4,葉子節(jié)點(diǎn)至少包含100個(gè)樣本。

該分類問題是一個(gè)類的分布具有不平衡性,這會損害分類模型的性能。將多數(shù)類的樣本降采樣,使多數(shù)類的樣本數(shù)量與少數(shù)類達(dá)到一致。

在機(jī)器學(xué)習(xí)中,分類器性能評估方法受到了廣泛關(guān)注。ROC曲線是選擇特征參數(shù)及分類閾值的高效工具,可以可視化地評估分類器性能,從而進(jìn)行模型選擇[9]。訓(xùn)練完成后得到模型在測試集上的性能分析,我們發(fā)現(xiàn)此時(shí)因?yàn)闃颖颈壤痪猓藭r(shí)精確度并不是一個(gè)很好的性能指標(biāo),改用ROC曲線來衡量模型性能[9]。

最后得到分別在決策樹、隨機(jī)森林和降采樣后的ROC曲線,如圖6所示。根據(jù)ROC曲線看出,隨機(jī)森林算法在評論情感分析時(shí)有著較好的性能[5]。

三、結(jié)束語

本文通過爬蟲得到酒店評論數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理和特征工程等過程。使用處理好的數(shù)據(jù)進(jìn)行隨機(jī)森林算法和決策樹算法的構(gòu)建,通過對比ROC曲線得出隨機(jī)森林算法相比決策樹有著更好的性能,滿足酒店評論情感分析的需要。

參? 考? 文? 獻(xiàn)

[1]胡譯文. 基于情感傾向的酒店評價(jià)分析與研究[D].哈爾濱工程大學(xué),2018.

[2]王冬旭. 基于Python的旅游網(wǎng)站數(shù)據(jù)爬蟲研究[D].沈陽理工大學(xué),2020.

[3]易小群. 面向智慧出行的酒店評論數(shù)據(jù)可視化技術(shù)研究與實(shí)現(xiàn)[D].西南交通大學(xué),2019.

[4]王鴿. 中文產(chǎn)品評論的情感分析與觀點(diǎn)識別技術(shù)的研究[D].山東科技大學(xué),2018.

[5]呂結(jié)紅. 基于文本挖掘的酒店在線評論研究[D].華中師范大學(xué),2020.

[6]熊偉,郭揚(yáng)杰.酒店顧客在線評論的文本挖掘[J].北京第二外國語學(xué)院學(xué)報(bào),2013,35(11):38-47.

[7]仉文崗,唐理斌,陳福勇,楊甲鋒.基于4種超參數(shù)優(yōu)化算法及隨機(jī)森林模型預(yù)測TBM掘進(jìn)速度[J].應(yīng)用基礎(chǔ)與工程科學(xué)學(xué)報(bào),2021,29(5):1186-1200.

[8]李鵬,雷雨秋,劉宗杰,楊圓,邵明鑫,周瑋.基于決策樹算法的斷路器彈簧操動機(jī)構(gòu)振動診斷技術(shù)[J].高壓電器,2021,57(9):1-8+18.

[9]董元方, 李雄飛, 李軍,等. 基于分辨粒度的gROC曲線分析方法[J]. 軟件學(xué)報(bào), 2013,(1):109-120.

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 国产成人精品亚洲77美色| 免费高清自慰一区二区三区| 国产成人av大片在线播放| 国产超薄肉色丝袜网站| 91久久偷偷做嫩草影院| 欧美日韩亚洲国产| 婷婷综合色| 成人精品视频一区二区在线| 欧美亚洲欧美区| 亚洲精品欧美日本中文字幕| 国产91视频免费| 在线色国产| 国产区精品高清在线观看| 国产精品手机在线播放| 日韩一区二区三免费高清| 黄色一级视频欧美| 第一页亚洲| 欧美成人影院亚洲综合图| 久久精品aⅴ无码中文字幕| 国产午夜不卡| 毛片最新网址| www.亚洲天堂| 欧美日韩精品一区二区在线线| 亚洲婷婷丁香| 日韩二区三区无| 97人人模人人爽人人喊小说| 国产在线日本| 亚洲国产午夜精华无码福利| 国产男女免费视频| 亚卅精品无码久久毛片乌克兰| 国产97视频在线观看| 亚洲av日韩综合一区尤物| 国产精品私拍在线爆乳| 久久久久亚洲av成人网人人软件| 色偷偷男人的天堂亚洲av| 国产精品香蕉| 成人亚洲视频| 国产制服丝袜91在线| 91免费在线看| 成人伊人色一区二区三区| 国产主播福利在线观看| 九九九精品成人免费视频7| 99热这里只有精品免费| 大香伊人久久| 人妻中文久热无码丝袜| 狠狠亚洲婷婷综合色香| 国产欧美日韩综合在线第一| 国产福利微拍精品一区二区| 欧美精品1区2区| 欧洲亚洲欧美国产日本高清| 色综合天天综合中文网| 亚洲男人的天堂久久香蕉网| 亚洲 成人国产| 中国成人在线视频| 伊人久久青草青青综合| 久久精品无码中文字幕| 中国一级特黄大片在线观看| 国内精品小视频在线| 在线国产你懂的| 国产精品久久久精品三级| 亚洲热线99精品视频| 中国国产一级毛片| 国产91麻豆免费观看| 夜夜操国产| 色综合热无码热国产| 欧类av怡春院| 黄色在线网| 精品国产免费第一区二区三区日韩| 成年人久久黄色网站| 免费一级无码在线网站| 亚洲男女天堂| 欧美视频在线播放观看免费福利资源| 国产新AV天堂| 在线观看无码av免费不卡网站| 久热这里只有精品6| 91青青草视频| 视频二区国产精品职场同事| 成人va亚洲va欧美天堂| 国产第一色| 99精品影院| 国产精品无码翘臀在线看纯欲| 国产在线观看一区精品|