999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python爬蟲的豆瓣電影影評數據可視化分析

2021-04-04 11:59:28蔡文樂周晴晴劉玉婷秦立靜
現代信息科技 2021年18期
關鍵詞:可視化

蔡文樂 周晴晴 劉玉婷 秦立靜

摘? 要:利用Python網絡爬蟲技術對豆瓣熱度較高的電影《你好,李煥英》的影評數據進行了爬蟲分析,根據爬蟲所得到的影評數據信息,制作了影評詞云圖,通過數據可視化技術,對影評分數分布、評論數量與時間的關系,以及評論數量與城市分布的關系進行了相關的分析研究,從而直觀地展示了電影上映后觀眾的觀影感受,同時也為其他用戶提供了些許觀影參考。

關鍵詞:Python;爬蟲;影評;可視化

中圖分類號:TP391.1 文獻標識碼:A 文章編號:2096-4706(2021)18-0086-05

Abstract: The Python web crawler technology is used to make the crawler analysis to the film review data of the film Hello, Li Huanying with high popularity of Douban. According to the film review data information obtained by the crawler, the cloud map of film review words is made. Through the data visualization technology, the distribution of film review scores, the relationship between the number of reviews and time, and the relationship between the number of reviews and urban distribution are analyzed and studied, so as to intuitively show the audiences viewing experience after the film is released, and also provide some viewing references for other users.

Keywords: Python; crawler; film review; visualization

0? 引? 言

國內電影市場增長迅速,中國已成為世界第二大電影市場,并在不斷縮小與北美市場的差距,電影業迸發出強勁活力[1]。如今,觀眾觀看影視作品更加注重選擇符合自己的價值觀,電影制作有新意、有意義的電影,而不選擇單純博人眼球,利用流量明星賺取票房的電影。豆瓣電影作為中國最大的電影分享與評論社區,可提供最新的電影介紹及相關評論,并根據個人喜好,向用戶推薦電影,同時,用戶也可以根據電影的打分和影評選擇是否觀看一部電影,所以,對大量的影評數據進行深入分析,了解大眾對電影的態度以及電影本身的特色,為觀影者提供正確的導向是非常有意義的。在現在各種資源充斥的時代,有些電影人們一致認為他的質量有待提高,但是仍然會有少數的人選擇去觀看,利用網絡數據爬蟲,可獲取到更加真實、全面的、有價值的數據信息[2]。

互聯網的快速發展,迎來了一個關于大數據的嶄新時代,每個人的一切都關乎著各種各樣的數據,而且人們也越來越注重數據所帶來的價值。如今,萬維網已成為大量信息的有效載體,可是對有效信息的提取和利用卻成為了一個巨大的挑戰。利用網絡爬蟲技術,通過網站所允許的合法途徑,我們可以方便快捷地獲取到目標網頁的數據,從而對獲取到的數據進行分析研究,挖掘出數據背后的價值。

本文基于Python語言,結合網絡爬蟲技術,對當下熱門電影《你好,李煥英》的影評數據進行數據爬取,并通過數據可視化技術,對影評中有價值的數據信息進行分析研究,直觀地展示出觀影者對熱映電影最真實的感受。

1? 網絡爬蟲原理

網絡爬蟲技術實際上就是一種互聯網處理數據的機器人,它通過爬取互聯網上網站上的內容來工作,采用計算機編寫的語言或者腳本,有既定的目標,有選擇地去訪問網頁,并建立鏈接,自動地從網頁上爬取所需要信息。網絡爬蟲,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,可以自動采集所有其能夠訪問到的頁面內容[3]。爬蟲是從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件,可以抓取在不同URL之下的各種文章,鏈接和圖片等,是一個從web上自動下載網頁的計算機程序[4]。爬蟲的基本過程可以分為四步:向服務器發出請求,腳本通過 HTTP庫向目標站點發出Request請求,請求的內容可包含headers等信息,等待對方服務器響應;獲取響應內容,得到一個包括爬取頁面內容的Response,然后進行下一步的數據解析[5];解析數據內容,響應中所包含的內容可能有多種形式,可使用直接處理、正則表達式、爬蟲的解析庫等方法進行解析;保存所需數據,將數據保存至任何特定格式的文件或文本中,也可保存至數據庫或表格中[6]。

2? 獲取影評數據

2.1? 網頁源碼抓取

本文選取最近上映的,熱度較高的電影《你好,李煥英》進行數據的爬取。通過目標網址https://movie.douban.com/subject/34841067/comments進入豆瓣電影《你好,李煥英》的影評界面。通過分析URL發現,每個subject/后面都有一個固定的數字代表某一部特定的電影,34841067代表的電影就是《你好,李煥英》。基于python的selenium庫模擬瀏覽器操作的方法,找到相應的網址頁面,將網頁和網頁內容進行分離,抓取網頁源碼,提取其中的關鍵信息,將抓取后的數據存放在數據庫或者表格文件中。通過Chrome瀏覽器的開發者工具,就可以看到源代碼,如圖1所示。gzslib202204051159

網頁源碼抓取:

from selenium import webdriver

import pandas as pd

url = ‘http://movie.douban.com/subject/34841067/comments?ststus=p

drive = webdriver.chrome()

drive.get(url)

如圖2所示。

2.2? Xpath解析網頁數據

Xpath采用類似于正則表達式來匹配HTML文件中的內容,其中的謂語用來查找某個特定的節點或者包含某個特定值的節點,對一些函數進行模糊搜索。使用路徑表達式來選取XML文檔中的節點或者節點集,節點是通過路徑(path)或者步(steps)來選取的。通過解析代碼找到用戶的信息,評分,發布時間,短評等相關內容,如圖3所示。

從網頁源碼中提取的數據(主要有用戶的短評、好評差評,以及電影的評分、觀影者的居住城市、評論時刻的變化情況),以csv格式的文件存儲,爬取的數據如圖4所示。

部分代碼為:

names=dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/a/text()')#獲取用戶名信息

ratints=dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/span[2]/@class')#評分

times=dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/span[@class="comment-time "]/@title')#評論發布時間

messages=dom.xpath('//div[@class="comment-item "]/div[@class="comment"]//span[@class="short"]/text()')#短評正文

user_url=dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/a/@href')#用戶主頁網址

votes=dom.xpath('//div[@class="comment-item "]/div[@class="comment"]//span[@class="votes"]/text()')#贊同數量

3? 數據可視化

3.1? 影評詞云圖

數據可視化主要是借助圖形化的手段,直觀地傳達關鍵的內容與特征,從而實現對數據的深入洞察和分析了解。詞云圖由頻繁出現的詞匯組成類似云的彩色圖形,用于展示大量的電影熱評的文本數據。借助Python的jieba庫獲取關于影評內容的中文分詞,然后再根據爬取到的評分數據,得到如圖5所示的詞云圖。

《你好,李煥英》是一部親情題材的喜劇電影,以賈玲回憶母親為主線,電影上映后,引起了許多觀眾的共鳴。通過圖5的影評詞云圖可以看到,關鍵詞就是“媽媽”“賈玲”“女兒”等,而這些熱點詞匯也和電影的主題相契合。圖5中還出現“煽情”等詞匯,由此可見,觀眾的觀影感受不盡相同,對電影的喜愛程度也不同。

詞云圖繪制部分代碼為:

def my_word_cloud(data=None,stopWords=None,img=None)

datacut = data.apply(jieba.lcut)

data.After = dataCut.apply(lambda x:[i for i in x if i not in stopWords])

wordFre = pd.Series(_flatten(list(dataAfter))).value_counts()

mask = plt.imread(img)

wc.fit_word(wordFre)

plt.imshow(wc)

plt.axis(‘off)

3.2? 評分分數分析

從爬取到的數據中取出評分數據,對其進行統計,并繪制餅圖,如圖6所示。從餅圖的評分分數分布來看,來自北京的觀眾對《你好,李煥英》電影的支持度最高,其次是江蘇南京,其他各地區觀眾的評分都相差不大。總體來說,這部電影的評分還是很高的,說明觀眾對整部電影的認可度還是比較高的,由此可以看出人們喜好還是更加傾向于此類電影。

分析用戶評論與評論發表日期之間的關系,如圖7所示,可以直觀的看到,評論的數量隨著時間的推移逐漸減少,而評論數量的高峰期就是在電影的上映時間2021年2月12日左右,之后逐漸變緩慢,這也和現實相吻合,在電影剛上映的時候,觀眾的新鮮感比較強,之后,隨著時間的推移,關注度逐漸降低,影評數量也隨之減少。

分析評論數量與時間關系的部分代碼為:

Num=pd.to_datatime(data[‘發表時間]).apply(lambda x: x,hour).value_counts()

Num=num.sort_index()

plt.plot(range(len(num)),num)

plt.xticks(range(len(num)),num.index)

plt.title(‘評論數量隨時間的變化情況)

plt.grid()

3.3? 評論數量與城市分布分析

隨著觀影選擇和影片類型的日益增多,觀眾慢慢形成了自己的一些觀影習慣,電影市場也早已不是“全國上下一盤棋”,各地觀眾的觀影口味早已出現了分化,電影行業的地域差異也越來越顯著。通過統計每個城市觀影者發布的評論數量,繪制出評論數量最多的十個城市,如圖8所示,發布評論數量最多的城市是北京,其次是上海,其他各城市發布的評論數量基本持平。圖8也反映出在電影類型、影片風格方面,觀影者的需求差異比較大,同一部影片在各個地區的活躍程度不盡相同。

4? 結? 論

本文基于Python編程語言,以豆瓣電影《你好,李煥英》為爬取目標,完成了對影評數據的爬取和分析,并使用可視化方法展示了影評詞云圖、評分分數分布、評論數量與時間及分布城市的關系,通過這些數據的提取,全面挖掘了影評背后的關鍵信息,為電影行業研究觀眾的喜好和電影行業的發展提供了參考。

參考文獻:

[1] 辛雨璇,王曉東.基于文本挖掘的電影評論情感分析研究 [J].牡丹江師范學院學報(自然科學版),2021(1):25-28.

[2] 高雨菲,毛紅霞.基于Python的豆瓣影視短評的數據采集與分析 [J].現代信息科技,2020,4(24):10-12+16.

[3] 黃蓉,毛紅霞.基于豆瓣網某系列電影數據采集與可視化分析 [J].現代信息科技,2020,4(23):4-7.

[4] 黃子豪,張舒.網絡爬蟲對互聯網安全的影響及“反爬”策略的研究 [J].科學技術創新,2021(10):120-121.

[5] 簡悅,汪心瀛,楊明昕.基于Python的豆瓣網站數據爬取與分析 [J].電腦知識與技術,2020,16(32):51-53.

[6] 成文瑩,李秀敏.基于Python的電影數據爬取與數據可視化分析研究 [J].電腦知識與技術,2019,15(31):8-10+ 12.

猜你喜歡
可視化
自然資源可視化決策系統
北京測繪(2022年6期)2022-08-01 09:19:06
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
主站蜘蛛池模板: 精品福利视频网| 亚洲男人在线天堂| 欧美性久久久久| 综合五月天网| 国产成a人片在线播放| 18黑白丝水手服自慰喷水网站| 在线国产资源| 老司机精品久久| 四虎综合网| 91青青在线视频| 波多野吉衣一区二区三区av| 在线精品自拍| 99久久性生片| 91精品国产自产91精品资源| 国产成人精品一区二区免费看京| 中文纯内无码H| 亚洲无码A视频在线| 91精品国产情侣高潮露脸| 人妻21p大胆| 成人午夜天| 国产视频欧美| www.国产福利| 久久国产热| 激情成人综合网| 国产精品粉嫩| 在线视频亚洲色图| 呦女精品网站| 亚洲精品久综合蜜| 亚洲综合色区在线播放2019| 色婷婷啪啪| 很黄的网站在线观看| 狠狠色婷婷丁香综合久久韩国 | 国产国产人免费视频成18| 国产在线观看第二页| 激情综合激情| 思思热在线视频精品| 91久久国产综合精品女同我| 玖玖免费视频在线观看| 在线观看视频99| 人妻精品全国免费视频| 1024你懂的国产精品| 97在线国产视频| 国产精品黑色丝袜的老师| 色亚洲激情综合精品无码视频| 欧美中文字幕无线码视频| a欧美在线| 亚洲Av综合日韩精品久久久| 91在线日韩在线播放| 国产三级a| 欧美日韩高清| 亚洲热线99精品视频| 高潮爽到爆的喷水女主播视频| 91欧美在线| 夜夜操国产| 亚洲综合在线最大成人| 欧美高清三区| 亚洲欧美日韩中文字幕在线| 午夜欧美在线| 国产精品无码AⅤ在线观看播放| 国产亚洲欧美在线视频| 特级毛片8级毛片免费观看| 国产日韩精品欧美一区喷| 亚洲成人一区二区三区| 67194在线午夜亚洲| 精品国产91爱| 国产精彩视频在线观看| 精品亚洲国产成人AV| 国产精品女主播| 日韩a级毛片| 国产精品亚洲欧美日韩久久| 精品少妇人妻av无码久久 | 国产色婷婷| 天天综合天天综合| 国产女人在线观看| 亚洲欧美综合精品久久成人网| 国产人碰人摸人爱免费视频| 99在线视频免费观看| 国产小视频a在线观看| 久久精品国产精品一区二区| 国产乱人乱偷精品视频a人人澡| 视频国产精品丝袜第一页| 女高中生自慰污污网站|