999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的有聲讀物數據可視化分析

2021-08-27 13:10:07陳雅婷段華斌李婭菲宋均
科技風 2021年23期
關鍵詞:數據分析可視化

陳雅婷 段華斌 李婭菲 宋均

摘??要:隨著有聲讀物市場迅猛發展,各類有聲讀物內容呈現百花齊放的姿態,越來越多的人開始利用碎片化的時間閱讀。本文基于Python針對喜馬拉雅有聲讀物各類型讀物播放量、粉絲數等進行了可視化分析。

關鍵詞:python;scrapy;數據分析;可視化

由于我國有聲讀物的市場規模迅速發展,各類有聲讀物層出不窮,有聲讀物的內容邊界逐漸擴大,不斷滿足各類用戶的需求,但是目前對于有聲讀物的類型、閱讀人群等缺少專業的數據分析,本文主要研究有聲讀物的數據分析以及可視化的方法,基于Python的Scrapy框架,實現了有聲讀物數據的可視化分析。使人們直觀的了解現階段有聲讀物在我國的發展情況,人們喜愛的有聲讀物是哪些,有聲讀物的作者可以投其所好創造出更多更優秀的作品。

1?研究設計

1.1?數據來源

本文的數據來源于喜馬拉雅FM2020年1月至6月的有聲讀物數據,含作品信息、作者信息等相關數據,將有聲讀物數據進行格式轉換,轉換成易處理的格式化數據并儲存至MySQL數據庫中進行可視化分析。本文使用到的數據有有聲讀物類型、有聲讀物標題、有聲讀物標簽、有聲讀物播放量、有聲讀物作者姓名、有聲讀物作者粉絲數。

1.2?研究方法

本論文基于Python的Scrapy爬蟲框架結合Docker、Splash、xpath、MySQL等技術結合實現對于有聲讀物的數據分析及可視化。

1.3?框架設計

系統框架設計主要分為三部分:網頁數據爬取模塊,數據處理模塊,數據存儲模塊,如圖1所示。網頁數據爬取模塊中Scrapy引擎通過控制調度器、下載器和Spiders各部分相互配合爬取數據。然后,通過Spiders中Xpath完成數據清洗,將后期要處理的數據轉化為Item類的屬性交給數據處理模塊。最后,數據存儲模塊將爬取到的數據格式化并儲存至MySQL數據庫中,以csv格式導出。

1.4?數據處理

本文將采集到的數據分為作品信息與作者信息兩類,使用的數據集與數據結構如表1所示。從數據庫中以csv格式導出爬取到的數據,通過數據清洗來處理數據中的臟數據、異常值、缺失數據。數據清洗工作在爬蟲框架爬取數據之時中已同步完成。在Jupiter中將轉換好的數據從csv文件中讀取,給這些數據加上類型標記,這些標記是根據數據的自身屬性來進行劃分的,將這些數據合并為一個DataFrame。最后DataFrame將數據依類型分組按照播放量之和進行降序排序,將數據依類型分組按照粉絲數之和進行降序排序,將數據依作者分組按照播放量之和進行降序排序,將數據依作者分組按照粉絲數之和進行降序排序。

1.5?任務抽象

針對采集到的數據,根據數據的特征提出了下列可視化任務:

任務1:分析有聲讀物各類型中熱門的標題。

任務2:分析有聲讀物中受歡迎的類型。

任務3:分析有聲讀物中受歡迎的作者。

任務4:分析有聲讀物各類型中熱門的標簽。

2?數據可視化分析結果

2.1?播放量分析

2.1.1?總體播放量分析

總體數據按各類型播放量進行排序如圖2所示,有聲書、人文、兒童占據前三,可見喜愛書籍、人文文化的民眾很多,同時兒童類型的受歡迎程度也反映出中國家長們對孩子在兒童時期的重視。從總體數據將作者按照播放量進行排序,有聲的紫金、采采、超級制作三位的作品是播放量最多的有聲讀物創作者。

從總體的播放量分析,將有聲讀物標題作為對象按照播放量繪制詞云圖如圖3所示,最受歡迎的作品一目了然。很容易找出在有聲讀物中獨占鰲頭的是《段子來了》,《摸金天師》和《晚安媽媽睡前故事》的受歡迎程度緊隨其后。

2.1.2各類型播放量分析

各類型的標題按照播放量進行了詞云圖和柱狀圖分析。從有聲書詞云分布(圖4)來看,南京1937、平“語”近人、百家講壇、黨史故事100講等有聲作品播放量最大。人文類的詞云如圖5所示,人文作品百花齊放,其中《古今女子圖鑒》為大家詮釋古今的女子而廣受歡迎,每個人都有個武俠夢,《金庸筆下的情愛江湖》倍受追捧。

除此之外,我國家長們對兒童閱讀越來越重視。兒童類詞云圖如圖6所示。家長們對孩子的開始閱讀年齡也是逐漸的在降低,胎教普遍流行,睡前故事、童話故事、兒童文學對于有兒童的家長們來說非常受歡迎。

2.2?粉絲量分析

總體數據將各類型按照粉絲量進行排序如圖7所示,找出最受歡迎的前三類依次是相聲、人文、有聲書,兒童類緊隨其后。總體數據將作者按照粉絲量進行排序如圖8所示,無獨有偶“德云社郭德綱”是最受歡迎的創作者。結合之前按照播放量排序的結果,可以得出相聲、人文、有聲書、兒童這四類從各方面來看無疑是最受歡迎的類型。

3?結語

針對有聲讀物的類型和閱讀人群等缺少專業數據統計、分析,不利于有聲讀物網站或行業的運營。本文通過搭建基于Python的Scrapy爬蟲框架結合了多種工具及Python庫,從網絡爬取數據,再進行數據清洗處理,使用詞云圖和柱狀圖將數據可視化。使人們更直觀的了解現階段有聲讀物在我國的發展情況,人們喜愛的有聲讀物是哪些。通過數據分析幫助有聲讀物平臺及創作者能夠創造出更優秀的作品,贏得聽眾們的喜愛,增加市場價值。

參考文獻:

[1]陸樹芬.基于Python對網絡爬蟲系統的設計與實現[J].電腦編程技巧與維護,?2019(02):26-27+51.

[2]何遠宏.基于Python語言的Web數據挖掘研究[J].計算機產品與流通,?2019(01):112.

[3]羅咪.基于Python的新浪微博用戶數據獲取技術[J].電子世界,?2018(05):138-139.

基金項目:國家級大學生創新創業訓練計劃項目(201910551031)

作者簡介:陳雅婷(2002—???),女,湖南株洲人,本科在讀,研究方向:大數據應用;李婭菲(1984—???),女,湖南永州人,碩士,實驗師,研究方向:人工智能;宋均(1999—???),男,湖南溆浦人,本科在讀,研究方向:網絡安全及應用。

*通訊作者:段華斌(1981—???),女,湖北荊門人,碩士,講師,研究方向:大數據應用研究,網絡安全。

猜你喜歡
數據分析可視化
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數據時代對企業營銷模式的影響
主站蜘蛛池模板: 一本大道香蕉久中文在线播放| 欧美黄色网站在线看| 亚洲色图另类| 青青草国产免费国产| 国产女人在线视频| 日韩欧美高清视频| 日韩毛片在线播放| 欧美日韩一区二区三| 这里只有精品在线播放| 国产精品丝袜在线| 在线观看国产精品第一区免费| 精品亚洲麻豆1区2区3区| 青草视频久久| 国产福利在线免费| 爆操波多野结衣| 伊人激情久久综合中文字幕| 亚洲欧美国产五月天综合| 成人夜夜嗨| 99久久成人国产精品免费| 夜夜操天天摸| 亚洲最黄视频| 久无码久无码av无码| 亚洲一区波多野结衣二区三区| 综合色区亚洲熟妇在线| 波多野结衣爽到高潮漏水大喷| 亚洲,国产,日韩,综合一区| 日韩av高清无码一区二区三区| 无码aaa视频| 国产精品女在线观看| 五月六月伊人狠狠丁香网| 国产成人h在线观看网站站| 夜夜操狠狠操| 国产免费网址| 久久久久国产精品熟女影院| 又污又黄又无遮挡网站| 欧美a级在线| 日本妇乱子伦视频| 四虎综合网| 国产精品主播| av天堂最新版在线| 综合亚洲色图| 亚洲国产精品一区二区第一页免| 精品国产自| 一级成人a做片免费| 在线播放91| 97视频精品全国免费观看| 一级一毛片a级毛片| 综合久久五月天| 在线99视频| 丰满的少妇人妻无码区| 精品国产网站| 国产乱人伦精品一区二区| 67194成是人免费无码| 91久久国产综合精品| 亚洲美女一级毛片| 日韩精品久久久久久久电影蜜臀| 一本二本三本不卡无码| 婷婷色一区二区三区| 五月婷婷激情四射| 国产啪在线| 精品国产三级在线观看| 国产成人精品免费av| 亚洲国产精品无码久久一线| 国产精品污污在线观看网站| 久久久91人妻无码精品蜜桃HD| 亚洲福利视频网址| 成人免费视频一区| 2021亚洲精品不卡a| 亚洲无码一区在线观看| 国产成人a在线观看视频| 国产精品第页| 日韩中文精品亚洲第三区| 一级看片免费视频| 欧美日韩中文国产va另类| 91九色视频网| 欧美高清国产| 2020亚洲精品无码| 亚洲最新地址| 亚洲日韩每日更新| 亚洲欧洲日韩国产综合在线二区| 四虎永久免费地址| 高潮毛片无遮挡高清视频播放|