王寧
學習視頻數據源選擇
彈幕視頻利用Python獲取彈幕文本數據的來源,關系著彈幕的質量,乃至會影響最終的研究結果。本文結合彈幕視頻網站上學習視頻的特點選擇網絡公開課視頻作為彈幕文本數據的來源。
從X視頻網站公開課頻道播放量高的視頻中,選取不同類型的學習視頻作為彈幕數據的來源,分別為學科類公開課視頻、聲樂學習類公開課視頻、語言學習類公開課視頻、軟件學習類公開課視頻、考證考試類公開課視頻、演講類公開課視頻、編程語言學習類公開課視頻等,共16個視頻公開課。
彈幕數據收集及預處理
爬蟲程序原理
Python語言簡單易用,現成的爬蟲框架和工具包降低了使用門檻,具體使用時配合正則表達式的運用,使得數據抓取工作變得簡便。
數據預處理
1.數據的選取
通過Python爬蟲獲得的彈幕數據中,包含與彈幕相關的多個字段,最終爬取到的數據有14個彈幕數據類型。本文選取了“彈幕文本”“彈幕發送時間”“彈幕ID”“分p”這幾類彈幕數據信息進行后續的分析研究。
2.對獲得的彈幕文本數據進行分詞處理
分詞是將連續的中文字符串序列切分成若干個獨立的詞的過程。本文采用的分詞方法是Python中的jieba分詞。
jieba分詞提供了三種常用的分詞模式,本文為了避免重復,方便進行統計分析,使用精確分詞模式。
彈幕數據的統計分析
基于Python代碼對獲取的不同類型彈幕數據進行統計處理,分別生成對用戶性別的統計繪圖工作、彈幕數量時間段的統計和折線圖的繪圖工作、彈幕文本分詞后詞頻統計并制作詞云圖、彈幕文本分詞后的情感評分分析并繪制情感評分餅狀圖等圖。……