王寧
學(xué)習(xí)視頻數(shù)據(jù)源選擇
彈幕視頻利用Python獲取彈幕文本數(shù)據(jù)的來(lái)源,關(guān)系著彈幕的質(zhì)量,乃至?xí)绊懽罱K的研究結(jié)果。本文結(jié)合彈幕視頻網(wǎng)站上學(xué)習(xí)視頻的特點(diǎn)選擇網(wǎng)絡(luò)公開課視頻作為彈幕文本數(shù)據(jù)的來(lái)源。
從X視頻網(wǎng)站公開課頻道播放量高的視頻中,選取不同類型的學(xué)習(xí)視頻作為彈幕數(shù)據(jù)的來(lái)源,分別為學(xué)科類公開課視頻、聲樂(lè)學(xué)習(xí)類公開課視頻、語(yǔ)言學(xué)習(xí)類公開課視頻、軟件學(xué)習(xí)類公開課視頻、考證考試類公開課視頻、演講類公開課視頻、編程語(yǔ)言學(xué)習(xí)類公開課視頻等,共16個(gè)視頻公開課。
彈幕數(shù)據(jù)收集及預(yù)處理
爬蟲程序原理
Python語(yǔ)言簡(jiǎn)單易用,現(xiàn)成的爬蟲框架和工具包降低了使用門檻,具體使用時(shí)配合正則表達(dá)式的運(yùn)用,使得數(shù)據(jù)抓取工作變得簡(jiǎn)便。
數(shù)據(jù)預(yù)處理
1.數(shù)據(jù)的選取
通過(guò)Python爬蟲獲得的彈幕數(shù)據(jù)中,包含與彈幕相關(guān)的多個(gè)字段,最終爬取到的數(shù)據(jù)有14個(gè)彈幕數(shù)據(jù)類型。本文選取了“彈幕文本”“彈幕發(fā)送時(shí)間”“彈幕ID”“分p”這幾類彈幕數(shù)據(jù)信息進(jìn)行后續(xù)的分析研究。
2.對(duì)獲得的彈幕文本數(shù)據(jù)進(jìn)行分詞處理
分詞是將連續(xù)的中文字符串序列切分成若干個(gè)獨(dú)立的詞的過(guò)程。本文采用的分詞方法是Python中的jieba分詞。
jieba分詞提供了三種常用的分詞模式,本文為了避免重復(fù),方便進(jìn)行統(tǒng)計(jì)分析,使用精確分詞模式。
彈幕數(shù)據(jù)的統(tǒng)計(jì)分析
基于Python代碼對(duì)獲取的不同類型彈幕數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理,分別生成對(duì)用戶性別的統(tǒng)計(jì)繪圖工作、彈幕數(shù)量時(shí)間段的統(tǒng)計(jì)和折線圖的繪圖工作、彈幕文本分詞后詞頻統(tǒng)計(jì)并制作詞云圖、彈幕文本分詞后的情感評(píng)分分析并繪制情感評(píng)分餅狀圖等圖。……