王寧
學習視頻數據源選擇
彈幕視頻利用Python獲取彈幕文本數據的來源,關系著彈幕的質量,乃至會影響最終的研究結果。本文結合彈幕視頻網站上學習視頻的特點選擇網絡公開課視頻作為彈幕文本數據的來源。
從X視頻網站公開課頻道播放量高的視頻中,選取不同類型的學習視頻作為彈幕數據的來源,分別為學科類公開課視頻、聲樂學習類公開課視頻、語言學習類公開課視頻、軟件學習類公開課視頻、考證考試類公開課視頻、演講類公開課視頻、編程語言學習類公開課視頻等,共16個視頻公開課。
彈幕數據收集及預處理
爬蟲程序原理
Python語言簡單易用,現成的爬蟲框架和工具包降低了使用門檻,具體使用時配合正則表達式的運用,使得數據抓取工作變得簡便。
數據預處理
1.數據的選取
通過Python爬蟲獲得的彈幕數據中,包含與彈幕相關的多個字段,最終爬取到的數據有14個彈幕數據類型。本文選取了“彈幕文本”“彈幕發送時間”“彈幕ID”“分p”這幾類彈幕數據信息進行后續的分析研究。
2.對獲得的彈幕文本數據進行分詞處理
分詞是將連續的中文字符串序列切分成若干個獨立的詞的過程。本文采用的分詞方法是Python中的jieba分詞。
jieba分詞提供了三種常用的分詞模式,本文為了避免重復,方便進行統計分析,使用精確分詞模式。
彈幕數據的統計分析
基于Python代碼對獲取的不同類型彈幕數據進行統計處理,分別生成對用戶性別的統計繪圖工作、彈幕數量時間段的統計和折線圖的繪圖工作、彈幕文本分詞后詞頻統計并制作詞云圖、彈幕文本分詞后的情感評分分析并繪制情感評分餅狀圖等圖。
彈幕交互用戶維度
1.用戶性別統計分析
在Python中編寫用于性別統計分析的程序。在獲取的數據中共有用戶8658711名,其中在公布性別的3783296名用戶中,男性用戶為1966508人,占全部性別用戶的22.71%,占全部公布性別用戶的51.98%;女性用戶為1816788人,占全部性別用戶的20.98%,占全部公布性別用戶的48.02%。
2.彈幕發送時間段統計分析
公開課視頻用戶發表彈幕的時間可以展現出學習者觀看學習視頻公開課活躍的時間。本部分對時間進行分段,統計發送的彈幕數量,分析視頻公開課中學習者的彈幕互動活躍時間。
(1)對整體數據進行分析
對公開課視頻的用戶發表彈幕的時間進行分段,統計每小時內的彈幕數量,在Python中具體實現并生成excel文件。為了方便觀察,進一步分析研究,可以借助pyecharts生成折線圖。
根據所生成的彈幕發送時間段折線圖(圖1),可以直觀地看到在一天中,視頻公開課有三個顯而易見的活躍時間,分別為中午、下午、晚上三個時間段。其中公開課視頻中的彈幕數量最高峰出現在20—21時,由此可見觀看視頻公開課的學習者更傾向于在晚上觀看公開課視頻,并發送彈幕進行互動。一方面,這段時間為晚飯后的空余時間;另一方面,X網站視頻公開課的觀看群體中不僅有學生,還有眾多的工作人員,而晚上八點到九點這一時間段一般情況下他們都沒有學習任務或其他工作。
除了最高峰時間,還有兩個高峰時間,分別是16—17時和11—12時。16—17時作為第二高峰時間,其與最高峰時間彈幕數量差距較小,該時間段一般為學習者的飯前時間,一般情況下,這段時間學習者每日生活中的任務和工作已經基本完成,所以會有空余時間觀看視頻進行學習。11—12時一般為午飯時間,在上午的日常任務和工作完成后,學習者樂于觀看視頻并參與彈幕互動。而三個低谷時間段為1—7時、12—14時和17—19時,正好對應用戶的睡眠、午休和晚飯時間,這三段時間彈幕數據也就相對減少了。
(2)對比不同類視頻公開課群體
為了進一步研究各個不同的視頻公開課彈幕發送時間曲線是否存在差異,筆者對16個視頻公開課爬取的彈幕發送時間數據分別進行了統計,并用Python生成折線圖來進行觀察分析。大部分的視頻公開課彈幕發送時間折線圖與整體彈幕發送時間折線圖相似,其彈幕交互最高峰時間都為20—21時。其中有一部分視頻公開課的彈幕發送時間數據與整體的彈幕發送時間數據的規律不同,具體如下:
①彈幕交互最高峰時間位于下午
彈幕數量最高峰位于下午時間段的是軟件學習類視頻公開課、考證考試類視頻公開課、編程語言學習類視頻公開課。
以編程語言學習類視頻公開課的彈幕發送時間段折線圖(圖2)為例進行研究分析。其中軟件視頻公開課學習和編程語言視頻公開課學習都需要借助計算機進行實踐學習,而考證考試類視頻公開課由于選取的是計算機二級課程,也需要計算機來輔助相關視頻公開課的學習。晚間之所以不是彈幕互動的最高峰時間,是因為晚間多為利用手機等移動電子設備進行學習,并不能滿足學習者學習需要借助計算機的視頻公開課的需求。在日常生活中,晚上的時間如果專門為了視頻公開課的學習去使用計算機,學習者的積極性不高,而且學習者的思維在下午可能更加敏捷。
②彈幕交互最高峰時間位于深夜
彈幕數量最高峰位于深夜時間段的是歷史學學科類視頻公開課、哲學學科類視頻公開課。
這里以哲學學科類視頻公開課的彈幕發送時間段折線圖(圖3)為例進行研究分析。折線圖顯示,在一天中,彈幕發送的高峰時間大多在深夜時間段,從晚上7點之后呈現出明顯的上升趨勢,在凌晨十一點到達頂峰值。這類視頻公開課的學習更注重思考,不強調具體實踐活動。該時間段可能更利于這部分公開課學習者跟著學習視頻進行思考,捕捉想法,并與其他學習者進行交流。D3341C34-50A0-4B00-80DF-2DBF14C20556

③彈幕交互最高峰時間位于中午
彈幕數量最高峰位于中午時間段的為所選兩種語言學習類視頻公開課。
對于這兩種視頻公開課來說,彈幕發送時間有兩個高峰,其中最高峰為中午時間段。語言的學習一般是學習使用語言進行交際活動的過程,總體上和整體彈幕發送時間段折線圖的波動曲線相似,在相同位置也都有高峰波動。
彈幕交互文本維度
借助jieba加載針對X網站用語所做的自定義詞典,對彈幕文本數據進行分詞,分詞后進行統計各個詞的出現次數,并生成詞云圖。
對總體數據進行分詞處理,統計16個視頻公開課中爬取的彈幕文本數據分詞后各個詞所出現的次數,生成詞頻表,并借助pyecharts生成詞云圖。
由彈幕交互文本詞云圖(圖4)可以直觀地看到在所獲取的彈幕數據中,出現頻率最高的詞為“老師”,統計出現次數為93928次,其余常出現詞匯分別是“哈哈哈”“妙啊”等情緒表達用詞。
彈幕交互情感維度
借助SnowNLP情感評分對彈幕數據進行加工處理并逐個進行情感評分,按評分進行積極、消極、中立情感統計并繪制情感餅狀圖,以分析視頻公開課中用戶彈幕互動的整體情感基調。
選取Python中的SnowNLP情感評分體系對彈幕文本進行逐個評分,統計數據,運用pyecharts生成彈幕情感餅狀圖。
SnowNLP庫中的情感分析在具體的研究過程中,會對文本的分析進行一個打分數值,位于0~1這個區間中,數值接近零則表示負面情緒,接近1表示正面情緒。為了方便進行統計評估,在Python中創建字典,將評分<0.4的記錄為消極,將評分>=0.4&<=0.6的記錄為中性,將評分>0.6的記錄為積極。從視頻公開課的全部彈幕數據中隨機抽取100000條彈幕文本數據進行分詞處理后,進行情感評分。
根據彈幕交互中彈幕情感餅狀圖(圖5),可以發現彈幕整體數據中積極情感占所有數據中的一大半,比例為64.32%,而消極情感的彈幕互動數據占最小份,比例為16.13%,其余的19.55%為中性彈幕。這體現了視頻公開課中學習者在彈幕互動時,大部分都持有樂觀且積極的態度。
通過編寫Python爬蟲代碼獲取彈幕數據,并依據具體的實際研究編寫統計分析用途的Python程序代碼,對彈幕數據進行初步的統計分析,從而得出在網絡環境下視頻公開課中學習者彈幕交互具體使用情況,
X視頻網站公開課學習視頻的用戶男女性別比例差距不大,總體上男性用戶略高于女性用戶。根據對整體彈幕發送時間段折線圖的分析,發現視頻公開課中彈幕互動的活躍性存在一定的規律,所以大部分類型的視頻公開課制作者可以依據高峰規律,避開在深夜進行公開課視頻的更新,盡可能在學習者方便的三個高峰時間段之前或者三個高峰時間段進行網絡公開課的投放工作,其中部分學科可以根據其學科的特性選擇三個高峰時間段中最合適的投放時間。
參考文獻
[1]何明.面向在線視頻彈幕數據的挖掘方法研究[D].合肥:中國科學技術大學,2018.
[2]徐永偉.網絡視頻公開課的現狀分析與影響力研究[D].聊城:聊城大學,2016.
[3]李金蘭.直播平臺如何有效進行彈幕管理[J].網絡傳播,2017(01):67-69.
[4]張婧婧,楊業宏,安欣.彈幕視頻中的學習交互分析[J].中國遠程教育,2017(11):22-30+79-80.D3341C34-50A0-4B00-80DF-2DBF14C20556