楊樂雨 北京信息職業技術學院
隨著信息化時代的來臨,我國網絡視頻行業迎來了一個爆炸式的發展期,網絡綜藝節目與網絡電視劇呈現井噴式發展。僅以電視劇為例,2014年全網共發行網絡電視劇205部,共2918 集。2015年網絡劇全年播放量達274.5億,較2014年的123億增長了1.1 倍,總部數達379 部,同比增加85%,總集數達5008集,同比增長72%。2015 年至今網劇發展進入黃金時期,眾多傳統影視制作人和大量資本涌入網劇市場,各大視頻網站紛紛投拍,網劇市場一時間被推向資本的風口浪尖。隨著網絡視頻的高速發展,觀眾們已不再滿足于單純的觀看視頻,而是希望獲得更多的參與感,對于實時評論的需求直接促生了“彈幕”這一新鮮事物的出現。
彈幕原本是指射擊類游戲中密集的子彈如同幕布一樣,后被引申為直接顯現在視頻畫面上方流動的由觀眾發送的簡短評論,可以以滾動、停留甚至更多動作特效方式出現在視頻上。
國內各類視頻網站使用技術整體上來說大同小異,都是采用在頁面布局中放置一個顯示視頻界面的窗口,然后在視頻界面的上方再覆蓋一個顯示彈幕的窗口的方法來實現的。彈幕的視圖框必須要做成完全透明的,這樣即使覆蓋在視頻界面的上方也不會影響到視頻的正常觀看。當有人發彈幕消息時,后臺會記錄用戶發送彈幕時該視頻當前播放的位置以及其他相關信息,其他人播放這個視頻時到了這個點就會將彈幕消息繪制到彈幕的窗口中。
在具體技術實現的過程中,各網站實現方法稍有不同,本文將以國內最大的彈幕視頻網站嗶哩嗶哩網為例講解如何才能獲取彈幕數據。具體操作流程如下:
1.打 開 嗶 哩 嗶 哩 網 站 某 視 頻 頁 面 https://www.bilibili.com/bangumi/play/ep150705?from=search&se id=2565014256402977714。
2.在對頁面數據進行分析后了解到網站所有彈幕信息均保存在一個XML文件中,而要找到對應的XML文件則需要獲取該視頻的cid碼。通過查看“網頁源代碼”,查詢到該視頻cid碼為27741148。
3. 根 據 cid 碼 即 可 訪 問 頁 面 http://comment.bilibili.com/27741148.xml,獲得的該視頻的完整彈幕信息數據。
嗶哩嗶哩網站的彈幕信息由九個參數組成,以如下一條彈幕信息為例:
<d p="4708.47200,1,25,16777215,1521859641,0,fb2285 7f,4408203362">《史記》</d>
在對數據進行分析后,可將該條數據劃分為如下數值:
參數1:4708.47200;參數 2:1;參數 3:25;參數4:16777215;參 數 5:1521859641; 參 數 6:0; 參 數 7:fb22857f; 參 數 8:4408203362;參數 9:《史記》。
每個參數都有其含義,分別為:
第一個參數表示彈幕出現的時間,通常以秒數為單位;
第二個參數表示彈幕模式,有如下幾種模式:1至3為滾動彈幕,4為底端彈幕,5為頂端彈幕,6為逆向彈幕,7為精準定位,8為高級彈幕;
第三個參數表示字號;
第四個參數表示字體的顏色,以HTML顏色的十位數為準;
第五個參數是Unix格式的時間戳,基準時間為 1970-1-1 08:00:00。時間戳是一個能夠表示一份數據在某個特定時間之前已經存在的、完整的、可驗證的數據,通常是一個字符序列,唯一地標識某一刻的時間;
第六個參數表示彈幕池,0為普通池,1為彈幕池,2為特殊池,特殊池是為高級會員用戶開放的高級彈幕專用彈幕池;
第七個參數是發送者的ID,用于實現“屏蔽此彈幕的發送者”功能;
第八個參數是彈幕在數據庫中rowID,用于實現“歷史彈幕”功能。
第九個參數是彈幕的內容信息。
從第三節中的彈幕數據結構分析中可以知道,彈幕在給觀眾提供參與感與實時評論功能的同時,還為視頻網站管理者提供了豐富的數據庫,在對彈幕池進行大數據分析可以獲得各種豐富和精準的信息。在此,筆者將就彈幕數據的應用價值進行探討。研究將以視頻網站管理者在進行實際用戶數據分析的過程中主要的關注點作為依據。
傳統電視媒體對于電視劇或綜藝節目的排行通常是依據電視臺統計的收視率排行的。網絡媒體則通常以點擊量為主要依據,然而這一評定方法有一個最根本的問題就是可以依靠網絡工作室“刷點擊量”,而發送彈幕的過程不同于刷點擊量僅需要不斷刷新頁面的操作就可以完成,還需要對彈幕內容進行編輯,客觀上增加了造假難度,因此在很大程度上,視頻的彈幕數量可以非常可觀的反映該視頻的熱度。
當然,增加工作難度并不是說工作室沒有辦法刷彈幕量,但仍有其他方法可以對這種行為進行反制。例如嗶哩嗶哩網站,它要求用戶必須注冊會員并完成身份認證才能夠發送彈幕,這使得工作室很難大量購買賬號,通過頻繁更換賬號的方式隱藏其操作。而彈幕的數據結構中包含有“發送者ID”這一信息,只要通過對同一ID發送彈幕的數量進行統計,在一定程度上就可以將某些ID列為可疑用戶。為了實現更為智能的篩選功能,管理者還可以對嫌疑賬號發送的彈幕內容進行比較,觀察是否為大量高度相似的內容,從而完成進一步的甄別。當然反過來說,管理者還可以通過對內容進行統計,觀察是否有某些關鍵詞出現頻率超過了正常值,反向跟蹤可疑用戶賬號。在對可疑賬號或可疑內容進行篩選剔除后,很大程度上就可以保證獲取到的數據為純凈數據了。
彈幕出現時間表示的是某條彈幕相對于視頻時間來說是在何時出現的。通常來說如果視頻內容較為平淡,不能引起觀眾興致時,彈幕發送數量會較少,而在劇情內容高潮部分或視頻內容引起強烈關注時,彈幕數量將會激增,甚至可能出現爆發式增長。依據此原理,研究者可以通過對彈幕出現的時間進行累加統計,了解視頻內容在哪些時間點引起了觀眾的強烈興趣,再對照該時間點的內容,則可清晰掌握觀眾的興趣點在哪里。在對新聞類節目進行分析時,結果將具有更為重要的意義。依據結果,可以及時了解觀眾,特別是青年觀眾對于社會時事的關注點在哪里,如果還能對彈幕內容進行大數據分析則能可更為清晰的了解青年的思想動態,為開展意識形態教育提供重要參考。
彈幕數據結構中的時間戳信息不同于彈幕發送時間,它表示的是彈幕以服務器后臺時間為基準記錄的發送時間,與現實中使用的時間是相同的。該數據同樣具有非常重要的意義,在對某類型所有視頻的彈幕的時間戳信息進行計數統計后,視頻網站管理者可以了解該類視頻用戶在哪個時間段的活躍度是最高的,為幫助決策者確定該類廣告的投放時間提供了依據。更有甚者,可以根據用戶發送彈幕的時間段分析,制定點對點的定制化信息推送服務。
伴隨著信息化時代的來臨,人們的娛樂形式已經發生了根本上的改變。彈幕這一視頻附屬娛樂形式的出現正是這場變革的重要產物。作為網絡視頻網站,如果坐擁彈幕數據信息這一重要的情報寶庫,卻不會加以分析和利用,則必然會迅速的脫離觀眾而為時代所拋棄。