李 聰,余 夢,汪之舟,李 稚
彈幕這一新型評論方式起源于日本的視頻網(wǎng)站“Niconico動(dòng)畫”,我國由AcFun和Bilibili首先引進(jìn)。彈幕作為一種從2014年開始流行的新媒體評論模式,將評論與視頻緊密結(jié)合,融合了視頻與社交元素。觀眾在看視頻的同時(shí)可以對當(dāng)前視頻內(nèi)容進(jìn)行評論,彈幕會(huì)實(shí)時(shí)滑動(dòng)在視頻頁面上。彈幕評論的內(nèi)容包括評論語句和相應(yīng)的視頻時(shí)間點(diǎn)。因此,與一般的網(wǎng)絡(luò)視頻評論模式相比,彈幕能更精確地反映出觀眾在瀏覽視頻時(shí)的實(shí)時(shí)情感變化,這些評價(jià)和情感可以為其他觀眾在選擇視頻方面提供建議。使用七類基本情感從彈幕中提取用戶情感信息,可以幫助運(yùn)營商獲取視頻整體的情感傾向,以及觀眾情感的實(shí)時(shí)變化情況。隨著彈幕這一評論方式在國內(nèi)各大主流視頻網(wǎng)站上的推廣,彈幕中的評論和情感將更具參考價(jià)值。在分析彈幕情感的基礎(chǔ)上,可以建立基于用戶情感的視頻檢索方式,為用戶定制更加個(gè)性化的檢索需求。
本質(zhì)上來說,彈幕評論是一種基于時(shí)間序列的短文本,每一條彈幕評論都對應(yīng)視頻的某一時(shí)刻。由于彈幕作為新媒體出現(xiàn)的時(shí)間不夠長,最近數(shù)年才開始被中國的視頻網(wǎng)站所采用,所以國內(nèi)針對彈幕數(shù)據(jù)的研究還比較少。詹雪美等對比了傳統(tǒng)視頻和彈幕視頻評論的區(qū)別,研討了彈幕視頻網(wǎng)站的起源和發(fā)展。陳松松等根據(jù)對彈幕視頻網(wǎng)站和用戶的觀察,探究了這一新興評論模式的特點(diǎn)。洪慶等人使用Python網(wǎng)絡(luò)爬蟲對網(wǎng)絡(luò)視頻的彈幕信息進(jìn)行了爬取和預(yù)處理,如剔除了含有顏文字、表情類的彈幕,對彈幕信息、模式、字體顏色和大小做了分析,由于其使用數(shù)據(jù)量小且剔除非文本內(nèi)容多,可能無法得到很好的分類結(jié)果。莊須強(qiáng)等人利用注意力機(jī)制挖掘彈幕中的情感關(guān)鍵詞,建立LSTM模型提取出基于主題的“高光”網(wǎng)絡(luò)視頻片段。唐紫珂針對傳統(tǒng)視頻網(wǎng)站推薦模式的不足,提出了RFE模型,更精準(zhǔn)的為視頻用戶進(jìn)行推薦。
同時(shí),因?yàn)樾畔⒓夹g(shù)和智能算法運(yùn)用的局限性,彈幕數(shù)據(jù)的動(dòng)態(tài)特征與數(shù)據(jù)背后廣大用戶的情感表達(dá)未能真實(shí)有效的反映出來。因此,現(xiàn)有文獻(xiàn)中并沒有很好的探索數(shù)據(jù)的深層價(jià)值——用戶的觀影情感,缺乏對用戶觀影選擇行為的把控。而這些數(shù)據(jù)具有潛在商業(yè)價(jià)值,對新媒體市場的發(fā)展起到?jīng)Q定性的作用。
現(xiàn)有的情感詞庫是中文文本詞庫于2014年由大連理工大學(xué)建立,一方面,由于近幾年新詞、網(wǎng)絡(luò)用語發(fā)展迅猛,導(dǎo)致彈幕不是純文本數(shù)據(jù)(包含顏文字、表情以及英文符號),而情感詞庫無人更新,分析起來難度較大且分析過程較為復(fù)雜。另一方面,彈幕信息是大數(shù)據(jù),現(xiàn)有文獻(xiàn)中使用的彈幕信息量嚴(yán)重不足,并且剔除了顏文字和表情等信息,沒有涉及大數(shù)據(jù)處理,也會(huì)造成相關(guān)分析不準(zhǔn)確且較為淺顯。彈幕具有動(dòng)態(tài)、實(shí)時(shí)性、離散性的特點(diǎn),數(shù)據(jù)抓取、分析較為困難。對彈幕簡單分析后,并沒有文獻(xiàn)進(jìn)行商業(yè)營銷模式的相關(guān)研究。為了便于之后的語義情感分析,在現(xiàn)有詞庫的基礎(chǔ)上加入網(wǎng)絡(luò)流行詞匯(顏文字、英文符號、縮寫、表情包等非文本數(shù)據(jù)),建立一個(gè)更新的情感詞庫,并利用更大數(shù)據(jù)量的彈幕信息,對數(shù)據(jù)進(jìn)行商業(yè)分析,旨在為運(yùn)營商企業(yè)提供決策支持(更加個(gè)性化的廣告插播模式、人性化的視頻片段推送)。同時(shí),通過使用擴(kuò)充的詞庫,分析觀看相同視頻情節(jié)的用戶發(fā)送的彈幕特征,更加真實(shí)貼切地反映用戶情感,可以對用戶進(jìn)行分類,研究用戶觀看視頻的心理,對不同的用戶采取個(gè)性化的營銷策略。根據(jù)七類情感對新詞匯進(jìn)行評分,便于之后的彈幕分詞和情感匹配分析,七類基本情感如表1所示。

表1 基本情感類別
七類情感類別中,樂、好視為正向情感,哀、懼、惡、驚作為負(fù)向情感,正向詞匯根據(jù)情感強(qiáng)弱分為五個(gè)得分等級(1,3,5,7,9),負(fù)向詞匯根據(jù)情感強(qiáng)弱同樣分為五個(gè)等級(-1,-3,-5,-7,-9)。
為了對彈幕用戶進(jìn)行精準(zhǔn)營銷,首先需要爬取大量用戶發(fā)送的彈幕數(shù)據(jù),以便后續(xù)進(jìn)行數(shù)據(jù)分析。因此,考慮使用Python網(wǎng)絡(luò)爬蟲技術(shù),對某視頻網(wǎng)站中的彈幕進(jìn)行爬取。通過對爬取的彈幕數(shù)據(jù)進(jìn)行預(yù)處理,去除噪聲數(shù)據(jù)(如刪除人均彈幕發(fā)送少于5條的用戶所發(fā)送的彈幕,以此提高通過彈幕情感分析觀眾特征的精度)。通常在視頻開始時(shí),用戶發(fā)送的彈幕評論數(shù)量較多,隨后逐漸減少,這是因?yàn)楹芏嘤^眾喜歡在視頻開始時(shí)“留念”,如“打卡”“二刷”等刷屏類的彈幕。這些彈幕經(jīng)常出現(xiàn),但是并沒有表達(dá)彈幕用戶對于視頻內(nèi)容的真實(shí)感受和情感取向。因此這類彈幕會(huì)成為噪音彈幕,從而影響彈幕文本分析的結(jié)論。通過對彈幕語句進(jìn)行分詞,可以編程自動(dòng)匹配相應(yīng)情感。
通過對所有彈幕用戶發(fā)送的彈幕信息進(jìn)行情感分析,七維的情感分布可以代表該用戶的情感特征。利用基于情感距離的自動(dòng)K-means聚類算法來進(jìn)行用戶智能聚類,從而獲取用戶看視頻的情感取向,如用戶喜愛的視頻類型和可接受的視頻時(shí)長等。
通過貝葉斯概率選擇模型對各類視頻的播放量做預(yù)測分析,能夠更加準(zhǔn)確的進(jìn)行后續(xù)的商業(yè)數(shù)據(jù)分析。顯然,用戶所發(fā)彈幕數(shù)量越多,越能精確地掌握其情感。通過掌握用戶興趣偏好,從而可以對用戶推送更加合適的視頻與廣告。
使用更大數(shù)據(jù)量的彈幕信息,對數(shù)據(jù)進(jìn)行商業(yè)分析,旨在為運(yùn)營商企業(yè)提供決策支持(更加個(gè)性化的廣告插播模式、視頻片段推送和視頻流行度的預(yù)測),研究用戶的觀看心理,對不同類別用戶采取差異化營銷策略,擬制三種精準(zhǔn)營銷戰(zhàn)略。
通過對某節(jié)目所置入的廣告類型(如情景廣告、贊助冠名廣告、貼片廣告等)、廣告內(nèi)容、廣告插入的視頻時(shí)間段以及其廣告的持續(xù)時(shí)長、廣告是否與其插入前后視頻內(nèi)容、主題相匹配作為屬性結(jié)合彈幕內(nèi)容進(jìn)行大數(shù)據(jù)分析,從而得到更加精確的廣告投放方式和恰當(dāng)?shù)耐扑蜁r(shí)間點(diǎn)。
通過對彈幕視頻網(wǎng)站用戶的ID、個(gè)性標(biāo)簽、播放記錄、收藏夾等海量數(shù)據(jù)進(jìn)行情感分析,構(gòu)建視頻用戶情感畫像,研究用戶的觀看心理和行為特征等,例如,顧客喜歡的視頻類型(綜藝、選秀、電影等),對用戶推送相應(yīng)類型的視頻節(jié)目。
對于彈幕視頻網(wǎng)站來說,了解視頻用戶品位與偏好非常重要。例如,大眾偏向于看真人秀類綜藝節(jié)目,而對恐怖片關(guān)注度可能較低。通過對各類型視頻熱度進(jìn)行預(yù)測分析,網(wǎng)絡(luò)視頻平臺可以更有針對性的制作、購買某一類型的視頻節(jié)目,迎合視頻用戶需求,從而達(dá)到利益最大化。
彈幕這一具有新意的評論方式,正逐漸滲透到其他領(lǐng)域,如植入廣告、電影等,很多影院已經(jīng)開啟了觀影實(shí)時(shí)發(fā)送彈幕的功能,打破了傳統(tǒng)影院無法對電影進(jìn)行實(shí)時(shí)評論互動(dòng)的局限性,使得線上觀影效果更佳。而無論是對于彈幕視頻網(wǎng)站還是彈幕用戶,彈幕評論的需求都在不斷增加。因此,彈幕這種新的評論方式具有很大的潛在價(jià)值,對彈幕起源進(jìn)行深入研究變得很有必要。
在已有情感詞庫的基礎(chǔ)上,擴(kuò)充近年來出現(xiàn)的熱詞如顏文字、表情包等,并根據(jù)七維情感詞庫給出對應(yīng)情感評分。使用Python網(wǎng)絡(luò)爬蟲獲得網(wǎng)絡(luò)視頻彈幕,清洗噪音數(shù)據(jù)后進(jìn)行分詞匹配情感,對彈幕用戶使用K-means算法進(jìn)行聚類,并使用貝葉斯概率模型對各類型網(wǎng)絡(luò)視頻的播放量做預(yù)測,根據(jù)模型為網(wǎng)絡(luò)視頻平臺制定相應(yīng)的精準(zhǔn)營銷策略,同時(shí)也給彈幕視頻用戶提供了更加個(gè)性化的視頻檢索方式。
緊扣當(dāng)前大數(shù)據(jù)分析、自然語言處理、彈幕網(wǎng)絡(luò)視頻等研究熱點(diǎn),角度新穎且具有較大的應(yīng)用前景。在依據(jù)彈幕情感值進(jìn)行用戶分類時(shí),應(yīng)用的K-means算法是一種通用的分類算法,隨著研究的逐漸深入,需要根據(jù)具體問題開發(fā)新的智能算法進(jìn)行分類研究,以提高計(jì)算效率和分類精度。