文/王淮
網(wǎng)絡(luò)的不斷發(fā)展催生了多媒體技術(shù)的廣泛應(yīng)用,一新的視頻評(píng)論方式開(kāi)始逐漸流行。。不同于傳統(tǒng)的視頻評(píng)論,具有長(zhǎng)篇幅、基于視頻整體的特點(diǎn),彈幕數(shù)據(jù)一般比較短而且具有時(shí)序性,所表達(dá)出來(lái)的視頻情感趨勢(shì)和觀點(diǎn)會(huì)更豐富、更具有參考性。用戶(hù)可以通過(guò)彈幕系統(tǒng)發(fā)布與視頻情節(jié)內(nèi)容相關(guān)的評(píng)論,也可以根據(jù)彈幕了解潛在的劇情。研究彈幕數(shù)據(jù)中蘊(yùn)含的情感,可以幫助用戶(hù)更愉快的觀看視頻,而且可以為相關(guān)商業(yè)機(jī)構(gòu)提供更準(zhǔn)確的用戶(hù)偏好調(diào)查解決方案。由于彈幕數(shù)據(jù)的復(fù)雜和誕生時(shí)間相對(duì)短暫,關(guān)于中文彈幕的分析研究還不夠充分,也沒(méi)有很好地進(jìn)行商業(yè)利用,因此本文將從彈幕定義、數(shù)據(jù)預(yù)處理、情感分析和總結(jié)五個(gè)方面對(duì)中文彈幕情感分析的研究現(xiàn)狀進(jìn)行介紹和分析,希望能夠推進(jìn)中文彈幕情感分析的進(jìn)程。
彈幕指的是從屏幕自右向左劃過(guò)或停留在頂部、底部等的文字。彈幕一詞源自日本,原意指對(duì)目標(biāo)進(jìn)行密集炮擊。彈幕起源于日本niconico,國(guó)內(nèi)AcFun率先引進(jìn),并隨著彈幕系統(tǒng)越來(lái)越完善,國(guó)內(nèi)主流的視頻平臺(tái)如BiliBili(以下簡(jiǎn)稱(chēng)B站)、騰訊視頻、優(yōu)酷、愛(ài)奇藝等以及直播平臺(tái)如斗魚(yú)、虎牙等也都開(kāi)通了彈幕服務(wù),一時(shí)之間彈幕如春筍般一涌而出。
莊須強(qiáng)等人[4]認(rèn)為彈幕評(píng)論帶有時(shí)間標(biāo)簽信息,是針對(duì)當(dāng)前播放內(nèi)容的評(píng)論。彈幕數(shù)據(jù)是依附在視頻上由觀看者參與討論產(chǎn)生的,具有時(shí)間序列的特征。彈幕評(píng)論是網(wǎng)絡(luò)用戶(hù)自發(fā)產(chǎn)生的,具有獨(dú)特的風(fēng)格,區(qū)別于傳統(tǒng)的中文字詞,含有諸多口語(yǔ)化、諧音的網(wǎng)絡(luò)詞語(yǔ)以及表情等。一般而言,單條彈幕長(zhǎng)度有限,不會(huì)出現(xiàn)類(lèi)似豆瓣、爛番茄等影評(píng)長(zhǎng)則上千字的評(píng)論。對(duì)于視頻整體而言,彈幕分布稀疏的,而在某些關(guān)鍵情節(jié)會(huì)出現(xiàn)爆發(fā)式的增長(zhǎng),具有整體稀疏,局部密集的特點(diǎn)。
莊須強(qiáng)等人[2]和鄧揚(yáng)等人[3]都將彈幕定義為一個(gè)由彈幕內(nèi)容、彈幕發(fā)送時(shí)間和用戶(hù)ΙD組成的三元組。通過(guò)對(duì)彈幕的提取,進(jìn)行了相關(guān)的彈幕情感分析。以B站彈幕內(nèi)容為例,彈幕格式是一個(gè)八元組,包括彈幕出現(xiàn)時(shí)間,彈幕的類(lèi)型,彈幕的大小,彈幕的字體顏色,彈幕的發(fā)布時(shí)間,彈幕池,彈幕發(fā)送者ΙD,彈幕的rowΙD。

圖1:中文彈幕情感分析流程
在鄧揚(yáng)等人[3]文中,首先對(duì)視頻片段進(jìn)行切分,然后提取片段中的彈幕序列,進(jìn)行文本預(yù)處理后對(duì)詞語(yǔ)進(jìn)行了編號(hào)化處理。莊須強(qiáng)等人[4]對(duì)彈幕中每個(gè)不同的詞都用一個(gè)對(duì)應(yīng)的向量表示,建立情感詞典,以此去除深度學(xué)習(xí)可能出現(xiàn)的高緯度、梯度消失等問(wèn)題。洪慶等人[1]對(duì)彈幕中的網(wǎng)絡(luò)流行詞建立了特定詞典,對(duì)彈幕數(shù)據(jù)用詞進(jìn)行詞性分析;對(duì)數(shù)據(jù)中的顏文字、表情則編寫(xiě)了正則語(yǔ)句,識(shí)別后刪除。
彈幕詞典不同于傳統(tǒng)的漢字字典,其來(lái)源廣泛,具有多樣性和時(shí)效性。彈幕詞典從來(lái)源分析主要由兩部分組成,一部分是沒(méi)有意義的詞匯,由于社會(huì)的發(fā)展和從視頻的臺(tái)詞中演化出來(lái)的,另一部分是原本有確切含義的詞,出現(xiàn)了新的含義。彈幕詞典從成分分析有兩部分組成,一部分是網(wǎng)絡(luò)流行語(yǔ),另一部分則是專(zhuān)屬于視頻領(lǐng)域的彈幕專(zhuān)用詞匯,如“打卡”、“火鉗劉明”等,只會(huì)在彈幕中出現(xiàn)。因此對(duì)于構(gòu)建彈幕詞典需要不斷地更新和廣泛的吸收。
不同于一般的NLP分詞,彈幕文本具有口語(yǔ)化、頻繁重復(fù)、句子較短的特點(diǎn),需要構(gòu)建特殊停用詞表。王素格等人[5]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)是否有形容詞、動(dòng)詞等的停用詞表,對(duì)情感分類(lèi)的影響較大。熊文新等人[6]總結(jié)了停用詞過(guò)濾在信息檢索用戶(hù)查詢(xún)語(yǔ)句中的使用情況。一般來(lái)說(shuō)專(zhuān)業(yè)停用詞表是基于統(tǒng)計(jì)的自動(dòng)學(xué)習(xí)方法,從語(yǔ)料庫(kù)中統(tǒng)計(jì)出高頻停用詞,然后構(gòu)建停用詞表,之后再由專(zhuān)人進(jìn)行核查[7]。
彈幕具有口語(yǔ)化和文本較短的特點(diǎn),一般的中文情感詞典只是對(duì)生活中的詞語(yǔ)進(jìn)行劃分,沒(méi)有考慮到彈幕的特點(diǎn) 因此需要專(zhuān)業(yè)的詞典。徐琳宏等人[9]在提出了一種情感分類(lèi)樹(shù),將情感分類(lèi)為7類(lèi),這7類(lèi)分別是: 樂(lè),好,怒,愁,驚,惡和懼。樂(lè)和好屬于積極情感,其他的屬于消極情感。
4.2.1 MTER算法
鄧揚(yáng)等人[3]認(rèn)為彈幕的詞分布可視作一個(gè)概率模型,在同一個(gè)視頻片段中的詞相互之間具有情感依賴(lài),因此提出一種基于多主體的視頻片段情感識(shí)別(Multi—Topic Emotion Recognition,MTER)算法。
MTER利用每個(gè)詞的隱含情感主題分布來(lái)評(píng)估詞的情感值,并用情感向量表示彈幕。由于視頻片段的情感具有傳遞性,歸屬于同一個(gè)視頻中的視頻片段具有一定的情感相關(guān)性和相似性,尤其是時(shí)間相隔較近的片段,因此作者還對(duì)視頻片段情感向量進(jìn)行了調(diào)整。
4.2.2 AT-LSTM 模型
莊須強(qiáng)等人[4]分析了多種機(jī)器學(xué)習(xí)模型在聚類(lèi)時(shí)的優(yōu)劣勢(shì),最后使用了基于Attention Model 的AT-LSTM 模型。AT-LSTM模型能夠有效的避免長(zhǎng)期依賴(lài)問(wèn)題,防止有用數(shù)據(jù)信息丟失,并且能突顯關(guān)鍵評(píng)論詞,降低非關(guān)鍵詞對(duì)彈幕情感帶來(lái)的影響。
4.2.3 計(jì)算情感值
鄭飏飏等人[8]認(rèn)為只考慮情感詞的分類(lèi)不夠全面,還要考慮到否定詞的影響。杜振雷等人[10]在微博短文本的情感分析研究中指出,否定詞會(huì)對(duì)情感值計(jì)算產(chǎn)生相反的影響。因此在計(jì)算情感值時(shí),需要注意彈幕評(píng)論中是否夾雜著否定詞,再進(jìn)行計(jì)算。
通過(guò)對(duì)中文彈幕情感分析的研究,本文將中文彈幕情感分析流程一般化為圖1所示。首先構(gòu)建彈幕詞典,以此來(lái)支持文本預(yù)處理模塊,經(jīng)過(guò)彈幕分詞、詞性標(biāo)注、人工篩選等過(guò)程生成情感詞典,利用情感詞典對(duì)彈幕進(jìn)行情感分析,并保存到數(shù)據(jù)庫(kù)中。用戶(hù)可以通過(guò)客戶(hù)端查詢(xún),選擇自己偏好的視頻,實(shí)現(xiàn)彈幕情感分析的價(jià)值。