999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

多特征融合下視頻網站彈幕信息有用性檢測研究

2022-03-30 23:23:59張瑞何祿鑫黃煒
現代情報 2022年4期
關鍵詞:機器學習

張瑞 何祿鑫 黃煒

基金項目:湖北省高等學校哲學社會科學研究重大項目“新時代高校突發事件網絡輿情分析與引導機制研究”(項目編號:19ZD025);湖北省教育廳科學技術研究計劃重點項目“大規模數據環境下基于時序模式挖掘的網絡恐怖事件感知方法研究”(項目編號:D20191401)。

作者簡介:張瑞(1992-),女,講師,博士,研究方向:知識計量與信息管理。何祿鑫(2001-),男,本科生,研究方向:用戶行為。黃煒(1979-),男,教授,博士,研究方向:網絡輿情與大數據。

摘 要:[目的/意義]隨著視頻平臺彈幕功能被大眾所熟知,彈幕信息呈現爆炸式增長,信息有用性檢測逐漸凸顯重要的學術和商業價值。[方法/過程]本文提出了多特征融合下視頻網站彈幕信息有用性檢測模型。該模型首先從彈幕信息效用、彈幕表達形式和彈幕用戶特征3個角度提取與彈幕信息有用性相關的特征指標,然后利用隨機森林對重要特征進行選擇,建立機器學習模型邏輯回歸、SVM、決策樹、樸素貝葉斯、GBDT等對彈幕信息進行分類,得到各等級信息有用性的檢測結果。[結果/結論]從結果中顯示,集成模型(GBDT、LightGBM和XGBoost)相比于單模型算法展現了更好的優越性。最后,根據研究結果提出相應的理論和實踐意義。本研究擴展了在線信息特征相關研究,也為評估和改善視頻平臺環境提供了決策依據。

關鍵詞:特征融合;隨機森林;機器學習;有用性檢測;彈幕信息

DOI:10.3969/j.issn.1008-0821.2022.04.009

〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821(2022)04-0099-11

Abstract:[Purpose/Significance]As the function of the video platform danmaku is well-known to the public,the information of danmaku has exploded,and information usefulness detection gradually highlights the important academic and commercial value.[Method/Process]In this paper,a multi feature fusion based video website danmaku information usefulness detection model was proposed.Firstly,the feature indexes related to the usefulness of danmaku information were extracted by the model from the three perspectives of danmaku information utility,danmaku expression and danmaku user characteristics.Then the important features were selected using random forest,and a machine learning model was established to classify danmaku information,such as logical regression,SVM,decision tree,naive bayes and GBDT,getting the test results of each level of information usefulness.[Results/Conclusion]The results show that the integrated models(GBDT,LightGBM and XGBoost)have better advantages than the single-model algorithm.Finally,according to the research results,the corresponding theoretical and practical significance is put forward.This research expands the research on the characteristics of online information,and also provides a decision-making basis for evaluating and improving the video platform environment.

Key words:feature fusion;random forest;machine learning;usefulness detection;danmaku information

近年來,彈幕已經發展成為大眾熟知并接納的一種信息傳播方式。彈幕文化最早起源于2006年日本Niconico視頻網站,2008年傳入我國被ACG愛好者所接受,其后,BiliBili網站(以下簡稱B站)迅速建立并發展成為我國最大的彈幕視頻網站,2014年底,騰訊、愛奇藝等國內主流視頻網站紛紛使用了彈幕功能[1-2]。在2020年11月,B站聯合中國社會科學院社會學研究所發布《2020年度彈幕報告》,報告基于大數據統計指出B站用戶總共發送超16億次彈幕,95后用戶非常活躍[3]。隨著彈幕的受眾和影響力不斷擴大,大量彈幕信息呈爆炸式增長,過去彈幕只是一種漂浮于在線播放視頻之上的流動文本,現在彈幕已發展成為諸多場景必不可少的互動功能之一[4]。用戶可以即時進行文本編輯與發送,將自己的彈幕呈現在播放頁面上。相比于傳統評論,視頻彈幕具有即時性、共情性、互動性等特點。作為一種新型的信息交流方式,彈幕不僅包含用戶對視頻內容的評論信息,同時還包括用戶復雜多樣的態度、意向、情感等信息。喻昕等指出,彈幕信息具有互動性、可視性、娛樂性和有用性4種特性,其中有用性反映出彈幕信息的可利用價值[5]。

隨著用戶參與度提高,彈幕數量日漸龐大且不斷增長,密集的文字鋪滿屏幕,可能會對用戶觀看體驗造成一定的影響[6]。用戶傾向于對自己的觀看體驗產生積極影響的彈幕信息,認為該信息是有價值的、有意義的。此外,彈幕信息中傳遞的用戶觀點和想法越來越多地被視頻創作者和平臺關注,且在產品功能上十分重視彈幕的篩選和審核機制[7-8]。然而,信息有用性在不同程度上取決于個人的主觀認知,針對信息有用性的量化研究成為一項具有挑戰性的工作[9-10]。因此,面對海量彈幕信息,有效甄別和檢測彈幕信息有用性體現出重要的價值。現有對信息有用性的研究集中于網絡評論有用性[11-12],彈幕是繼網絡評論后的一種新穎的信息表達方式,彈幕信息有用性的衡量標準也產生了一定變化。基于上述情況,本文以視頻網站彈幕信息為研究對象,提取彈幕信息特征,構建有用性檢測模型,并采用彈幕數據進行實驗來驗證檢測效果,以期達到能獨立判斷和自動識別視頻網站彈幕的信息價值,有效挖掘用戶觀點,提升視頻網站服務質量。

1 相關工作

1.1 彈幕文本研究

在互聯網時代,彈幕文化日益濃厚,表現出顯著的風格特征,呈現出互動性、碎片性、流動性和及時性[13-14]。彈幕文本具有形式短且語義缺失的特點,張俊杰分析收集視頻彈幕數據發現,80%以上的彈幕在30字符以下[15]。從傳播學角度,網絡媒體有豐富的符號化表達方式,彈幕的語言模式成為研究關注的重點。例如,沈文靜將彈幕分為文字類和非文字類符號[16];付陽春按照彈幕語言成因分為操作類、情感類、來源類和其他4類[17];王路珊認為彈幕語言有其獨特語境,在語音、文字、詞匯、句法和語義方面不同于其他網絡語言[18]。

彈幕伴隨視頻網站的發展得以運用,可以極大地改善人與人之間的互動[19]。在營銷學領域,學者們重點關注視頻網站彈幕的用戶體驗。孟陸等以信息源特性維度(專業性、技能性等7項)來分類彈幕文本,檢驗直播網紅的信息源特性對受眾行為的影響[20]。不少研究指出,彈幕蘊含著用戶的行為和態度信息,從彈幕文本中判別用戶的關注點和情感傾向,有助于行為科學中的潛在應用[21-23]。張亞雪等認為,彈幕使用動機在于滿足受眾自我呈現和多種需求[24]。Wang S等構建基于改進的Bi-LSTM模型的彈幕評論情感分析模型[25]。在網絡教育中,楊九民等通過元分析證明彈幕對學習者的學習具有積極影響,對學習結果影響顯著[26]。此外,對彈幕進行識別和標注等技術也在不斷發展。Wu B等利用彈幕的文本內容自動提取時間同步的視頻標簽[27]。He M等結合彈幕動態性預測視頻流行度,利用羊群效應設計檢測“領頭羊”彈幕[28]。Xu L等結合彈幕之間的關聯性提取視頻摘要[29]。

1.2 信息有用性檢測研究

信息有用性是用戶感知信息的有用程度對信息價值的衡量,目前相關研究大多圍繞在線評論的特征探究有用性影響因素,包括評論信息特征、評論者特征以及產品類型[30]。劉偉等通過IAM的雙路徑分析理論模型,證明信息豐富性、信息可讀性和點評負面性對在線評論有用性有顯著正向影響[31]。而對于商家回復場景下的信息有用性,程艷霞等則從有效解決問題、滿足情感需求、培育駕馭能力3個維度開發量表[32]。大多數對于信息有用性檢測的研究首先須得到有效特征,并運用回歸方法和分類算法進行檢測,研究場景較分散[11,33-34]。總的來說,無論在學術還是在商業領域,彈幕信息有用性檢測相關研究體現了重要的價值,但仍處于初步探索階段。

近年來,機器學習模型對網絡信息的分析和處理方面得到廣泛應用,具有優良表現。如利用機器學習模型對新能源汽車普通消費者評論進行情感演化分析[35],運用LightGBM算法預測P2P項目信用[36]等。邏輯回歸、SVM、決策樹等機器學習模型能從高維度、高噪聲數據中學習經驗知識,為進一步提高信息有用性檢測的精確度提供了可能。本文試圖結合彈幕文本特點,解析視頻網站彈幕用戶的行為方式,從影響信息有用性的關鍵要素出發構建特征指標,應用機器學習算法構建預測模型,實證檢驗模型有效性,通過對比不同的機器學習算法,尋找最優模型,達到彈幕信息有用性檢測要求。

2 多特征融合下視頻網站彈幕信息有用性檢測模型

2.1 總體框架

本文提出的視頻網站彈幕信息有用性檢測過程主要包含兩個階段:特征生成和信息有用性檢測。在特征生成階段,首先利用Python爬蟲收集視頻彈幕數據集,對數據進行清洗,根據有效特征計算模板進行計算,數值轉換后得到各維度的特征項;在信息有用性檢測階段,使用隨機森林對提取特征項進行排序篩選以提高檢測效果,并將所選擇的特征值形成目標數據集,輸入到分類器進行模型訓練,對視頻網站彈幕信息有用性進行檢測,根據彈幕信息有用性特征對檢測效果進行評估。如圖1所示。

2.2 有效特征選取及量化

在視頻網站彈幕信息有用性檢測模型中,特征選取與量化是重要的預處理策略。特征選取是為了解決預測問題,選擇一部分必要的、具有代表性的特征,減少過度擬合,提高模型學習和預測能力。在不同的信息有用性指標體系構建中,主要考慮3個方面:一是信息特征,如信息質量和信息可信度通常作為主要衡量指標[37-38];二是文本特征,包括文本長度和單詞數目等[39];三是用戶自身特征也與信息有用性關系密切[38]。鑒于此,本文將檢測彈幕信息有用性作為目標,從彈幕信息效用、彈幕表達形式和彈幕用戶特征3個角度概括相關特征作為具有決定性的影響變量。

2.2.1 彈幕信息有用性

信息有用性是用戶對信息的接受、理解與分析的重要特征,信息有用性高的信息更易理解,具有更高的影響力與傳播價值[40]。彈幕在視頻上經過較短時間傳遞信息,視頻觀看者會對有用信息表達出喜愛與認可。在信息有用性衡量方式中,楊東紅等采用投票數作為評論有用性的衡量依據[11]。在信息傳遞過程中,點贊數是信息發送者與信息接受者之間的互動機制[41]。本文通過彈幕的點贊數來反映彈幕信息有用性的高低。

2.2.2 彈幕信息效用

有用性作為信息的一種屬性,并沒有明確信息效用的實質內容[42]。信息效用與用戶自身任務相關,與信息效用相關的度量指標包括及時性、適用性、相關性等[43-44]。由此,結合彈幕環境,信息效用可以通過可讀性、文本情感值、信息時效性和主題相似度4個特征,反映信息給用戶個人帶來的效果與感受。

1)可讀性。彈幕信息以文本形式在視頻上方短時間內劃過,可讀性強,可以簡明扼要表現出內部含義,增加信息易理解程度,方便用戶瀏覽和閱讀。本文主要運用秦琴等提出的可讀性計算公式,對彈幕信息進行可讀性計算[45],其中,句子長度和專業術語會直接影響可讀性值。公式中,本文利用中國規范術語詞表[46]對句子中的專業術語進行提取。

2)文本情感值。情感功效是彈幕信息中不可忽略的重要因素。彈幕信息承載了用戶豐富的情感表達需求,如使用彈幕進行調侃、吐槽、狂歡等。彈幕中的情感信息能與用戶產生情感共鳴或情感導向,促使用戶產生鮮明的態度和看法。目前,中文情感分析技術發展較為成熟,情感權值詞典方法是一種常用的基于細粒度情感計算方法,根據句子中積極、消極詞匯進行匹配評估。本文通過沈陽團隊[47]的ROST情感分析工具得出彈幕信息的情感值。

3)信息時效性。在時間維度上,通常網頁評論有用性與評論快慢相關[30]。而在視頻環境中,彈幕信息與視頻當中對應內容具有一定相關性,彈幕及時性體現在能否快速與視頻中不同的片段進行呼應。彈幕頻率隨時間波動,通過王蕊等的數據研究表明,彈幕在戲劇沖突點最為密集[48]。本文將彈幕頻率波動高低分為5個等級,對應彈幕具有不同信息時效性。

4)主題相似度。視頻中彈幕信息紛繁復雜,但每一期視頻具有一定的主題性,用戶言論主要以視頻內容為中心。如紀錄片《在武漢》的彈幕文本,主要圍繞抗擊疫情的主題展開[49]。主題相似度低反映了該彈幕信息與視頻內容關聯較低,如廣告、貶低他人的話語等垃圾彈幕信息[50]。根據分詞后的詞頻高低,取頻率前十的詞匯作為視頻主題詞匯集合,利用TF-IDF算法計算文本相似度,比較彈幕信息與主題詞匯集合之間的TF-IDF相似度,最終確定每條彈幕信息的主題相似度值。

2.2.3 彈幕表達形式

視頻中的彈幕是一種新穎的信息評論方式,其文本特點為短而精湛。信息表達形式影響信息內容的傳達效果,各項研究表明,信息表達形式的差異性顯著影響人們對信息有用性的感知[11,38]。總結彈幕信息所呈現出來的語言特征,包含文本字數、文本顏色、句子完整度和句子互動性4個方面。

1)文本字數。一般信息長度與信息量密切相關,信息較長則內容較豐富。不少研究證實對于文本信息而言,文本字數是影響信息有用性最普遍的因素[11,30]。Kuan K等研究表明,長文本的評論信息更能吸引人們的注意[51]。本文認為彈幕信息的文本字數是影響彈幕信息有用性的重要特征。

2)文本顏色。文本顏色是表達形式的重要組成部分。在觀看視頻時,用戶具有對顏色、字體大小等多樣化設置的選擇[14]。人眼對顏色、字號大小等視覺線索感知有別,彩色彈幕以及字號更大或更小的彈幕體現出更高的表現力,特殊彈幕往往會更吸引視頻的觀看者。因此,本文將文本顏色作為重要特征項之一。

3)句子完整度。信息的完整作為衡量信息質量的重要方面,對信息有用性有顯著影響[52]。根據彈幕文本短的特點,主要從語義和句法分析的角度考慮。完整的句子一般來說就是主謂賓結構[53]。對彈幕信息進行句法依存關系分析,所有的句子都具有一個核心關系HED;句子包含主謂賓結構特征的具有核心關系HED、主謂關系SBV和動賓關系VOB。據此可將句子完整度劃分為3個等級。

4)句子互動性。以文本為介質的傳播與互動當中,句子互動性強可以使文本更具親和力,更易產生共鳴。當文本當中攜帶有第二人稱代詞(比如“你”)時,文本的互動性也會得到一定的提高[54]。句子中包含第一人稱和第二人稱的文本具有較強的主觀性。將文本當中同時帶有第一人稱和第二人稱(如:我愛你中國)的互動性等級設為最高,完全沒有人稱方式(如:大美中國)的互動性等級設為最低,將句子互動性劃分為3個等級。

2.2.4 彈幕用戶特征

個體差異性使彈幕用戶在信息表達方面有所偏差,信息發布者特征對于信息有用性同樣重要。例如,在大眾點評網的實證研究中,點評者經驗對于點評有用性呈正相關[31];在開放式創新社區中,用戶主動貢獻程度正向影響信息有用性[52]。本文基于彈幕環境從用戶會員等級和用戶發送活躍程度分析用戶特征。

1)用戶會員等級。各視頻網站均設置了會員制,使不同的用戶使用彈幕具有不同的權限,比如高級會員、UP主能夠有更多的效果或文字[1]。另外,會員等級反映了對視頻平臺的時間或金錢投入,會員等級高的用戶具有更強的依賴性。不同的會員等級的用戶,其彈幕信息使用經驗和傾向可能有所差異,對彈幕信息有用性有一定影響。

2)用戶發送活躍程度。彈幕信息是用戶自我呈現的一種方式,用戶參與度受用戶性格的影響,同時,用戶經驗越豐富,表達能力越強,越具有話語權。本文將不同用戶在同一期視頻中發送彈幕的次數作為衡量用戶發送活躍程度的依據。

2.3 信息有用性檢測過程

信息有用性檢測的結果依賴于特征的有效性和具體學習算法。為了降低模型復雜度,提高檢測效率,本文對復雜數據集進行特征處理完成后,采用隨機森林算法完成多維特征變量選擇處理,根據重要度準則篩選關鍵特征。在此基礎上,利用多個機器學習算法(邏輯回歸、SVM、決策樹等)開發彈幕信息有用性檢測模型。

2.3.1 隨機森林特征選擇

隨機森林算法(RF)是由Breiman L提出的一種集成學習算法[56],其特點是在決策樹的訓練中引入了隨機屬性選擇,構成了隨機決策樹模型。其具有靈活性高、速度快、通用性強等優點,在特征選擇、參數優化、分類預測相關場景中得到廣泛應用。本文信息有用性檢測模型中的特征選擇采用隨機森林算法。基本步驟如下:

1)構建n棵決策樹,形成隨機森林。

2)計算每棵決策樹的袋外數據(Out-of-bag error,OOB)誤差,計為err1;對第i個特征,運用Bootstrap采樣方法隨機抽取樣本作為訓練樣本,并再次計算該決策樹的OOB值,記為err2;計算第i個特征的重要性程度值w=Σ(err2-err1)/n。

3)對m個特征的重要性程度值進行排序,去除掉重要度最低的t個特征。

4)重復2)、3)步驟,最后得到最優決策樹。

2.3.2 模型訓練和評估

本文將機器學習方法應用到彈幕信息有用性檢測中,基于關鍵特征集訓練模型,用訓練好的模型進行預測。從單模型和集成模型中選擇合適的機器學習算法,包括:邏輯回歸、SVM、決策樹、樸素貝葉斯、GBDT、LightGBM、XGBoost。對不同機器學習算法的原理和特點進行分析和總結,比較其性能效果,如表2所示。

完成上述機器學習方法檢測后,根據檢測結果計算精確率(Precision)、召回率(Recall)、F1值(F1-score)、預測準確率(Accuary)及ROC曲線的評估指標,對比不同算法的效果,分析本文所提模型的有效性,公式如下所示。

其中,TP(True Positive)為將i類樣本正確預測為i類的樣本量;FP(False Positive)為將其他類別樣本錯誤預測為i類的樣本量;FN(False Negative)為將i類樣本錯誤預測為其他類別的樣本量;TN(True Negative)為將其他類別樣本正確預測為其他類別的樣本量;ROC曲線橫坐標為FPR(Flase Positive Rate),縱坐標為TPR(True Positive Rate)。

3 實驗與結果分析

3.1 實驗數據

本文選擇的視頻網站彈幕信息有用性檢測實證對象為騰訊視頻平臺(https://v.qq.com/),它是較早使用彈幕功能的視頻在線播放平臺之一,具有注冊用戶即時發送彈幕、彈幕點贊、彈幕字體顏色等功能,在擁有海量影視資源的基礎上,通過彈幕等功能吸引了大量用戶,熱門視頻彈幕數量高,參與用戶數量大。2020年拍攝的《航拍中國》在騰訊視頻平臺得到9.5分的超高評分,是深受用戶喜愛的一部紀錄片;用戶群體的地區、性別、年齡等具有一定的均衡性。本文使用Python爬取騰訊視頻網站中《航拍中國第三季》共十集紀錄片的全部彈幕數據作為研究文本,該紀錄片彈幕文本更新時間截至2021年4月15日,包含彈幕相關數據記錄共49 369條,將數據存入Excel表格中,包括彈幕ID、彈幕文本、用戶名、用戶頭像URL、會員等級、顏色樣式、發布時間、彈幕點贊數等基本信息,部分數據截圖如圖2所示。

3.2 描述性統計分析

利用獲取的彈幕數據,依據上述有效特征選取及量化方法進行數值轉換。根據實驗模型中的1個因變量即信息有用性,10個自變量包括彈幕可讀性、文本情感值、信息時效性、主題相似度、文本字數、文本顏色、句子完整度、句子互動性、用戶會員等級、用戶活躍程度。對11項特征進行描述性統計分析,得到11項指標的平均值、標準差、最大值、最小值4項指標,如表3所示。其中,信息有用性平均值為1.87,說明大量用戶發送的彈幕獲得了較少點贊數,整體信息有用性偏低。

彈幕信息效用相關指標(可讀性、文本情感值、信息時效性和主題相似度),信息時效性較高且表現穩定,主題相似度偏低,大量用戶傾向于即時發表感受或想法,不會考慮根據熱點主題進行針對性評論。彈幕表現形式相關指標(文本字數、文本顏色、句子完整程度、句子互動性),文本字數均值為9.89,大部分彈幕文本長度為10個字左右;文本顏色特征均值為0.24,彩色彈幕數目較少,白色彈幕為用戶使用彈幕顏色主流;另外,句子完整程度居中,句子互動性偏低。彈幕用戶特征(用戶會員等級、用戶發送活躍程度),大量用戶會員等級普遍較低,均值為1.02,且差異性不明顯;而用戶發送活躍程度平均值為37.93,標準差為76.55,離散程度較高,不同用戶發送活躍程度差異性較大。

對于模型中最后需要預測的變量信息有用性,張婧等將點贊數的閾值設為7,將評論有用性識別分為兩類[57]。本文將彈幕有用性檢測作為一個多分類任務,考慮更細級別的分類,結合實際彈幕數據,將點贊次數劃分為低、中、高和極高4個級別,“+”個數來表示信息有用程度,等級越高表示信息有用性越高,如表4所示。

3.3 有用性檢測實驗

3.3.1 不同特征對信息有用性檢測的貢獻度

隨機森林模型可以判斷特征指標對目標變量的重要程度,同時對高維度小樣本數據有著良好的適應性。為避免特征中混雜冗余信息,進一步優化檢測效果,本文采用隨機森林模型尋找彈幕信息有用性的相關因素。以彈幕信息有用性等級劃分作為量化指標,利用隨機森林模型分析各項特征對信息有用性的貢獻,按照貢獻程度選取部分有效特征作為有用性檢測的關鍵特征集。本文依據隨機森林算法特征選擇步驟,訓練一個包含10 000棵決策樹的隨機森林,觀測不同彈幕特征如何影響信息有用性,對不同特征重要程度進行排序和可視化,結果如圖3所示。

從圖3中看出,對于檢測彈幕信息有用性,可讀性、用戶發送活躍程度和文本情感值是最重要的3個特征項。在分類中,這3項特征來自于彈幕信息效用和彈幕用戶特征。對于彈幕表現形式而言,文本字數占據重要貢獻度,其他特征項(句子完整度、文本顏色和句子互動性)對彈幕信息有用性檢測的貢獻值較低。由此可以推斷,彈幕表現形式相對而言發揮的作用很小,網絡環境中用戶更注重信息內容,對于信息表達的規范性和完整度不太關注。因此,在進行彈幕信息有用性識別時,應重視用戶通過彈幕傳達出的信息信號和情感信號。

本文優先組合重要特征用于信息有用性檢測,選取特征項的前70%,即重要程度較高的前7個特征項分別是可讀性、用戶發送活躍程度、文本情感值、文本字數、主題相似度、用戶會員等級、信息時效性作為信息有用性的關鍵特征集合。

3.3.2 信息有用性檢測模型實施與結果分析

1)信息有用性檢測評估結果

將特征選擇的結果作為輸入變量運用于信息有用性檢測實驗中,采用Python中Sklearn包進行訓練集與測試集的隨機分割,得到34 588條樣本構成的訓練集與14 811條樣本構成的測試集,設置7種機器學習模型的最優參數,對上述數據集進行模型訓練與測試。首先采用Binarize函數對預測結果進行二值化,然后依據不同效果評估公式進行計算,根據得到每一種模型的精確率(Precision)、回收率(Recall)、F值(F1)、預測準確率(Accuracy),不同算法模型評估結果及對比情況如表5所示。

從實驗結果來看,7項機器學習模型精確率(Precision)均不低于0.725,說明傳統的機器學習運用在彈幕信息有用性檢測上是可行的。同時,從Precision、Recall、F1和Accuracy各項評估結果中可以發現,集成學習類別的機器學習算法(GBDT、LightGBM、XGBoost)效果普遍優于單模型機器學習算法(邏輯回歸、SVM、決策樹和樸素貝葉斯)。在本實驗環境下,決策樹的Recall、F1和Accuracy值均低于其他算法,XGBoost在各項指標性能中均處于領先位置。

2)不同級別信息有用性檢測結果差異

為了進一步驗證檢測效果,本文按測試集中信息有用性等級(低、中、高和極高)進行分類,比較不同信息有用性等級各機器學習算法的預測正確的樣本數比例,如圖4所示(注:多種坐標軸尺度不一致)。從整體情況來看,決策樹在檢測中、高等級信息有用性時表現突出,對低等級信息有用性檢測性能不及其他算法。同時可以發現,邏輯回歸、SVM在二分類問題比較擅長;對于多分類問題,本實驗環境下,決策樹或者決策樹集成方法(GBDT、LightGBM和XGBoost)解決效果更好。

由于訓練預料不均衡的問題,大部分機器學習算法在檢測低等級的信息有用性時有較好的正確率,小規模的訓練預料(中、高和極高)并不能充分發揮機器學習算法的性能。實驗結果顯示,在提高信息有用性檢測精度上難以進行進一步優化。

3)不同機器學習算法ROC曲線對比

在信息有用性檢測實驗中計算ROC曲線和AUC值,如圖5所示。一般ROC越靠近左上角,即曲線下面的面積(AUC)越大,代表預測方法的效果越好,最大面積為1。從圖中可以看出,單模型中,邏輯回歸模型和SVM支持向量機評價指標表現最佳,預測準確率分別為90.62%、90.93%。集合模型中,GBDT、LightGBM和XGBoost的ROC曲線也位于曲線對比圖中的頂端,AUC值較高,表現出較為良好的性能。從兩個圖的對比來看,采用集合模型類機器學習方法的整體性能要優于單模型,檢測率高。圖中顯示所有機器學習算法的ROC曲線下面的面積基本大于0.84,表明本文有用性檢測展現出可靠性能,模型擬合度較高。

4 結果與啟示

4.1 研究結果

從特征的篩選中,彈幕表達形式相關特征的重要程度排序較靠后,有3項指標被直接剔除掉,說明不同特征項對信息有用性的預測能力有較大的差異。彈幕具有豐富的表現形式,改變了用戶的視覺體驗,如紅色彈幕比較具有警示意義。喻昕等在網絡直播平臺彈幕用戶參與行為研究中表示互動性和可視性是影響用戶體驗的關鍵信息源[5],本文結果進一步表明了彈幕信息的句子互動性較強或文本顏色特別能吸引其他用戶注意,但并不表示一定能得到其他用戶的認可。過去研究表明,文本長度和信息有用性之間具有顯著影響,本文研究對象聚焦于彈幕評論,且彈幕的文本長度更加簡短,但結果與以往研究具有一致性。

使用7種機器學習算法對通過特征選擇后的目標數據集進行訓練與測試,通過不同的角度對各算法的評估結果進行對比。不同評估結果均反映了集成模型要優于單模型,具有更高的數據分類精度。而LightGBM作為GBDT模型的改進算法,增加了學習控制參數與學習目標參數,在結果上顯著提升了預測準確率,避免出現過擬合情況。從Precision、Recall、F1和Accuracy各項評估結果顯示,XGBoost相比LightGBM進一步提升了模型預測的穩定性,更適用于彈幕有用性檢測應用場景。

4.2 相關啟示

1)建立信息有用性檢測指標體系具有可行性。信息有用性檢測作為近年來熱門研究領域,以往研究多關注于傳統商品評論與評價的信息有用性探究,較少關注彈幕環境下的信息有用性。本研究構建多特征融合下視頻網站彈幕信息有用性檢測模型,對彈幕信息特征進行挖掘與分析,將彈幕通過信息特征、文本特征、用戶特征分析得出彈幕信息效用、彈幕表達形式與彈幕用戶特征3類特征。拓寬了對于彈幕信息有用性的研究維度,同時兼備科學性與合理性。建立較為完善的信息有用性檢測指標體系,能夠為信息有用性分析與解釋提供路徑與方法。

2)集成模型在大規模非均衡數據集上表現出更好的穩健性。本文的實驗過程為彈幕文本數據分析和處理提供了完整的解決思路。實驗中,對彈幕文本數據進行量化處理,通過隨機森林模型獲得特征的重要程度,采用7種當下較為熱門的機器學習算法,充分對模型的預測效果進行評估與比較,對比在不同算法下同一數據集的預測效果。可以看出,對于相關性不確定的大規模非均衡彈幕文本數據,集成學習模型的檢測效果和穩健性均優于其他模型,是一種較為實用的解決方法。

3)在管理實踐中有助于推動網絡信息服務正向發展。對彈幕信息進行有用性檢測,有助于評估視頻彈幕質量、優化彈幕功能、增強用戶粘性,促進平臺有序發展。另外,在本文研究基礎上,值得對彈幕文本特征與含義進行更深層次挖掘,建立必要的彈幕內容監管機制,及時刪除不文明或敏感彈幕,避免彈幕環境惡化。對彈幕文本內容進行挖掘與審核,能正確引導視頻觀看用戶合理討論,發送文明彈幕,有助于營造和諧穩定的視頻觀看環境。

5 結 語

本文的研究目的是對視頻網站彈幕信息有用性進行檢測,通過構建多特征融合下信息有用性檢測模型,從多個角度分析彈幕信息有用性影響因素,并提出特征量化方法。在實驗部分,本文利用隨機森林模型分析各項特征的重要程度,并使用多種機器學習算法進行訓練和檢測,取得了不錯的評估效果。本文的研究不僅豐富了信息特性的理論體系,同時對視頻平臺的監管機制和服務策略具有一定實踐意義。但本文尚有許多值得改進的地方,例如在考慮信息有用性影響因素時,未能涵蓋文本語言上的其他特征,在全面性上有進一步提高的空間;彈幕信息有用性不同等級樣本數量的不均衡,使機器學習算法分類精度效果有限;另外,本文的研究樣本只選取了單一類視頻,在后面研究中可以對比不同類別視頻的彈幕有用性檢測的差異性,為視頻平臺提供更精準的服務。

參考文獻

[1]郭磊.我國彈幕視頻網站的受眾研究[D].昆明:云南大學,2015.

[2]江含雪.傳播學視域中的彈幕視頻研究[D].武漢:華中師范大學,2014.

[3]B站聯合社科院社會學研究所.2020年度彈幕報告[EB/OL].https://www.163.com/dy/article/FSENJJ0U0519QIKK.html,2021-06-22.

[4]葛欣怡.彈幕在不同場景中的傳播效果探究[D].北京:北京郵電大學,2019.

[5]喻昕,許正良.網絡直播平臺中彈幕用戶信息參與行為研究——基于沉浸理論的視角[J].情報科學,2017,35(10):147-151.

[6]馬黛.新媒體時代的彈幕文化現象分析[J].西部廣播電視,2021,42(5):79-81.

[7]張頤武.彈幕的意義[N].人民政協報,2021-01-18,(9).

[8]許熙揚,劉錦宏.基于用戶需求的B站社區屬性轉型策略分析[J].今傳媒,2021,29(5):26-28.

[9]Liu X,Wang G A,Fan W,et al.Finding Useful Solutions in Online Knowledge Communities:A Theory-Driven Design and Multilevel Analysis[J].Information Systems Research,2020,31(3):731-752.

[10]馮進展,蔡淑琴.融合信息增益和梯度下降算法的在線評論有用程度預測模型[J].計算機科學,2020,47(10):69-74.

[11]楊東紅,吳邦安,孫曉春.基于機器學習的網絡評論信息有用性預測模型研究[J].情報科學,2019,37(12):34-39,77.

[12]Malik M,Hussain A.An Analysis of Review Content and Reviewer Variables that Contribute to Review Helpfulness[J].Information Processing & Management,2018,54(1):88-104.

[13]楊婷.5G時代彈幕文化的發展及轉向[J].青年記者,2020,(35):16-17.

[14]嚴美婷.彈幕亞文化的社會成因及現存問題——以Bilibili彈幕網為例[J].傳媒論壇,2021,4(6):129-130.

[15]張俊杰.面向視頻彈幕的消費意圖挖掘研究[D].重慶:重慶郵電大學,2020.

[16]沈文靜.社會與符號的互動:青年新媒體話語與“e”托邦建構[J].山東外語教學,2019,40(3):22-30.

[17]付陽春.B站彈幕語言研究[D].湘潭:湘潭大學,2015.

[18]王路珊.B站彈幕語言的認知分析[D].綿陽:西南科技大學,2017.

[19]Jing L,Zhu J,Wang X,et al.Identifying the Potential of Danmaku Video from Eye Gaze Data[C]//IEEE International Conference on Advanced Learning Technologies(ICALT).Austin,TX,2016,288-292.

[20]孟陸,劉鳳軍,段珅,等.信息源特性視角下網紅直播對受眾虛擬禮物消費意愿的影響[J].管理評論,2021,33(5):319-330.

[21]王文韜,陳千,張肖,等.彈幕視角下的網絡熱搜健康視頻關注度與情感分析[J/OL].圖書館論壇:1-11[2021-06-28].http://kns.cnki.net/kcms/detail/44.1306.G2.20210615.0920.004.html.

[22]洪慶,王思堯,趙欽佩,等.基于彈幕情感分析和聚類算法的視頻用戶群體分類[J].計算機工程與科學,2018,40(6):1125-1139.

[23]Bai Q,Wei K,Zhou J,et al.Entity-level Sentiment Prediction in Danmaku Video Interaction[J].The Journal of Supercomputing,2021,(6):9474-9493.

[24]張亞雪,張菊蘭.視頻彈幕的特征和使用動機分析[J].新聞世界,2019,(4):69-72.

[25]Wang S,Chen Y,Ming H,et al.Improved Danmaku Emotion Analysis and Its Application Based on Bi-LSTM Model[J].IEEE Access,2020,(99):114123-114134.

[26]楊九民,吳長城,皮忠玲,等.促進學習還是干擾學習——彈幕對學習影響的元分析[J].電化教育研究,2019,40(6):84-90,120.

[27]Wu B,Zhong E,Tan B,et al.Crowdsourced Time-sync Video Tagging Using Temporal and Personalized Topic Modeling[J].ACM,2014:721-730.

[28]He M,Ge Y,Chen E,et al.Exploring the Emerging Type of Comment for Online Videos:DanMu[J].ACM Transactions on the Web,2018,12(1):1-33.

[29]Xu L,Zhang C.Bridging Video Content and Comments:Synchronized Video Description with Temporal Summarization of Crowdsourced Time-sync Comments[C]//AAAI,2017:1611-1617.

[30]王亞妮,王君,姚唐,等.什么樣的評論更有用?基于ELM的“Meta分析”[J].管理評論,2021,33(5):246-256.

[31]劉偉,徐鵬濤.O2O電商平臺在線點評有用性影響因素的識別研究——以餐飲行業O2O模式為例[J].中國管理科學,2016,24(5):168-176.

[32]程艷霞,王紫穗.感知價值視角下商家回復有用性的結構維度與測量[J].商業經濟研究,2020,(11):93-96.

[33]Du J,Rong J,Michalska S,et al.Feature Selection for Helpfulness Prediction of Online Product Reviews:An Empirical Study[J].PLoS ONE,2019,14(12):1-26.

[34]Lee S,Lee K C,Choeh J Y.Using Bayesian Network to Predict Online Review Helpfulness[J].Sustainability,2020,12(17):1-17.

[35]毛曉莉,施本植.新能源汽車普通消費者參與的大數據研究——基于文本挖掘和深度學習[J].海南大學學報:人文社會科學版,2021.

[36]馬曉君,沙靖嵐,牛雪琪.基于LightGBM算法的P2P項目信用評級模型的設計及應用[J].數量經濟技術經濟研究,2018,35(5):144-160.

[37]李中梅,張向先,郭順利.移動商務環境下O2O用戶在線評論有用性影響因素研究[J].情報科學,2017,35(2):130-137.

[38]殷國鵬.消費者認為怎樣的在線評論更有用?——社會性因素的影響效應[J].管理世界,2012,(12):115-124.

[39]Lee S,Choeh J Y.Predicting the Helpfulness of Online Reviews Using Multilayer Perceptron Neural Networks[J].Expert Systems with Applications,2014,41(6):3041-3046.

[40]Sussman S W,Siegal W S.Informational Influence in Organizations:An Integrated Approach to Knowledge Adoption[J].Information Systems Research,2003,14(1):47-65.

[41]馮秀果,鄭小榮,俞馨雅.中國地級政府審計微信傳播及其影響力研究——基于河北省的調查數據[J].會計之友,2019,(17):93-100.

[42]陳建龍.論信息效用及其實現過程[J].北京大學學報:哲學社會科學版,1996,(3):36-40.

[43]成全,王火秀,駢文景.基于證據推理的醫療健康網站信息質量綜合評價研究[J].數字圖書館論壇,2020,(4):53-59.

[44]徐嘉徽,李全喜,張健.共享服務平臺信息質量對消費者信息采納行為的影響分析與提升對策研究[J].情報科學,2019,37(5):148-154.

[45]秦琴,柯青,丁松云.中文在線健康教育信息可讀性計算及應用實證——以食品安全領域為例[J].現代情報,2020,40(5):111-121.

[46]中國規范術語.中國規范術語詞表[EB/OL].http://shuyu.cnki.net/,2021-06-22.

[47]Shen Y,Li S,Zheng L,et al.Emotion Mining Research on Micro-blog[C]//IEEE Symposium on Web Society.IEEE,2009:71-79.

[48]王蕊,劉瑞一,矯立斌,等.走向大眾化的彈幕:媒介功能及其實現方式[J].新聞記者,2019,(5):44-54.

[49]楊藝明.互動儀式視角下青年的抗疫精神闡釋——B站《在武漢》彈幕的情感分析[J].傳媒評論,2021,(3):76-77.

[50]孫瑞安,張云華.結合AdaBERT的TextCNN垃圾彈幕識別和過濾算法[J].智能計算機與應用,2021,11(4):9-13.

[51]Kuan K,Hui K,Prasarnphanich P,et al.What Makes a Review Voted?An Empirical Investigation of Review Voting in Online Review Systems[J].Journal of the Associatin for Information Systems,2015,16(1):48-71.

[52]李賀,祝琳琳,閆敏,等.開放式創新社區用戶信息有用性識別研究[J].數據分析與知識發現,2018,2(12):12-22.

[53]鄒益民,張智雄.網絡科技信息中的知識對象行為識別方法[J].情報理論與實踐,2014,37(9):59-63.

[54]Cruz R E,Leonhardt J M,Pezzuti T.Second Person Pronouns Enhance Consumer Involvement and Brand Attitude[J].Journal of Interactive Marketing,2017,39:104-116.

[55]Shen Y,Li S,Zheng L,et al.Emotion mining Research on Micro-blog[C]//IEEE Symposium on Web Society.IEEE,2009:71-79.

[56]Breiman L.Random Forest[J].Machine Learning,2001,45:5-32.

[57]張婧,周怡欣,胡涵,等.基于知識采納模型和多層感知機神經網絡的評論有用性識別研究[J/OL].中國管理科學:1-11[2021-07-26].http://iras.lib.whu.edu.cn:8080/rwt/401/https/MSYXTLUQPJUB/10.16381/j.cnki.issn1003-207x.2020.2215.

(責任編輯:郭沫含)

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 亚洲AⅤ综合在线欧美一区 | 天天干天天色综合网| 成人综合久久综合| 91久久夜色精品| 999国产精品永久免费视频精品久久| 2020最新国产精品视频| 尤物特级无码毛片免费| 国产成人精品无码一区二| 日韩国产高清无码| 欧美日韩高清在线| 国产真实自在自线免费精品| 久久99国产综合精品女同| 成人福利免费在线观看| 乱色熟女综合一区二区| 毛片a级毛片免费观看免下载| 亚洲一区二区在线无码| 亚洲Va中文字幕久久一区| 国产精品粉嫩| 丝袜国产一区| 亚洲欧美另类日本| 色网站在线免费观看| 中文国产成人久久精品小说| 国产另类视频| 中文字幕亚洲无线码一区女同| 日本人妻一区二区三区不卡影院| 91精品国产丝袜| 国产精品一线天| 免费在线国产一区二区三区精品| 久久精品视频亚洲| 26uuu国产精品视频| 亚洲αv毛片| 亚洲av色吊丝无码| 国产福利大秀91| 激情无码字幕综合| 在线观看国产网址你懂的| 色天堂无毒不卡| 国产原创第一页在线观看| 91精品情国产情侣高潮对白蜜| 激情无码字幕综合| 狠狠v日韩v欧美v| 国产91小视频| 9啪在线视频| 天天视频在线91频| 国产精品福利导航| 国语少妇高潮| 夜夜拍夜夜爽| 国产精品jizz在线观看软件| 六月婷婷激情综合| 亚洲黄色高清| 成人a免费α片在线视频网站| 欧美精品一二三区| 久久香蕉国产线| 成人午夜视频网站| 国产亚洲视频免费播放| 色噜噜狠狠色综合网图区| 国产老女人精品免费视频| 在线高清亚洲精品二区| 国产美女人喷水在线观看| 国产亚洲欧美在线视频| 国内精品一区二区在线观看| 欧美a在线看| 欧美视频免费一区二区三区| 亚洲无码91视频| 亚洲色图欧美在线| 国产欧美日韩另类精彩视频| 国产精品久久久久久久伊一| 亚洲网综合| 国产一区二区三区在线精品专区| 日韩欧美中文| 精品亚洲国产成人AV| 91福利在线观看视频| 午夜性刺激在线观看免费| 国产成人精品18| 久久黄色免费电影| 一级在线毛片| 亚洲精品桃花岛av在线| 欧美精品H在线播放| 亚洲 成人国产| 日本欧美午夜| 国产精品真实对白精彩久久| 欧美午夜久久| 亚洲天堂网在线视频|