999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

B站熱點話題初步分析與挖掘設計

2020-08-04 10:20:37姚凱譯
數碼世界 2020年7期

姚凱譯

摘要:對B站的個體視頻綜合影響力與整體影響兩個方面提取熱點話題因素進行聚類與耦合度分層計算,對熱點視頻進行話題相關性分析與話題挖掘研究,通過不同維度的線性關聯,可對實時熱點話題進行簡單挖掘,或基于某一話題來計算整體熱度。對青年人的信息傳播與商業推廣具有指向作用。

關鍵詞:B站? 聚類? 耦合度分層? 相關性分析? 話題挖掘

前言

隨著國內主流媒體的入住B站,傳統媒體與新興媒體混合發展,推動信息與話題的多樣性,使信息量更大,層次更多。但在B站如此海量數據提取相關有價值的熱點話題與用戶關注點并非易事。同樣從大量用戶基數找到其高認同度的關注點與興趣點具有極大的商業價值,通過相關性可發現潛在用戶規模,進行產品服務推廣。

1 數據選取

B站主流信息傳播為視頻創作,而計算機難以直接發現視頻中的相同共性。所以視頻信息采集點為視頻基本內容,用戶互動率與潛在影響力,推導價值信息。選取視頻范圍應為近期發布,或發布時間已久但依舊存在播放高增長率。

其視頻基本內容,用戶互動率與潛在影響力分別定義為維度F1 F2 F3。

其中F2維度存在預期模型值,實時值,趨于穩定值,F3存在基礎值與不確定性的附加值具有實時性變化。但具體F2的實時性質如何進行主導性定義?這時就需要引入時間軸這一維度T。可以說時間維度T可以定義視頻影響力何時趨于穩定。

2 模型設計元素與原理組成

2.1視頻個體影響力

同一時間段收集的視頻信息,視頻的實時影響力與最終影響力會出現不同偏差。所以考慮傳播影響力時,要作出對未來影響力的綜合考量。

此時定義離發布時長為T,綜合影響力為M,ε為誤差。設時間維度存在T1

當T

當T1

當T2

當T3

2.2視頻標簽與話題關聯匹配

如果個體視頻中維度F1的信息符合時下熱門話題,F2的最終取值也會相對應提高,其產生的綜合影響力M也會相應提高。判斷F1中的熱點是否對整個F2的產生具體影響時,可以追溯UP主往期投稿數據,如果其新視頻影響力遠高于往期視頻集的加權平均值,可認為新視頻內容中存在熱點話題與標簽,但不可以排除樣本數據過少,或該視頻超水平發揮。

定向話題占比權重為hi(i=1,2,3...n),則該話題權重計算為

(A為相關系數,這里根據研究結果取1.32;c為與話題相關標簽詞;F1 數據取總標簽數)。當數據大于1時,權重視為1;權重大于0.81,可認為視頻與話題高相關;權重小于0.31,話題相關性低,可進行共性忽略(不參與話題整體計算)。

而話題關聯標簽詞可進行人工定義或機器進行數據聚類判斷。前者多用于大量視頻中發現熱點話題,后者多通過標簽發現共性話題。如圖:

h1=1.32c1/F1=0.935(ci=5,F1=7)盡管有些標簽并沒有出現在人工庫中,存在誤差,但依舊認為視頻與話題高相關。

但如果單一通過標簽關鍵詞來進行匹配判斷就會引發其他問題:同源不同類視頻相互匹配,話題匹配雜化。如此時存在另一同類視頻:

h2=1.32c2/F1=0.528(c2=4,F1=10),即使視頻的話題權重占比高,數據上表現高關聯性,但實際上是對同源話題中的共性元素匹配,這對某一話題的整體研究中會產生巨大誤差,結果不是研究者希望看到的。

所以在匹配標簽關鍵詞時,建立高耦合度相關性判斷詞庫(多為特有)與中耦合關聯度詞庫(具有共性元素)。如先對標簽詞進行高耦合判斷匹配,如果相關性hi>0.31,再與中耦合詞庫匹配,將其相加得新相關度hi可用于整體話題熱點計算。否則因相關性低,不認為存在關聯,后續不進行相關熱點計算。如建立詞庫如下:

此時h2 <0.31,該視頻不參與此定向話題的整體熱度計算。基于耦合分層匹配最大的優勢是提高相關性匹配率與降低時間復雜度,實現更高效更精準的話題匹配。

2.3詞庫聚類迭代與新建

單一人工定義話題關聯詞無疑工程量巨大,且人工詞庫時常存在缺失遺落,容易導致整體視頻話題影響力計算誤差偏大。簡單聚類算法可以更加高效對非詞庫詞是否具有關聯性產生判斷。

2.4話題整體熱度分析

整體話題分析計算不能只單一進行各視頻個體影響力加權累加,而是要對頭部視頻進行部分約束。每個視頻對不同話題存在不同關聯度,一個視頻可以與多個話題產生關聯,參與多次熱度計算。在計算話題整體影響力時,更多對高個體影響力視頻進行約束,避免統計的基尼效應。

3 仿真試驗

通過以上設計對B站生活、科技、動漫區三區,其排行榜前20名熱門視頻進行不定向話熱門題挖掘,發現其生活區搞笑類,科技區時政類,動漫區配音類與抖音相關方面熱門話題重合率高達分別為74%,63.8%,58%。

同時在針對某類化妝產品進行定向話題挖掘時,可以較為精準的得出該類產品在各類化妝產品中的熱點排行榜與對其感興趣人群的大致規模。對商業產品推廣與產品人群定位有極大的幫助。

4 結束語

在整個B站話題熱點研究中,通過各方面數據的線性組合,對非線性研究對象進行簡單分析。算法上簡單聚類算法高效完善詞庫降低與實際差值,而耦合分層使話題誤差減小。再對耦合度詞庫規劃越細,相關關聯度閾值不斷調整后,可以從話題總影響力得出關注話題人群相關規模。同樣對生產高個體影響力的視頻博主進行分析,創造出合適的合作商業視頻,也可以對產品推廣有不小的幫助。對信息傳播分析,市場挖掘起到指向性幫助。

主站蜘蛛池模板: 一级成人a毛片免费播放| 国内精自线i品一区202| 免费人成在线观看视频色| 青草免费在线观看| 欧美日韩国产在线观看一区二区三区| 又爽又大又黄a级毛片在线视频| av色爱 天堂网| 欧美另类精品一区二区三区| 国产亚洲精久久久久久久91| 亚洲天天更新| h网站在线播放| 在线观看免费国产| 人人妻人人澡人人爽欧美一区| 性喷潮久久久久久久久| 青青草原国产免费av观看| 中文字幕无码制服中字| 日韩高清成人| 永久免费无码日韩视频| 午夜久久影院| 亚洲成AV人手机在线观看网站| 国产精品视频第一专区| 午夜国产小视频| 国产乱子伦精品视频| a级毛片免费看| 亚洲丝袜第一页| 国产91在线|中文| 91小视频在线观看| 国产不卡在线看| 免费一级毛片完整版在线看| 成人综合网址| 激情综合图区| 亚洲 欧美 中文 AⅤ在线视频| 欧美 国产 人人视频| 欧美精品三级在线| 国产精品女人呻吟在线观看| 国产免费看久久久| 精品一区二区三区无码视频无码| 国产内射一区亚洲| 18禁不卡免费网站| 国产免费人成视频网| 又爽又大又黄a级毛片在线视频| 激情六月丁香婷婷| 91福利免费| 免费在线一区| 暴力调教一区二区三区| 国产主播福利在线观看| 欧洲亚洲一区| 美女啪啪无遮挡| 国产精品永久在线| 国产欧美日韩综合在线第一| 久久精品aⅴ无码中文字幕| 国产成人高清精品免费软件| 国产情侣一区二区三区| 日韩毛片在线视频| 网友自拍视频精品区| 亚洲国产系列| 亚洲国产在一区二区三区| 嫩草影院在线观看精品视频| 日韩欧美色综合| 在线看国产精品| 四虎成人免费毛片| 日韩AV无码一区| 国产激情影院| 亚洲精品波多野结衣| 国产第一福利影院| 国产成人欧美| 亚洲成aⅴ人片在线影院八| 91视频99| 国产丝袜无码精品| 欧洲免费精品视频在线| a级毛片免费网站| 日韩福利视频导航| 亚洲国产理论片在线播放| 国产亚洲欧美日韩在线观看一区二区| 日韩精品免费一线在线观看| 成人欧美日韩| 国产免费久久精品99re不卡| 日韩欧美中文| 国产美女一级毛片| 97se亚洲| 国产肉感大码AV无码| 无码粉嫩虎白一线天在线观看|