999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GBDT算法的電視劇收視率預測

2022-03-14 02:19:06陳天鍇王貴勇
電視技術 2022年2期
關鍵詞:模型

陳天鍇,王貴勇

(昆明理工大學 交通工程學院,云南 昆明 650500)

0 引 言

收視率作為電視劇評價體系中的重要指標,在一定程度上反映了大眾對作品的喜好,對電視劇的投資、選題、選角、拍攝、宣發以及放送規劃等有著重要的參考價值。收視率預測值可以作為電視劇作品潛在市場價值的參考。投資方可以通過預測收視率估計投資回報、控制投入成本、降低投資風險。制片方可以基于收視率預測值調整制作檔期和主創人員、提高作品質量。電視臺基于收視率預測可以評估作品的價值與風險,調整播放時段與廣告投放策略。準確的收視率預測具有較高的商業價值,能夠降低各方投資風險同時提高多方收益,形成合作共贏。

收視率是電視劇放送后獲得的統計數據。目前,行業內對收視率數據的挖掘與分析側重于上映后預測,基于時間序列分析、神經網絡等方法預測未來檔期內每天的收視率[1]。對于上映前預測的研究相對較少,目前在電視劇作品收視率研究中,對于收視率影響因素的具體研究還處于探索階段。

國內學者采用了多種方法對播前收視率進行預測。張濤[2]提出了基于情境案例推理的播前收視率預測方法,通過大量歷史數據與新節目進行情景匹配,平均準確率可達71.09%。張茜[3]采用了TEI@I方法研究了2012—2014年427期綜藝節目的35個城市收視率,線性回歸模型擬合程度R2為92%。汪洋基于BP神經網絡和某檔綜藝節目的12期收視率對13期進行預測,預測精度較高,但神經網絡出現最大迭代15 000次未收斂的情況,預測失敗率為13.203%。此外還有學者提出了其他預測方法[4-5],但預測模型對數據量樣本以及數據采集方法的要求較高。部分方法較為復雜,計算時間成本較高。

梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)是機器學習常用的回歸預測算法之一,可用于小訓練集多元非線性回歸問題,具有較高的回歸精度、抗異常值性、可處理文本特征輸入與缺失值、無需進行特征標準化的優點。GBDT已被用于解決各學科領域內的回歸問題,取得了不錯的效果。

本文基于GBDT算法和2020年國內電視頻道收視率超0.5%的黃金時段電視劇收視率數據建立預測模型。模型基于電視劇主創團隊、題材、熱度等特征輸入預測收視率,并通過對比預測收視率和真實收視率驗證了模型精確度,為電視劇收視率播前預測提供了一種全新思路。

1 特征參數分析與處理

電視劇作為面向人類主觀感受的精神視覺產物,難以用客觀好壞加以評價。甲之蜜糖,乙之砒霜,受眾的增加造成了影視作品評價往往出現多級分化情況。因此,在考慮模型特征輸入時必須同時考慮主觀與客觀因素。在選取預測模型輸入參數時,優先考慮比較顯著的影響因素,將電視劇劃分為三類特征輸入:第一類為導演、演員等情感喜好度因素,第二類為作品年代、題材、元素等構成因素,第三類為評分、網絡熱度等評價指標。將電視劇作品比喻為一道美食,第一類因素好比廚師,第二類因素好比食材,第三類因素好比菜品完成度。三者共同決定了大眾對“美食”的喜愛程度,也就是收視率。

著名導演與明星演員的粉絲群體為熱播劇集貢獻了大量收視率,造成了第一類因素難以進行量化分析。因此,引入文獻[6]的評價指標,將獲得過重大影響力獎項和具有較大影響力作品的導演認定為一線導演,將具有一定影響力的導演認定為二線導演,將新人導演與作品存在較大爭議和負面評價的導演認定為三線導演,基于評價給定特征參數值。根據百度熱搜與新浪熱搜指數對演員因素進行量化。

對第二類影響因素采用影視作品標簽法進行拆分,根據題材與元素拆分為背景年代、都市、鄉村、職場、家庭、愛情、社會建設、革命題材、政治、人物、歷史、戰爭軍旅、古代王朝、武俠仙俠、動作、諜戰以及探案等特征參數。

對三類影響因素采用豆瓣評分機制評分,豆瓣評分是國內最大的影視圖書評分網站,其評分具有一定參考價值。熱度值采用新浪熱搜指數與百度熱搜指數加權計算。

基于以上三類影響因素,建立模型輸入特征參數矩陣,參數量化表如表1所示。模型訓練數據集基于《中國視聽大數據:2020年年度中國電視收視綜合分析》發布的2020年收視率超0.5%黃金時段電視劇數據,共計93組。如圖1所示。

圖1 2020年收視率超0.5%的黃金時段電視劇收視率

表1 特征參數量化表

2 GBDT建模算法

2.1 GBDT梯度提升樹

GBDT是Boosting集成學習算法的一種,采用梯度提升算法訓練決策樹模型。模型由多棵分類回歸樹構成,通過將弱學習器決策樹集成訓練形成高性能學習方法,通過尋找最小化均方差來尋找決策樹最優劃分,逐步迭代逼近真實值,從而優化決模型預測精度。GBDT算法在處理多特征輸入分類與回歸問題上表現優異,模型訓練速度快,精度 較高。

GBDT算法表達式可表示為:

式中:x為特征參數輸入矩陣,P為GBDT算法模型參數矩陣,Tk為子決策樹模型,k為第k棵子回歸決策樹(k=0,1,…,K),αk為第k棵子決策樹權重系數。收視率預測模型輸入矩陣TP為:

式中:x1k為第k個劇集導演特征參數,x2k為主演特征參數,y1k,y2k,…,ymk為年代、題材等m個二類影響因素特征參數,z1k為豆瓣評分特征參數,z2k為網絡熱度值特征參數,Rak為真實收視率特征 參數。

GBDT迭代模型表達式為:

式中:fk-1(x)為k-1代子決策樹輸出,Tk為k代迭代決策樹,fk為k輪迭代后預測率模型。

初始化生成第一棵決策樹F0(x):

式中:c為使決策樹F0(x)損失函數最小的值。不斷迭代生成下一代決策樹,k=0,1,…,K。損失函數為L[yi,f(x)]。

對每輪迭代樣本輸入i=0,1,…,K,計算第k棵決策樹損失函數負梯度響應殘差rk,i:

對i=0,1,…,K,計算負梯度值rk,i,將(xi,rk,i)作為輸入進行下一輪迭代,得出第k棵回歸樹,其對用的葉子節點區域為Rm,i,其中j=1,2,…,Jk,Jk為第k棵回歸樹的葉子節點個數。

對Jk個葉子區域j=1,2,…,Jk,計算出擬合值:

迭代更新強學習器:

得到GBDT強學習器表達式為:

2.2 模型優化

對于不同的回歸問題與數據集,需要對算法參數進行優化,使用GridSearchCV網格搜索算法指定步長遍歷參數取值范圍,求解模型參數最值。對損失函數、子采樣比例、決策樹迭代步長、弱學習器最大迭代次數、決策樹最大深度等參數進行計算,提高提高模型訓練速度與預測精度,避免弱擬合與過擬合。

2.3 模型訓練

在訓練數據樣本集較小的情況下,為提高模型精度,避免模型因數據樣本量過小失真,防止模型過度擬合,采用K折交叉驗證將93組訓練數據劃分為[18,18,19,19,19]5個互斥子集,采用分層抽樣保證5個子集分布一致性。每次取4個子集數據進行訓練,剩余一個進行驗證,總計進行5次訓練。

3 模型驗證

收視率預測模型訓練完畢后,計算模型以下評價指標:均方根誤差(Root Mean Square Error,RMSE)、平 均 絕 對 誤 差(Mean Absolute Error,MAE)、R-Square模型決定系數(R2)以及平均相對誤差(Mean Relative Error,MRE),它們的計算式分別為:

式中:yact為真實收視率,yfit為預測收視率,ymean為預測收視率平均值。

收視率預測值90%置信區間如圖2所示,可以看出,測試樣本收視率有5組樣本處于90%附近,剩余14組樣本均處于90%置信區間內,證明預測模型能較好地反映真實收視率,模型具有較高精度。模型決定系數R2=0.905。R2決定系數又稱為模型擬合程度,0<R2<1。由式(12)可知,R2越趨近于1,預測值殘差平方和越小,且無限趨近于0,收視率預測值越接近收視率真實值。在不存在過擬合的情況下,R2越大,模型擬合度越高,模型誤差越小。

圖2 收視率預測值90%置信區間

測試數據集預測收視率與真實收視率的對比情況如圖3所示,經計算得出RMSE=0.084,MAE=0.096。 可以看出,19組驗證數據收視率預測值與真實值高度接近,模型擬合程度較高,具有較高的預測準確度。

圖3 預測收視率與真實收視率對比

測試數據集預測值相對誤差如圖4所示,測試數據集平均相對誤差MRE=8.84%。第3、9、15、19個測試數據的相對誤差分別為14.50%、15.40%、17.23%、-15.14%,存在一定程度的預測誤差。大多數測試樣本均保持誤差在10%左右,少數樣本具有較低誤差,模型整體具有較高精確度。

圖4 測試數據集相對誤差

4 結 語

基于影響因素劃分的GBDT電視劇收視率預測模型能夠有效預測不同主創團隊、題材及熱度的電視劇收視率。模型決定系數R2=0.905,整體誤差MRE=8.84%,測試樣本均處于誤差允許范圍,模型具有較高的擬合程度和準確性。GBDT算法為電視劇播收視率前預測提供了一種行之有效的方法,為電視劇發行方與電視臺預測率數據分析提供了一定參考。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品自拍合集| 国产精品大尺度尺度视频| 亚洲第一视频网站| 2021天堂在线亚洲精品专区 | 欧美人与牲动交a欧美精品| 午夜限制老子影院888| 中日无码在线观看| 91视频区| 97亚洲色综久久精品| 国产免费观看av大片的网站| 久操中文在线| 在线a网站| 成年人国产视频| 国产国拍精品视频免费看| 亚洲国产系列| 国产美女在线免费观看| 久久亚洲AⅤ无码精品午夜麻豆| 国产成人8x视频一区二区| 高清国产在线| 福利视频一区| 国产微拍精品| 狠狠色丁香婷婷| 欧美一级在线看| 新SSS无码手机在线观看| 国产在线无码av完整版在线观看| 无码日韩视频| 国产精品亚洲а∨天堂免下载| 色综合a怡红院怡红院首页| 91久久偷偷做嫩草影院电| 伊在人亚洲香蕉精品播放| 国产免费黄| 激情在线网| 伊人久久大线影院首页| 国产va在线观看免费| 国产第一页亚洲| 久久无码av三级| 亚洲不卡av中文在线| 深爱婷婷激情网| 国产区在线观看视频| 国产香蕉在线视频| 国产小视频免费| 中文字幕亚洲综久久2021| 综合色天天| 午夜久久影院| 国产成人1024精品下载| 99精品在线视频观看| 国产99视频在线| 国产精品欧美在线观看| 亚洲综合网在线观看| 国产欧美又粗又猛又爽老| 国产靠逼视频| 亚洲第一成年免费网站| 国产一级片网址| 亚洲精品va| 色婷婷亚洲综合五月| 伊大人香蕉久久网欧美| 老熟妇喷水一区二区三区| 欧美日韩高清| 人妻丰满熟妇αv无码| 国产黑丝视频在线观看| 欧美性精品| 久久婷婷综合色一区二区| 精品丝袜美腿国产一区| 国产精品久久久久无码网站| 2019国产在线| 久久窝窝国产精品午夜看片| 中国精品自拍| 欧美综合成人| 久草视频精品| 91精品福利自产拍在线观看| 午夜视频在线观看免费网站| 欧美国产中文| 欧美亚洲另类在线观看| 成人一区在线| 国产精品网址在线观看你懂的| 色噜噜久久| 成年看免费观看视频拍拍| 成人午夜视频免费看欧美| 亚洲毛片网站| 成年看免费观看视频拍拍| 白浆免费视频国产精品视频| 青青草原国产免费av观看|