李明珠, 米傳民, 肖 琳, 許乃元
(南京航空航天大學 經濟與管理學院, 南京 211106)
網絡劇是通過互聯網播放的一類連續劇, 以手機、平板、計算機等網絡設備為播放媒介. 我國網絡劇誕生于21 世紀初, 在近20 年的時間內經歷了由多元化向精品化方向發展的蛻變, 越來越受到觀眾青睞.骨朵傳媒數據顯示, 從2015 年起, 網絡劇平均播放量從2015 年的0.72 億次上升至2018 年的7.18 億次, 平均年增長率為224%[1]. 在學術領域, 很多學者從制作、播放、營銷等方面對網絡劇的發展現狀和發展路徑進行分析[2,3]. 從以往的研究可以看出, 相比于電視劇, 網絡劇呈現了靈活性、碎片化、創新性、互動性、多元化等特征, 宣傳力度、作品質量、明星效應、口碑效果等是影響網絡劇播放的重要因素[2]. 雖然很多學者對網絡劇的研究提出了許多建議, 但只是從定性或思辨的角度進行分析. 目前已有一些學者從定量分析的角度對網絡劇的播放量展開研究: 王大員等用多元線性回歸MLR 模型對低成本網絡劇播放量進行預測, 最終擬合優度R 方為0.455[4]; 肖興輝等從營銷節奏的角度,使用微博轉發數、評論數和點贊數對營銷效果進行量化, 運用BP 神經網絡、RBF 神經網絡和決策樹CHAID算法進行預測, 但都呈現出過擬合的趨勢[5]; 李聰等在對彈幕進行情感分析的基礎上, 構建網絡劇播放量的貝葉斯概率預測模型, 但只是提出了構想, 沒有具體實現[6]. 目前對于網絡劇播放量的研究還處于初級階段,尚未考慮觀眾評論的情感態度對播放量的影響, 并且預測模型的選擇也有待優化. 與此同時, 以往的研究都是對最終的播放量進行預測, 但由于互聯網數據的滯后性以及播放量的動態變化性, 無法根據播出時期的實時動態數據對播放量進行調整, 因此有必要對網絡劇播放量進行分階段的預測.
對于網絡劇播放量預測模型的選擇, 可以參考票房預測的相關模型. 網絡劇播放量與票房都屬于影視范疇, 且有一些共同的影響因子, 如主演影響力、豆瓣評分、相關微博數等[4]. 目前票房預測模型可以分為3 大類: 統計模型, 例如線性模型[7]和概率模型[8]; 時間序列模型, 例如向量自回歸VAR 模型[9]; 機器學習模型, 例如支持向量機SVM[10]和神經網絡[11]. 隨著集成學習算法的不斷發展, 集成學習模型也被用于票房預測, 如屬于Bagging 集成思想的Random Forest[12], 屬于Boosting 集成思想的梯度提升樹 (gradient boosting decision tree, GBDT)[13], 輕量級梯度提升機 (light gradient boosting machine, LightGBM)[14], 極端梯度提升樹 (extreme gradient boosting, XGBoost)[15,16]以及
Stacking 模型融合算法[14]. 可以得出, 集成學習算法可以通過集成各個機器學習模型的優勢, 獲得比傳統的機器學習模型更佳的預測結果.
觀眾評論的情感傾向是影響其他觀眾觀看的重要因素, 一定程度上會對網絡劇的播放量帶來影響, 而以往研究的影響因素并未納入評論的情感特征. 在票房的預測中, 很多學者對評論進行情感分析, 對評論情感傾向量化從而對票房進行更準確的預測. 對于量化方法, 有對社交媒體上的評論進行情感分類, 直接將正面、負面、中性情感的評論數目作為預測指標[17–19];也有在得出正面、負面、中性情感數目的基礎上通過計算相應的比率 (如占總評論的數目, 正負情感比)作為預測指標[20,21]; 也有通過對情感詞和程度詞的權重進行賦值計算評論的情感得分對評論情感進行量化[22,23].評論情感得分的量化方法相比于單純計算數量和比率更加體現了評論的情感強度大小, 擴大了情感數據的差異性. 然而, 很少有研究將評論的點贊數納入情感得分的計算中. 點贊數代表了一條評論的認可度, 已有研究表明用戶的點贊行為對票房會產生顯著的正向影響[24]. 將點贊數融入情感得分的計算中, 更能體現所有評論用戶的整體情感傾向, 提高數據的代表性.
綜上可知, 對于網絡劇播放量的研究仍然處于初級階段, 預測的準確性有待提高. 本文通過借鑒票房預測的相關算法和模型, 以國產網絡劇播放量預測為研究對象, 在對評論進行情感分析得出情感得分的基礎上, 使用Stacking 集成學習模型進行預測. 在情感分析上, 本文基于SO-PMI 算法構建網絡劇領域情感詞典,并與基礎情感詞典合并得到綜合情感詞典, 對評論進行情感分類, 再結合修飾詞權重和點贊數權重構建了情感得分的計算規則. 情感得分與其他的預測變量一起作為網絡劇播放量預測的輸入變量, 從而構建了多維度的網絡劇播放量預測指標體系. 在預測模型上, 本文將集成學習算法XGBoost, LightGBM, Random Forest 和GBDT 作為基學習器, 多元線性回歸MLR 作為元學習器, 進行Stacking 模型融合, 通過整合各個集成學習模型的優勢, 提高模型的預測性能.
情感傾向點互信息算法 (semantic orientationpointwise mutual information, SO-PMI)通常被用于構建領域情感詞典[25], 它結合語料庫中詞的出現概率和句子中詞與詞同時出現的概率來判斷詞的情感傾向(semantic orientation, SO).
在SO-PMI 算法中, 需要先構建兩個情感種子詞庫: 積極情感種子詞庫Pwords和消極情感種子詞庫Nwords, 通過計算某個候選詞與Pwords和Nwords的PMI的差值S OPMI(word), 將差值的正負性作為情感傾向的判斷依據. 若S OPMI(word)>0, 則為積極情感詞; 若S OPMI(word)>0, 則為消極情感詞; 否則為中性情感詞. SO-PMI 計算公式如下:

其中,N表示語料庫的總詞數,d f(word)表示word在語料庫中出現的次數,d f(word,Pword)表示word和Pword在語料庫中共同出現的次數, 其余類似.
集成學習主要分為Boosting、Bagging、Stacking三種類型, 其中Boosting 可用于降低偏差, Bagging 可用于降低方差, Stacking 可用于提升預測結果.
隨機森林 (random forest, RF)屬于Bagging 集成算法, 它具有原理簡單、預測精度高、泛化能力強以及支持并行計算等優勢. 但是隨機森林的抗噪能力不強, 當數據集中出現噪聲點時, 容易陷入過擬合. GBDT屬于Boosting 集成算法, 適合處理非線性數據; 與此同時, 通過使用諸如huber、quantile 等損失函數可以增加模型的魯棒性. 但是由于決策樹之間是相互依賴的,難以對數據并行訓練, 因此訓練速度難以提升. XGBoost和LightGBM 是對GBDT 算法的改進, XGBoost 在目標函數中加入了正則項提高泛化能力, LightGBM 采用了基于梯度的單邊采樣 (GOSS)、互斥特征捆綁 (EFB)以及基于leaf-wise 的決策樹生長策略等方法, 降低時間復雜度, 提高模型的預測性能.
Stacking 模型融合是通過將各個算法進行集成, 實現優勢互補. 一般有兩層, 第1 層是基學習器預測, 第2 層是元學習器預測. 其中元學習器的輸入是基學習器的輸出. 通過元學習器綜合基學習器的學習結果, 并修正模型預測誤差. 在Stacking 集成學習中, 通常采用交叉驗證的辦法防止過擬合.
本文使用基于情感詞典的情感分析方法, 并構建了情感得分的計算規則.
通過查閱貓眼和骨朵影視相關數據, 有關網絡劇播放過程中的詳細數據主要集中在2017–2021 年. 由于網絡劇制作成本、營銷節奏以及類型等差異, 播放量存在很大的差距, 為了提高預測的精確性和代表性,本文選擇2017–2021 年列入“骨朵熱度指數排行榜 (年榜)”的網絡劇, 并剔除存在部分缺失值的網絡劇, 最終得到128 部網絡劇.
在構建領域情感詞典之前要對評論數據進行爬取.本文通過使用Python 代碼爬取每部網絡劇所對應播放平臺的評論數據. 通過對128 部網絡劇的評論進行爬取, 總共獲得1 450 200 條短評及對應的點贊數. 領域情感詞典構建的流程圖如圖1 所示.

圖1 基于SO-PMI 算法的領域情感詞典生成
由第2.1 節可知, 使用SO-PMI 算法構建領域情感詞典之前需要構建情感種子詞庫. 一般情感種子詞庫都是人工篩選, 為了提高篩選效率, 本文使用TF-IDF算法先篩選出具有代表性的前700 個詞語, 再從中選擇情感種子詞, 降低人工篩選的成本[26]. 通過計算候選詞與情感種子詞的SO-PMI 值, 得到詞語的情感傾向.
通過結合HowNet 知網詞典以及NTUSD 簡體中文情感詞典, 以及王勇等創建的否定詞詞典[27], 得到綜合情感詞典, 如表1 所示. 其中, 下文提到的修飾詞即下表中的程度詞和否定詞.

表1 綜合情感詞典構造
通過將基礎情感詞典和領域情感詞典進行匯總,得到積極情感詞3 223 個, 消極情感詞2 858 個.
在對視頻評論數據進行情感分類時, 既要考慮到不同情感詞的情感傾向, 也要結合程度詞以及否定詞的情感權重, 以及評論點贊數對評論代表性帶來的影響, 圖2 展示了評論情感分析的總體流程.

圖2 基于情感詞典的評論情感分析流程圖
本文在構建評論情感詞典并進行權重賦值的基礎上, 結合點贊數權重構建出評論情感得分的計算方法.點贊數權重的設置(如表2 所示)借鑒了劉彥虬的用戶點贊權值表[28].

表2 用戶點贊權值表
網絡劇評論情感得分的算法流程圖如圖3 所示.

圖3 網絡劇評論情感得分計算流程圖
假設第i條評論經過預處理后得到的詞序列為Wi=(w1,w2,···,wn), 在評論情感詞典中查找是否存在情感詞, 若存在情感詞wj, 則確定與上一個情感詞之間是否存在修飾詞. 若有, 則將情感詞的初始權重乘以修飾詞對應的權重 (若有多個修飾詞則一一相乘)得到情感得分; 否則情感得分即為情感詞的初始權重. 情感得分存入臨時變量Wordscore中.
如果Wordscore>0, 則加入積極情感得分變量PosScorei中, 否則加入消極情感得分NegScorei中. 若該評論的詞序列全部遍歷后既無積極情感詞也無消極情感詞, 則判斷為中性評論, 中性評論情感得分NeuScorei為1. 將該評論各個情感詞情感得分求和即可得到網絡劇第i條評論的3 種情感傾向得分.
將每條評論的情感得分乘以該評論點贊數的權重即可得到該評論的綜合情感得分:ComPosScorei,ComNegScorei,ComNeuScorei. 整個網絡劇的情感得分為網絡劇每條評論的綜合情感得分之和.
由于網絡劇播放量是動態數據, 本文對播放量進行分階段的預測, 即利用前n?1周的數據以及前n周的集數對第n周的播放量進行預測. 對于每一階段的預測模型, 都有11 個預測變量, 其中3 個靜態變量 (與網絡劇自身因素有關的變量), 8 個動態變量 (不同預測階段需要更新的變量). 由于網絡劇播出前不存在相關播放數據, 預測第1 周的播放量時缺乏相應信息, 因此播放量的預測從第2 周開始. 表3 展示了網絡劇播出n(n≥2)周后播放量的預測指標, 表4 是對每個預測指標的詳細說明.

表3 網絡劇播出n(n ≥2)周后的播放量預測指標

表4 網絡劇播放量預測指標體系
本文基于Stacking 集成學習模型對網絡劇播放量進行預測, 期望獲得比基學習器單獨預測更好的預測結果. 本文構建的Stacking 預測模型的結構如圖4 所示. 將Random Forest, GBDT, XGBoost, LightGBM 作為Stacking 集成學習模型的基學習器, 線性回歸MLR作為元學習器. 其中Random Forest, XGBoost, GBDT,LightGBM 模型通過采用集成學習的方法可以提高預測性能, 而MLR 的簡單性可以防止預測結果出現過擬合. 本文在得出各個基學習器的最優超參數組合的前提下, 使用Python 3.7 進行Stacking 集成學習模型的建模, 具體操作過程如下所示:
(1) 首先將所有數據按照接近3:1 的比例劃分訓練集Training Set 和測試集Testing Set, 設訓練集條, 測試集條, 訓練集的標簽值記為y_train, 測試集的標簽記為y_test.
(2) 對于訓練集Training Set, 使用5 折交叉驗證的方法對每個基學習器進行訓練, 將訓練集Training Set 平均分成5 份, 每次取其中1 份作為驗證集Testing Data (圖4 中的Predict), 其余4 份作為子訓練集Training Data (圖4 中的Learn), 使用各個基學習器訓練5 次,將5 次子訓練集的預測結果Predict1 匯總作為元學習器的訓練集, 取5 次對測試集Testing Set 預測值的平均值Predict2 作為元學習器的測試集.

圖4 Stacking 集成學習預測模型結構
(3) 將4 個模型的預測結果進行匯總, 得到元學習器的測試集和訓練集, 此時訓練集是一個m×4的矩陣, 測試集是n×4的矩陣, 一共4 個特征值. 再結合標簽值y_train進行模型訓練, 對測試集進行預測得到條預測結果Predictions, 并與實際值y_test 進行比較, 用對應的評估指標 (MSE、MAE、MAPE、R 方值等)進行預測結果分析.
由于網絡劇從上映到完結的平均時間為一個月,因此本文收集網絡劇播出第1 周至播出第4 周一共4 個階段的相關數據. 對128 部網絡劇4 個階段的數據進行收集, 總共得到512 條記錄, 如表5 所示.
由表5 可知, 由于量綱的差異, 原始數據差別較大,因此需要在模型訓練之前對數據進行歸一化, 得到[0, 1]范圍內的數據, 轉化函數為:

表5 變量描述統計結果

對于Random Forest、XGBoost、GBDT 以及LightGBM, 在正式預測前需要對超參數進行調整, 以提高模型的預測性能. 由于本文的樣本量不是很大, 因此采用網格搜索的辦法調整, 在所有候選的超參數列表中, 通過遍歷各種超參數組合形式, 選擇預測效果最好的組合作為最終的參數組合[29]. 將所有數據按照接近3:1 的比例劃分訓練集Training Set 和測試集Testing Set, 其中訓練集385 條, 測試集127 條, 超參數調優使用訓練集中的數據. 確定好各個模型的最佳超參數后,對127 條測試集中的數據進行預測. 由于本文對于網絡劇播放量的預測是回歸問題, 因此采用均方根誤差(MSE)、平均絕對誤差 (MAE)和平均相對誤差 (MAPE)以及R2作為模型性能的評估. 各個集成學習模型的預測結果如表6 所示.

表6 集成學習單模型預測結果比較表
對比表中的數據可以看到, LightGBM 在MSE、MAE、MAPE 以及R2分別為3.28、1.53、0.23、0.84,相比于其他3 個集成學習模型, 預測性能更優, 說明LightGBM 在GBDT 和XGBoost 的基礎上使用了GOSS、EFB 等算法進行優化后, 有助于模型復雜度的降低和模型泛化能力的提高. 與此同時, 各單模型預測結果的R2都高于0.65, 預測結果較好.
要獲得好的集成效果, 基學習器需要“好而不同”,即個體學習器要保證一定的準確性, 與此同時也要有多樣性, 在保證預測精度的同時也具備差異性. 一般對各個模型預測結果和真實結果的差值(誤差)進行Pearson相關系數的檢驗, 判斷是否都是弱相關[30]. 本文使用SPSS 21.0 進行相關系數的檢驗.
由表7 可知, 上述4 種集成學習模型的預測相關性都在0.65 以下, 總體的相關性較低, 因此可以使用這4 種集成學習模型作為Stacking 集成學習模型的基模型進行訓練.

表7 各個模型的Pearson 相關系數檢驗
為了提高模型的可解釋性, 觀察重要的特征是否符合業務直覺, 本文對輸入變量進行特征重要性分析.特征重要性一般用于觀察特征對模型的貢獻度, 特征重要性越高說明這個特征是對模型的作用程度越大.對于回歸問題, 根據分裂前后節點的純度(impurity)減少量來評估特征重要性. 由于LightGBM 的R2最高、預測效果最好, 因此用其內置函數feature_importance_輸出各個特征的重要性數值, 特征重要性的輸出結果如圖5 所示.

圖5 基于LightGBM 模型的特征重要性排序
對各個變量的特征重要性進行排序, 可以得出DramaView、Episodes、DoubanScore、ComPosScore和ComNegScore 是影響網絡劇播放量的關鍵因素. 目前累計播放量和播放集數是預測下一周播放量的基礎,與此同時, 豆瓣評分以及用戶評論情感得分代表了該網絡劇播出之后的反饋和口碑, 也會對網絡劇接下來的播放走勢產生一定的影響.
確定好基學習器后, 用Python 3.7 按照第4.2 節的步驟編寫Stacking 集成學習建模程序. 其中訓練集385 條, 測試集127 條, 使用5 折交叉驗證的方法對每個基學習器進行訓練. 將Stacking 模型的預測結果與基學習器單獨的預測結果進行比較, 結果如表8 所示.

表8 Stacking 集成學習模型與各單模型預測結果比較
Stacking 集成學習模型的MSE、MAE、MAPE 均小于其他4 個集成學習單模型, 且決定系數R2達到了0.89, 可見Stacking 集成學習模型綜合了其他4 個基學習器的優勢, 獲得更高的魯棒性和泛化能力. 和前人的播放量預測研究相比, 本文的決定系數R2高于王大員等使用多元線性回歸預測的R2值 (0.455)[4], 而肖興輝等使用BP 神經網絡預測時在測試集上的線性回歸系數為0.976, 但在測試集上只有0.288, 產生了過擬合[5],因此可以得出本文的模型與前人的模型相比具有更優的預測性能. 圖6 展示了Stacking 集成學習模型的預測值和真實值的擬合曲線.

圖6 Stacking 模型預測實際值與預測值擬合曲線
Stacking 集成學習模型在特殊值上都取得了較好的預測效果, 改善了各個基學習器在部分預測結果上的不足, 取得較好的預測性能.
為了研究本文的情感得分輸入變量對整個模型預測性能的影響, 本文使用剔除情感得分變量的Stacking集成學習模型進行訓練和預測, 最終預測結果如表9所示.

表9 加入情感得分變量前后Stacking 預測結果比較
從表中可以看到, 未加入情感得分變量的模型預測MSE、MAE、MAPE 值均大于加入情感得分變量的值, 且R2=0.81<0.89, 這表明本文情感得分變量的加入有助于提高網絡劇播放量的預測精度, 也說明了觀眾評論的情感傾向對播放量的大小起到一定的作用.
本文立足于當下網絡劇興起的時代大背景以及學術界對網絡劇進行定量分析的空缺, 并借鑒對電影票房預測的方法, 對國產網絡劇播放量進行預測. 通過創建情感詞典對網絡劇評論進行情感分析, 創新性地在輸入特征中加入情感得分變量 (積極情感得分、消極情感得分和中性情感得分), 運用Stacking 集成學習模型進行網絡劇播放量的預測. 通過比較集成學習模型與基學習器 (XGBoost、LightGBM、Random Forest、GBDT)單獨預測結果的差異, 總結出Stacking 集成學習模型的預測精度更高,R2達到了0.89, 并且高于未加入情感得分特征的預測模型R2值 (0.81), 實驗證明加入情感得分變量后使用Stacking 集成學習模型進行預測取得了不錯的預測效果. 本文從定量研究的角度分析網絡劇的播放趨勢以及影響網絡劇播放量的關鍵因素,提高了分析的客觀性、準確性和針對性, 為網絡劇的定量研究提供了新的思路.
由于有些數據并不公開, 增加了獲得其他影響因素的數據的難度, 例如投入成本. 因此, 未來的研究可以努力與網絡劇的相關機構合作, 獲得尚未在相關平臺公開的數據. 此外, 有些指標目前較難量化, 如演技、服裝、音樂、特效等, 在后續研究中, 可以嘗試通過調研將其轉化為相應的打分或點贊數等量化指標,對預測指標體系做進一步的完善.