基于回歸學習算法的高鐵站媒體資源價值評估模型研究與應用

2023-01-16 13:26:02單杏花牛慧琳

鐵路計算機應用 2022年12期

許娜，單杏花，付睿，吳剛，牛慧琳

（1.中國鐵道科學研究院集團有限公司電子計算技術研究所，北京 100081；2.中國國家鐵路集團有限公司經營開發部，北京 100844）

近年來，我國高速鐵路（簡稱：高鐵）網規模快速擴大，從“四縱四橫”到“八縱八橫”[1]。高鐵所具有的高密度、高速度、安全性、舒適性、準時性使其成為鐵路旅客的主流出行方式[2]。以華東某高鐵線路受眾為例，20～39 歲的消費人群占比61.8%，男性占比約60%，本科及以上學歷占比約75%。由此可見，具備引導力的消費群體正在成為高鐵媒體的潛在消費主力[3]。

隨著高鐵站媒體廣告市場的興盛，鐵路媒體應基于各類型受眾的出行需求、身份差異及時節變化等因素，進行針對性傳播，增強信息傳播的廣度、深度和影響力。因此，亟需一種科學、系統、全面的鐵路媒體資源價值評估體系指導廣告資源經營。目前，大數據分析、人工智能、機器學習等技術的飛速發展和成熟應用，為高鐵站媒體資源廣告價值評估提供了可行性。

清水公一[4]提出了每日有效流量監測，建立了日本戶外廣告效果評估指標體系；孫文清[5]認為廣告效果的多層次性使得廣告效果具有模糊性，建立了多級模糊綜合評價模型測定廣告效果，設計了廣告效果綜合評價的指標體系，并確定各評價指標權重；陳文凱[6]將高鐵站內廣告資源整合為站內廣告空間的形式進行評估，論述高鐵站內廣告空間價值，分析影響因素，評估廣告空間整體價值。而目前對高鐵車站媒體資源定量評估指標及價值分析研究尚不深入。

媒體價值是指媒體作為商品的市場價值。媒體資源價值評估即是對媒體的市場價值進行預估和解析，建立起一個綜合的、完整的評估模型[7]。本文從鐵路媒體資源經營出發，通過大數據分析方法，研究相關性指標與媒體招商價值的關系，篩選影響鐵路媒體價值的強相關特征因素，形成媒體資源價值評估的指標體系模型，構建高鐵站媒體資源價值評估模型，實現對高鐵站媒體資源價值的評估與預測。

1 指標體系搭建

1.1 指標體系構成

基于受眾和媒體2 個角度，結合高鐵站媒體特征，構建高鐵站媒體資源價值評估指標體系，如圖1所示，包含6 個大類、10 個子類、31 項指標。

圖1 高鐵站媒體資源價值評估指標體系

1.2 數據項采集及預處理

高鐵站媒體資源價值評估指標體系31 項指標的數據主要從鐵路媒體資源管理平臺、鐵路出行統計、國家統計局、各地方政府官網公開發布的社會經濟、車站環境等數據源中獲取。部分指標的數據可直接從上述數據源采集，如城市GDP、高動占比等；部分數據指標需進行數據源分類統計，如年齡構成；部分數據指標需要對采集到的源數據進行加工，形成數據項，以滿足要求，以觸達人次為例，不同媒體位置的觸達人次各不相同，結合第三方調研公司獲取到媒體觸達率、觸達頻次，如表1所示，以及車站年到發客流量，根據公式（1）得出觸達人次。

表1 調研高鐵站媒體位置到達率和接觸頻次

對原始數據項進行處理后，31 個指標共形成含82 個數據項的原始樣本數據集。

2 特征工程

2.1 特征數據項分析

對原始樣本數據集進行探索性分析，得出各特征數據項的分布趨勢，如表2所示。其中，集中趨勢是數據聚攏程度的一種衡量，衡量參數是均值、中位數、眾數和分位數；離中趨勢是數據離散程度的衡量，衡量參數主要是標準差；數據分布主要檢驗數據是否符合正態分布，衡量參數為偏態系數和峰態系數，偏態系數衡量數據平均值偏離狀態，峰態系數衡量數據分布集中強度。

表2 部分特征數據項分布趨勢衡量參數

對上述指標進行分析可得出，年均媒體單價分布較離散，數據標準差較大，需排查并剔除異常值，同時，其偏態程度也較大，需進行數據變換，消弱數據的異方差性，使其更接近正態分布；城市GDP、年經停列車數量等數據項標準差較其他數據項大，不利于不同單位或量級的指標進行比較，易影響目標結果，使得一些回歸算法無法學習到其他數據項特征，因此，需進行標準化、歸一化處理。

2.2 異常值識別

本文采用箱線圖的鑒定方式進行異常值剔除，如圖2所示。在箱線圖中，箱子中間的一條線代表中位數，箱子的上下底分別是上四分位數（Q3）和下四分位數（Q1），上極限=中位數+3 · (Q3-Q1)，下極限=中位數-3 · (Q3-Q1)。箱子的高度在一定程度上反映了數據的波動程度。上下邊緣則代表了該組數據的最大值和最小值，超范圍值視為異常值。

圖2 原始樣本集特征數據箱線圖

圖2中，紅色星為異常值，能看出城市人口規模、車站合同總金額、媒體面積、年均媒體單價等數據項均存在異常值。需將所列樣本數據異常值剔除。

2.3 標準化和歸一化

標準差較大的數據項需進行標準化和歸一化處理，確保所有特征數值都有相同的數量級。如果數據較為穩定，不存在極端的最大/最小值，可用歸一化方式進行處理。本文對與媒體屬性相關的數據項、車站環境相關的數據項、與城市經濟相關的數據項進行標準化處理。對與客流有關的數據項、與受眾屬性相關的數據項進行歸一化處理。

2.4 數據變換

對年均媒體單價做指數變換，解決其分布不均、方差較大的問題。變換前后的分布趨勢如圖3所示。對比可知，數據變換后更符合正態分布，且對評估模型的擬合效果更優。

圖3 年均媒體單價正態分布曲線對比

2.5 相關性分析及特征選擇

在生成預測模型前，還須對上述過程處理過的82 個特征數據之間、82 個特征數據和目標值（年均媒體單價）間的相關性進行分析。過濾掉特征相關性高、互相冗余或與目標值相關性較弱、給模型帶來噪聲并導致模型訓練速度緩慢的數據特征。本文采用皮爾遜相關系數法檢測變量間的相關性，剔除與目標值相關性低（相關系數＜0.3）的特征數據，合并相同指標項下共線性較強（相關系數＞0.9）的特征數據，得到初步篩選的37 個特征數據。皮爾遜相關性熱力圖如圖4所示。共線性較強的紅橙色區域依然存在，須進一步進行特征選擇。本文采用前進逐步回歸算法，進行特征數量及特征因子的選擇。

圖4 特征數據初步篩選后的相關性熱力圖

特征數量結果如圖5所示，當特征數量為24 時，模型的均方根誤差（RMSE，Root Mean Square Error）最低，使用梯度提升決策樹（GBDT，Gradient Boosting Decision Tree）模型來評估該24 項特性的重要性結果如圖6所示。

圖5 特征數量與RMSE 關系折線圖

圖6 GBDT 模型下特征重要性排序

媒體面積為24 項特征項中與目標值相關性最高的特征項。特征工程選取出的最佳數據特征子集如圖7所示。

圖7 特征工程選擇出的最佳數據特征

3 價值評估模型

對高鐵站媒體資源價值做分析與預測可歸結為回歸問題。回歸學習算法可被認為是一種“函數逼近”[8]。價值評估模型的建構需先將樣本數據集依次代入多個備選回歸學習算法，根據性能指標得到最優算法，并將樣本數據集通過歸一化處理、超參調優等方式進一步提升最優算法的擬合優度，以求達到符合商用要求（擬合優度（R2）≥0.80）的模型。

3.1 最優算法選取

將包含最佳特征子集的樣本數據集按4:1 的比例，隨機分割為訓練集和測試集，并將年均媒體單價設為目標值Y，將最佳特征子集的24 個數據特征設為X=(x1,x2,···,x24)，分別代入表3的回歸算法，在默認算法參數不做調優的情況下，得出各算法的性能指標。其中，R2是衡量自變量，是解釋因變量變動的程度指標，取值范圍在0～1 之間，越接近1，擬合度越好；均方誤差（MSE，Mean Square Error）在預測值與真實值完全吻合時等于 0，誤差越大，值越大；RMSE 越小，預測效果越好。

表3 年均媒體單價為目標值的各種回歸算法性能指標

由表3可知，增強梯度提升決策樹回歸學習算法的R2最大，且RMSE 和MAE 相對較小，但R2仍未達到0.8 的商用目標，作為本文價值評估算法需進行進一步優化。

3.2 模型優化

（1）對目標值Y進行歸一化處理，得到新樣本數據集，重復3.1 節中的模型訓練過程，所得結果為：R2=0.78，RMSE=123 421.49，MAE=66 154.81。

（2）針對分布不均、方差較大的特征值，如動車旅客數量和目標值進行log 變換，重復3.1 節模型訓練過程，所得結果為：R2=0.8，RMSE=91 846.28，MAE=49 500.05。

3.3 超參調優

對極限梯度提升（XGBoost，eXtreme Gradient Boosting）算法的超參學習器迭代次數（n_estimators）、樹深度（max_depth）、學習器的權重縮減系數（learning_rate）、正則化參數（gamma）等進行經驗值區間設置。采用網格搜索法進行超參調優，獲取最優超參組合，即表4中R2為0.803 872 425 的組合項。

表4 特征變換處理后算法庫結果

4 業務場景驗證

對2019～2021年度西安北站、昆明站、福州站、福州南站的燈箱類高鐵站媒體數據進行隨機采樣，驗證評估模型，結果如表5所示。其中，價格欄為招商價格，預測值欄為該評估模型預測值。市面傳統評估方法，如專家打分、指標數據加權等方式，偏離度約在±20%左右。因此，本文模型偏離度更低，評估效果更好。

表5 2019～2021年度生產經營數據驗證明細

5 結束語

本文建立了高鐵站媒體資源價值評估指標體系，對高鐵站媒體資源樣本進行智能識別和分析后，構建了高鐵站媒體資源價值評估模型，并驗證了預測效果。為高鐵站媒體經營提質增效、精細化管理提供方案和工具。

本文依然存在不足之處。媒體經營業務復雜，為更好發揮大數據分析的作用，應持續增加能優化媒體價值評估模型的數據特征、樣本數據集收集處理、超參調優，進一步擴大可評估的媒體類型。下一步，應基于推廣應用的效果不斷進行模型的迭代和驗證，確保模型的可持續性、合理性和適用性。