基于SVM的視頻用戶需求預測算法

2021-06-03 06:39:08江翠麗曹騰飛李長哲王曉英

計算機技術與發展 2021年5期

江翠麗，曹騰飛，李長哲，王曉英

(青海大學計算機技術與應用系，青海西寧 810016)

0 引言

隨著移動互聯網技術的飛速發展，視頻點播、視頻聊天等流媒體網絡業務已成為用戶消費的主流[1]。據中國互聯網絡信息中(CNNIC)第44次《中國互聯網絡發展狀況統計報告》統計，截至2019年6月，國內網絡視頻用戶規模達8.47億，較2018年底增長3 391萬，占網民整體的88.8%[2]。為實現高帶寬、大容量、低時延，5G移動通信網絡應運而生[3]。5G網絡的超高傳輸速率雖然解決了網絡帶寬與時延的問題，但仍無法滿足不同用戶對不同視頻業務的體驗需求[4]。因此，從用戶需求感知出發，提升用戶的服務體驗是網絡視頻行業發展的必然趨勢。精準的用戶需求預測可以減少用戶尋找所需視頻內容的時間，在提升用戶體驗的同時有助于運營商精準地掌握用戶喜好信息，促進網絡平臺的發展。

文獻[5-6]將網絡負荷作為評價指標構建了基于用戶感知的網絡負荷模型，通過對不同小區的用戶使用流量情況分析，從用戶感知速率角度實現了流量增長與網絡負載能力的平衡。文獻[7]為應對不同用戶的不同業務需求，提出了一種面向排名的預測方法，通過考慮用戶對服務質量的態度和期望，來提高服務等級預測的準確性，發現滿意度更高的云服務候選者，以減少負面顧客在排名相似度計算中的影響。文獻[8]提出了一種基于卷積神經網絡算法構建用戶感知評價模型，通過對產品的使用數據進行研究分析，建立了用戶感知評估與產品性能之間的映射關系，從用戶感知產品性能的角度出發，預測出影響用戶感知的產品性能參數。文獻[9]從網絡業務角度出發，充分考慮不同業務類型對信道資源的占用情況，根據流量與用戶體驗的變化率來構造網絡效益函數，實現無線資源的利用效率。文獻[10]基于深度神經網絡DNN模型對IPTV視頻用戶的點播行為進行分析，如用戶的在線時長、觀看時長等，目的在于幫助IPTV服務提供商進行合理的資源分配，提升對用戶的服務質量。

現有的視頻用戶需求感知方法僅依賴于用戶對視頻播放質量和網絡狀態需求的感知，忽略了用戶自身觀看喜好和觀看行為對需求感知的重要性，而該文從用戶觀看視頻行為出發，結合用戶觀看視頻喜好，提出了基于SVM的視頻用戶需求預測模型，目的在于精準預測用戶對視頻內容的需求，幫助運營商提高視頻推薦成功率，在促進網絡視頻業務發展的同時減少用戶搜索視頻的時間，提升用戶體驗。

1 相關理論

用戶觀看視頻的行為受到多種因素的影響，如地區、年齡、終端設備能耗及視頻的流行度等因素，不同的地區、不同的人群觀看視頻的行為具有顯著差異[11]。面對海量的網絡視頻資源，不同的用戶對視頻內容的需求也不同，挖掘用戶觀看視頻行為數據中各用戶與其對視頻需求的關系并建立有效的視頻用戶需求預測模型，可以實現用戶對視頻內容需求的預測，提升用戶體驗。

由已知的用戶觀看視頻行為數據來預測用戶后續的需求非常符合支持向量機(support vector machine)的應用場景。支持向量機是由Cortes和Vapnik于1995年首先提出的建立在統計學習理論的VC維理論。該理論可以根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳解決策略，以期獲得最小化結構風險[12]。SVM預測模型的主要思想是實現樣本數據的線性回歸，具體地，將線性不可分的樣本數據x通過非線性映射φ，映射到更高維的特征空間F，在高維空間F實現樣本數據的線性回歸。由于SVM可以實現對特定訓練樣本的學習精度和無錯誤地識別任意樣本能力的折中，從而被廣泛應用于函數擬合等其他機器學習的問題中[13]。

為了檢測由巨大的網絡流量數據引起的網絡入侵，文獻[14]針對非線性海量數據提出了一種基于深度置信網絡和支持向量機(DBN-SVM)的分類算法，提高了分類的準確性，并為實時的網絡入侵檢測提供了基礎。文獻[15]將SVM預測模型應用于經濟預測領域，研究結果表明，支持向量機可以有效地減少噪聲數據的影響，并實現非線性區域經濟變量之間的映射，提高了模型的預測精度。

實現用戶需求預測的目的在于：當用戶瀏覽視頻網站時，運營商可以基于用戶需求預測結果為目標用戶提供其可能感興趣的視頻內容，從而在提升用戶觀看體驗的同時提高視頻資源的利用率，降低網絡運營成本。該文基于SVM預測模型實現對用戶觀看視頻需求的預測，主要包括以下5個步驟：先獲取用戶信息及用戶觀看視頻信息；其次對獲取的用戶和視頻數據進行探索及處理；然后利用訓練數據訓練模型并生成預測模型；再利用測試數據進行模型預測；最后將預測結果與實際情況進行對比分析，實現對模型性能的評估。

2 SVM算法

2.1 問題描述

構建基于SVM的視頻用戶需求預測模型的關鍵在于尋求一條泛化性比較好的決策邊界，使得支持向量距離決策邊界盡可能的遠。尋求最優決策邊界的過程即為最大化支持向量到決策邊界的距離d的過程。

定義樣本的個數為M={1,2,…,m}，假設x表示原來的樣本點，用φ(x)表示x映射到高維特征空間F后得到的新向量，那么支撐向量到超平面wTφ(x)+b=0的幾何間隔表示為：

(1)

則優化目標表示為：

(2)

注意到幾何間隔d與‖w‖是成反比的，且|wTφ(x)+b|為固定值，因此最大化幾何間隔d的問題可以轉化為最小化‖w‖的問題。為了方便后邊求導計算，將目標優化問題(2)進一步轉化為(3)：

(3)

為提高SVM視頻用戶需求預測模型的泛化能力，引入松弛變量ξi，則目標優化問題將進一步轉化為：

s.t. 1-yi(wTφ(xi)+b)-ξi≤0

ξi≥0,i=1,2,…,n

(4)

其中，C為懲罰因子且滿足C>0。分析可知：為使得樣本數據線性可分，需滿足C為無窮大時，ξi必然無窮小；當且僅當C為有限值的時候，才會允許部分樣本不遵循約束條件。

2.2 優化目標求解

通過添加拉格朗日乘子，構造拉格朗日函數，將問題(4)轉化為無約束的優化問題，如下：

s.t.λi≥0,μi≥0

(5)

其中，λi和μi為拉格朗日乘子，利用強對偶性轉化，將式(5)轉化為：

s.t.λi≥0,μi≥0

(6)

分別對w，b和ξi求偏導數，并令偏導數為0，得出如下關系：

(7)

將式(7)中的求導結果帶入式(6)，得到新的目標優化函數：

(8)

求解式(8)，可以得到：

(9)

將支持向量(xs,ys)帶入：ys(wφ(xs)+b)=1，求出b為：

(10)

其中|S|為支持向量的個數。求出w和b后，便可以求得超平面wTφ(x)+b=0。

3 數據處理

3.1 數據集

文中用到的數據是利用Python軟件爬取的嗶哩嗶哩網站上的用戶觀看視頻行為信息。首先爬取嗶哩嗶哩網站上熱門番劇的ID，然后根據番劇ID爬取番劇信息及追番用戶的相關信息。最終用于實驗仿真的數據集是包含10 000行12列的用戶-視頻信息數據。

3.2 消噪

為避免噪聲數據對數據體量、復雜度以及處理結果準確率和時效性的影響，利用小波方法對樣本數據進行消噪處理，消除數據集中無效或異常的數據，提高數據的收斂速度和模型預測的精度[16-18]。

由圖1可以看出，經小波去噪后的數據與原數據相比，數據的大體趨勢并未發生變化。小波消噪可以在保證數據連續性和科學性的前提下，避免噪聲數據對預測模型的擾動。

圖1 小波消噪前后對比

3.3 降維

為避免多個屬性間強相關性對數據集分析產生干擾，提升預測模型的可靠性，需從番劇標簽、追番人數、番劇評分、用戶性別、用戶等級、用戶粉絲數、用戶關注人數、用戶評論點贊數這8個屬性標簽中選取對預測用戶評分貢獻較大的特征屬性，降低預測模型的復雜度。在對數據集進行降維處理的過程中，需要保證篩選出的屬性要盡可能多地表征樣本數據的大部分信息，否則將不會降低數據分析的難度和復雜度，甚至會導致分析失敗。

將番劇標簽、追番人數、番劇評分、用戶性別、用戶等級、用戶粉絲數、用戶關注人數、用戶評論點贊數這8個屬性標簽分別編號為1-8，通過遞歸特征消除法對樣本數據中各屬性的貢獻值進行篩選[19]。

圖2為各屬性對預測結果的貢獻值，設定閾值0.85可以將原來的8維數據集降為5維數據集。選出的5個主要特征屬性分別為：番劇標簽、追番人數、番劇評分、用戶性別、用戶等級。將篩選出的5個屬性用于模型訓練。

圖2 各屬性貢獻值

3.4 歸一化

為避免因屬性量化級不同帶來的預測偏差，利用min-max標準化公式對樣本數據進行歸一化處理。

(11)

其中，xi為屬性中第i個樣本的數據；xmax和xmin為屬性的最大值和最小值。

圖3為數據集中原始的番劇評分數據與歸一化處理后的番劇評分數據對比圖。歸一化處理后避免了因樣本數據各屬性間量化級不同造成的誤差，可以提升模型的收斂速度和精度。

圖3 歸一化處理前后對比

4 實驗與分析

4.1 基于不同核函數的SVM視頻用戶需預測模型

首先將數據集分為訓練集和預測集兩類，將數據集的70%作為訓練集，30%作為測試集。在模型訓練的過程中，分別基于表1中三個不同的核函數構造SVM視頻用戶需求預測模型，預測結果如圖4所示。

表1 不同核函數的表達式

圖4 基于不同核函數的SVM預測結果對比

選取均方誤差(MSE)、平均絕對百分比誤差(MAPE)和準確率(Accuracy)三個評價指標分別從預測誤差和預測精準度兩個方面對不同核函數下的SVM視頻用戶需求預測結果進行對比，結果如表2所示。

表2 基于不同核函數的SVM用戶需求預測效果對比

根據統計學原理可知，MSE、MAPE兩者的數值越小，表示預測值與真實值的誤差越小，即預測結果越接近于真實值，而準確率越高表明預測模型的預測效果越好。對比表2中不同核函數下的SVM預測結果可知，基于高斯核函數的SVM視頻用戶需求預測模型預測效果較好。

4.2 參數調優

為降低視頻用戶需求預測模型的預測誤差，提高預測的準確率，現針對高斯核函數下的SVM視頻用戶需求預測模型進行參數調優。隨機選取4組參數對(C,δ)進行對比實驗，其中C為懲罰系數，δ為高斯核函數系數，預測對比結果如圖5所示。

圖5 基于不同參數對的SVM預測結果對比

通過對比表3中不同參數對SVM視頻用戶預測模型的MSE、MAPE和Accuracy，可以得到C=2.25,δ=1.25時的SVM視頻用戶需求預測模型最佳。

表3 基于參數C和δ的SVM預測效果對比

5 結束語

文中將用戶觀看視頻行為的數據作為訓練集，以用戶數據及其對視頻需求的關系為基準，提出基于不同核函數下的SVM視頻用戶需求預測模型，并對高斯核函數下的SVM視頻用戶需求預測模型進行參數調優，通過對預測結果的誤差和準確度進行對比分析，驗證了參數優化的有效性。優化后的SVM視頻用戶需求預測模型的預測結果的MSE為0.012 5，MAPE為0.075 5，準確度為90.32%。該研究成果有助于運營商精準掌握用戶需求，提升平臺為用戶推薦視頻的成功率，減少用戶在海量網絡視頻資源中搜索視頻內容的時間。未來還需進一步考慮如何結合神經網絡算法對參數進行智能調優，進一步降低模型預測的誤差，以提高預測的準確度。