姜明 朱開誠 王興起
?
視頻網站熱門視頻快速發掘系統
姜明 朱開誠 王興起
杭州電子科技大學,浙江 杭州 310018
隨著互聯網視頻網站的蓬勃發展,觀看網絡視頻已經成為了廣大網民日常生活的一部分。熱門視頻能夠為網站帶來巨大流量和經濟效益。因此,如何快速發掘熱門視頻是一個新的研究熱點。根據中國最大的視頻分享網站優酷網的特點,分析了影響熱點視頻的因素,在常規的熱點視頻發掘方法上加入了賬號質量和話題熱度這兩個熱度計算參數,根據這兩個參數設計了一個熱點視頻快速發掘系統,并通過性能測驗證實了相比于傳統方法該系統能夠有效提高熱點視頻的發掘效率。
視頻網站;互聯網
隨著互聯網各大視頻網站的發展,觀看網絡視頻已經成為了中國網民日常生活的一部分?;ヂ摼W每天有數萬新視頻發布,視頻的播放量達到一定量就成了熱門視頻。熱門視頻是網民的關注點,往往會與網絡熱點事件相關。因此,設計一個快速發掘熱門視頻的系統有非常大的價值,一方面,熱點推送能快速抓住用戶的眼球,吸引大量網絡流量,為視頻網站推廣盈利帶來很大的效益;另一方面,擁有大量評論的熱門視頻能夠為網絡輿情的研究者提供更多的資源。
網絡熱點的特點是時效性強,互聯網每天都將產生新的熱點話題,而這些熱點話題存活的時間也短,很快網民的注意力會被新的話題所吸引,經過我們的統計,不論視頻播放數量多高,到第三天,往往新增的播放數量就下降到比較低的水平,在第七天以后,總播放數量趨于平穩,每日播放量增量非常小。所以,熱門視頻要在視頻發布后一天內就發掘出來進行監控,排除熱度已經下降到一定程度的視頻,預警可能成為熱點的視頻。
視頻播放量是視頻熱度計算的重要指標,對于視頻分享網站,一方面,因為有社交因素的存在,每個用戶新上傳的視頻首先會被推送到每個粉絲那里,粉絲們也會經常性的收看自己訂閱的帳號的視頻,因此,我們認為一個帳號受關注的程度往往能對其上傳的視頻熱度產生影響;另一方面,社交網站往往存在熱點話題,多個相同主題的熱門視頻能夠聚合成熱點話題,那么如果新上傳的視頻與當前的熱點話題相關,那會對視頻熱度造成影響,所以我們要探究的第二個影響視頻熱度的因素是話題熱點。
我們在研究帳號與視頻播放量的關系時,根據帳號受歡迎的程度,提出來計算帳號的“質量”,我們將計算一個帳號的平均總點擊量來判定一個帳號的質量。計算公式是:

其中m表示該帳號的平均總播放量,C表示該帳號的總播放量,n表示該帳號的總視頻個數。我們對質量較高的帳號建立“帳號質量庫”。并對“帳號質量庫”中的賬號賦予不同的值M。值M表示一個賬號的質量,經過計算,我們認為M值取:
(3-2)
m是公式3-1中的m值,T表示該帳號的粉絲數,x為系數,取值需要一定的實驗來確定。由于帳號質量會隨著時間變化而變化,我們根據其變化幅度,認為每一個月更新一次賬號質量庫比較合適。
熱門話題是指一段時間內特別受人關注的事件,當一個事件成為熱門話題后,如果有新的與該話題有關的視頻出現時,會立刻吸引人們的觀看,這樣的視頻是潛在的熱門視頻候選,所以,我們在計算熱點的時候,可以將現有的熱點話題生成一個庫,話題熱度相應的提升視頻熱度。
這里,我們通過在視頻的名稱、標簽等文字信息中提取出關鍵字,使用了基于知網(Hownet)的同義詞詞林[1]來作為我們的聚類詞典,選擇將關鍵字通過向量空間模型[2]進行聚類,使用了增量組合與弱跟蹤器的組合方法[3]作為話題檢測跟蹤的方法,最后得出話題檢測的結果,形成一個話題熱度表,在熱度表中每一個話題有對應的熱度P,P是一個相對熱度值,P的取值在0~2之間,取0~1時表示話題熱度有所降低,取1~2時表示話題熱度有所提高,我們每一次數據更新都會同時來更新我們的話題熱度表,使其保持熱度準確性。
在研究視頻的熱度時,我們確定了影響視頻熱度的因素,在視頻網站,視頻播放量是最為明顯的判斷視頻熱度的因素,所以通常將視頻播放量作為視頻熱度計算的標準。常用的熱度計算標準是:
1)絕對熱度
絕對熱度表示到一時刻該視頻總的熱度值,其表達式為:
Ha=xV(3-1)
Ha 表示絕對熱度值,V 表示視頻點擊量x 表示系數,為簡便,x取 0~1 之間。
2)相對熱度
由于絕對熱度只是一個總量值,不能體現熱度的變化情況,所以我們引入了相對熱度,其表達式為:

Hd 表示熱度在一段時間內的變化率,數值越大,表示該視頻在某一時間段內觀看數量越多,可以反映出熱度變化的情況;△Ha 表示兩個時刻的熱度變化差,△t表示間隔時間。
通過前面兩節的分析,我們加入了帳號質量和話題熱度兩個參數,因為帳號質量相對在一定時間內較為固定,所以作為絕對熱度參數計算,而話題熱度在一段時間內變化較為平凡,所以作為相對熱度參數,那么我們最終的熱度計算公式為:

其中HOT為熱度值,k為系數,Ha為絕對熱度值,△t表示間隔時間,P表示話題熱度值,通過我們的計算,當kM取0到0.1之間,P取0到2之間時,預測效果比較好。
我們設計的模型總體框架如圖1所示,分為數據采集模塊、話題熱度模塊、熱點發掘模塊、數據顯示模塊。

圖1 ??
6.1 數據采集
數據采集模塊的核心功能是爬蟲程序,這個模塊的主要任務是分析網頁源碼,抓取網頁中有需要的信息,是系統數據的主要來源。種子網址指的是爬蟲的起始爬行地址,爬蟲任務的調度功能可以根據不同的需求開始、暫停、終止爬蟲程序,保證多個爬蟲同時進行。爬蟲每訪問一張頁面,就要對這張頁面的HTML源碼進行分析。將其中有用的數據根據我們的要求保存到數據庫中,同時標記已經訪問過的網頁,每隔一定時間進行重爬獲取更新數據。
6.2 話題計算
話題計算模塊根據前面介紹的中文處理方法,將所有視頻內容進行話題向量提取,然后通過話題聚類方法計算出話題的熱度,生成一份“話題熱度表”,話題熱度表包含了近期熱點詞匯,是如果新的視頻的內容在話題熱度表中,那么相應的會提升視頻的熱度值,話題熱度表是一個動態的,通過已有的熱點發現新的潛在熱門視頻,通過新的視頻關鍵詞生更新熱點詞匯表,計算話題的熱度變化。
6.3 熱點發掘
熱點發掘模塊的功能就是發掘新視頻中潛在的可能成為熱門的視頻。新的視頻會根據基礎播放數量、話題熱度、和帳號質量得到一個初始熱度,然后每過一定的時間更新視頻的播放數量,并計算出其熱度,當熱度值達到我們預設的閥值后,就將其列入疑似熱點視頻進行跟蹤。
帳號質量庫記錄了帳號的質量,如果新視頻由帳號質量庫的帳號提供,那么其熱點會根據帳號的熱度值相應的提升熱點水平。熱門帳號庫每月會自動更新一次,來確保帳號質量的可靠性。
6.4 結果顯示
顯示模塊會顯示在一段時間內的熱門視頻排行、每個熱點視頻的詳細信息。同時對疑似熱門視頻進行預警,在結果顯示模塊體現了所有需要觀察的數據。我們可以通過檢索和統計功能來進一步分析熱門視頻的相關信息。
我們通過對優酷網資訊類欄目新上傳的視頻進行四個小時的抓取,然后對抓取的每個視頻進行二十四小時的跟蹤,同時,我們設置一個對比組,在不加入話題熱度參數和帳號質量參數的情況下進行熱度計算,當播放量大于10000時進行預警。最終實驗得出加入了參數的熱度計算在預測效率上提高了22%。同時,熱門視頻的召回率為100%,證實了我們的模型的可靠性和高效性。
本文我們具體討論了帳號質量和話題熱度兩個影響視頻熱度的因素,通過實驗比較證實了在熱門視頻發掘階段這兩個參數對發掘效率的正面影響。最終我們設計出來的系統能夠有效的進行熱門視頻的發掘,在接下去的工作中,我們可以對系統進行拓展,來滿足更多的需求。
[1]熊德蘭,程菊明,田勝利.基于HowNet的句子褒貶傾向性研究[J].計算機工程與應用,2008(22):143-145.
[2]姚清耘.基于向量空間模型的中文文本聚類方法的研究[D].上海交通大學,2008.
[3]祁磊.話題檢測與跟蹤及趨勢預測研究[D].杭州電子科技大學,2014.
TP311.52
A
1009-6434(2016)01-0057-02