周蕩蕩 蘇 勇
(江蘇科技大學計算機科學與工程學院 鎮江 212003)
基于決策樹算法的電視收視率預測研究?
周蕩蕩 蘇 勇
(江蘇科技大學計算機科學與工程學院 鎮江 212003)
論文經過很多的研究工作,對于各種電視頻道收視率猜測策略的特色,提出了對于電視臺收視率猜測軟件體系的規劃,并給出基于面向對象思維的軟件模型及有關模塊的交互規劃和完成,這個軟件體系是強健,牢靠,可拓展且有用的。
預測模型;收視率;決策樹算法;電視節目
收視查詢得到的數據作為一種主要的商場信息獲取來源,其效果也是愈來愈主要。因而,對數據收集到數據剖析變成樹立收視率查詢系統的一個主要環節。收視率查詢數據通常具有較強的時效性和復雜性,因而在對數據進行處理時通常對處理的及時性和產生規則的多樣性有較高的要求[1~2]。傳統的數據處理方式通常是以統計剖析的辦法為主,盡管這類辦法在以往的許多問題中具有較好的處理效果。但是,隨著信息時代的到來,這種傳統的數據剖析方式現已不能極好地滿足收視率查詢中的信息處理需求。在某些情況下,程序采納相似神經元的網絡模型,使用神經網絡學習在很大程度可能會樹立一個學習模型精度低,收視率的猜測辦法也是有許多,并表現出共同的適用性[3~8]。以非常好地滿足電視媒體廣告收視率的查詢服務行業的需要,查詢收視率常用的播送電視節目收視率的電視渠道來滿足的各類需要,以便進行猜測與計算。
2.1 收視率數據處理
在圖1里已經給出了本文研究的收視率數據形式,收視率數據的選擇原則是基于觀眾觀看電視比較頻繁的時間段,本文的收視率取自每天晚上從19:00到22:10的平均收視率。如圖3展示了部分數據。
首要對收視率數據值進行處理,由于要思考運用決策樹對電視臺頻道收視率進行猜測,所以需求對剖析的特色進行離散化。關于收視率值的離散化,能夠直接靠人工進行挑選,由人工指定一個或幾個閾值,然后按這些閾值進行歸類,這么能夠很迅速地得到成果,可是需求耗費人力,并且人為因素影響比較大;另外能夠思考屢次核算挑選的辦法,給出最終的類型總數,然后由核算機剖析各個數據點的方位,給出最終的分類成果;還能夠思考選用聚類的辦法,經過聚類算法自行挑選合理的分類規范,這么的優勢在于能夠不必人工干預進行分類,節省時刻,缺陷也是很明顯的,關于一些數值跨度比較大的數據,選用這種辦法也許導致最終得到的類型格外多,這樣不利于后邊決策樹剖析,假如遇到這種狀況,能夠思考先對數據進行預處理,如取原始數據值的平方根,或是取對數等操作來提早集合數據。經過有關的數學辦法處理后,數據將會變得會集起來,然后經過聚類算法進行聚類,則能夠得到比較好的成果。收視率數值是接連的數據。這里需求思考的收視率特色包含如下:

圖1 19:00到22:10的平均收視率部分數據
1)收視率丈量值,這篇文章收集的收視率是接連的數值。
2)收視率時刻特色,首要指的是收視率丈量當天是工作日或非工作日。
3)收視率時刻所屬規模,指的是收視率丈量當天歸于上旬,中旬或是下旬。
4)前一天或前一星期或有關前幾周的收視率值。
表中數據已經按照時間先后排序如表1所示。

表1 部分數據編碼
2.2 應用決策樹分類算法預測收視率
對收視率數據進行相應的處理并編碼,在保證了每條收視率記錄的唯一性之后,則可以構建決策樹來學習建模并預測了[9]。對于電視臺收視率預測問題,最終需要預測的是電視臺收視率值,而經過數據處理后,實際只需要預測收視率的類型即可。對于最終要預測的分類屬性為電視臺收視率離散值,它有三個不同的值,其中L有27個樣本,M有17個樣本,H有16個樣本,這里需要計算每個屬性的信息增益,首先給定電視臺收視率離散值樣本分類的期望信息:

接下來計算每個屬性的信息熵,首先從時間屬性開始,檢查時間屬性的每個樣本值的分布。對于時間屬性Time=1的情況,有18個的收視率離散值Rate=L,有10個收視率離散值Rate=M ,有16個收視率離散值Rate=H;對于時間屬性Time=0的情況,有9個的收視率離散值Rate=L,有7個收視率離散值Rate=M,有0個收視率離散值Rate=H。所以對于每個分布計算期望信息:
對Time=1:

對Time=0:


因此若原樣本按照時間屬性進行劃分,按照式(2),式(3)計算出對一個給定的樣本的分類對應的信息熵:由式(1),式(3)計算這種劃分的信息增益是:Gain(Time)=I(s1,s2,s3)-E(Time)=0.2664 (5)對于月位置屬性的信息增益計算如下:對Position=F:


類似的,可以計算:
對Prev_Rate=L:

對Prev_Rate=M:

對Prev_Rate=H:

根據計算出的信息增益,對比式(5),式(6)和式(7)可見屬性Prev_Rate具有最高的信息增益,所以它首先被選作測試屬性。并以此創建一個結點,用Prev_Rate標示,并對于每個屬性值,引出一個分支,如圖2所示。

圖2 Prev_Rate結點及其分支
然后對每個分支繼續遞歸計算其相應屬性的信息增益,根據信息增益值來進行劃分[10]。根據選擇的這些屬性進行分類建模,最后得到的分類規則如圖3所示。

圖3 ID3算法產生的決策樹
選用以上得到的決策樹對電視臺的收視率數據進行分類猜測,成果猜測精度在65%擺布,這也是能夠預料到的,由于原數據中供給的信息量有限,不能最大度的對收視率進行分類,致使猜測差錯是不免的[11]。
從通常狀況來看,對這篇文章研究的電視臺收視率數據方式,選用決策樹算法進行分猜測,不能得到準確的收視率值,只能區別收視率的類型,是一個含糊的猜測成果。關于這么的收視率數據方式,額定剖析的特色較少,所以選用決策樹算法進行分類猜測得到的效果并不抱負,為了改進猜測精度,具體使用時電視臺能夠依據相應的評估規范進行分類,然后進行猜測,也能夠選用聚類算法讓數據依據本身特色進行分類。然后依據這些類型來區分收視率[12]。總的來說決策樹分類原則在收視率猜測使用疑問上有很大的實用性,能夠在大規模雜亂猜測運算履行前作為分類預處理履行,對根本原始數據進行分類并過濾,有助于大規模雜亂猜測核算的并行履行,關于終究迅速得到猜測成果有很好的啟示效果。
在現代電視媒體經營中,由于市場經濟體系機制的越來越完善,政府撥款扶持的情況已經越來越少,因而如何依靠其自身特有的資源創建收益,對電視媒體至關重要,其研究和應用具有很好的意義。本文主要研究如何更加有效地預測電視頻道收視率。頻道收視率是評價電視媒體經營效益的最好標準,電視媒體的一切目標的根基就是獲得更高的收視率,只有在這個前提下,其它經營活動,諸如廣告時間銷售,節目時間安排等才能正常有效地進行下去。
本文首先介紹了關于電視臺頻道收視率預測的當前狀況,然后提出了本文研究的收視率數據形式。針對收視率數據記錄形式,本文提出了基于決策樹分類學習方法,并針對實際數據,建立模型進行了預測。本研究課題提出了相應的軟件體系,并對該體系首要框架、首要模塊、首要接口以及相互間的交互行為進行了設計來解決頻道的收視率的猜測的疑問,該體系模塊根據現在的需要和潛在的不知道的需要范疇,依照軟件工程的基本原則,利用面向對象的思維進行的設計,減小了模塊之間的耦合性,使體系具有極好的可擴展性并留有將來的晉級接口。
[1]李善慶.基于數據挖掘的收視分析與決策系統的設計與實現[D].沈陽:東北大學,2007.LI Shanqing.Design and implementation of audience analysis and decision system based on data mining[D].Shengyang:Dongbei Univerisy,2007.
[2]俞晨潔.中國零售業的發展演變及投資機會[D].上海:上海交通大學,2006.YU Chenjie.Evolution and investment opportunities of China's retail industry[D].Shanghai:Shanghai Jiaotong University,2006.
[3]張凌.ID3算法的研究以及在成績統計輔助決策系統中的應用[D].廈門:廈門大學,2007.ZHANG Ling.The research of ID3 algorithm and the application in the assistant decision making system[D].Xiamen:Xiamen Unviersity,2007.
[4]柳學錚.多維數據關聯規則挖掘研究[D].長春:長春工業大學,2006.LIU Xuezheng.Research on association rule mining of multidimensional data[D].Changchun:Changchun Unviersity of Technology,2006.
[5]趙紅艷.決策樹技術在學生成績分析中的應用研究[D].濟南:山東師范大學,2007.ZHAO Hongyan.Application of decision tree technology in student performance analysis[D].Jinan:Shangdong Normal Unviersity,2007.
[6]云玉屏.基于C4.5算法的數據挖掘應用研究[D].哈爾濱:哈爾濱理工大學,2008.YUN Yuping.Application Research of data mining based on C4.5 algorithm[D].Harbin:Harbin University of Science and Technology,2008.
[7]何銘鋒.關于品牌識別、傳播與體驗的工作方法研究[D].長沙:湖南大學,2008.HE Mingfeng.Research on the methods of brand recognition,communication and experience[D].Changsha:Hunan University,2008.
[8]徐鵬,林森.基于C4.5決策樹的流量分類方法[J].軟件學報,2009,20(10)XU Peng,LIN Sen.Traffic classification method of C4.5 decision tree based on[J].Journal of software,2009,20(10).
[9]胡海斌,邱明,姜青山,等.一種基于數據繼承關系的C4.5分類優化算法[J].計算機研究與發展,2009,46(z2).HU Haibin,QIU Ming,JIANG Qingshan,et al.A C4.5 classification optimization algorithm based on data inheritance relationship[J].Computer research and development,2009,46(z2).
[10]黃愛輝.決策樹C4.5算法的改進及應用[J].科學技術與工程,2009,9(1).Huang Aihui.The improvement of decision tree C4.5 algorithm and its application[J].Science and technology and engineering,2009,9(1).
[11]劉鵬,姚正,尹俊杰,等.一種有效的C 4.5改進模型[J].清華大學學(自然科學版),2006,46(z1).LIU Peng,YAO Zheng,YIN Junjie,et al.An effective C 4.5 improved model[J].Tsinghua University(NATURAL SCIENCE EDITION),2006,46(z1).
[12]羅華,劉萍,韋有華.數據挖掘與數據倉庫技術及其在保險業中的應用[J].微計算機信息,2004(4).LUO Hua,LIU Ping,WEI Youhua.data mining and data warehouse technology and its application in the insurance industry[J].micro computer information,2004(4).
Television Ratings Prediction Research Based on Decision Tree Algorithm
SU YongZHOU Dangdang
(School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhengjian 212003)
This article after a lot of research work,for a variety of television ratings guess characteristic strategy proposed for television ratings guess planning and complete software system,and gives interactive object-oriented software model and thinking about the module planning and completion,the software system is a robust,reliable,scalable and useful.
prediction model,ratings,decision tree algorithms,TV programs
TP391
10.3969/j.issn.1672-9722.2017.11.009
Class Number TP391
2017年5月9日,
2017年6月25日
周蕩蕩,男,碩士研究生,研究方向:數據挖掘。蘇勇,男,博士,教授,研究方向:數據挖掘。