999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于支持向量機的虛假點擊識別方法研究

2018-08-22 19:31:06于媛媛鄭金麗孔志有
科學與財富 2018年21期
關鍵詞:機器學習

于媛媛 鄭金麗 孔志有

摘要:目前,廣告收入是科技巨頭公司的重要收入來源,如國外的Google、Facebook等,國內的百度、阿里巴巴、騰訊等。在這些網站上投放的廣告,大部分的點擊都是虛假點擊,即點擊后未下載廣告中的軟件,這不僅會浪費公司大量的廣告費,還會誤導公司的經營策略。因此,如何鑒別虛假點擊成為了一個重要的社會問題。本文使用了我國移動端約兩億條真實點擊數據,將其分為訓練集和測試集,選用機器學習算法中的支持向量機(SVM)算法來進行分類器的構建,并使用AUC評價指標對識別結果進行分析。

關鍵詞:虛假點擊,支持向量機,機器學習

一、數據集的特征設計

特征設計是機器學習的一個重要環(huán)節(jié),原始數據不能直接應用到機器學習模型中,需要通過一些方法將這些原始數據根據其類型進行處理之后才能作為機器學習模型的輸入。以移動端點擊數據為例,其一般包括點擊時的IP地址、點擊的時刻、廣告發(fā)布商的頻道號等內容。這些數據因為數據格式不同,代表的含義也不同,所以不能直接作為訓練集數據進行使用。一般可將原始數據分為數值型特征數據,如點擊時刻,和類別型特征數據,如IP地址,廣告發(fā)布商的頻道號等。對于數值型特征可使用等距離散化方法進行處理,以點擊時刻為例,因為時刻的范圍在0點到24點之間,所以可將時刻分為24個區(qū)間,構造一個24維的二值特征向量。如果某條數據的點擊時刻是19點20分,則可將其24維向量中的第19維向量置為1,用來表示其點擊時刻在19點到20點的區(qū)間內。這種方法對雜亂的數值型特征劃分區(qū)間并將其轉換為二值向量,雖然在一定程度上忽略了數值的細節(jié)部分,但卻極大地方便了模型的運算,也基本能反映數據的整體特征。對于類別型特征,其屬于非數值型特征,通常包括兩個或者多個類別,在類別之間沒有內定的次序,其數據一般代表的是類別編號,不具有數值大小上的意義,所以不能使用等距離散化方法來處理,這里使用獨熱編碼(One-Hot-Encoding)進行處理。這種編碼方式將類別型特征用一個向量表示,類別型特征屬性的個數等于向量的維度,當樣本中某個屬性值出現(xiàn)時,其對應維度上的取值為1,而其余維度上的取值為0,編碼過程分為生成One-Hot編碼字典、利用字典生成特征兩步。以廣告發(fā)布商的頻道號為例,本文所使用數據中一共有498種頻道號,可建立一個498維的二值向量,對于某條數據中的頻道號,可尋找其編號對應的維度,將次維度置為1。這種方法解決了類別型特征數據格式不同,不能參與運算的問題,能夠做到對類別型特征的完全利用。對數值型特征和類別型特征分別處理后,將兩者得到的二值向量進行拼接后即可得到數據集的完整的特征向量,但往往這個特征向量是一個高緯度向量,能夠達到幾十萬的維度,這對數據存儲與運算帶來了很大問題。對此,一般有兩種解決方法,第一種是丟掉稀有特征,即將那些在數據集中出現(xiàn)次數少的特征維度刪去,這通常會丟掉一些有用的特征,存在一定的風險性。第二種是使用鍵值對(key-value)的方式進行存儲運算,只存儲特征向量中值為1的項,記錄其維度號,這種方法適合用于特征向量中零項較多的情況,特別是類別型特征較多的數據集。

二、支持向量機分類算法思想

支持向量機算法是是一種機器學習算法,是被公認的比較優(yōu)秀的分類模型,在很短的時間內就得到了廣泛的應用。它能使錯誤的檢測率減小到最小,同時具有較好的泛化能力,是一種不容易過擬合的分類方法,比較適合于二分類問題。模型在已知方向的情況下構造分隔超平面,使分隔超平面到兩邊距離最近的分類點的距離最大,使用極大化間隔的方法可以得出求解最小化距離的二次函數問題,添加約束條件后保證分類點與分隔超平面的距離都不小于幾何間隔,處于超平面之上或兩側。而對于訓練過程中出現(xiàn)的不可分的樣本點,意味著其不能滿足約束條件,為了解決這個問題,可以對每個樣本點引進一個松弛變量,以確保其能夠被分為正類或負類。在模型的輸入中,其對輸入數據格式有特定要求,需為Label 1:value 2:value...的形式,其中Label值是類別的標識,value是特征值,此數據格式的轉換可以使用編程語言進行讀取轉換,也可以采用Excel中的宏定義進行處理。對應于數據集特征設計中得到的二值特征向量,每一維的0或1都是一個value值,在訓練集中,Label值是已知的分類類別的編號,比如屬于虛假廣告點擊的數據的Label值為1,有效點擊的數據的Label值為0。而在測試集中,因為數據的分類類別未知,所以可將Label值預設為0,此值在模型中不參與運算,僅用來滿足數據格式要求,將測試集數據代入使用訓練集訓練好的支持向量機模型后,模型會給出測試集的分類結果,即每條數據的預測Label值。

三、虛假點擊識別系統(tǒng)算法流程

虛假點擊識別系統(tǒng)的基本思想是將訓練集中的數據分為數值型特征和類別型特征分別進行處理后得到高維的特征向量,將其作為訓練數據導入支持向量機模型中,保存訓練后的支持向量機模型。對測試集采用相同的特征設計方式進行數據處理后導入訓練后的支持向量機模型,輸出預測結果,并與原始數據結果進行對比。

四、虛假點擊識別結果分析

虛假點擊識別是一個二分類問題,而且數據在不同類別上分布不均衡,因此識別率這樣的度量標準不能很好的反應分類器的性能。用ROC曲線來表示分類器的結果很直觀,與其有關的混淆矩陣是監(jiān)督學習中的一種可視化工具,主要用于比較分類結果和數據的真實信息。矩陣中的行代表數據的預測類別,列代表數據的真實類別。在混淆矩陣中,每一條數據可以劃分為預測正確的正類、預測正確的負類、預測錯誤的正類、預測錯誤的負類四種類型之一。ROC曲線以真陽性率(精度)為縱坐標,假陽性率(誤檢率)為橫坐標繪制的曲線。AUC是ROC曲線下的面積,其取值介于0.5到1之間,值越大表明預測效果越準確。以上述支持向量機模型的訓練和測試為例,每進行一輪迭代之后都會在測試集中做預測并計算測試集的AUC。實驗結果顯示,在開始階段的迭代中,測試集的AUC比較低,隨著迭代輪數的逐漸增加,AUC的值逐漸增加,這說明在最開始模型沒有得到充分訓練,隨著迭代次數的增加,模型逐漸得到充分訓練,數據中的信息被模型充分學習,效果變得越來越好。在第57510輪迭代時AUC值達到最高值0.788217,隨后又逐漸下降,這表明模型在得到充分訓練之后,已經從數據中學習到了足夠多的信息,如果繼續(xù)進行訓練,也不能從數據中學習到更多的有用信息,反而會取得不好的效果。

綜上所述,將支持向量機算法運用到虛假點擊的識別中能夠得到較好的效果,這能夠幫助廣告投放者合理篩選和使用點擊數據,調整廣告投放策略。同時為了使該算法能夠更好地發(fā)揮其優(yōu)勢,還應在現(xiàn)有基礎上不斷進行優(yōu)化和改進,使其能應用到更廣泛的領域。

參考文獻:

[1]王孝舒.廣告率點擊預估的深層神經網絡模型研究[D].北京郵電大學,2015.

[2]董亞楠,劉學軍,李斌.一種基于用戶行為特征選擇的點擊欺詐檢測方法[J].計算機科學,2016,43(10):145-149.

[3]趙志勇.Python機器學習算法[M].1 北京:電子工業(yè)出版社,2017,123-174.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 精品国产aⅴ一区二区三区| 国产福利观看| 色老头综合网| 国产经典免费播放视频| 国产精品伦视频观看免费| 无码 在线 在线| 日韩精品高清自在线| 午夜小视频在线| 国产尤物在线播放| 一级福利视频| 在线一级毛片| 国产成人a在线观看视频| 黄色在线不卡| 91在线播放国产| 国产精品99在线观看| 激情综合婷婷丁香五月尤物| 国产美女视频黄a视频全免费网站| 日日拍夜夜操| 亚洲日本中文综合在线| 欧美日韩成人| 精品一区二区三区波多野结衣| 日韩在线1| 日本欧美中文字幕精品亚洲| 色噜噜狠狠色综合网图区| 欧美在线国产| 99青青青精品视频在线| 日韩福利在线观看| 99久久精品免费看国产免费软件| 成人伊人色一区二区三区| 精品久久久久成人码免费动漫| 久久久无码人妻精品无码| 国产欧美自拍视频| 亚洲视频三级| 亚洲第一成网站| 国产成人盗摄精品| 国产凹凸视频在线观看| 欧美一区二区三区香蕉视| 91精品综合| 亚洲国产成人综合精品2020| 99视频在线免费看| 四虎永久在线视频| 久久国产精品影院| 国产在线观看一区精品| 国产欧美日韩专区发布| 一级毛片在线直接观看| 亚洲成网站| 波多野结衣视频网站| 国产三级成人| 国产男女免费视频| 激情爆乳一区二区| 亚洲最大福利网站| 亚洲精品动漫| 99热这里都是国产精品| 日韩中文字幕免费在线观看| 99热这里都是国产精品| 狠狠色婷婷丁香综合久久韩国 | 日本在线亚洲| 亚瑟天堂久久一区二区影院| 伊人久久久久久久| 国产成人在线小视频| 国产精品成人观看视频国产 | 被公侵犯人妻少妇一区二区三区| 亚洲天堂视频在线免费观看| 国产美女在线观看| 无码粉嫩虎白一线天在线观看| 日韩欧美综合在线制服| 原味小视频在线www国产| 久久久久人妻精品一区三寸蜜桃| 999精品色在线观看| 91在线精品麻豆欧美在线| 国产精品一区二区不卡的视频| 亚洲国产精品一区二区第一页免| 91在线日韩在线播放| 亚洲色图另类| 国产成人精品一区二区三在线观看| 久久青草视频| a级毛片免费网站| 午夜a级毛片| a亚洲视频| 波多野结衣在线se| 91精品视频在线播放| 54pao国产成人免费视频|