999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關(guān)于點擊率大數(shù)據(jù)的高階深度分解機預(yù)測仿真

2021-11-17 04:00:12張換梅董云云
計算機仿真 2021年3期
關(guān)鍵詞:深度特征模型

張換梅,董云云,2

(1.晉中學(xué)院計算機科學(xué)與技術(shù)學(xué)院,山西 晉中 030619;2.太原理工大學(xué)信息與計算機學(xué)院,山西 太原 030024)

1 引言

互聯(lián)網(wǎng)與云計算在提供豐富業(yè)務(wù)功能的同時,產(chǎn)生海量中間數(shù)據(jù),網(wǎng)絡(luò)應(yīng)用通過數(shù)據(jù)收集、提取和分析,從中獲取所需信息,對用戶進(jìn)行畫像,從而完成業(yè)務(wù)的精準(zhǔn)投放。尤其對于電子商務(wù)、移動、搜索引擎等互聯(lián)網(wǎng)場景,大量收集用戶數(shù)據(jù),處理過載信息,并完成用戶模型預(yù)測,是其業(yè)務(wù)優(yōu)化與收益增長的重要手段。其中,點擊率(Click-through Rate,)是目前互聯(lián)網(wǎng)應(yīng)用中主要的數(shù)據(jù)過濾方式[1-2],但是在多源異構(gòu)的海量數(shù)據(jù)分析中,預(yù)測模型和方案需要具有良好的動態(tài)時變特性,從而滿足推薦業(yè)務(wù)要求。對于大數(shù)據(jù)的預(yù)測,就是根據(jù)數(shù)據(jù)集的學(xué)習(xí),得到一種映射關(guān)系。在點擊率預(yù)測時,其映射輸出分為點擊與不點擊,即輸出具有離散性[3]。當(dāng)系統(tǒng)較為線性時,通常可以采用邏輯回歸[4]方案對數(shù)據(jù)進(jìn)行預(yù)測,并在邏輯回歸基礎(chǔ)上,采取似然估計或其它方式對預(yù)測模型進(jìn)行計算。這種方案雖然簡便高效,但是不能分辨數(shù)據(jù)間的非線性關(guān)聯(lián)和高階特征。于是,在非線性系統(tǒng)中,通常引入多項式回歸方案[5]。利用映射關(guān)系來描述多階系統(tǒng),基于這種映射關(guān)系,可以對數(shù)據(jù)特征的耦合關(guān)聯(lián)進(jìn)行深入學(xué)習(xí),但是可能引發(fā)特征數(shù)量與維度的泛濫,難以處理高階和稀疏情況。由于分解機[6]能夠避免大量特征耦合關(guān)聯(lián)權(quán)重的學(xué)習(xí)計算,同時具有良好的稀疏數(shù)據(jù)處理性能,因此,本文設(shè)計一種高階深度分解機點擊率數(shù)據(jù)預(yù)測方法。在分解機設(shè)計時,利用特征耦合性替代傳統(tǒng)的權(quán)重關(guān)系,提高對交互特征和稀疏特征的描述精度;同時采取映射二次項轉(zhuǎn)換來降低特征映射復(fù)雜度,從而使分解機能夠向高維擴展。基于高階分解機,將與結(jié)合構(gòu)造了深度學(xué)習(xí)網(wǎng)絡(luò),并引入對比散度和對學(xué)習(xí)網(wǎng)絡(luò)的樣本訓(xùn)練性能做進(jìn)一步優(yōu)化。

2 高階分解機特征映射模型

針對數(shù)據(jù)特征耦合情況,在分解機算法中引入隱向量,取代權(quán)重計算,利用其長度來改變系統(tǒng)變量。對于只有兩特征耦合的情況,分解機的映射關(guān)系描述如下

(1)

(2)

當(dāng)隱向量的大小是k,分解機的特征映射復(fù)雜度表示為O(kn2)。為了降低復(fù)雜度,改善其多階性能,把映射二次項采取如下轉(zhuǎn)換

(3)

轉(zhuǎn)換后的特征映射復(fù)雜度是O(kn)。優(yōu)化之前,當(dāng)數(shù)據(jù)量增加時,復(fù)雜度呈指數(shù)增長;優(yōu)化之后,當(dāng)數(shù)據(jù)量增加時,復(fù)雜度呈線性增長,顯然更有利于大數(shù)據(jù)的處理。

兩特征耦合符合稀疏數(shù)據(jù)場景,即耦合變量不充足,通過隱向量與系數(shù)矩陣能夠有效描述特征交互關(guān)聯(lián),有利于提高預(yù)測效果。根據(jù)二階分解機,很容易將其應(yīng)用于高階場景。于是,三階分解機的映射關(guān)系如下

(4)

式中,qi,k、qj,k構(gòu)成系數(shù)矩陣Q;pi,k、pj,k、pl,k構(gòu)成系數(shù)矩陣P。此時,為保持線性復(fù)雜度,對其映射三次項采取如下轉(zhuǎn)換

(5)

在進(jìn)行模型學(xué)習(xí)時,考慮到點擊率的二分類特性,在特征預(yù)測的過程中設(shè)計損失函數(shù)如下

(6)

式中Sigmoid(·)函數(shù)用于把輸入數(shù)據(jù)映射至輸出結(jié)果二值類上,它的計算方式為Sigmoid(x)=(1+e-x)-1。

分解機特征映射模型的計算變量為w0、wi、系數(shù)矩陣Q。在經(jīng)過映射模型轉(zhuǎn)換后,對其采取SGD方法訓(xùn)練,通過損失函數(shù)求偏導(dǎo)得到變量梯度更新方式

(7)

式中的λ代表學(xué)習(xí)率。在點擊率二分類情況下,損失函數(shù)的偏導(dǎo)計算方式如下

(8)

于是,二階特征預(yù)測變量的梯度描述為

(9)

對于三階映射模型,偏導(dǎo)計算后其特征預(yù)測變量的梯度描述為

(10)

由梯度計算可知,特征預(yù)測復(fù)雜度也是O(kn)。從模型映射到特征預(yù)測都具有線性復(fù)雜度,有利于大數(shù)據(jù)處理效率。預(yù)測模型的階數(shù)并不是越高越好,二階處理適用于數(shù)據(jù)屬性為非線性的情況,三階處理適用于屬性耦合較強的情況。另外,由于本文將分解機與深度學(xué)習(xí)結(jié)合,階數(shù)過高不利于學(xué)習(xí),所以三階以上的分析意義不大。

3 深度網(wǎng)絡(luò)學(xué)習(xí)

本文采用BP神經(jīng)網(wǎng)絡(luò)與RBM構(gòu)造深度學(xué)習(xí)網(wǎng)絡(luò),RBM是一種無向圖,圖1描述了它的拓?fù)洹F渲校琿代表顯式層,c代表隱式層,W代表q與c的耦合權(quán)值。系統(tǒng)輸入數(shù)據(jù)由q層進(jìn)入,在c層完成特征處理。

圖1 RBM拓?fù)浣Y(jié)構(gòu)

考慮到RBM缺乏監(jiān)督學(xué)習(xí),為了彌補RBM的此缺陷,深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計為若干層RBM與單層BP網(wǎng)絡(luò),圖2為深度學(xué)習(xí)網(wǎng)絡(luò)模型。利用RBM實現(xiàn)數(shù)據(jù)特征識別操作,利用BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)特征分類操作。輸入數(shù)據(jù)首先經(jīng)過多層RBM訓(xùn)練,將特征識別結(jié)果送至BP神經(jīng)網(wǎng)絡(luò)層做最后的分類處理,BP神經(jīng)網(wǎng)絡(luò)層還會對網(wǎng)絡(luò)參數(shù)采取適當(dāng)調(diào)整,從而優(yōu)化網(wǎng)絡(luò)參數(shù)。

圖2 深度學(xué)習(xí)網(wǎng)絡(luò)模型

在RBM網(wǎng)絡(luò)中,將隱式層的偏置記作offq,顯式層的偏置記作offc,則根據(jù)顯式層能夠推導(dǎo)出隱式層,公式如下

(11)

因為RBM網(wǎng)絡(luò)具有對稱性,所以根據(jù)隱式層也能夠推導(dǎo)出顯式層,公式如下

(12)

輸入集合q在經(jīng)過RBM網(wǎng)絡(luò)處理后輸出集合c,RBM網(wǎng)絡(luò)利用集合c與式(11)推導(dǎo)出隱式層集合q′,并與輸入集合q比較得到偏置。網(wǎng)絡(luò)訓(xùn)練過程就是搜索出最優(yōu)的輸入輸出聯(lián)合概率p(q,c)。為了得到p(q,c),這里首先計算輸入輸出的能量,公式如下

(13)

根據(jù)RBM輸入輸出能量,得到其聯(lián)合概率如下

p(q,c)∝exp(E(q,c))

(14)

然后計算RBM網(wǎng)絡(luò)的梯度,公式如下:

(15)

(16)

在進(jìn)行點擊率深度網(wǎng)絡(luò)學(xué)習(xí)時,為避免發(fā)生過擬合,在BP神經(jīng)網(wǎng)絡(luò)層采用Dropout機制,該機制神經(jīng)網(wǎng)絡(luò)原理如圖3所示。Dropout機制就是在學(xué)習(xí)階段將所有神經(jīng)元都賦予對應(yīng)的活躍概率pa,其中任何神經(jīng)元可能處于活躍狀態(tài)或者失活狀態(tài),定義其理想輸出是pax。當(dāng)神經(jīng)元處于活躍狀態(tài)時,采用活躍概率作為它在網(wǎng)絡(luò)中的權(quán)值。同時,Dropout機制還會利用隨機方式選取神經(jīng)元,與其它神經(jīng)元進(jìn)行協(xié)作,降低彼此共適能力,最終防止過擬合情況的發(fā)生。

圖3 Dropout機制神經(jīng)網(wǎng)絡(luò)

4 仿真與結(jié)果分析

4.1 仿真數(shù)據(jù)集與實驗指標(biāo)

本文采用Kaggle作為仿真數(shù)據(jù)集,并在Tensorflow平臺實現(xiàn)預(yù)測模型,模擬點擊率預(yù)測方法的實際效果。Kaggle是一個競賽數(shù)據(jù)集,表1對其中主要字段進(jìn)行了具體描述。實驗過程中從Kaggle隨機抽取定量帶有標(biāo)簽的數(shù)據(jù),并以5:1的比例分為學(xué)習(xí)集與測試集。實驗設(shè)定學(xué)習(xí)速度是,Dropout的失活概率是。

采用損失函數(shù)Logloss和AUC作為點擊率預(yù)測性能的衡量指標(biāo)。為了能夠適應(yīng)不同方法,這里將Logloss函數(shù)衡量定義如下

(17)

(18)

式中f表示假陽率。因為特征類別差異會形成f的差異,所以通過f曲線圍成的面積得到AUC。

表1 實驗數(shù)據(jù)集描述

4.2 結(jié)果與性能分析

在深度網(wǎng)絡(luò)對學(xué)習(xí)樣本集進(jìn)行迭代學(xué)習(xí)時,得到測試樣本集的Logloss與預(yù)測準(zhǔn)確度的斂散變化情況,結(jié)果如圖4所示。可以看出,在深度網(wǎng)絡(luò)學(xué)習(xí)的過程中,迭代至20代時Logloss就已經(jīng)達(dá)到最優(yōu)解收斂,此時預(yù)測準(zhǔn)確度達(dá)到最佳,損失函數(shù)Logloss值對應(yīng)0.422,預(yù)測準(zhǔn)確度對應(yīng)0.907。在迭代次數(shù)增加時,原本應(yīng)該受到過度擬合的影響,使Logloss回升,準(zhǔn)確度減小,但是由于引入了Dropout機制,避免局部最優(yōu)解間的競爭,有效改善了神經(jīng)元的共適能力。同樣在學(xué)習(xí)樣本集迭代過程中,得到測試樣本集的AUC指標(biāo)變化情況,結(jié)果如圖5所示。可以看出,在迭代至20代時AUC也收斂至最優(yōu)解,此時AUC對應(yīng)0.874。從上述實驗結(jié)果可以得到,分解機特征映射模型能夠有效應(yīng)對高階高維特征,降低處理的復(fù)雜度,使得本文提出的點擊率預(yù)測方法具有良好的預(yù)測速度。

圖4 Logloss預(yù)測準(zhǔn)確度曲線

圖5 隨迭代次數(shù)變化曲線

將本文(THIS)提出的點擊率預(yù)測方法與FNN[7]、OPNN[8]、FM[9]、FDNN[10]、DBN[10]進(jìn)行性能比較,基于Kaggle數(shù)據(jù)集分別得到各方法對應(yīng)的Logloss和AUC指標(biāo),結(jié)果如圖6所示。通過對比可以得出,本文方法對于點擊率大數(shù)據(jù)預(yù)測具有更好的Logloss和AUC值。這種性能的提升是由于模型學(xué)習(xí)時,考慮到點擊率的二分類特性,在特征預(yù)測的過程中優(yōu)化了損失函數(shù),結(jié)合深度網(wǎng)絡(luò)學(xué)習(xí),輸入數(shù)據(jù)經(jīng)過RBM訓(xùn)練提取出數(shù)據(jù)特征,再經(jīng)由BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)特征分類操作,同時,BP對網(wǎng)絡(luò)參數(shù)采取優(yōu)化更新,當(dāng)預(yù)測模型性能出現(xiàn)下降或者梯度減弱時,深度分解機能夠提高對高階交互特征的提取分類。

圖6 不同方法的預(yù)測性能對比

5 結(jié)束語

針對邏輯回歸與多項式回歸等模型在具有高維、高階,以及非線性關(guān)聯(lián)等特征的點擊率數(shù)據(jù)預(yù)測模型中表現(xiàn)出的缺陷,本文設(shè)計了一種高階分解機模型。為達(dá)到良好的解耦效果,完成數(shù)據(jù)特征的準(zhǔn)確高效提取,研究工作主要做了如下改進(jìn)創(chuàng)新:

1)采用隱向量代替權(quán)重計算,通過映射關(guān)系轉(zhuǎn)換降低復(fù)雜度,同時利用損失函數(shù)求偏導(dǎo)得到變量梯度更新。

2)在高階分解機模型基礎(chǔ)上,引入了深度網(wǎng)絡(luò)學(xué)習(xí),利用RBM實現(xiàn)數(shù)據(jù)特征識別操作,利用神經(jīng)網(wǎng)絡(luò)實現(xiàn)特征分類操作。

基于Kaggle數(shù)據(jù)集的仿真,通過Logloss和AUC指標(biāo)數(shù)據(jù)驗證了高階深度分解機能夠有效處理高階稀疏點擊率大數(shù)據(jù)的預(yù)測,且具有良好的預(yù)測速度與預(yù)測準(zhǔn)確度,在樣本訓(xùn)練至約20代便可達(dá)到最佳預(yù)測效果,最優(yōu)準(zhǔn)確率達(dá)到0.907。

猜你喜歡
深度特征模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達(dá)“特征”
不忠誠的四個特征
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 国产成人一区二区| 超清无码一区二区三区| 91蝌蚪视频在线观看| 久视频免费精品6| 大学生久久香蕉国产线观看| 国产一区二区三区精品久久呦| 国模私拍一区二区| 久久91精品牛牛| 日本不卡在线播放| 成人福利在线观看| 欧美中出一区二区| 91po国产在线精品免费观看| 青青青国产视频| 国产aⅴ无码专区亚洲av综合网| 综合久久五月天| 亚洲一级毛片在线观播放| 国产亚洲成AⅤ人片在线观看| 日本高清免费一本在线观看| 99精品热视频这里只有精品7| 午夜成人在线视频| 亚洲无码熟妇人妻AV在线| 一级全免费视频播放| 中字无码av在线电影| 在线观看免费国产| 大香网伊人久久综合网2020| 青青热久免费精品视频6| 欧美不卡视频在线观看| 日本福利视频网站| 成人av专区精品无码国产 | 精品视频一区二区三区在线播| 丝袜美女被出水视频一区| 日韩欧美国产精品| 精品国产美女福到在线直播| 伊人成色综合网| 九九热视频在线免费观看| 亚洲AV成人一区二区三区AV| 在线观看亚洲天堂| 国产AV无码专区亚洲精品网站| 好吊日免费视频| 成人精品午夜福利在线播放| 久久一级电影| 欧美高清视频一区二区三区| 在线观看亚洲人成网站| 中文字幕 日韩 欧美| 国产成人久久综合一区| 园内精品自拍视频在线播放| 免费中文字幕一级毛片| 欧美成人精品一级在线观看| 99久久精品国产麻豆婷婷| 国产乱子伦视频三区| 国产一区免费在线观看| 欧美在线中文字幕| 色亚洲成人| 国产chinese男男gay视频网| h网址在线观看| 2020精品极品国产色在线观看| 欧美日韩资源| 亚洲一区毛片| 欧美成人精品欧美一级乱黄| 永久免费无码日韩视频| 成人va亚洲va欧美天堂| 中文字幕日韩视频欧美一区| 国产视频 第一页| 欧美h在线观看| 色婷婷电影网| 国产剧情无码视频在线观看| 波多野结衣无码AV在线| 亚洲人成人伊人成综合网无码| 激情综合图区| 国产自产视频一区二区三区| 国产小视频a在线观看| 日韩第一页在线| 国产打屁股免费区网站| 福利国产微拍广场一区视频在线| 亚洲性色永久网址| 国产在线无码av完整版在线观看| 91久久偷偷做嫩草影院精品| 国产呦精品一区二区三区下载| 无码国产偷倩在线播放老年人| 呦系列视频一区二区三区| 日本91在线| 欧美a在线看|