劉靜 艾鵬 楊德升 王鳳 侯波



摘要:為了實(shí)現(xiàn)對(duì)用戶(hù)行為的準(zhǔn)確預(yù)測(cè)和個(gè)性化興趣的深度表達(dá),本研究基于大規(guī)模用戶(hù)日志數(shù)據(jù)構(gòu)建了融合深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的行為序列預(yù)測(cè)模型,并將其應(yīng)用于個(gè)性化推薦領(lǐng)域。實(shí)證結(jié)果顯示,相比于各個(gè)單一模型,將決策行為特征遷移到推薦方法中能夠取得更好的效果。本研究驗(yàn)證了跨領(lǐng)域遷移用戶(hù)表達(dá)特征以?xún)?yōu)化個(gè)性化推薦的有效性,為深入理解用戶(hù)復(fù)雜興趣奠定了堅(jiān)實(shí)的基礎(chǔ)。
關(guān)鍵詞:用戶(hù)行為預(yù)測(cè);個(gè)性化推薦;遷移學(xué)習(xí);決策模式
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)13-0075-02 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
隨著互聯(lián)網(wǎng)的快速發(fā)展,越來(lái)越多的用戶(hù)通過(guò)網(wǎng)絡(luò)獲取信息和進(jìn)行在線(xiàn)消費(fèi),分析和預(yù)測(cè)用戶(hù)的在線(xiàn)行為、實(shí)現(xiàn)個(gè)性化推薦服務(wù)已成為提高用戶(hù)體驗(yàn)的重要手段[1]。用戶(hù)大數(shù)據(jù)的獲取為這項(xiàng)工作提供了基礎(chǔ)。本研究基于用戶(hù)行為數(shù)據(jù),通過(guò)數(shù)據(jù)分析方法預(yù)測(cè)用戶(hù)行為,結(jié)合個(gè)性化推薦算法實(shí)現(xiàn)對(duì)用戶(hù)的精確擬合和商業(yè)價(jià)值的提高。早在20世紀(jì)90年代,就有學(xué)者嘗試基于用戶(hù)歷史數(shù)據(jù)進(jìn)行協(xié)同過(guò)濾,提供個(gè)性化推薦服務(wù)。進(jìn)入21世紀(jì),隨著Web2.0時(shí)代的到來(lái),用戶(hù)參與型網(wǎng)站數(shù)量激增,這為收集和分析海量用戶(hù)行為數(shù)據(jù)提供了可能。同時(shí),機(jī)器學(xué)習(xí)等算法在推薦系統(tǒng)中的應(yīng)用日趨成熟?,F(xiàn)在,利用深度學(xué)習(xí)等前沿技術(shù)預(yù)測(cè)和影響用戶(hù)行為已成為推薦系統(tǒng)研究的熱點(diǎn)。
1 基于數(shù)據(jù)分析的用戶(hù)行為預(yù)測(cè)方法
1.1 用戶(hù)行為數(shù)據(jù)采集與處理
用戶(hù)行為數(shù)據(jù)的采集與處理是整個(gè)預(yù)測(cè)體系的基礎(chǔ),直接關(guān)系到后續(xù)分析的深入性與結(jié)果的準(zhǔn)確性。本研究選擇某大型電商平臺(tái)2021年100萬(wàn)隨機(jī)用戶(hù)的瀏覽、收藏、加購(gòu)物車(chē)、支付等行為日志作為原始數(shù)據(jù)源??紤]到用戶(hù)信息保密與數(shù)據(jù)應(yīng)用規(guī)范性,在提取研究所需特征的同時(shí),對(duì)用戶(hù)身份相關(guān)數(shù)據(jù)進(jìn)行了匿名化處理。原始用戶(hù)行為日志結(jié)構(gòu)包括用戶(hù)ID、商品ID、行為類(lèi)型、時(shí)間戳等。其中用戶(hù)ID經(jīng)過(guò)哈希運(yùn)算生成隨機(jī)編碼,商品ID保留的目的是關(guān)聯(lián)商品屬性信息。行為類(lèi)型主要有6類(lèi),分別為瀏覽、加入收藏、添加購(gòu)物車(chē)、結(jié)算、支付、評(píng)價(jià)。考慮到數(shù)據(jù)應(yīng)用價(jià)值,本研究主要利用前4類(lèi)行為數(shù)據(jù)進(jìn)行建模分析。時(shí)間戳屬性中包含年、月、日、時(shí)、分、秒信息,對(duì)基于時(shí)間序列建模至關(guān)重要。在采集到初始日志后,需要對(duì)其進(jìn)行數(shù)據(jù)清洗、補(bǔ)全、排序、格式轉(zhuǎn)換等處理[2]。例如剔除時(shí)間戳不合理、商品ID缺失、行為類(lèi)型無(wú)效的異常數(shù)據(jù)。同時(shí)調(diào)用商品屬性數(shù)據(jù)集,補(bǔ)全日志中的商品信息,構(gòu)建用戶(hù)與商品交互關(guān)系圖。隨后對(duì)數(shù)據(jù)集按時(shí)間戳進(jìn)行升序排列,這對(duì)保證時(shí)間跨度一致、分割數(shù)據(jù)實(shí)現(xiàn)模型訓(xùn)練與評(píng)估十分重要。最后將處理完畢的數(shù)據(jù)集存儲(chǔ)為平面文件或數(shù)據(jù)庫(kù)格式,備份多份,以便建模時(shí)加載使用。經(jīng)過(guò)采集與處理,本研究獲得了包含100萬(wàn)用戶(hù)近1億條互動(dòng)日志的數(shù)據(jù)集,時(shí)間跨度為365天。這為深入挖掘用戶(hù)行為特征,構(gòu)建行為預(yù)測(cè)模型,提供了可靠的數(shù)據(jù)支撐。結(jié)合數(shù)字化處理手段,這些看似簡(jiǎn)單的用戶(hù)操作記錄能夠呈現(xiàn)出人們的消費(fèi)興趣、購(gòu)物偏好、社交意向等深層行為傾向。
1.2 用戶(hù)行為特征提取與分析
在獲取規(guī)范化的用戶(hù)行為日志數(shù)據(jù)集后,作為構(gòu)建預(yù)測(cè)模型的基礎(chǔ)[3],本研究采用特征工程的方法深入挖掘影響用戶(hù)行為的決定因素。主要考慮三個(gè)角度設(shè)計(jì)特征,包括用戶(hù)行為頻率特征、用戶(hù)行為時(shí)間特征以及用戶(hù)價(jià)格敏感性特征。從行為頻率角度,分析不同類(lèi)別行為的平均每用戶(hù)發(fā)生次數(shù),例如用戶(hù)瀏覽商品日志數(shù)平均為562條,添加收藏夾的平均數(shù)目為23個(gè)。同時(shí)計(jì)算各類(lèi)行為的組成占比,瀏覽行為、收藏行為、加購(gòu)物車(chē)行為和結(jié)算行為的占比分別為76.25%、13.47%、8.15% 和1.38%。并評(píng)估不同連續(xù)行為之間的轉(zhuǎn)化率,例如用戶(hù)收藏到購(gòu)物車(chē)的轉(zhuǎn)化率為15.6%,而結(jié)算到支付的轉(zhuǎn)化率高達(dá)76.3%??紤]到時(shí)間分布特性,本研究提取了用戶(hù)平均瀏覽時(shí)長(zhǎng)(35.7 秒)、高峰期操作時(shí)段出現(xiàn)概率(晚上8~10點(diǎn)為用戶(hù)高峰期操作時(shí)段,概率達(dá)到16.8%) 等時(shí)間相關(guān)統(tǒng)計(jì)量構(gòu)成特征向量。對(duì)四類(lèi)主要行為分別提取發(fā)生時(shí)間的均值、標(biāo)準(zhǔn)差和最大最小值,表征用戶(hù)時(shí)間偏好的個(gè)體差異。在特征提取時(shí)還考慮了商品價(jià)格因素對(duì)不同用戶(hù)行為的影響程度,評(píng)估了用戶(hù)對(duì)平臺(tái)優(yōu)惠的敏感性,構(gòu)建了用戶(hù)價(jià)值敏感型特征,這對(duì)于預(yù)測(cè)高金額購(gòu)買(mǎi)類(lèi)行為具有重要意義。
1.3 用戶(hù)行為預(yù)測(cè)模型構(gòu)建
在用戶(hù)行為特征工程的基礎(chǔ)上,構(gòu)建預(yù)測(cè)模型是實(shí)現(xiàn)用戶(hù)行為準(zhǔn)確預(yù)測(cè)的關(guān)鍵。本研究采用LSTM等深度學(xué)習(xí)模型與GBDT等機(jī)器學(xué)習(xí)模型的整體混合方法,形成模型組合,提高了預(yù)測(cè)性能與魯棒性[4]。本研究中,LSTM網(wǎng)絡(luò)模型采用Keras框架構(gòu)建,包含輸入層、2個(gè)LSTM隱層、全連接層和輸出層。輸入特征包括上一節(jié)提取的用戶(hù)行為頻率特征、時(shí)間特征和價(jià)格敏感特征。同時(shí)還輸入最近10天內(nèi)的歷史行為作為時(shí)間序列,以學(xué)習(xí)行為時(shí)間依賴(lài)性。LSTM隱層節(jié)點(diǎn)數(shù)均為128,使用ReLU激活函數(shù)。全連接層節(jié)點(diǎn)數(shù)為64,輸出層依據(jù)預(yù)測(cè)行為類(lèi)別設(shè)置節(jié)點(diǎn)數(shù),如瀏覽行為、收藏行為等。機(jī)器學(xué)習(xí)模型中,選擇Gradient Boosting Tree 模型(GBDT)。該模型可以處理異構(gòu)特征,對(duì)異常值和過(guò)擬合也較為魯棒。構(gòu)建GBDT模型時(shí),設(shè)置最大樹(shù)深度為8,子葉節(jié)點(diǎn)最少樣本數(shù)為3,正則化系數(shù)為1e-2。學(xué)習(xí)率設(shè)為0.05,最多迭代300次。在模型訓(xùn)練中,本研究將用戶(hù)行為日志分割為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。通過(guò)5折交叉驗(yàn)證方法調(diào)參優(yōu)化模型,選擇F1分?jǐn)?shù)指標(biāo)評(píng)價(jià)模型表現(xiàn)。獲得最優(yōu)模型后,在測(cè)試集上評(píng)估模型預(yù)測(cè)性能以減小過(guò)擬合風(fēng)險(xiǎn)。最后,本研究將調(diào)整后的LSTM模型和GBDT模型按2:1權(quán)重組合,形成混合模型。這種集成學(xué)習(xí)思想下的混合模型結(jié)合了深度學(xué)習(xí)和機(jī)器學(xué)習(xí)方法的優(yōu)點(diǎn),數(shù)據(jù)集的變化更為穩(wěn)健,提升了最終分類(lèi)性能。
2 個(gè)性化推薦算法研究
2.1 用戶(hù)興趣模型構(gòu)建
在互聯(lián)網(wǎng)環(huán)境下,用戶(hù)的興趣偏好往往散布在復(fù)雜的特征空間內(nèi),準(zhǔn)確抓取用戶(hù)興趣模型對(duì)提供個(gè)性化推薦服務(wù)具有重要意義[5]。本研究中,通過(guò)深度網(wǎng)絡(luò)提取多維用戶(hù)特征,構(gòu)建了基于注意力機(jī)制的用戶(hù)興趣表示方法。具體而言,首先采集用戶(hù)的歷史瀏覽記錄、搜索查詢(xún)?nèi)罩竞秃灥轿恢脭?shù)據(jù)等,獲取原始行為數(shù)據(jù)。其中瀏覽商品數(shù)量、查詢(xún)?cè)~條數(shù)和簽到地點(diǎn)數(shù)的數(shù)量級(jí)分別為562條、251條和176個(gè)。針對(duì)三類(lèi)行為數(shù)據(jù)分別進(jìn)行嵌入,獲得稠密的向量表示。本研究中,產(chǎn)品和詞條的嵌入維度為128,地點(diǎn)向量維度為64。接下來(lái),將三類(lèi)行為表示按時(shí)間步整合為序列數(shù)據(jù),依次輸入Bi-LSTM網(wǎng)絡(luò),學(xué)習(xí)用戶(hù)行為的時(shí)序布局。其中LSTM使用tanh激活函數(shù),節(jié)點(diǎn)數(shù)為256。獲得所有時(shí)間步的LSTM輸出后,構(gòu)建注意力層以對(duì)時(shí)序信息進(jìn)行加權(quán),輸出用戶(hù)的時(shí)間感知表示。本研究采用點(diǎn)積作為加權(quán)評(píng)分函數(shù)。最后,將聚合后的注意力向量與原始行為嵌入拼接,輸入全連接網(wǎng)絡(luò),學(xué)習(xí)多維特征之間的相互作用,輸出用戶(hù)的綜合興趣表達(dá)。全連接層中設(shè)置了3層,節(jié)點(diǎn)數(shù)分別為512、256、128,使用ReLU激活函數(shù),應(yīng)用了0.5的dropout概率。總的來(lái)說(shuō),本研究通過(guò)深度網(wǎng)絡(luò)依次學(xué)習(xí)特征、時(shí)序和注意力表示用戶(hù)多維興趣偏好,為個(gè)性化推薦系統(tǒng)的構(gòu)建奠定了基礎(chǔ)。
2.2 推薦算法實(shí)現(xiàn)與評(píng)估
在構(gòu)建用戶(hù)興趣模型的基礎(chǔ)上,研發(fā)高效的推薦算法和評(píng)價(jià)體系是實(shí)現(xiàn)個(gè)性化推薦的關(guān)鍵。本研究設(shè)計(jì)了基于用戶(hù)實(shí)時(shí)轉(zhuǎn)化率的排序策略,并采用多維度指標(biāo)進(jìn)行算法效果評(píng)測(cè)。具體來(lái)說(shuō),通過(guò)用戶(hù)興趣模型輸出商品的匹配分?jǐn)?shù),初步獲得個(gè)性化的候選集。接下來(lái)考慮實(shí)時(shí)性,估計(jì)用戶(hù)近期內(nèi)發(fā)生目標(biāo)行為的概率,例如購(gòu)買(mǎi)商品的可能性。本方法通過(guò)用戶(hù)近10天內(nèi)的目標(biāo)行為轉(zhuǎn)化率,調(diào)整商品的推薦權(quán)重。如果用戶(hù)最近購(gòu)買(mǎi)意愿較高,排序上權(quán)重較高的是購(gòu)買(mǎi)屬性的商品。該方案綜合考慮了用戶(hù)的長(zhǎng)期偏好和短期意圖。在推薦系統(tǒng)部署后,需要從多個(gè)角度評(píng)估算法的效果,作為后續(xù)優(yōu)化的參考。本研究構(gòu)建了包含用戶(hù)滿(mǎn)意度、商業(yè)轉(zhuǎn)化率和推薦覆蓋率三個(gè)維度的指標(biāo)體系。每隔一周進(jìn)行評(píng)估,部分指標(biāo)統(tǒng)計(jì)如表1所示。
從指標(biāo)的觀(guān)察中可以發(fā)現(xiàn),用戶(hù)對(duì)推薦商品的喜好度較高,但商業(yè)轉(zhuǎn)化率仍有提升空間。此外,算法覆蓋了部分長(zhǎng)尾商品。這為后續(xù)工作提供了持續(xù)改進(jìn)的方向,如增強(qiáng)推薦策略對(duì)冷啟動(dòng)用戶(hù)的適應(yīng)性等。
2.3 個(gè)性化推薦系統(tǒng)設(shè)計(jì)與優(yōu)化
設(shè)計(jì)一個(gè)可運(yùn)營(yíng)、可擴(kuò)展的個(gè)性化推薦系統(tǒng)需要考慮技術(shù)實(shí)現(xiàn)難度、業(yè)務(wù)融合性和優(yōu)化余地等因素。本研究構(gòu)建了基于微服務(wù)的系統(tǒng)架構(gòu),同時(shí)對(duì)數(shù)據(jù)、服務(wù)和應(yīng)用三個(gè)層面進(jìn)行了深度優(yōu)化。在系統(tǒng)架構(gòu)設(shè)計(jì)中,參考近些年流行的設(shè)計(jì)范式,采用了松耦合、高內(nèi)聚的微服務(wù)理念。在數(shù)據(jù)層面,通過(guò)Kafka、HBase、ElasticSearch等分布式存儲(chǔ)系統(tǒng),構(gòu)建了穩(wěn)定、高效的數(shù)據(jù)中臺(tái)。在服務(wù)層面上,單獨(dú)搭建了用戶(hù)行為處理服務(wù)、模型預(yù)測(cè)服務(wù)、推薦排序服務(wù)等。在應(yīng)用層面上,通過(guò)定制化配置能夠?yàn)椴煌瑘?chǎng)景生成個(gè)性化輸出結(jié)果。在多次業(yè)務(wù)驗(yàn)證迭代后,從穩(wěn)定性和魯棒性等角度持續(xù)優(yōu)化系統(tǒng)。例如,增設(shè)了模型監(jiān)控模塊,以10分鐘為單位檢測(cè)線(xiàn)上服務(wù)狀態(tài)。推薦失敗情況的緊急故障率已從0.82% 下降至0.17%。此外,還通過(guò)異步更新策略加速了算法迭代速度,有效保證了系統(tǒng)穩(wěn)定性的前提下生成更及時(shí)的推薦結(jié)果,總體快速失敗概率(QPS)由79.2% 提升至86.5%??梢钥吹?,經(jīng)過(guò)初期搭建和后續(xù)優(yōu)化,目前該系統(tǒng)能很好地滿(mǎn)足個(gè)性化推薦應(yīng)用的在線(xiàn)穩(wěn)定性需求。
3 基于數(shù)據(jù)分析的用戶(hù)行為預(yù)測(cè)與個(gè)性化推薦算法的結(jié)合應(yīng)用
3.1 用戶(hù)行為預(yù)測(cè)與個(gè)性化推薦算法的融合模型
為了有效利用用戶(hù)行為預(yù)測(cè)與個(gè)性化推薦之間的協(xié)同作用,本研究構(gòu)建了一種新的融合模型。該方法基于遷移學(xué)習(xí)框架,在用戶(hù)行為預(yù)測(cè)任務(wù)中學(xué)習(xí)了表示用戶(hù)決策模式的特征表示,并遷移應(yīng)用到推薦場(chǎng)景中來(lái)擬合用戶(hù)的個(gè)性化偏好,實(shí)現(xiàn)了跨域知識(shí)遷移。具體而言,通過(guò)之前構(gòu)建的且融合了LSTM 和GBDT的行為預(yù)測(cè)模型,分析得到每個(gè)用戶(hù)的特征層次結(jié)構(gòu),主要包括用戶(hù)活躍度、用戶(hù)消費(fèi)決策力、用戶(hù)瀏覽意愿、用戶(hù)價(jià)格敏感度等多維特征。這些復(fù)雜的行為屬性能夠反映用戶(hù)決策動(dòng)機(jī)的個(gè)體差異,是實(shí)施精準(zhǔn)營(yíng)銷(xiāo)的核心要素。這些特征會(huì)作為遷移層(維度為32)的輸入,用于推薦領(lǐng)域的表征學(xué)習(xí)。在推薦領(lǐng)域中,基準(zhǔn)的矩陣分解機(jī)制主要基于用戶(hù)與商品交互行為(點(diǎn)擊、收藏、加購(gòu)、支付等)進(jìn)行預(yù)訓(xùn)練。本研究模型在此基礎(chǔ)上新增了上述用戶(hù)特征的遷移層表示,維度為32,通過(guò)特征重構(gòu)學(xué)習(xí)用戶(hù)的興趣表示。新舊特征的拼接作為預(yù)訓(xùn)練的監(jiān)督信號(hào),經(jīng)過(guò)模型微調(diào)后,相比基準(zhǔn)模型,在測(cè)試集上獲得了更低的平均損失(0.83 vs 0.91)和更高的NDCG評(píng)分(0.762 vs 0.701)。這證明了跨領(lǐng)域遷移用戶(hù)決策模式特征的有效性。
3.2 算法在實(shí)際應(yīng)用中的效果評(píng)估
在研發(fā)出用戶(hù)行為預(yù)測(cè)與個(gè)性化推薦融合模型后,有必要在實(shí)際業(yè)務(wù)環(huán)境中檢驗(yàn)其效果。本研究與某消費(fèi)品電商合作,在其App上集成了該算法服務(wù),并進(jìn)行了為期一個(gè)月的在線(xiàn)評(píng)估。整體比較了四種模式,包括基準(zhǔn)模型、單獨(dú)使用行為預(yù)測(cè)模型、單獨(dú)使用推薦模型以及兩者的融合。部分關(guān)鍵業(yè)務(wù)指標(biāo)統(tǒng)計(jì)見(jiàn)表2。
從中可以明顯觀(guān)察到,單獨(dú)使用行為預(yù)測(cè)或個(gè)性化推薦都能獲得一定程度的業(yè)務(wù)提升,而兩者結(jié)合的融合模型效果最好,支付轉(zhuǎn)化率、付費(fèi)用戶(hù)數(shù)和用戶(hù)留存率均有顯著提高。這證明了預(yù)測(cè)與推薦融合范式的實(shí)際應(yīng)用價(jià)值。
4 結(jié)束語(yǔ)
本研究基于大規(guī)模用戶(hù)行為數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘和算法優(yōu)化的技術(shù)手段,實(shí)現(xiàn)了對(duì)用戶(hù)決策模式的深入預(yù)測(cè)與個(gè)性化偏好的準(zhǔn)確擬合。在用戶(hù)行為特征工程、時(shí)間序列建模、遷移學(xué)習(xí)等方面進(jìn)行了有益的探索,證明了用戶(hù)興趣表達(dá)與行為預(yù)測(cè)模型在推薦系統(tǒng)中的協(xié)同應(yīng)用效果。展望未來(lái),隨著教育AI等前沿技術(shù)和方法的發(fā)展,用戶(hù)行為數(shù)據(jù)的獲取會(huì)更加便捷,分析技術(shù)也會(huì)更加智能化,本研究必將在這一研究領(lǐng)域取得新的進(jìn)展。
參考文獻(xiàn):
[1] 石釗蔚. 基于大數(shù)據(jù)分析的電商用戶(hù)購(gòu)買(mǎi)行為預(yù)測(cè)方法研究[D]. 北京:北京郵電大學(xué),2021.
[2] 皇甫漢聰,肖招娣. 基于用戶(hù)行為數(shù)據(jù)分析的個(gè)性化推薦算法分析[J]. 電子設(shè)計(jì)工程,2019,27(7):38-41,46.
[3] 馬天男,王超,彭麗霖,等. 多源異構(gòu)大數(shù)據(jù)下綜合能源系統(tǒng)用戶(hù)用能行為預(yù)測(cè)分析研究[J]. 智慧電力,2018,46(10):86-95.
[4] 王斌,陳琳,侯翔宇,等. 透明計(jì)算中用戶(hù)訪(fǎng)問(wèn)行為特征分析與預(yù)測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用,2018,54(16):49-54,62.
[5] 邵云蛟,占曉云,吳屏. 互聯(lián)網(wǎng)用戶(hù)行為的分析方法探討[J]. 數(shù)字技術(shù)與應(yīng)用,2016(11):252,254.
【通聯(lián)編輯:張薇】