999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進詞向量模型的用戶畫像研究

2020-01-06 02:15:36陳澤宇
計算機工程與應(yīng)用 2020年1期
關(guān)鍵詞:單詞特征文本

陳澤宇,黃 勃,2

1.上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海201620

2.江西省經(jīng)濟犯罪偵查與防控技術(shù)協(xié)同創(chuàng)新中心,南昌330000

1 引言

互聯(lián)網(wǎng)科技的發(fā)展帶來了互聯(lián)網(wǎng)數(shù)據(jù)爆炸式的增長,用戶在瀏覽網(wǎng)頁的同時會留下大量的行為數(shù)據(jù),分析這些數(shù)據(jù)可以挖掘出用戶基本的屬性信息和潛在的興趣偏好,給企業(yè)的經(jīng)營方面提供了重大的幫助。搜索引擎是一個主流的網(wǎng)絡(luò)平臺,利用搜索引擎來構(gòu)建用戶畫像對于營銷的效果具有更加重要的價值,針對用戶的查詢詞的短文本,傳統(tǒng)的向量空間模型存在特征稀疏的問題,并且缺乏單詞之間的語義聯(lián)系。李雅坤[1]引入詞向量構(gòu)建了基于搜索引擎短文本的用戶畫像。詞向量模型[2]通常使用一個向量來表示一個單詞,無法解決一詞多義和一義多詞的情況。為了解決這樣的問題,Reisinger 等[3]提出了多原型向量空間模型(multi-prototype vector space models),該模型將一個單詞的上下文聚類為一組,然后為每一個類生成一個不同的詞向量。然而,多原型向量空間模型[4-6]在生成詞向量時也存在一些問題,它將同一個單詞的不同上下文聚類為沒有關(guān)聯(lián)的兩簇,但他們的語義可能是相同的。于是,張小川等[7]將文本向量與文本的主題分布相結(jié)合,得到語義表達更豐富的詞向量,但該模型只是簡單地將文本向量和文本的主題向量相連接,在主題信息的表達上還不夠突出。本文提出一種更加強大的多原型向量空間模型,將目標單詞和它所分配的主題共同放入神經(jīng)網(wǎng)絡(luò)中訓(xùn)練得到目標單詞的主題詞向量。

2 相關(guān)工作

2.1 Word2vec模型

Word2vec 是谷歌公司提出的一種神經(jīng)網(wǎng)絡(luò)模型[8]。該模型利用多維的向量來表示單詞,且詞向量的每個維度都代表一個語義特征。word2vec 采用的模型有兩種:CBOW和Skip-Gram。CBOW模型是通過目標單詞的上下文來預(yù)測目標單詞[9],而Skip-Gram 則通過目標單詞來預(yù)測它的上下文[9]。其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1和圖2所示。

圖1 CBOW模型

圖2 Skip-Gram模型

輸入層是One-Hot編碼,每一個詞用一個n 維的向量來表示,這個n 維向量只有一個位置是1,其余位置都是0。給定一個單詞序列W={w1,w2,…,wN} ,該模型的目標是最大化平均對數(shù)概率[10]:

其中,c 表示目標單詞的上下文,k 為上下文的大小。輸出層是一個softmax回歸[11],用來計算P(wi+c|wi)。

其中,vc表示目標單詞上下文wc的詞向量,vi表示目標單詞wi的詞向量。

通過訓(xùn)練得到的詞向量可以計算單詞之間的相似度sim(wi,wj)=vi?vj,將文本中每個單詞的詞向量進行相加再取平均可以得到這篇文本的文本向量。

2.2 LDA模型

隱狄列克雷分配(Latent Dirichlet Allocation,LDA)是一種無監(jiān)督的模型,可用于識別文本中隱藏的主題信息[12]。該模型可以將文本表示為主題的概率分布,且每個主題由詞的概率分布來表示[13],LDA模型如圖3所示。

圖3 LDA模型圖

圖3 中M 表示語料庫中的文本數(shù),T 表示主題數(shù),α 是主題分布的超參數(shù)[14],β 為詞分布的超參數(shù)[14],θ 是文本主題分布θ=Dirichlet(α)[15],φ 是主題詞分布φ=Dirichlet(β)[15],N 是一篇文本中的詞數(shù),t 是詞對應(yīng)的主題,對于一篇短文本m,其中每個詞對應(yīng)的主題t=multi(θd),w 是詞。

通過吉布斯抽樣(Gibbs Sampling)[16]對主題變量t進行抽樣,間接估算中θ 和φ,估算公式如下:

2.3 隨機森林

隨機森林(Random Forest,RF)是一種集成學(xué)習(xí)算法,由多個決策樹組成[17]。RF在決策樹的構(gòu)建過程中,從節(jié)點上所有特征中隨機選取一部分特征,再從隨機選擇的部分特征中選擇最優(yōu)的特征作為決策樹左右子樹劃分的標準,這使得模型的泛化能力得到了提高。一棵決策樹代表一個弱分類器,通過n 次的迭代,獲得n 個弱分類器,最終的分類結(jié)果由這n 個弱分類器的投票決定,票數(shù)多的一類即為這個樣本的類別。

RF的算法:

輸入:樣本集D={d1,d2,…,dm},決策樹個數(shù)n。

輸出:最終的強分類器。

(1)對訓(xùn)練集進行m 次隨機采樣(Bootstrap)[16],獲得n 個包含m 個訓(xùn)練樣本的采樣集。

(2)從所有特征中隨機選取一部分特征,再從中選擇最優(yōu)特征作為節(jié)點建立決策樹。

(3)重復(fù)步驟(1)、(2)n 次,直到建立n 棵決策樹。

3 模型描述

本文針對用戶的搜索記錄,利用基于主題詞改進的詞向量模型來構(gòu)建用戶畫像,使用隨機森林(RF)對用戶的基本屬性進行分類,具體的模型框架如圖4所示。

圖4 用戶畫像模型框架圖

3.1 基于主題詞改進的詞向量模型

為了構(gòu)建能表達一個單詞在不同語義下的詞向量,將主題融入到詞向量中,獲得目標單詞w 在主題t 下的主題詞向量,基于主題詞改進的詞向量模型所使用的神經(jīng)網(wǎng)絡(luò)模型為Skip-Gram 模型。首先通過LDA 模型獲取文本對應(yīng)主題的概率矩陣和主題對應(yīng)詞的概率矩陣,給目標單詞w 分配潛在的主題t ∈T ,將目標單詞表示為單詞-主題對<w,t >。然后對短文本中的每一個單詞進行One-Hot 編碼,再為其對應(yīng)的主題生成主題編碼[P1,P2,…,PT],其中Pi表示目標單詞分配給第i 個主題的概率,將單詞編碼和主題編碼相連接共同作為skipgram模型的輸入。基于主題詞改進的詞向量模型如圖5所示。

對于單詞主題對<w,t >該模型需要最大化平均對數(shù)概率:

輸出層也是softmax 回歸[11],用來計算P(<wi+c,ti+c>|<wi,ti>)。

圖5 基于主題詞改進的詞向量模型

3.2 改進詞向量模型的用戶畫像

根據(jù)主題詞向量vt,可以獲得一些單詞在不同主題下最相近的詞,因此主題詞向量可以更好的表達單詞在不同上下文中的語義信息。例如“栽培”,在word2vec模型中獲得的相似詞有“種植、造就”等;基于主題詞改進的詞向量模型在主題為“農(nóng)業(yè)”時獲得的相似詞有“栽種、種植”等,在主題為“教育”時獲得的相似值有“造就、培養(yǎng)”等。

用戶可以通過網(wǎng)絡(luò)搜索到自己想要了解的信息,這些信息可以側(cè)面反映出用戶的基本屬性和愛好,例如:年齡較小的人會更多的搜索與動畫片和游戲相關(guān)的信息;女性會更加關(guān)注化妝品和流量明星。所以可以通過分析這些搜索文本來對用戶的屬性標簽進行刻畫。

本文利用基于主題詞改進的詞向量模型來構(gòu)建用戶畫像,為了提取用戶特征,傳統(tǒng)的詞向量模型通過對文本中每個詞的詞向量直接相加再取平均來表示用戶特征,這樣不能體現(xiàn)出不同單詞的重要程度。因此,通過對文本中每個詞的主題詞向量進行加權(quán)求和表示用戶特征:

其中,ωk是詞wk∈W 在文本中的權(quán)重,權(quán)重值用單詞w 的TF-IDF[10]值。若文本中某個單詞的TF-IDF 值越大,經(jīng)過加權(quán)求和后得到的向量能體現(xiàn)出該單詞的重要程度,在用戶特征的表達上也會更加突出。當(dāng)用戶特征提取之后,使用隨機森林(RF)分別對三個屬性標簽進行分類。

基于主題詞改進的詞向量模型的用戶畫像算法:

輸入:用戶查詢詞數(shù)據(jù)集。

輸出:用戶基本屬性的分類結(jié)果。

(1)用LDA模型為每個單詞分配一定數(shù)量的主題。

(2)用基于主題詞改進的詞向量模型為文本中的單詞生成主題詞向量。

(3)計算每個單詞的TF-IDF 值,再將TF-IDF 值歸一化。

(4)利用公式(7)對主題詞向量進行加權(quán)求和得到用戶特征。

(5)將用戶特征用隨機森林算法分別對三個屬性標簽進行分類。

4 實驗及結(jié)果分析

4.1 數(shù)據(jù)集

本文采用Python3.7 進行實驗,操作系統(tǒng)為Windows 10,CPU 為CoreTMi7。實驗數(shù)據(jù)集來源于中國計算機學(xué)會(CCF)組織的大數(shù)據(jù)競賽。實驗數(shù)據(jù)包括10萬條,提供用戶的基本屬性標簽和一個月內(nèi)的上網(wǎng)搜索詞。部分數(shù)據(jù)集如表1所示。

表1 實驗數(shù)據(jù)集

表中ID 為加密后的用戶編號;年齡屬性分為6 類,由1~6 表示,0 表示未知;性別屬性分為2 類,由1~2 表示,0 表示未知;學(xué)歷屬性分為6 類,由1~6 表示,0 表示未知。

4.2 實驗結(jié)果對比與分析

將本文使用的方式與只使用詞向量模型和使用LDA 主題模型與詞向量相結(jié)合的方法相比較,三種模型都使用隨機森林分類器對用戶的基本屬性進行分類。其中LDA 主題模型與詞向量相結(jié)合的方法,采用向量連接的方式,該模型先使用詞向量模型訓(xùn)練得到單詞的詞向量,將文本中每個單詞的詞向量進行相加再取平均得到這篇文本的文本向量,然后使用LDA 主題模型中的文本主題矩陣得到一篇文本所對應(yīng)的主題概率,得到這篇文本的主題向量t={t1,t2,…,tT},最后將文本向量與主題向量連接在一起,形成語義表達更豐富的詞向量。

其中,⊕為連接運算符,w 表示文本對應(yīng)的詞向量,t表示文本對應(yīng)的主題向量

將三種不同模型的查準率P、查全率R 和F1 值[17]作為模型的評價,實驗結(jié)果取自五次五折交叉驗證后的平均值。分類結(jié)果的混淆矩陣如表2所示,分別計算性別、年齡、學(xué)歷屬性的分類精確率、召回率和F1 值。實驗結(jié)果如表3及圖6、7所示。

表2 混淆矩陣

表3 不同算法的分類性能

圖6 不同算法的F1 值對比

圖7 不同算法的實驗結(jié)果對比

從上述實驗結(jié)果中可以看出,本文方法的平均分類準確率比Word2vec 模型至少提高了2%,比Word2vec+LDA模型至少提高了1%;平均召回率比Word2vec模型至少提高了1.8%,比Word2vec+LDA 模型至少提高了1.1%;F1 值比Word2vec 模型至少提高了1.9%,比Word2vec+LDA模型至少提高了1%。其中在年齡屬性上發(fā)揮的效果最好,比Word2vec模型至少提高了2.9%,比Word2vec+LDA 模型至少提高了1.4%。單獨使用Word2vec 模型的分類結(jié)果并不是很好,使用Word2vec和LDA相結(jié)合的模型雖然分類的精度要高于單獨使用word2vec模型,但仍低于本文提出的方法。因為傳統(tǒng)的word2vec對于每個單詞只能生成一個詞向量,而本文的方法可以針對單詞不同的主題生成不同的詞向量,使得單詞的表達更加的靈活。

5 結(jié)論

本文研究了關(guān)于構(gòu)建基于搜索引擎的用戶畫像的相關(guān)問題,相比于只利用目標單詞的詞向量,基于主題詞改進的詞向量模型還使用了目標單詞的主題向量,用主題詞向量將代表這個主題下單詞的整體語義,更好地表達了用戶的特征。實驗結(jié)果表明,主題詞向量在處理基于用戶搜索詞的用戶畫像上達到了更好的效果。但還存在一些不足之處,在網(wǎng)民中,年齡大的人群普遍比年齡小的人群少,學(xué)歷高的人群也普遍比學(xué)歷低的人群少,數(shù)據(jù)存在嚴重的不平衡,因此,需要尋找一個數(shù)據(jù)平衡的方法來進一步提高用戶畫像的分類精度。

猜你喜歡
單詞特征文本
單詞連一連
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲成年人片| 一级毛片在线免费视频| 热99re99首页精品亚洲五月天| 亚洲日韩精品无码专区97| 中文字幕免费在线视频| 日韩天堂视频| 国产乱子伦视频三区| 久久国产香蕉| 无遮挡一级毛片呦女视频| 国产一区二区视频在线| 亚洲性影院| 亚洲精品日产AⅤ| 国产黑人在线| 国产一区三区二区中文在线| 美女毛片在线| 在线观看91精品国产剧情免费| 免费一级α片在线观看| 久综合日韩| 日韩欧美91| 亚洲无码视频图片| 伊人成人在线| 国产无码精品在线播放| 色婷婷丁香| 老司机久久99久久精品播放| 国产欧美中文字幕| 五月激激激综合网色播免费| av一区二区三区高清久久| a级毛片免费看| 久久精品无码国产一区二区三区| 亚洲成人动漫在线| 亚洲国产在一区二区三区| 综合亚洲网| 亚洲天堂777| 毛片a级毛片免费观看免下载| 亚洲第一区欧美国产综合| 亚洲aaa视频| 国产真实乱子伦视频播放| 亚洲国产一区在线观看| 男人天堂伊人网| 又大又硬又爽免费视频| av尤物免费在线观看| 亚洲成aⅴ人片在线影院八| 91视频99| 黄色网页在线观看| 国产成人一区二区| 日本一区高清| 国产精品太粉嫩高中在线观看| 日本三级欧美三级| 波多野结衣久久精品| 思思热精品在线8| 亚洲视频三级| 国产电话自拍伊人| 色婷婷在线影院| 日韩欧美国产精品| 午夜福利网址| 亚洲香蕉伊综合在人在线| 亚洲精品无码AⅤ片青青在线观看| 狠狠色综合久久狠狠色综合| 亚洲欧洲天堂色AV| 亚洲人成影院在线观看| 亚洲最大看欧美片网站地址| 精品视频在线一区| 免费一级毛片完整版在线看| 99久久精品视香蕉蕉| 国产精品私拍在线爆乳| 国产自无码视频在线观看| 国产微拍精品| 女人18毛片久久| 亚洲欧洲日韩综合| 中文字幕无线码一区| 久久精品国产在热久久2019| 国产黑丝视频在线观看| 麻豆精品国产自产在线| 波多野结衣中文字幕久久| 欧美不卡二区| 在线观看网站国产| 91免费观看视频| 国产成人无码AV在线播放动漫| 九九九久久国产精品| 欧美亚洲欧美| 国产成人超碰无码| 久久精品国产免费观看频道|