999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)驅(qū)動(dòng)的用戶畫像自動(dòng)生成模型設(shè)計(jì)

2022-02-09 02:05:00周曉虹
計(jì)算機(jī)仿真 2022年12期
關(guān)鍵詞:圖書館文本用戶

劉 莉,周曉虹

(1. 吉林建筑科技學(xué)院,吉林 長(zhǎng)春 130114;2. 吉林建筑大學(xué),吉林 長(zhǎng)春 130119)

1 引言

通過用戶真實(shí)數(shù)據(jù)獲取用戶的屬性、行為偏好等,以技術(shù)手段使其形成特有標(biāo)簽,可充分描述用戶整體特征與輪廓的虛擬表達(dá)形式稱為用戶畫像。用戶畫像的核心思想是用戶特征的可視化,其廣泛應(yīng)用在各個(gè)領(lǐng)域中[1,2],尤其是在圖書館書籍管理中,通過用戶畫像可識(shí)別精準(zhǔn)用戶需求,針對(duì)不同用戶為其提供相應(yīng)書籍推薦服務(wù)。用戶畫像生成方法是提升圖書館書籍管理能力的重要途徑之一,為此很多學(xué)者致力于研究用戶畫像自動(dòng)生成方法或模型,如萬(wàn)家山[3]等人研究的基于KD-Tree聚類的社交用戶畫像建模方法,依托智慧學(xué)習(xí)平臺(tái)獲取用戶信息,通過KNN聚類獲取用戶興趣特征,并依據(jù)用戶興趣特征對(duì)其實(shí)施分類處理,形成標(biāo)簽后通過二次建模形成用戶畫像。但該方法在應(yīng)用過程中由于推薦信息指向性和平臺(tái)用戶數(shù)據(jù)轉(zhuǎn)化率較低,導(dǎo)致其無法精準(zhǔn)描述用戶特征,因此應(yīng)用效果不佳。徐海玲[4]等人研究的用戶畫像的構(gòu)建及資源聚合模型,將用戶信息標(biāo)簽化后,通過研究用戶畫像和資源畫像的映射關(guān)系,完成用戶畫像生成。但由于用戶屬性眾多,該模型僅從資源方面對(duì)用戶畫像展開描述,具有一定的片面性,因此應(yīng)用性不強(qiáng)。

大數(shù)據(jù)時(shí)代的來臨,為新型生產(chǎn)要素的衍生提供了基礎(chǔ),以大數(shù)據(jù)為驅(qū)動(dòng)方式的各行業(yè)數(shù)字化轉(zhuǎn)型已成為其尋求長(zhǎng)久發(fā)展的手段之一,尤其是在圖書館管理方面,面對(duì)來源和格式不同且呈分布式狀態(tài)的用戶數(shù)據(jù),圖書館的圖書推薦功能需依據(jù)當(dāng)前用戶特點(diǎn)為其推薦相應(yīng)數(shù)據(jù),而圖書館用戶畫像則是描述該用戶特點(diǎn)與需求的表達(dá)形式之一[5],因此需通過相應(yīng)技術(shù)使其形成用戶特有的畫像,以便于圖書館更好地服務(wù)用戶。在此結(jié)合大數(shù)據(jù)驅(qū)動(dòng)技術(shù),設(shè)計(jì)基于大數(shù)據(jù)驅(qū)動(dòng)的用戶畫像自動(dòng)生成模型。

2 大數(shù)據(jù)驅(qū)動(dòng)的用戶畫像自動(dòng)生成模型

2.1 建立基于大數(shù)據(jù)驅(qū)動(dòng)的用戶畫像生成模型

用戶畫像自動(dòng)生成的實(shí)現(xiàn)依托大數(shù)據(jù)分析模塊完成,將用戶畫像自動(dòng)生成模型分為兩個(gè)部分,一部分是依托Hadoop、Spark大數(shù)據(jù)分析模塊實(shí)現(xiàn),在該模塊內(nèi),將用戶畫像文本標(biāo)簽分類結(jié)果存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)內(nèi),利用Spark內(nèi)存計(jì)算模型對(duì)用戶畫像數(shù)據(jù)進(jìn)行分析和預(yù)測(cè),以Dubbox框架解耦用戶數(shù)據(jù)分析過程,將結(jié)果輸送至用戶畫像展示端服務(wù)器進(jìn)行顯示,另一部分是用戶畫像展示模塊,該模塊以Spring MVC、web頁(yè)面等方式實(shí)現(xiàn)人機(jī)交互,用戶通過查詢姓名可獲取所查詢者的用戶畫像。基于大數(shù)據(jù)驅(qū)動(dòng)的用戶畫像生成模型具體結(jié)構(gòu)如圖1所示。

圖1 基于大數(shù)據(jù)驅(qū)動(dòng)的用戶畫像生成模型示意圖

基于大數(shù)據(jù)驅(qū)動(dòng)的用戶畫像生成模型共包含5層,信息預(yù)處理層將長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)引入到條件隨機(jī)場(chǎng)模型(CRF)內(nèi),構(gòu)建用戶信息抽取模型,利用該模型從互聯(lián)網(wǎng)中抽取用戶畫像信息,對(duì)用戶畫像信息標(biāo)簽進(jìn)行分類后將其輸入至數(shù)據(jù)層,畫像計(jì)算層從數(shù)據(jù)層調(diào)用文本標(biāo)簽分類結(jié)果,當(dāng)用戶發(fā)起畫像查詢時(shí),通過調(diào)取數(shù)據(jù)層用戶畫像信息并融合后輸入至結(jié)果存儲(chǔ)層,該層利用HBase、MySQL、Redis等方式對(duì)融合后的用戶畫像信息進(jìn)行存儲(chǔ),然后通過Java編程技術(shù)連接畫像展示層,為用戶提供畫像可視化功能,至此實(shí)現(xiàn)用戶畫像自動(dòng)生成功能。

2.2 用戶信息抽取模型建立

提取用戶畫像信息是用戶畫像自動(dòng)生成的基礎(chǔ),在此以序列標(biāo)注形式描述畫像信息抽取過程,將長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)引入到條件隨機(jī)場(chǎng)模型(CRF)內(nèi),建立LSTM-CRF用戶畫像信息抽取模型,從圖書館主頁(yè)獲取用戶基礎(chǔ)信息,該模型依據(jù)信息字段定義啟發(fā)原則,可在一定程度上提升信息抽取的準(zhǔn)確性。用戶畫像信息抽取模型如圖2所示。

圖2 LSTM-CRF用戶畫像信息抽取模型示意圖

LSTM-CRF用戶畫像信息抽取模型獲取用戶信息來源于圖書館網(wǎng)站主頁(yè),通過人名匹配、頭像信息提取、郵箱信息提取以及網(wǎng)頁(yè)預(yù)處理等步驟獲取用戶的性別、頭像等相關(guān)信息。

由于各個(gè)用戶主頁(yè)之間的實(shí)體結(jié)構(gòu)較為相似[6],實(shí)體之間聯(lián)系緊密,尤其是網(wǎng)頁(yè)內(nèi)的文本信息,各個(gè)節(jié)點(diǎn)之間的信息均存在線性關(guān)系,即當(dāng)前節(jié)點(diǎn)信息可通過文本節(jié)點(diǎn)內(nèi)容進(jìn)行描述。在此利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行用戶網(wǎng)頁(yè)信息的特征提取與文本分詞處理,其步驟如下。

第一步:網(wǎng)頁(yè)預(yù)處理

由于用戶主頁(yè)存在很多用戶個(gè)性化設(shè)置或簽名,存在大量信息冗余,因此需要對(duì)用戶網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)清洗和實(shí)體標(biāo)注[7],首先,將網(wǎng)頁(yè)內(nèi)無效標(biāo)簽、樣式以及運(yùn)行腳本以文本過濾的方式去除其中的空白和注釋字符,獲取相對(duì)簡(jiǎn)化的用戶網(wǎng)頁(yè)文本信息,將得到的信息嵌入HTML格式標(biāo)簽后,對(duì)文本字符高于200個(gè)的文本節(jié)點(diǎn)進(jìn)行分詞處理,其抽取單元為標(biāo)簽文本節(jié)點(diǎn)。按照用戶屬性設(shè)置標(biāo)注類型,將用戶專業(yè)標(biāo)注為ORG,郵箱標(biāo)注為EML,專業(yè)標(biāo)注為PSN,所屬學(xué)校標(biāo)注為L(zhǎng)CN,其余統(tǒng)一標(biāo)記為0,將所有標(biāo)注以label屬性標(biāo)記在相應(yīng)標(biāo)簽內(nèi)。

第二步:詞向量表示

利用上一步標(biāo)記的用戶信息文本節(jié)點(diǎn)建立詞庫(kù)表,以n維向量描述標(biāo)簽的文本節(jié)點(diǎn),其由o∈Rn表示,該詞向量由Word2Vec算法經(jīng)過迭代得到,并由長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)依據(jù)詞特征獲取字符詞向量,二者分別由ow2v∈Rd1、ochars∈Rd2表示,二者關(guān)系滿足|d1|+|d2|=n。

令o=[c1,c2,…cp]表示用戶信息單詞,其詞向量由ci∈Rd3表示,該詞向量的長(zhǎng)度為固定數(shù)值,利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)對(duì)其字母級(jí)別展開映射。

第三步:節(jié)點(diǎn)序列表示

由于網(wǎng)頁(yè)位置對(duì)文本節(jié)點(diǎn)標(biāo)注類型影響較大[8],需對(duì)文本節(jié)點(diǎn)與其相連節(jié)點(diǎn)進(jìn)行特征提取,利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的第二個(gè)網(wǎng)絡(luò)層次訓(xùn)練文本節(jié)點(diǎn)序列后,可獲取到該節(jié)點(diǎn)前后信息詞向量,由h∈Rd表示,當(dāng)存在m個(gè)文本節(jié)點(diǎn)時(shí),則其詞向量則由h1,h2,…h(huán)m∈Rk表示,從而獲取到用戶信息節(jié)點(diǎn)序列。

第四步:CRF層序列概率獲取

獲取到用戶信息的詞向量與節(jié)點(diǎn)序列后,LSTM-CRF用戶畫像信息抽取模型利用全連接層對(duì)詞向量展開解碼,可獲得詞向量的相對(duì)目標(biāo)標(biāo)簽得分[9,10]。

令b∈R5、W∈R5*k、s∈R5分別表示偏置矩陣、權(quán)重矩陣、分向量,三者之間關(guān)系可由s=W*h+b表示,在長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)最后添加條件隨機(jī)場(chǎng)層,利用該層獲取文本節(jié)點(diǎn)的標(biāo)簽概率分布,依據(jù)節(jié)點(diǎn)序列可獲取到文本節(jié)點(diǎn)的分向量s1,s2…sm和其所對(duì)應(yīng)的標(biāo)簽e1,e2…em,則條件隨機(jī)場(chǎng)層的損失表達(dá)公式如下

(1)

式中,b、δ、T分別表示初始標(biāo)簽、結(jié)束標(biāo)簽和狀態(tài)轉(zhuǎn)移矩陣,通過該公式可獲取用戶信息序列的標(biāo)簽概率分區(qū)情況,獲取最高標(biāo)簽序列。

利用動(dòng)態(tài)規(guī)劃算法計(jì)算式(1),并將結(jié)果輸入到SoftMax函數(shù)內(nèi),獲取標(biāo)簽序列的得分概率分布,令Z表示序列概率之和,其表達(dá)公式如下

(2)

當(dāng)et作為標(biāo)簽初始序列時(shí),經(jīng)過轉(zhuǎn)換后,得到序列概率表達(dá)公式如下

(3)

概率分布的優(yōu)化函數(shù)交叉熵表達(dá)公式如下

(4)

基于上述運(yùn)算,LSTM-CRF用戶畫像信息抽取模型建立完成,經(jīng)過訓(xùn)練模型參數(shù)并對(duì)該模型輸出數(shù)值實(shí)施解碼處理后,獲取最優(yōu)標(biāo)簽序列,完成用戶畫像的所屬國(guó)家與單位信息提取,用戶郵箱利用正則表達(dá)式進(jìn)行抽取,用戶頭像則通過人臉識(shí)別與標(biāo)簽文本相結(jié)合的形式進(jìn)行提取,至此用戶畫像信息自動(dòng)提取完成。若實(shí)現(xiàn)用戶畫像自動(dòng)生成,則需對(duì)提取到的用戶畫像信息標(biāo)簽進(jìn)行分類處理,更加精準(zhǔn)地描述當(dāng)前用戶[11,12],便于后續(xù)用戶畫像自動(dòng)生成。

2.3 用戶興趣標(biāo)簽分類

基于上述獲取的用戶畫像文本標(biāo)簽信息,使用多標(biāo)簽學(xué)習(xí)算法對(duì)其進(jìn)行分類,其步驟如下:

令X表示用戶畫像文本標(biāo)簽信息的輸入數(shù)據(jù),其標(biāo)簽矩陣由Y表示,則多標(biāo)簽的訓(xùn)練數(shù)據(jù)集由S={(xi,yi)|1≤i≤n}表示,其中xi、yi分別表示特征向量和標(biāo)簽向量。令L( )表示損失函數(shù),則多標(biāo)簽算法表達(dá)公式如下

(5)

式中,α表示正則化參數(shù)。

令pd|y、py|n分別表示特征標(biāo)簽條件概率矩陣和標(biāo)簽實(shí)例條件矩陣,則多標(biāo)簽算法分類表達(dá)公式如下

(6)

式中,θ表示拉普拉斯矩陣,Py表示標(biāo)簽奇異值矩陣,β表示可變參數(shù)。

通過對(duì)式(6)求解,得到用戶畫像的文本標(biāo)簽分類結(jié)果,為用戶畫像自動(dòng)生成提供數(shù)據(jù)支撐,以此完成用戶畫像自動(dòng)生成。

3 實(shí)驗(yàn)分析

為驗(yàn)證本文模型的實(shí)際應(yīng)用效果,以某大學(xué)圖書館用戶為實(shí)驗(yàn)對(duì)象,使用本文模型生成大學(xué)生畫像,分析本文模型的應(yīng)用性。

3.1 用戶信息抽取測(cè)試

以該圖書館用戶的性別信息和頭像信息作為實(shí)驗(yàn)對(duì)象,抽取性別信息的精度減去抽取頭像信息的精度數(shù)值作為正偏差數(shù)值,反之則為反偏差數(shù)值,以兩種數(shù)值衡量本文模型信息抽取能力,在抽取文本大小不同時(shí),測(cè)試本文模型提取的用戶性別信息與頭像信息正偏差數(shù)值和負(fù)偏差數(shù)值,分析其用戶信息抽取能力,結(jié)果如圖3所示。

圖3 用戶信息抽取測(cè)試結(jié)果

分析圖3可知,文本大小與信息抽取的正偏差數(shù)值和負(fù)偏差數(shù)值均成正比例關(guān)系,在文本大小為200kB之前,本文模型抽取的用戶信息正偏差和負(fù)偏差數(shù)值均為0,當(dāng)文本大小超過200kB后正負(fù)偏差數(shù)值逐漸拉大,當(dāng)文本大小為500kB時(shí),模型用戶畫像信息抽取的正偏差數(shù)值和負(fù)偏差數(shù)值僅為0.08左右,該結(jié)果表明,本文模型在抽取用戶畫像信息時(shí),受文本大小影響較低,抽取信息的精準(zhǔn)度較高。

3.2 用戶興趣標(biāo)簽分類測(cè)試

漢明損失函數(shù)(Hamming Loss)是衡量標(biāo)簽分類能力的重要指標(biāo),統(tǒng)計(jì)在不同文本大小情況下,本文模型的漢明損失函數(shù)變化情況,結(jié)果如圖4所示。

圖4 用戶興趣標(biāo)簽分類測(cè)試結(jié)果

分析圖4可知,隨著用戶文本信息大小的增加,本文模型的漢明損失函數(shù)數(shù)值也隨之增加,但增加幅度較小,在文本大小為3000kB之前,模型的漢明損失函數(shù)數(shù)值始終保持在0.15左右,隨著文本大小的增加,漢明損失函數(shù)數(shù)值呈現(xiàn)指數(shù)上升趨勢(shì),當(dāng)文本大小為9000kB時(shí),本文模型的漢明損失函數(shù)數(shù)值僅為0.23左右,其增長(zhǎng)幅度僅為0.08,該結(jié)果表明:本文模型的用戶興趣標(biāo)簽分類效果較好。

3.3 用戶畫像生成效果

以該圖書館某一用戶借閱書籍以及在圖書館網(wǎng)站注冊(cè)信息為實(shí)驗(yàn)對(duì)象,利用本文模型獲取到該用戶的部分圖書標(biāo)簽信息,如表1所示,依據(jù)表1所示的用戶信息生成用戶畫像如圖5所示。

表1 用戶圖書標(biāo)簽信息(部分)

圖5 圖書館用戶畫像

綜合分析表1和圖5可知,依據(jù)部分用戶標(biāo)簽信息,本模型所生成的圖書館用戶畫像涵蓋用戶id、郵箱、性別等基礎(chǔ)信息的同時(shí),也包含用戶的個(gè)性簽名,對(duì)用戶標(biāo)簽信息整合后,提取到用戶的數(shù)據(jù)興趣標(biāo)簽共5個(gè),依據(jù)書籍類別也可以呈現(xiàn)該用戶對(duì)歷史類和詩(shī)詞類書籍的偏好程度,圖書館管理系統(tǒng)可依據(jù)該用戶對(duì)書籍的偏好程度為其提供更精準(zhǔn)的服務(wù),該結(jié)果表明:本文模型可有效生成圖書館用戶畫像,充分描述用戶興趣特征。

4 結(jié)論

本文設(shè)計(jì)的基于大數(shù)據(jù)驅(qū)動(dòng)的用戶畫像自動(dòng)生成模型由信息預(yù)處理層、畫像計(jì)算層、數(shù)據(jù)層,結(jié)果存儲(chǔ)層以及畫像展示層構(gòu)成。經(jīng)過實(shí)驗(yàn)驗(yàn)證:本文模型抽取的用戶畫像信息正偏差數(shù)值和負(fù)偏差數(shù)值僅為0.08左右,抽取信息的精準(zhǔn)度較高;漢明損失函數(shù)數(shù)值低,隨著文本大小的增加,該數(shù)值上升幅度較小;生成的圖書館用戶畫像涵蓋用戶基本信息的同時(shí),用戶興趣特征描述清晰,且可呈現(xiàn)用戶的書籍類別偏好。

猜你喜歡
圖書館文本用戶
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
圖書館
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
飛躍圖書館
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
圖書館里的是是非非
如何獲取一億海外用戶
主站蜘蛛池模板: 午夜视频免费一区二区在线看| 成人精品视频一区二区在线| 日韩精品毛片人妻AV不卡| 欧美另类精品一区二区三区| 91伊人国产| 亚洲码一区二区三区| 人妻一本久道久久综合久久鬼色 | 日韩无码视频专区| 亚洲国产综合精品中文第一| 国产91色在线| 特级欧美视频aaaaaa| 亚洲国产AV无码综合原创| 欧美精品高清| 在线观看国产精美视频| 红杏AV在线无码| 亚洲欧洲天堂色AV| 国产精品亚洲专区一区| 国产农村妇女精品一二区| 好吊妞欧美视频免费| AV天堂资源福利在线观看| 国产成人狂喷潮在线观看2345| 亚洲成网777777国产精品| 亚洲精品欧美日韩在线| 992Tv视频国产精品| 国产丝袜丝视频在线观看| 一区二区三区精品视频在线观看| 国产精品视频导航| 午夜精品久久久久久久无码软件| 狠狠ⅴ日韩v欧美v天堂| 色综合热无码热国产| 欧美成人h精品网站| 亚洲第一黄片大全| 在线国产综合一区二区三区| 国产激情无码一区二区三区免费| 国产成人免费观看在线视频| 日韩精品一区二区三区视频免费看| 米奇精品一区二区三区| 国产精品男人的天堂| 亚洲国产成人自拍| 欧美国产日韩在线观看| 911亚洲精品| 国产精彩视频在线观看| 天堂岛国av无码免费无禁网站| 72种姿势欧美久久久久大黄蕉| 久久午夜影院| 欧美激情第一欧美在线| 亚洲成肉网| 国产免费网址| 欧美激情视频一区二区三区免费| 五月六月伊人狠狠丁香网| 久久这里只有精品66| 国产中文一区二区苍井空| 91黄视频在线观看| 99热国产这里只有精品无卡顿"| 91精品国产91久久久久久三级| a级毛片网| 日韩人妻少妇一区二区| 国产女人在线视频| 精品国产免费观看| 97av视频在线观看| 欧美精品影院| 自拍偷拍欧美日韩| 欧美成人午夜影院| 欧美一区二区丝袜高跟鞋| 丰满人妻一区二区三区视频| 欧美精品v日韩精品v国产精品| 丰满人妻一区二区三区视频| 免费一级毛片不卡在线播放| 手机在线看片不卡中文字幕| www.youjizz.com久久| 在线色国产| av在线手机播放| 毛片在线看网站| 久久黄色免费电影| 3D动漫精品啪啪一区二区下载| 精品在线免费播放| 国产白浆视频| 国产99热| 欧美日本二区| 日本久久免费| 亚洲中文字幕在线一区播放| 久久国产精品无码hdav|