999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2vec 的圖書館圖書推薦系統(tǒng)的實現(xiàn)研究

2022-01-25 10:25:40柴源
電子設(shè)計工程 2022年2期
關(guān)鍵詞:模型系統(tǒng)

柴源

(西安航空學(xué)院 圖書館,陜西西安 710077)

高校圖書館圖書推薦是利用現(xiàn)代信息技術(shù),分析讀者閱讀行為,挖掘讀者閱讀需求,通過多元化渠道將館藏圖書推薦給師生的一種服務(wù)[1]。目前,圖書推薦系統(tǒng)主要包括基于內(nèi)容的推薦系統(tǒng),它側(cè)重于圖書的屬性,例如文獻(xiàn)內(nèi)容[2]、學(xué)科分類[3]等;以及基于用戶的協(xié)同過濾系統(tǒng),它側(cè)重于依據(jù)讀者借閱數(shù)據(jù)來推薦其他相似讀者曾經(jīng)借閱過的圖書,例如用戶畫像[4]、讀者興趣[5]等,但是這些系統(tǒng)都存在一定的局限性。

1 圖書館圖書推薦系統(tǒng)面臨的問題

1.1 數(shù)據(jù)稀疏性問題

目前,高校圖書館的藏書數(shù)量普遍在百萬冊以上,例如清華大學(xué)圖書館,書刊資料已達(dá)510 多萬冊。讀者數(shù)量卻相對較少,并且大多數(shù)讀者只對極少量的圖書有過借閱行為,使得形成的“讀者-圖書”借閱矩陣不僅非常大,而且絕大多數(shù)數(shù)值為空缺值,整個矩陣非常稀疏[6],稀疏性問題直接造成訓(xùn)練過程中的計算浪費。

1.2 數(shù)據(jù)語義化問題

傳統(tǒng)的推薦系統(tǒng)是基于詞袋模型構(gòu)造向量空間的,定義一個窗口作為某個詞的語境,統(tǒng)計整個語料中這個詞在窗口內(nèi)出現(xiàn)的特征,例如詞的頻度、tf-idf等,再把這些特征用詞袋模型表示成一個向量,然后計算向量的余弦距離[7]。這種做法忽略了詞的位置信息,而一個詞的含義是可以從它的上下文語境中推斷出來的。

1.3 圖書在時間上的局部共存問題

傳統(tǒng)的圖書推薦算法分析所有讀者的借閱偏好,對“讀者-圖書”矩陣應(yīng)用協(xié)同過濾方法,得到不同圖書組別的關(guān)聯(lián)信息。如果一個讀者群體擁有很多共同喜歡的圖書,就可以推斷這些讀者借閱興趣很相似,并且他們所借閱的圖書之間也很相似。但是,這種多讀者共現(xiàn)現(xiàn)象只能反映出圖書之間是如何聯(lián)系的,并不能反映出圖書在時間上是如何局部共存的,即他們在同一時間段前后還借閱了什么圖書[8]。

2 基于Word2vec 的高校圖書館圖書推薦系統(tǒng)設(shè)計

2.1 Word2vec

Word2vec 是一種詞嵌入(Word Embedding)方法,它根據(jù)語料中詞匯共現(xiàn)信息,將詞匯編碼成一個向量,可以計算每個詞語在給定語料庫環(huán)境下的分布式詞向量[9],它包含兩種訓(xùn)練模型:跳字模型(Skip-Gram)和連續(xù)詞袋模型(Continuous Bag of Words,CBOW),如圖1 所示。

圖1 Word2vec模型

CBOW 模型是一個三層神經(jīng)網(wǎng)絡(luò),它利用上下文或周圍的詞語來預(yù)測當(dāng)前位置詞語w(t)的概率,即P(w(t)|w(t-k),…,w(t-1),w(t+1),w(t+2),…,w(t+k))[10];Skip-Gram 模型的計算方法逆轉(zhuǎn)了CBOW 的因果關(guān)系,它利用當(dāng)前位置詞語w(t)來預(yù)測上下文中詞的概率,即P(w(i)|w(t)),其中t-k≤i≤t+k且i≠k[11]。

2.2 Word2vec在圖書推薦應(yīng)用中的可行性

Word2vec 模型本質(zhì)上是基于上下文語境構(gòu)建詞共現(xiàn)矩陣而建立起來的,因此,可以采用Word2vec算法改進(jìn)基于共現(xiàn)矩陣的算法模型。

在推薦系統(tǒng)中,常用算法首先是建立“用戶-商品”矩陣,然后計算行和列的相似性,并根據(jù)相似性進(jìn)行推薦[12]。如果將某一個用戶選擇的所有商品看作一條商品序列,商品與商品之間就出現(xiàn)類似文檔中的上下文關(guān)系,通過構(gòu)建“商品-語境”矩陣,利用Word2vec 獲得每個商品的向量表示,然后將各個商品向量求和,計算商品之間的相似度,將與求和的值最接近的一個或多個商品作為推薦商品[13]。

在圖書推薦系統(tǒng)中,可以將每本圖書看作一個商品,將讀者借閱的所有圖書看作一條具有上下文關(guān)系的圖書序列,建立“圖書-語境”矩陣,并利用Word2vec 進(jìn)行訓(xùn)練。首先,得到每本圖書的向量表示;其次,將這些圖書的向量進(jìn)行求和;最后,通過余弦距離計算圖書向量空間上的相似度,并與求和的值進(jìn)行比較,選擇比較接近的值的圖書,形成推薦列表。

例如,甲的借閱圖書序列為A1、A2、A3、A4、A5、A6,利用Word2vec 進(jìn)行深度學(xué)習(xí),選擇Skip-Gram 模型,預(yù)測上下文的詞的個數(shù)、輸出結(jié)果的個數(shù)都為2,預(yù)測結(jié)果如表1 所示。

表1 Skip-Gram模型結(jié)果

表1 中,A4 的向量受A2、A3、A4、A5、A6 向量影響,A5 受A3、A4、A5、A6 向量的影響。Word2vec 通過上下文語境識別出A4 和A5 之間存在相似性。

Word2vec 將稠密向量作為輸入層,解決了圖書推薦中數(shù)據(jù)的稀疏性問題;構(gòu)建基于時間和上下文關(guān)系的圖書序列,建立“圖書-語境”矩陣,解決了圖書在時間上的局部共存和語義化缺失問題。所以,Word2vec 在圖書推薦中具有極強(qiáng)的優(yōu)勢。

2.3 基于Word2vec的圖書推薦系統(tǒng)設(shè)計

2.3.1 系統(tǒng)設(shè)計

系統(tǒng)設(shè)計主要包括借閱日志數(shù)據(jù)預(yù)處理,構(gòu)建具有上下文語境的共現(xiàn)矩陣;利用Word2vec 工具對共現(xiàn)矩陣進(jìn)行深度學(xué)習(xí),提取每本圖書的向量,并求和;通過Word2vec 計算相似度,推薦相似度較高的圖書。系統(tǒng)流程如圖2 所示。

圖2 系統(tǒng)流程

2.3.2 詳細(xì)設(shè)計

1)建立讀者借閱圖書的共現(xiàn)矩陣。從借閱日志中獲取讀者的借閱數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理,建立基于時間序列的讀者借閱圖書的共現(xiàn)矩陣。

2)Word2vec深度學(xué)習(xí)。設(shè)定數(shù)據(jù)窗口大小,運用Word2vec工具,對借閱圖書的共現(xiàn)矩陣進(jìn)行深度學(xué)習(xí),獲得每本書的向量表示,然后將各個向量進(jìn)行求和。

3)相似性結(jié)果推薦。計算圖書之間的相似度,將其與2)中的值進(jìn)行比較,選擇比較接近的值的圖書,同時過濾掉讀者重復(fù)借閱的圖書,形成推薦列表。

3 基于Word2vec 的高校圖書館圖書推薦系統(tǒng)實驗

3.1 數(shù)據(jù)來源及預(yù)處理

3.1.1 數(shù)據(jù)來源

該文抽取西安航空學(xué)院圖書館2019 年的借閱記錄,共9 萬余條,借閱記錄包含圖書條碼、索書號、讀者姓名、讀者條碼、題名、典藏部門等條目,如圖3所示。數(shù)據(jù)分析匯總,如表2 所示。

圖3 借閱記錄數(shù)據(jù)(部分)

表2 中,11 229 個讀者有借閱記錄,表示可以構(gòu)成11 229 個借閱圖書序列。

表2 2019年的借閱記錄匯總

3.1.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理中,剔除掉沒有研究意義的字段,例如館藏地點、索書號等,選擇題名、圖書條碼、讀者條碼、借閱日期等條目。題名是每冊圖書的書名,描述了圖書的主要內(nèi)容。圖書條碼是每冊圖書的唯一識別碼,讀者條碼表示每位讀者的身份ID,借閱日期表示圖書的借閱時間。具體的預(yù)處理流程如下:

1)通過讀者條碼、借閱日期、圖書條碼確定讀者的每一次借閱記錄。

2)按照借閱日期將每位讀者全年的借閱記錄歸并為一條借閱序列,形成讀者借閱圖書的共現(xiàn)矩陣,為了減少計算量,選擇圖書條碼作為其值,如圖4所示。

圖4 讀者借閱圖書的共現(xiàn)矩陣(部分)

圖4 中第一列數(shù)字表示讀者的借閱證號,第二列以及后面的所有列表示讀者按時間序列的借閱記錄,每一行表示一位讀者的圖書借閱序列。

3.2 實驗及結(jié)果分析

3.2.1 實驗設(shè)置

Gensim 是一款開源的第三方Python 工具包,用于從原始的非結(jié)構(gòu)化文本中,無監(jiān)督地學(xué)習(xí)到文本隱層的主題向量表達(dá)[14]。主要用于主題建模和文檔相似性處理,支持包括TF-IDF、LSA、LDA 和Word2vec在內(nèi)的多種主題模型算法[15]。文中利用Gensim 中的Word2vec 類進(jìn)行模型訓(xùn)練,參數(shù)設(shè)置如下:

size:詞向量的維度,文中是指圖書條碼的向量維度,設(shè)置為300。

window:詞向量上下文最大距離,window 越大,則和其他詞產(chǎn)生上下文關(guān)系的可能性就越大。該文的實驗數(shù)據(jù)中,讀者的年均借閱量約為5 冊,因此,window 值設(shè)置為5。

sg:模型選擇,該文選擇CBOW 算法,即sg=0。

min_count:需要計算詞向量的最小詞頻,可以去掉一些很低頻詞。文中實驗數(shù)據(jù)僅包含2019 年的圖書借閱記錄,數(shù)據(jù)的稀疏性較強(qiáng),因此,min_count設(shè)置為2。

3.2.2 實驗結(jié)果

該文通過Word2vec 對數(shù)據(jù)進(jìn)行訓(xùn)練,利用tsne對Word2vec 模型進(jìn)行降維可視化展示[16],如圖5 所示。圖中展示了部分?jǐn)?shù)據(jù),每個點表示一本圖書,數(shù)字表示圖書條碼。圖5 中,點之間距離的大小表示圖書的相似程度,距離越小相似性越高。

圖5 相似性圖書可視化

實驗中,假設(shè)讀者借閱圖書的條碼為1824272(題名為《電氣工程概論》),去掉重復(fù)借閱的圖書,提取排名前5 的結(jié)果形成推薦列表,如表3 所示。

表3 Word2vec推薦結(jié)果

由表3 可知,推薦結(jié)果的相似性比較高,與輸入圖書匹配得較好,說明Word2vec 在圖書推薦方面適用性較強(qiáng)。

4 結(jié)束語

Word2vec 是一個簡單的三層神經(jīng)網(wǎng)絡(luò),能夠考慮上下文的關(guān)聯(lián)關(guān)系。所以,該文將這一技術(shù)引入圖書推薦系統(tǒng),以提高圖書推薦的精準(zhǔn)性。從數(shù)據(jù)稀疏、語義缺乏等方面分析了傳統(tǒng)圖書推薦系統(tǒng)存在的問題。討論并設(shè)計了基于Word2vec 的高校圖書館圖書推薦系統(tǒng)。設(shè)計中,將讀者借閱數(shù)據(jù)按照時間序列形成借閱行為共現(xiàn)矩陣,并將共現(xiàn)矩陣看作具有上下文關(guān)系的語境,利用Word2vec 技術(shù)發(fā)現(xiàn)讀者的閱讀偏好,形成圖書推薦列表。選取西安航空學(xué)院圖書館11 229條借閱數(shù)據(jù)進(jìn)行實驗,結(jié)果表明推薦圖書的相似性為77%,相似度較高,驗證了Word2vec 在改進(jìn)傳統(tǒng)圖書推薦系統(tǒng)方面具有較好的效果。

猜你喜歡
模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
基于PowerPC+FPGA顯示系統(tǒng)
半沸制皂系統(tǒng)(下)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产高颜值露脸在线观看| 欧美在线导航| 人妻21p大胆| 无码精品国产dvd在线观看9久| 麻豆精品在线视频| 久久综合色天堂av| 国产日本一线在线观看免费| 国产福利2021最新在线观看| 国产不卡国语在线| 亚洲国产天堂久久九九九| 久久窝窝国产精品午夜看片| 亚洲天堂首页| jizz亚洲高清在线观看| 欧美日韩资源| 青青久久91| 亚洲人成网线在线播放va| 日韩小视频在线观看| AV天堂资源福利在线观看| 嫩草影院在线观看精品视频| 一级毛片无毒不卡直接观看| 亚洲日韩欧美在线观看| 伊人久久青草青青综合| 久久久久国产一级毛片高清板| 久久成人国产精品免费软件 | 亚洲日韩AV无码一区二区三区人 | 中文字幕 欧美日韩| 久久免费成人| 精品偷拍一区二区| 国产青青操| 国产成人久视频免费| 九九热精品免费视频| 999精品免费视频| 免费国产高清精品一区在线| 亚洲国产精品久久久久秋霞影院| 任我操在线视频| 亚洲AV无码久久天堂| 欧美亚洲国产日韩电影在线| 国产乱人乱偷精品视频a人人澡| 自慰网址在线观看| 国产一区二区丝袜高跟鞋| 国产精品粉嫩| 色噜噜综合网| 毛片一级在线| 精品国产免费第一区二区三区日韩| 亚洲综合色区在线播放2019| 91年精品国产福利线观看久久| 免费又黄又爽又猛大片午夜| 欧美日韩国产综合视频在线观看| 91视频青青草| 成人中文在线| 色天天综合| 国产精品尹人在线观看| 免费国产不卡午夜福在线观看| 日韩成人免费网站| 久久不卡国产精品无码| 91美女在线| 欧美日本视频在线观看| 国产欧美日韩专区发布| 日韩国产 在线| 国产爽爽视频| 亚洲欧美国产高清va在线播放| 国产不卡在线看| 日韩中文欧美| 不卡无码h在线观看| 日韩麻豆小视频| 54pao国产成人免费视频| 伊人色综合久久天天| 亚洲国产一区在线观看| 成人亚洲视频| 园内精品自拍视频在线播放| 国产色婷婷视频在线观看| 99在线国产| 免费又黄又爽又猛大片午夜| 亚洲精品无码日韩国产不卡| 精品人妻系列无码专区久久| 久久鸭综合久久国产| 亚洲视频一区在线| 亚洲欧美一区二区三区麻豆| 国内嫩模私拍精品视频| 国产乱子伦精品视频| 91在线播放免费不卡无毒| av一区二区三区高清久久|