999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于協(xié)同過(guò)濾的改進(jìn)課程推薦算法

2020-06-02 06:15:50
科技傳播 2020年5期
關(guān)鍵詞:文本用戶(hù)課程

尚 立

近年來(lái),高校開(kāi)始廣泛采用選課制,選修課的開(kāi)設(shè)本身也是為了培養(yǎng)多元化、個(gè)性化的人才,目前高校的選課系統(tǒng)中存放著大量的、多方面的選修課,面對(duì)這些課程,學(xué)生需要在段時(shí)間內(nèi)找到符合自身興趣偏好的課程。根據(jù)高校教務(wù)選課平臺(tái)所提供的課程信息,學(xué)生難以第一時(shí)間找到符合要求的課程,同時(shí)因?yàn)槎鄶?shù)學(xué)生盲目選課,使得一些優(yōu)秀課程長(zhǎng)期被忽視或是無(wú)人選修。與此同時(shí),個(gè)性化推薦系統(tǒng)在電子商務(wù)、電影平臺(tái)和音樂(lè)平臺(tái)的技術(shù)應(yīng)用越來(lái)越成熟,網(wǎng)站可以根據(jù)用戶(hù)的歷史瀏覽記錄、用戶(hù)的購(gòu)買(mǎi)(觀看)記錄、用戶(hù)收藏記錄等,推薦類(lèi)似的產(chǎn)品,降低用戶(hù)查找和選擇難度,例如亞馬遜、網(wǎng)易云音樂(lè)等。

目前,國(guó)內(nèi)大部分高校仍然采用的傳統(tǒng)的搜索配合試聽(tīng)讓學(xué)生選擇選修課程,少部分采用了比較弱化的推薦,即根據(jù)學(xué)生專(zhuān)業(yè)推薦相近課程,或者逆向推薦,即向文科學(xué)生推薦理工科課程,以上方式并不能根據(jù)學(xué)生自身的需求為他們得到想要學(xué)習(xí)的課程。有鑒于此,本文將推薦算法應(yīng)用于選課系統(tǒng)中,在使用學(xué)生歷史選課行為記錄進(jìn)行協(xié)同過(guò)濾推薦的基礎(chǔ)上,增加了對(duì)課程簡(jiǎn)介的文本內(nèi)容挖掘,通過(guò)用戶(hù)行為和文本向量共同計(jì)算課程之間的余弦相似度,提高推薦的準(zhǔn)確性,滿(mǎn)足用戶(hù)的需求。

1 一種改進(jìn)相似度計(jì)算的協(xié)同過(guò)濾推薦算法

1.1 協(xié)同過(guò)濾算法

基于協(xié)同過(guò)濾思想的推薦系統(tǒng)是基于一個(gè)思想,即相似的用戶(hù)可能會(huì)有相似的偏好或者相似的物品可能會(huì)被相似的用戶(hù)所偏好[1]。協(xié)同過(guò)濾有兩類(lèi):

1)基于用戶(hù)[2]。根據(jù)用戶(hù)行為記錄,找到和目標(biāo)用戶(hù)興趣偏好相似的用戶(hù)集合,進(jìn)而找到相似用戶(hù)集合中每個(gè)用戶(hù)所喜歡的物品,過(guò)濾掉目標(biāo)用戶(hù)已經(jīng)產(chǎn)生過(guò)行為的物品,最后推薦給目標(biāo)用戶(hù)。表示用戶(hù)所喜歡的物品集合,是用戶(hù)所喜歡的物品集合,和的用戶(hù)相似度通過(guò)公式1 所示的余弦相似度計(jì)算。

利用相似度公式計(jì)算得到的用戶(hù)相似度矩陣,預(yù)測(cè)目標(biāo)用戶(hù)對(duì)相似用戶(hù)所喜歡的物品的評(píng)分。用戶(hù)對(duì)物品的預(yù)測(cè)評(píng)分計(jì)算公式為式2[3]。

其中表示與用戶(hù)最相似的個(gè)用戶(hù),即近鄰,為喜歡物品的用戶(hù)集合,為用戶(hù)和用戶(hù)的用戶(hù)相似度,為用戶(hù)對(duì)物品的真實(shí)評(píng)分。

2)基于物品[4]。根據(jù)用戶(hù)行為記錄,計(jì)算物品之間的相似度,過(guò)濾出目標(biāo)用戶(hù)所產(chǎn)生過(guò)行為的物品集合中該用戶(hù)評(píng)分高的物品集合,根據(jù)物品相似度矩陣,分別找出集合中每個(gè)物品最相似的個(gè)物品,通過(guò)排序同時(shí)過(guò)濾目標(biāo)用戶(hù)已經(jīng)產(chǎn)生過(guò)行為的物品,最后向目標(biāo)用戶(hù)推薦物品。表示喜歡物品的用戶(hù)數(shù),表示喜歡物品的用戶(hù)數(shù),物品和的相似度通過(guò)公式3 所示的余弦相似度計(jì)算。

然后根據(jù)式4 計(jì)算用戶(hù)對(duì)物品的興趣偏好程度[3]。

1.2 基于TF-IDF 的文本相似度計(jì)算

本文為了增加課程特征對(duì)課程相似度的影響,使用TF-IDF 理論從課程簡(jiǎn)介的文本中提取文本向量,進(jìn)而計(jì)算課程相似度,TF-IDF 模型的核心思想是,將一段文本看作是詞匯的集合,通過(guò)TF-IDF 模型為每個(gè)詞賦予一個(gè)權(quán)重值,最終將原來(lái)的文本表示為向量的形式,即將文本相似度的計(jì)算問(wèn)題轉(zhuǎn)化為計(jì)算向量相似度。該模型主要包含了兩個(gè)因素[6]:

1)詞頻(Term Frequency,TF),即詞在文本中出現(xiàn)的頻率,頻率越大意味該詞對(duì)該文本的貢獻(xiàn)越大,通過(guò)公式5 計(jì)算

其中是詞在文檔中出現(xiàn)的次數(shù),分母表示文本中所有詞匯出現(xiàn)的次數(shù)總和。

2)逆文檔頻率(Inverse Document Frequency,IDF),即詞在其它文本中出現(xiàn)的頻率,頻率越大,表示該詞被使用的更廣泛,代表性越低,也更難以代表文本,通過(guò)公式6 計(jì)算

其中是語(yǔ)料庫(kù)中的文本總數(shù),即文本集合,表示文本集合中包含詞的文本數(shù)量,如果不在文本集合中,就會(huì)導(dǎo)致分母為零,因此一般情況下使用。

最終通過(guò)公式7 得到詞在某文本中的TF-IDF 值。

通過(guò)分詞對(duì)文本集合中的每個(gè)文本中得到各自的一系列詞串,對(duì)詞串中的每個(gè)詞求解其TF-IDF 值,得到該文本的文本向量,如,第p 個(gè)文本的文本向量可以表示為式8 的形式。

如前文1.1 節(jié)所述,基于用戶(hù)(UserCF)和基于物品(ItemCF)的協(xié)同過(guò)濾都是推薦系統(tǒng)中常用的算法,UserCF 需要不斷更新用戶(hù)的相似度,ItemCF 更偏向于挖掘物品之間的相似性,課程推薦的應(yīng)用場(chǎng)景特點(diǎn)決定了課程集合不會(huì)出現(xiàn)較大的變化,同時(shí)考慮到學(xué)生人數(shù)較多,因此本文采用ItemCF 作為課程推薦算法的改進(jìn)基礎(chǔ)。

利用余弦相似度式9 計(jì)算文本集合中每對(duì)文本的文本相似度作為課程相似度的補(bǔ)充。

所以改進(jìn)的基于課程的協(xié)同過(guò)濾相似度為式10所示:

2 實(shí)驗(yàn)結(jié)果及分析

本節(jié)對(duì)提出的基于改進(jìn)的協(xié)同過(guò)濾課程推薦算法進(jìn)行評(píng)估,實(shí)驗(yàn)平臺(tái)的配置如下:操作系統(tǒng):Win10x64 位;CPU 為i7 處理器;開(kāi)發(fā)語(yǔ)言及平臺(tái):Python+Microsoft VScode。實(shí)驗(yàn)數(shù)據(jù)選取中國(guó)傳媒大學(xué)共2 000 名學(xué)生對(duì)400 門(mén)選修課的18 000 條選課記錄和選修課各自的課程簡(jiǎn)介文本信息。

離線(xiàn)實(shí)驗(yàn)則采用4 折交叉驗(yàn)證的方式,即測(cè)試集占整個(gè)訓(xùn)練集的比例為25%,取4 次試驗(yàn)的均值作為每組參數(shù)的最終實(shí)驗(yàn)結(jié)果,分別在鄰域K 為5,10,20,40,80,160 時(shí),對(duì)ItemCF、UserCF,以及本文的相似度修正推薦算法進(jìn)行對(duì)比,評(píng)估指標(biāo)采用準(zhǔn)確率precision 和召回率recall,按照以下式11 和12 分別計(jì)算[7]:

其中,表示鄰域值,表示測(cè)試集中的用戶(hù)集合,表示推薦給目標(biāo)用戶(hù)的推薦課程列表,表示測(cè)試集中目標(biāo)用戶(hù)的真實(shí)評(píng)價(jià)課程,準(zhǔn)確率precision 反映的是查準(zhǔn)率,即推薦列表中確實(shí)會(huì)被用戶(hù)查看的課程所占比例,召回率recall 反映的是查全率,即會(huì)被用戶(hù)查看的課程占用戶(hù)所有查看課程的比例。

準(zhǔn)確率、召回率實(shí)驗(yàn)結(jié)果分別如圖1、圖2 所示:

可以看到,對(duì)比UserCF、ItemCF,經(jīng)過(guò)TF-IDF文本相似度優(yōu)化后的協(xié)同過(guò)濾算法在準(zhǔn)確率和召回率上均取得了提高。

圖1 不同鄰域K下precision對(duì)比結(jié)果

圖2 不同鄰域K下recall對(duì)比結(jié)果

3 結(jié)語(yǔ)

本文提出了一種基于文本相似度計(jì)算的協(xié)同過(guò)濾優(yōu)化算法,實(shí)驗(yàn)結(jié)果表明了該模型的可行性,與基于用戶(hù)和物品的協(xié)同過(guò)濾推薦相比,大大提高了推薦結(jié)果的準(zhǔn)確率。對(duì)于未來(lái)的研究,將探索不同的融合策略對(duì)結(jié)果的影響,以盡可能地提升推薦的效果。

猜你喜歡
文本用戶(hù)課程
數(shù)字圖像處理課程混合式教學(xué)改革與探索
軟件設(shè)計(jì)與開(kāi)發(fā)實(shí)踐課程探索與實(shí)踐
為什么要學(xué)習(xí)HAA課程?
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
關(guān)注用戶(hù)
關(guān)注用戶(hù)
關(guān)注用戶(hù)
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
如何獲取一億海外用戶(hù)
主站蜘蛛池模板: 青草视频久久| 国产真实乱子伦精品视手机观看| 亚洲国产精品不卡在线| 国产精品.com| 青草视频网站在线观看| 国产精品高清国产三级囯产AV| 欧美19综合中文字幕| 国产成人精品一区二区| 日本免费a视频| 亚洲swag精品自拍一区| 亚洲一区二区日韩欧美gif| 亚洲VA中文字幕| 国产午夜一级毛片| 91视频国产高清| 色婷婷综合在线| 午夜福利网址| 亚洲成AV人手机在线观看网站| 夜夜操狠狠操| AV天堂资源福利在线观看| 国产美女主播一级成人毛片| 亚洲婷婷丁香| 伊人AV天堂| 亚洲区一区| 狠狠色狠狠色综合久久第一次| 色综合天天综合中文网| 亚洲欧洲综合| 97久久免费视频| 欧美精品另类| 999福利激情视频| 亚洲欧美另类色图| 亚洲人成网18禁| 亚洲日韩AV无码一区二区三区人| 色播五月婷婷| 欧洲成人免费视频| a级毛片免费网站| 日韩欧美在线观看| 国产真实乱子伦精品视手机观看| 国产尤物视频网址导航| 日韩福利视频导航| 亚洲无码四虎黄色网站| 国产成人亚洲综合a∨婷婷| 一级全免费视频播放| 亚洲精品综合一二三区在线| 亚洲欧美不卡中文字幕| 国产在线观看成人91| 波多野结衣国产精品| 久久网综合| 毛片在线播放网址| 九九线精品视频在线观看| 国产真实二区一区在线亚洲| 亚洲国产AV无码综合原创| 色悠久久综合| 国产欧美精品专区一区二区| 午夜视频www| 成人小视频网| 欧美一级专区免费大片| 亚洲国产在一区二区三区| 婷婷六月天激情| 国产欧美又粗又猛又爽老| 亚洲成人动漫在线观看| 成年人午夜免费视频| 欧美中出一区二区| 成人综合网址| 中文字幕欧美日韩| 欧美 亚洲 日韩 国产| 不卡无码h在线观看| 国产一区成人| 中文字幕色在线| 久久9966精品国产免费| 久久久久国产一区二区| 久久精品人人做人人| 国产午夜福利在线小视频| 欧美亚洲欧美| 亚洲男人的天堂久久香蕉| 日韩毛片免费视频| 久久精品午夜视频| 亚洲国产天堂久久九九九| 亚洲综合经典在线一区二区| 日韩精品一区二区三区免费在线观看| 一本一本大道香蕉久在线播放| 亚洲A∨无码精品午夜在线观看| 久久精品日日躁夜夜躁欧美|