999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社會化標注的協同過濾算法

2020-03-27 08:49:12周康渠
探索科學(學術版) 2020年12期
關鍵詞:語義資源用戶

楊 晨 周康渠

重慶理工大學 機械工程學院 重慶400054

引言

在web3.0時代,互聯網用戶從信息的消費者轉變成了信息的生成者,社會化標注這一自下而上的分眾分類方式也逐漸興起,如圖書網站豆瓣讀書、圖片共享網站Flickr等。這些網站允許用戶自主上傳資源,對網站上的資源自由添加標簽來對資源進行描述,并與網站上的其他用戶分享。隨著網站上資源的積累,如何為用戶找到其感興趣的資源成為了這些網站面臨的一大挑戰,而基于一些推薦算法的推薦系統,成為了解決這一問題的主要方法。

協同過濾算法是目前應用最為廣泛的一種推薦算法,然而隨著網絡上資源數量的迅速積累,協同過濾算法常常面臨數據稀疏、冷啟動等問題。在協同過濾算法中引入語義,可以緩解協同過濾算法所面臨的數據稀疏和冷啟動問題,是一種有效提高推薦效率的方法。隨著社會化標注的進行,形成的標簽集對資源的內容或語義進行了揭示[1]。現在已經有了一些利用社會化標注系統中標簽間的語義關系來緩解協同過濾算法所面臨的數據稀疏和冷啟動問題的研究。

1 基于社會化標注的協同過濾算法

本文的算法依據標簽共現矩陣以及標注頻率建立標簽樹,結合標簽共現矩陣以及標簽樹結構綜合確定標簽之間的綜合語義相似度,依據資源的標注情況以及標簽間的語義相似度來計算資源間的語義相似度,并用資源語義相似度對用戶的評分矩陣進行填充,用填充后的用戶評分矩陣來找尋用戶的鄰近用戶,從而實現資源的推薦。

1.1 標簽樹的構建 本文在Paul H 等[4]提出的標簽樹的構建方法上,依據標簽間的相似度以及標簽標注的資源數量來實現標簽樹的構建。標簽的相似度計算方法有很多,其中基于標簽共現的標簽相似度計算是使用的非常多的一種。標簽共現是指兩個不同標簽對于一個相同的資源進行標注,而這種共現關系表明兩個標簽之間存著某種程度上的語義關系,對于標簽相似度大于一定閾值的一個標簽對,則認為其存在語義關系。在知識分類體系中,父概念比子概念的內涵更抽象,外延更廣泛,在標簽間樹的構建過程中,即認為父標簽會比子標簽標注更多的資源。標簽樹的構建包括以下步驟:數據預處理及標簽篩選、建立基于共現的標簽相似度矩陣、建立標簽樹。

1.1.1 數據預處理及標簽篩選 由于社會化標注大多是在無監督的情況下進行的,具有不規范性。因此需要對標注數據進行預處理,包括對標注數據中的大小寫進行統一,刪除不能識別的字符,并對同義詞、縮寫等進行合并等。在數據預處理后,篩選出用于構建標簽樹的標簽。

1.1.2 建立基于共現的標簽相似度矩陣 對于篩選出的標簽集合,建立維度為n×n的標簽共現矩陣O,n為篩選出的用于構建標簽樹的標簽的個數。

由于兩兩標簽的使用頻次會對他們的共現頻次產生影響,難以反應兩個標簽之間真正的語義關系,為了消除標簽的熱門程度帶來的影響,引入Ochiia系數將標簽共現矩陣O 轉換成標簽相似度矩陣,從而反映出標簽間的實質性共現關系,計算公式如下:

隨著資源數量的增加,用戶評價過的資源往往只占資源總量的一小部分,尤其是新用戶,因此用戶矩陣往往面臨數據稀疏的問題。通過引入資源間的語義關系,可以對用戶未評價過的資源的評價情況進行預測。

1.2.1 標簽綜合語義相似度計算 在將標簽構建成標簽樹后,標簽之間具有了一定的語義結構。本文使用梁俊杰[5]等提出的語義相似度計算公式來計算標簽樹中各標簽的基于結構的語義相似度。

結合基于共現的語義相似度以及基于結構的語義相似度,來計算標簽間的綜合語義相似度,計算公式如下:

其中S(i,j)代表標簽i和標簽j之間的綜合相似度,S1(i,j)代表標簽i和標簽j之間基于共現的語義相似度,S2(i,j)代表標簽i和標簽j之間基于結構的語義相似度,α為調節系數。

1.2.2 資源語義相似度計算 由于資源的標注情況反應了資源的屬性,因此可以依據標注于資源的標簽來對資源進行分類,分類步驟如下:

(1)篩選出標注于資源的標簽中屬于標簽樹且標注次數大于閾值的標簽,組分該資源的分類標簽集。

(2)若篩選出的標簽在標簽樹中為父子節點,則選擇在標簽樹中層級最深的標簽作為該資源的類。

資源分類后,按照資源的分類結果計算資源間的語義相似度,計算公式如下。

3 算法驗證

3.1 實驗數據 實驗采用Movielens的電影-評分數據集中用戶對于電影類目為Sci-Fi的電影的評分,由于要通過電影資源的社會化標注信息來對電影資源進行分類,因此篩選出213個被標注次數大于10次的電影資源,并篩選出進行評分次數大于10次的3047個用戶。即實驗數據集中包含3047個用戶對于213個電影資源的99364條電影評分,評分分數為1~5分。將其中80%的數據用作訓練集,20%的數據用作測試集,驗證本文算法。

其中N 為預測的資源評分集合,pi為該資源的預測評分,ri為該資源的實際評分,lenth(N)為集合N的長度。

3.3 實驗結果 為了驗證本文算法的效果,選取傳統的基于用戶的協同過濾算法與本文算法進行比較。圖1是當最鄰近值K取不同值時各算法MAE的大小對比。

圖1 K取不同值時各算法MAE的大小比較

由實驗結果可知,無論K 取何值,本文的算法的MAE值要遠低于傳統基于用戶的協同過濾算法。這表明本文算法能有效緩解數據稀疏何問題,從而提高推薦效果。

4 結語

本文提出了一種基于標簽共現和標注頻率建立標簽樹的方法來挖掘標簽間的語義關系,并通過資源的標注情況以及標簽間的語義關系來確定資源間的語義關系,并將這種語義關系與傳統的協同過濾算法相結合,來對用戶評分矩陣進行填充的推薦算法。通過在Movielens數據集上對本文提出的算法進行驗證,實驗結果證明本文提出的算法能夠有效提高推薦效果。但本文算法也存在一定的局限性,一方面在標簽語義挖掘的過程中標簽可能會存在一詞多義的問題,后續可以與連邊社團檢測算法進行結合。另一方面本文只考慮了資源間的語義相似度,而用戶之間也存在語義相似度,后續可以綜合考慮用戶和資源的語義相似度來對算法進行進一步改進。

猜你喜歡
語義資源用戶
基礎教育資源展示
一樣的資源,不一樣的收獲
語言與語義
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認知范疇模糊與語義模糊
主站蜘蛛池模板: 91视频青青草| 亚洲国产日韩一区| 无码高潮喷水在线观看| 国产精品无码影视久久久久久久| 免费人成视频在线观看网站| 亚洲精品第五页| 国产日韩精品一区在线不卡| 天天综合天天综合| 成人国产小视频| 91视频区| 激情综合图区| 成人免费网站久久久| 在线观看欧美国产| 老司机精品一区在线视频| 国产乱人乱偷精品视频a人人澡| 午夜a视频| 国产精品视频导航| 国产91无毒不卡在线观看| 欧美日韩一区二区在线播放| 亚洲一本大道在线| 国产精品视频猛进猛出| 国产真实乱子伦视频播放| 国产美女叼嘿视频免费看| 欧美黑人欧美精品刺激| 中文字幕在线播放不卡| 亚洲天堂网在线播放| 亚洲第一黄片大全| 伊人激情综合| 色久综合在线| 四虎永久免费在线| 国产网站免费| 欧美在线伊人| 黄色污网站在线观看| 国产爽歪歪免费视频在线观看| 成人午夜久久| 99伊人精品| 亚洲欧美一区二区三区麻豆| 香蕉视频在线观看www| 国产玖玖视频| 亚洲精品大秀视频| 欧美无遮挡国产欧美另类| 日韩不卡高清视频| 亚洲成年人网| 欧美激情成人网| 欧美激情二区三区| 在线观看亚洲国产| 狠狠色狠狠色综合久久第一次| 无码久看视频| 国产成人凹凸视频在线| 亚洲天堂2014| 亚洲—日韩aV在线| 国产激情无码一区二区免费| 欧美成人午夜影院| AV无码国产在线看岛国岛| 亚洲永久色| 欧美高清三区| 91无码网站| 色综合狠狠操| 天堂网国产| 久久人人97超碰人人澡爱香蕉| 区国产精品搜索视频| 无码专区国产精品第一页| 国产一国产一有一级毛片视频| 日本人又色又爽的视频| 亚洲区欧美区| 欧美激情,国产精品| 久久黄色视频影| 亚洲色偷偷偷鲁综合| 久久久黄色片| a毛片在线免费观看| 国产尹人香蕉综合在线电影| 色婷婷综合激情视频免费看| 亚洲国产精品VA在线看黑人| 无码高潮喷水在线观看| 亚洲国内精品自在自线官| 亚洲αv毛片| 国产美女91视频| 欧美黄网在线| 国产91特黄特色A级毛片| 欧美成人亚洲综合精品欧美激情| 国产无码网站在线观看| 亚洲Av综合日韩精品久久久|