999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的標簽推薦系統設計

2015-04-16 01:30:14
電腦與電信 2015年7期
關鍵詞:語義單詞用戶

諶 頏

(廣東技術師范學院天河學院,廣東 廣州 510540)

1 引言

隨著云計算和互聯網+時代的到來,信息呈爆炸式增長,信息超載問題越來越突出,用戶從海量數據中獲取感興趣的信息越來越困難,大大降低了信息的使用效率。個性化推薦技術作為一種重要的信息過濾手段,能有效地為用戶推薦感興趣的資源,協同過濾推薦雖然是迄今為止最為成功的個性化推薦技術之一,但因其不能準確理解用戶的喜好,從而影響到推薦的準確率及推薦效果。本文研究的標簽推薦技術是基于用戶、資源和標簽三者建立動態關系,從而可以實現對用戶喜好的標注和理解。

由于傳統推薦技術在處理大數據量甚至海量信息時計算性能表現差,而云計算具有超大規模以及分布式處理架構等特點,適合大數據量計算處理,基于此提出了一種基于Hadoop的標簽推薦系統:我們將大數據集和推薦計算功能分布到多臺計算機上并行處理,可大大提高推薦系統的處理性能和可伸縮性。

2 基于語義的標簽推薦系統

2.1 系統框架

對標簽的語義分析可以提高資源推薦的準確性,該系統框架可對標簽的含義進行處理,其過程包括標簽整理、建立標簽庫以及標簽選擇,最后建立起基于標簽的用戶喜好模型。系統框架圖如圖1所示,其中最重要的是組件是推薦引擎和用戶喜好模型兩部分。

圖1 基于語義的標簽推薦系統框架

2.2 建立用戶喜好模型

(1)標簽結構分析

標簽是一種由用戶支配的目錄內容管理方式,用戶不受外部系統的影響,可自由標注任何標簽,但這種自由也帶來了諸多問題:

第一,不同的標簽可能具有相同含義。

第二,近義詞或是同義詞的存在。

第三,單詞拼寫錯誤。

第四,不同語境單詞含義不同。例如標簽“蘋果”,可能是水果中的蘋果也可能“蘋果”設備。

第五,標簽可能是單詞、詞組或句子。從現有MovieLens中的數據可知有超過一半的標簽是句子或短語。

(2)標簽整理

首先要對無效的標簽進行清理,識別并過濾掉因惡意用戶或惡意行為而產生的標簽,以建立規范的標簽庫。針對上述五個問題需要做以下針對性的整理工作:

第一個問題的處理:針對于詞的不同形式,如名詞的單復數形式,動詞時態問題等同根詞匯,采用Porter算法合并具有同根的單詞;

第二個問題的處理:查近義詞詞典,對詞義類似的單詞進行合并;

第三個問題的處理:采用Santanjeev Banerjee算法,根據上下文含義對同名標簽進行消歧處理;

第四個問題的處理:采用有效的單詞檢查算法,糾正單詞拼寫錯誤;

第五個問題的處理:增加句子的相似度算法,以滿足不同長度標簽的計算需要。

(3)標簽選擇

一種是隱式標簽選擇算法,即用戶無需關心哪些標簽重要哪些不重要,系統會根據對標簽的觀察來決定,此方法依賴于系統。

另一種是顯性的標簽選擇算法。標簽的重要性由用戶來決定,此方法依賴于用戶。

本設計中使用的是標簽數量方法,即某一標簽被使用次數越多,我們就認為這個標簽越重要。MovieLens實驗數據也證明了此方法具有較高的推薦準確度。

(4)基于標簽推薦系統用戶喜好模型

經過標簽整理和選擇流程后,系統獲得了一組質量較好的標簽,系統對這組標簽進行組合后建立起用戶喜好模型。

用戶喜好模型的數據源來源于用戶與標簽之間的交互行為,一般包括添加、瀏覽和搜索等三種。

第1步,按照一定比重選擇與這三種交互行為有關聯的標簽,得到一組候選標簽向量,記為VC={C1,C2,….,Cm},該比重可根據實際情況做出調整;

第2步,使用標簽數量法,從候選標簽向量VC的m個元素中選出n個最重要質量最高的標簽,作為用戶喜好標簽向量V={T1,T2,…,Tn};

第3步,定期對用戶喜好標簽向量進行更新,重復前面兩步。

2.3 標簽推薦系統的推薦算法

推薦算法的核心工作就是找到準確的相似對象,而查找準確的相似對象依賴于計算相似對象所用的相似算法。目前基于標簽的推薦系統多是采用傳統協同過濾推薦算法,如Cosine相似度算法,Pearson相似度算法,然而這些算法僅僅計算兩個空間向量的相似度。

標簽本身具有豐富的語義信息,本設計采用基于語義相似度的算法,以此來理解用戶行為含義,不僅有利于項目資源的推薦,也有利于增強用戶對系統的信任。取用戶u喜好的標簽集合u-pref-tags和與項目資源最相關的標簽集合i-reltags之間的相似度值算法如下:

ss-rec(u,i)=sim-sentences(u-pref-tags,i-reltags)

其值即為用戶u未購買項目i的預測評分。

3 基于Hadoop的標簽推薦系統

3.1 云計算

云計算是一種能提供動態資源共享池、虛擬化和高可用性的計算平臺,具有數據高可靠性、可擴展性和經濟性等特點。Hadoop是一種基于批處理技術的開源云計算平臺,主要由存儲基礎Hadoop分布式文件系統HDFS(Hadoop Distrubuted File System)和核心計算基礎Map/Reduce兩個主要子項目構成。本研究利用本學院網絡中心提供的計算機網絡環境搭建云計算平臺,其框架如圖2所示,其計算模型如圖3所示。

圖2 Hadoop云計算框架

圖3 基于Hadoop的云計算模型

3.2 基于Hadoop的推薦引擎

以Hadoop云計算平臺為基礎,設計了基于Hadoop的標簽推薦系統,系統結構如圖4所示。根據Hadoop框架體系,集群可以分成兩大類角色:主節點(MasterNode)和從節點(SlaveNode)。其中主節點由JobTracker、NameNode、推薦算法引擎庫、JavaApplication等組成;從節點由DataNode、Task-Tracker組成。其中主節點負責算法實現、作業調度,從節點負責實際的計算和存儲工作,主節點一個,從節點可以多個。

圖4 基于Hadoop的標簽推薦系統

NameNode負責將文件系統的Metadata存儲到內存中,主要存儲了每一個文件塊到DataNode的映射信息。DataNode是文件實際存儲的基本單元,它將文件塊存儲在本地系統中,并保存文件塊的Metadata。推薦算法引擎庫包含了標簽推薦算法和批處理算法,基于云計算的分布式特點,對需要并行執行的算法采用MapReduce編程模型進行重新設計,并將其存入MasterNode的算法庫中然后JobTracker會自動將這些分布式算法分發至各SlaveNode,供TaskTracker執行時調用。設計批處理算法時采用Java語言實現,該算法負責從數據庫服務器中抽取用戶行為數據,形成HDFS文件,交給分布式推薦算法引擎處理,最后再將推薦結果回寫到數據庫服務器的相關表中。JobTracker和TaskTracker采用主-從工作模式,JobTracker負責啟動、跟蹤和調度各個SlaveNode的任務執行;TaskTracker負責在SlaveNode上對本地數據進行處理,并將狀態和結果報告給JobTracker。

因此,從功能上看,NameNode、DataNode、DBServer屬于系統存儲部件,JobTracker、推薦引擎算法庫、TaskTracker、Java Application則構成了系統計算部件。整個系統使用普通PC作為硬件設備,內部的節點之間使用千兆以太網交換機連接,以Hadoop 1.0.2作為基礎,搭建在CentOS 5.5之上。

4 云計算環境實驗方案

(1)Hadoop集群配置

基于以上要求,在本研究實驗中,將分別對1臺Master+3臺Slave、1臺Master+4臺Slave和1臺Master+5臺Slave三種Hadoop集群組合進行實驗對比。

(2)實驗數據集

語義相似度算法實驗數據集擬采用Rubenstein和Goodenough的“上下文相似和同義相似的關系”調查項目中的65對單詞數據集,語義詞典軟件則使用基于WordNet2.1軟件包。

推薦系統驗證實驗中可以采用MovieLens的數據集,該數據集是美國明尼蘇達大學開發的一個基于Web的研究型推薦系統,通過用戶對電影的評分進行電影推薦,網站公布了三個很有價值的數據集;也可以采用Netflix對外發布的電影評分數據集;還可以采用HP/Compaq的DEC研究中心對外發布的EachMovie數據集等。

與傳統推薦算法相比,本研究提出的基于Hadoop的標簽推薦算法的具有更高的推薦準確度,系統具有較高的伸縮性和性能。

5 結束語

本文提出了基于Hadoop的標簽推薦系統的設計方案,重點介紹了用戶喜好模型的建立,設計了基于Hadoop的標簽推薦算法的系統結構。標簽語義相似度的計算較好地解決了系統對用戶喜好的理解問題,Hadoop平臺使系統具有了較高的伸縮性,并解決了傳統推薦技術在大數環境下計算性能不足的問題。

[1]李玉林.基于Hadoop的MapReduce模型的研究與改進[J].計算機工程與設計,2012,8:3112-3114.

[2]崔林,宋瀚濤,陸玉昌.基于語義相似性的資源協同過濾技術研究.北京理工大學學報,2005,25(5):402-405.

[3]諶頏.使用分類改進標簽推薦系統準確度的研究[J].微電子學與計算機,2011,5:96?93.

[4]劉建國,周濤,汪秉宏.個性化推薦系統的研究進展[J].自然科學進展,2009,19(1).

[5]李文海,許舒人.基于Hadoop的電子商務推薦系統的設計與實現[J].計算機工程與設計,2014,1:130-134.

猜你喜歡
語義單詞用戶
語言與語義
單詞連一連
看圖填單詞
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認知范疇模糊與語義模糊
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
最難的單詞
主站蜘蛛池模板: 欧美亚洲一区二区三区导航| 国产成人a在线观看视频| 99精品在线视频观看| 精品久久久无码专区中文字幕| 在线视频亚洲色图| 欧美日韩综合网| 亚洲品质国产精品无码| 免费一级毛片在线播放傲雪网| 免费国产黄线在线观看| 国产成人91精品| 狠狠五月天中文字幕| 凹凸国产分类在线观看| 日本道综合一本久久久88| 亚洲无码91视频| 欧美人人干| 无码高潮喷水专区久久| 日韩精品一区二区三区免费在线观看| 国产美女精品一区二区| 亚洲综合中文字幕国产精品欧美| 亚洲精品不卡午夜精品| 网友自拍视频精品区| 91在线播放免费不卡无毒| 欧美自慰一级看片免费| 国产又爽又黄无遮挡免费观看 | 欧美在线三级| 亚洲欧美成aⅴ人在线观看| 国产青榴视频在线观看网站| 国产一级二级在线观看| 中国国产高清免费AV片| 免费国产小视频在线观看| 日本AⅤ精品一区二区三区日| 国产乱子伦一区二区=| 国产97视频在线观看| 国产原创自拍不卡第一页| 婷婷99视频精品全部在线观看| 91香蕉视频下载网站| 国产成人精品一区二区| 国产在线八区| 国产成人精品视频一区二区电影| 91青青视频| 亚洲网综合| 亚洲人成亚洲精品| 国产成人一区在线播放| 国产成a人片在线播放| 国产精品吹潮在线观看中文| 亚洲精品你懂的| 亚洲动漫h| 日韩中文无码av超清| 亚洲人成在线免费观看| 日韩第八页| 丁香婷婷激情网| 亚洲综合激情另类专区| 久久久久久国产精品mv| 国产一区二区三区日韩精品| 深夜福利视频一区二区| 久久一级电影| 欧美日韩高清| 亚洲精品在线影院| 欧美高清视频一区二区三区| 2019国产在线| 美女黄网十八禁免费看| 97在线免费| 18禁不卡免费网站| 国产三级毛片| аv天堂最新中文在线| 国产中文一区a级毛片视频| 99热线精品大全在线观看| 在线五月婷婷| 91外围女在线观看| 国产精品久久久久久久伊一| 无码又爽又刺激的高潮视频| 成人免费视频一区二区三区| 亚洲一级无毛片无码在线免费视频 | 亚洲欧美另类久久久精品播放的| 人妻精品久久无码区| 一级成人a做片免费| 国产成人精品第一区二区| 中文字幕免费视频| a级高清毛片| 国产免费a级片| 熟妇丰满人妻| 国产一在线观看|