999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

云計算環境中資源優化推薦技術研究

2016-04-12 00:00:00呂曉晴
現代電子技術 2016年21期

摘 要: 隨著系統規模的不斷擴大和數據獲取量的指數級增長,在傳統推薦系統的冷啟動、精確性、擴展性等問題嚴峻化的同時,實時性問題亦成為面向海量數據推薦系統新的瓶頸點。基于傳統推薦領域的主流算法,提出了一個擴展向量推薦模型。根據擴展模型對推薦算法中對象的向量進行合理擴展,通過相似度計算等過程動態選取推薦集,完成對目標對象更精確的推薦。實驗結果表明,與傳統推薦算法相比,基于新模型的推薦算法可以顯著地提升推薦效果,成功克服冷啟動問題。

關鍵詞: 擴展向量推薦模型; 協同過濾; Slope One; ALS?WR; 分布式計算

中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)21?0024?05

Research on resource optimization recommendation technology

in cloud computing environment

Lü Xiaoqing

(Huihua College of Hebei Normal University, Shijiazhuang 050000, China)

Abstract: With the continuously extending of the system scale and exponential order increase of data acquisition quantity, the problems of cold start?up, accuracy and scalability of the traditional recommendation system are severe, and the real?time problem becomes a new bottleneck of the massive data recommendation system. On the basis of the mainstream algorithm in the traditional recommendation field, an expand?vector recommendation model is put forward. The object vector in recommendation algorithm is expanded reasonably according to the extended model. The recommendation set is selected by means of the similarity calculation and other dynamic processes to recommend the accurate target object. The experimental results show that, in comparison with the traditional collaborative recommendation algorithm, the recommendation algorithm based on this new model can promote the recommendation effect significantly, and overcome the cold start?up successfully.

Keywords: expand?vector recommendation model; collaborative filtering; Slope One; ALS?WR; distributed computing

0 引 言

由于推薦系統應用的普及,提高系統的用戶體驗一直是各個系統應用不斷的追求。由于推薦系統中的推薦算法在運行過程中涉及大量的數據計算過程,而海量數據環境下,運算所需的時間越來越大,實時完成系統應用是面向海量數據推薦系統的瓶頸點。面對海量數據的存儲,常用數據庫早已超出負荷,系統的可擴展性問題也日益凸顯。針對其瓶頸點,很多研究方案被提出,但將精度、實時性和可擴展性同時完美的融合在一個系統中是該領域一直以來面臨的挑戰。

針對傳統推薦算法面向海量數據時的可擴展性和數據稀疏性問題,基于分布式環境下的數據挖掘和并行處理技術,本文除對推薦算法本身進行優化改進外,提出了一種基于Hadoop分布式平臺完成推薦算法分布式實現的改進方案,即使用對海量稀疏數據具有良好支持的HDFS來存儲用戶交互矩陣并將其作為數據源,同時基于MapReduce分布式計算框架,將推薦算法的計算任務均衡地分配給Hadoop集群內的每臺機器,從而有效地提高推薦算法的執行效率,同時在大規模分布式數據計算點,再次有效地將GPU引入進行輔助計算。

1 基于擴展向量的推薦模型

將新模型具體應用在基于項目的協同過濾推薦算法中,優化后的算法流程如下:

擴展向量:基于新模型對項目的特征向量進行擴展,即可得項目的擴展特征向量表示為:

[eitemj=p(1,j),p(2,j),…,p(m,j),aitemj,1,aitemj,2,…,aitemj,q] 式中:[eitemj]表示第[j]個項目對應的擴展特征向量,[1≤j≤M,][M]為站點中的項目集合[I]的總數;[p(i,j)]表示第[i]個用戶對第[j]個項目的偏好值,[l≤i≤N,][N]為站點中的用戶集合[U]的總數;[aitemj,k]表示第[j]個項目本身具有的第[k]個屬性值,[l≤k≤Q,Q]為站點中項目的屬性個數。所述偏好值可以代表系統中用戶對項目的評分大小、評論長短、購買與否以及瀏覽次數等信息。所述項目屬性值可以是項目本身具有的項目內容、類別、價格、年份、適用人群,產地等屬性信息。同理,用戶的擴展特征向量可以表示為:

[euseri=p(i,1),p(i,2),…,p(i,n),auser(i,1),auser(i,2),…,auser(i,r)]

式中:[euseri]表示[useri]的擴展特征向量,[l≤i≤N,][N]為站點中的用戶總數,[p(i,j)]表示第[i]個用戶對第[j]個項目的偏好值;[auser(i,k)]表示第[i]個用戶本身具有的第[k]個屬性值,[l≤k≤R,R]為站點中用戶相關屬性的個數。具體的,所述用戶屬性值可以包括年齡段、性別、專業類別等。

最近鄰搜索:最近鄰搜索意味著尋找目標項目的最相似鄰居。所有的相似度計算基于擴展特征向量和相似性度量方法展開,優化后的相似性度量方法具體如下所示:

基于歐式距離的相似度,如下:[sim′(j,j)=11+(pij-pij)2+(aijk-aijk)2] (1)

基于谷本相關的相似度,如下:

[sim′(j,j)=Uj?Uj+Aj?AjUj?Uj+Aj?Aj] (2)

式中:[sim′(j,j)]表示對象[j]和對象[j]的擴展特征向量之間的相似度,其相似度計算方法基于擴展向量展開。其中,基于項目的協同過濾算法即為計算候選被推薦項目與其他項目的相似值,[itemj]和[itemj]代表兩個不同的項目,[Uj]代表對[itemj]給出評分的用戶集合,[Uj]代表對[itemj]給出評分的用戶集合,[Aj]意味著itemj的屬性信息集合,[Aj]意味著[itemj]的屬性信息集合。由于項目的擴展特征向量考慮了項目本身具有的屬性信息,使其參與相似度計算的向量更加精確,所以在理論上相似度是更加準確的。完成所有相關的計算后可以得到項目的相似矩陣。而且基于sim,項目的最近鄰居也被獲取到。

得到預期偏好矩陣:計算候選推薦項目的預測評分值,如下:

[R′(u,j)=1Iuj∈Iusim′(j,j)p(u,j)] (3)

式中:[R′(u,j)]用來評估用戶[useru]對[itemj]的偏好值,其計算基于目標項目的最近鄰的偏好值;[Iu]代表對用戶[u]給出過偏好值的item集合。

做出推薦:對候選推薦對象的推薦值[R′(u,j)]按照從大到小的順序進行排序。選取前[W]個項目推薦給用戶[useru,][W]是人為設定的某一正整數。經過上述操作步驟,即可完成新模型在基于項目的協同過濾推薦模型的應用。

2 云計算環境下大數據的推薦系統設計

2.1 系統的體系結構

不同時期的推薦系統,面對的數據量也有質的不同,從幾十條記錄到現在的一千萬條記錄,單機的推薦系統已無法滿足其處理需求。

面向海量數據的推薦系統的架構如圖1所示,其構建于物理集群之上,基于本地數據庫和推薦算法的使用,為用戶提供注冊、節目推薦和節目交互等功能,其中節目交互包括新節目的推薦榜單、熱播節目的榜單、用戶對節目評分,以及用戶可以獲取對其產生的推薦列表等功能。其中系統將服務工程中產生的數據存儲在文件中,并部署在HDFS上,并運用Map?Reduce并行計算框架和CUDA并行計算框架處理系統運行過程面對的海量數據處理問題,最終高性能、高質量的完成系統的各個功能,提高用戶的體驗。所以,從下至上,系統的體系結構分為三成:物理資源層、數據處理層(存儲和計算)和應用層。

2.2 系統的數據支撐平臺的設計

系統的數據支撐平臺的設計如圖2所示。對于面向海量數據的推薦系統,在用戶數量較多的情況下可以對其按照地域進行分區存儲,將系統應用層涉及的目標用戶的最終推送數據存儲在目標用戶對應的地域數據庫中。本地數據庫對應的數據庫表增加分區partition即可。這些數據庫可以部署在不同的地域。對于每一個用戶,其對電影的評分信息存儲在分布式文件系統中,分布在該地域的Hadoop集群上。因為大多數對數據庫的訪問操作都具有局部性,所以,通過地域進行劃分,降低了數據傳送的代價,而且當網絡出現故障時,仍然允許對局部數據庫的操作。

由于底層采用HDFS,所以可以存儲海量數據、也便于擴充。利用地域進行數據分區,對用戶推薦的同時間接考慮了地域文化,一方水土孕育一方文化,一方文化造就一方人的性格,利用人性格的地域同一性使得對用戶的推薦更加準確。

2.3 系統的智能推薦模塊設計

(1) 推薦算法的選擇

系統采用提出的新混合算法,即基于項目的Slope One分布式推薦算法,對應于混合推薦算法文本框。此外,本系統還采用了基于雙重相似的協同過濾推薦算法、ALS?WR多種推薦算法彼此并行運行。對于系統提供的功能,采用多種算法呈現結果,可以最大程度地消除冷啟動問題,同時可以為用戶提供更為豐富的推薦列表供其選擇,最大程度地滿足用戶的需求。

(2) 數據預處理模塊

數據預處理模塊的功能分為兩類:一種是對從系統功能層取得的數據進行優化整合并轉化成算法需要的數據源格式存儲在數據支撐平臺的HDFS上;第二種是將推薦算法所需要的數據從數據支撐平臺獲取,進行相應的優化整合轉化成算法所需要的二次數據源,供算法運行過程中使用。由于數據預處理過程中涉及的數據處理可以分為離線進行和在線進行兩種,所以提高數據支撐平臺利用率的同時也減小了系統的在線負載。其中可以離線進行處理的數據,比如對HDFS上的數據進行定時更新、選擇性存儲并更新算法運行過程中產生的臨時文件以供下次使用,比如項目與項目之間的相似性文件等。

(3) 算法運行模塊

算法運行模塊功能為運行基于Hadoop的推薦算法。其中輸入為數據庫中經過數據預處理得到的數據源,比如,系統指定格式的用戶對項目的評分數據。輸出是系統各項功能中所需的數據,比如對目標用戶的具體的推薦項目列表。

3 推薦結果評估及系統實現

仿真實驗對三種推薦算法分布式實現的實驗結果進行呈現和分析,具體包括評估標準的介紹、實驗數據集的選取以及不同維度推薦效果的對比。

本文取用GroupLens實驗室提供的MovieLens 100K,1M以及10M數據集,其中分別包含了十萬條,一百萬條和一千萬條用戶的偏好記錄。這些信息記錄是從1997年9月19日—1998年4月22日,7個月時間里MovieLens網站(movielens.umn.edu)的用戶對電影的真實評分。使用這些不同大小的數據集可以很好地測試基于新模型的三種推薦算法分布式實現的實際性能。

3.1 推薦結果比較

為對比不同推薦算法基于新模型的推薦結果,在一個小型HOD集群上進行了驗證。實機配置為:Dell Power Edge SC1430,英特爾至強5110(1.6 GHz)CPU兩顆(雙核),4 GB物理內存,300 GB硬盤(RAID 0模式),都處在100M局域網中。使用3臺實機搭建Hadoop集群,三臺實機分別作為pbs_server,namenod和datanode節點。在所有的節點上安裝Python 2.5.1以及Hadoop發行版本的可執行程序。依次使用GroupLens三個數據集在實驗集群上進行測試。

3.1.1 不同推薦算法使用新模型前后的比較

使用MovieLens 100K數據集,分別運行三種推薦算法的分布式實現,得到使用新模型前后算法的準確率和召回率的對比實驗結果,如表1所示。

由表1可以看出,新模型的應用使推薦算法的準確率和召回率都得到了不同程度的提升。所以基于擴展向量的推薦模型可以在一定程度上解決推薦算法在精度方面的問題。另外,三種推薦算法的成功應用也說明了新模型廣泛的適用性。

3.1.2 基于新模型的不同推薦算法的比較

為了得到基于新模型的三種推薦算法的對比性能,本實驗分別使用MovieLens 100K和1M數據集來運行三種算法的分布式實現,將得到的關于精準度和運行速度兩方面的實驗結果直觀地呈現在表2~表4和圖3,圖4中。

通過圖3,圖4可以得出,基于新模型的ALS推薦算法的準確率最高,基于新模型的Slope One推薦算法的召回率最高,而協同過濾推薦算法在準確率和召回率兩方面都處于較低水平。綜合考慮準確率和召回率兩個方面,可以得出基于新模型的ALS推薦算法的精準度最好,基于新模型的Slope One推薦算法次之。同時,由表4可以得出,協同過濾推薦算法的運行時間最短,與其他兩個算法相比,有質的飛躍。

3.1.3 關于冷啟動的解決

針對三種推薦算法關于解決冷啟動的理論,可以采用MovieLens 100K數據集對其進行實驗驗證。針對數據集中有歷史評分的項目對象,隨機選取20個將其評分數據變為0。運行三種推薦算法,得到對實驗對象的預測評分,與原始評分進行對比,得到準確率,實驗結果如表5所示。

根據實驗結果可以得出,新模型的使用使三種推薦算法都成功地解決了冷啟動問題。而且三種推薦算法對基于項目的協同過濾推薦算法的應用最為成功。所以新模型可以在一定程度上解決傳統推薦算法的冷啟動問題。

3.2 推薦效果綜合總結

將推薦結果的評估和算法的復雜度以表格的形式呈現,即可得到如表6所示的內容。

從表6中可以得出以下結論:協同過濾推薦算法雖然在商業實際應用中較為流行,但是其推薦精度次于其他兩種算法;ALS?WR推薦算法雖然推薦的精準度較高,但是面向海量數據,其分布式實現中涉及的[U]和[M]會非常巨大,運行時要將它們放入內存,極大地影響了程序的運行效率。而且,算法中含有循環,由于Hadoop在處理循環時性能不夠好,所以在運行過程中,此算法的性能不如其他兩種算法。

Slope One推薦算法的推薦精度、冷啟動的解決、運行速度均為三種算法的折中水平,但是其實現原理較為簡單,所以實現復雜度較低。三種推薦算法中,基于項目的協同過濾的運行速度最優,從實驗結果中可以得出,相對于其他兩種算法,它有很大的優勢。

4 結 論

本文通過對現有個性化推薦算法的研究,提出了基于擴展向量的推薦模型,并基于Mahout中的組件對三種算法進行模型的具體應用和分布式實現,三種算法具體為Slope One推薦算法、ALS推薦算法和基于項目的協同過濾推薦算法。實驗結果表明,新模型的應用能顯著提高推薦效果,并且解決了推薦算法常有的冷啟動問題。

針對云計算環境下大數據的推薦系統,采用分布式文件系統對數據進行存儲,從而實現大數據負載均衡存儲的功能。另外,分數據數據庫的設計中使用地域對其進行數據庫分區,此方法間接考慮了地域文化對人的性格和品位的影響,即利用一個地區的人的性格的同一性,間接達到推薦結果更優的效果。針對面向海量數據推薦系統的精確性問題,基于協同過濾算法和Slope One推薦算法,提出了一種新的混合算法,即基于項目的Slope One分布式推薦算法,并將其分布式實現應用于推薦系統中。針對海量數據處理,使用基于Hadoop的云計算平臺的同時,針對一些巨大矩陣運算,采用GPU計算框架完成其并行化實現。云計算和GPU技術的融入緩解了面向海量數據推薦系統面臨的擴展性和實時性問題。

參考文獻

[1] 相海泉.迎接大數據時代[J].中國信息界,2013(5):38?42.

[2] 趙衛中,馬慧芳,傅燕翔,等.基于云計算平臺Hadoop的并行k?means聚類算法設計研究[J].計算機科學,2011,38(10):166?168.

[3] 曹潤濤.基于Hadoop的移動感知系統的設計與實現[D].西安:西安電子科技大學,2012.

[4] SU H Y, WANG C Q, ZHU Y, et al. Distributed collaborative filtering recommendation model based on expand?vector [C]// Proceedings of 2014 International Conference on Multisensor Fusion and Information Integration for Intelligent Systems. [S.l.]: IEEE, 2014, 989?994.

[5] 朱保華,張曉濱.移動用戶餐飲個性化需求推薦研究[J].現代電子技術,2015,38(11):13?15.

[6] 任品.基于置信用戶偏好模型的電視推薦系統[J].現代電子技術,2014,37(16):30?33.

[7] OWEN S, ANIL R, DUNNING T, et al. Mahout in action [M]. US: Manning, 2011.

[8] 邵澤云,劉正岐.云計算關鍵技術研究[J].信息安全與技術,2014,5(4):24?25.

主站蜘蛛池模板: 最新亚洲人成无码网站欣赏网 | 亚洲一区二区三区麻豆| 亚洲精品国产精品乱码不卞| 国产黑丝视频在线观看| 久久无码免费束人妻| 午夜国产在线观看| 国产精品亚洲а∨天堂免下载| 国产精品男人的天堂| 91精品啪在线观看国产91| 国产国模一区二区三区四区| 3344在线观看无码| 国产亚洲欧美日韩在线观看一区二区| 无码视频国产精品一区二区| 色欲色欲久久综合网| 高清久久精品亚洲日韩Av| 少妇人妻无码首页| 91精品网站| 国产三级韩国三级理| 在线观看国产黄色| 无码人妻免费| 999国产精品| 在线另类稀缺国产呦| 亚洲乱码精品久久久久..| 午夜三级在线| 亚洲综合精品香蕉久久网| 99er这里只有精品| 中国丰满人妻无码束缚啪啪| 天天色天天综合| 成人在线不卡视频| a天堂视频| 精品国产网| 国产成人精品一区二区秒拍1o | 最新痴汉在线无码AV| 国产精品伦视频观看免费| 欧美天堂久久| 青青极品在线| 精品五夜婷香蕉国产线看观看| 免费中文字幕在在线不卡| 国内熟女少妇一线天| 国产精品所毛片视频| 久夜色精品国产噜噜| 国内精品手机在线观看视频| 久久黄色免费电影| 日韩AV手机在线观看蜜芽| 在线免费看黄的网站| 亚洲欧美日韩另类在线一| 亚洲中文字幕无码mv| 午夜免费小视频| 国产精品观看视频免费完整版| 国产精品lululu在线观看| 国产精品欧美在线观看| 无码专区在线观看| 好久久免费视频高清| 国产精品私拍在线爆乳| 青青青国产视频手机| 91小视频在线| 欧美怡红院视频一区二区三区| 一级毛片不卡片免费观看| AⅤ色综合久久天堂AV色综合| 欧美精品二区| 色男人的天堂久久综合| 婷婷亚洲视频| 国产精品一区不卡| 性欧美久久| 亚洲久悠悠色悠在线播放| 久久99热66这里只有精品一| 色综合五月婷婷| 欧美.成人.综合在线| 韩国福利一区| 国产区精品高清在线观看| 久久视精品| 精品无码一区二区三区在线视频| 国产肉感大码AV无码| 婷婷色在线视频| 国产精品任我爽爆在线播放6080| 国产成人h在线观看网站站| 午夜性爽视频男人的天堂| 91精品久久久无码中文字幕vr| 国产精品福利尤物youwu| 国产午夜不卡| 国语少妇高潮| 亚洲综合网在线观看|