999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

使用隱式數據中的聚類和關聯規則挖掘提高協同 過濾建議的準確性*

2019-06-10 07:00:54王斯鋒朱玉佳祝永志
通信技術 2019年5期
關鍵詞:關聯規則用戶

王斯鋒,朱玉佳,祝永志

(曲阜師范大學 信息科學與工程學院,山東 日照 276826)

0 引 言

由于信息超載問題的增加,在互聯網技術快速發展的時代,推薦系統正變得越來越重要,推薦系統已經成為向用戶提供有用的選定信息的重要機制。它可以有效地幫助用戶作出決定,例如購買產品、選擇觀看電影或做任何其他需要作出選擇或決定的在線活動等。

推薦系統可以在線的用于某些類型的商業活動,例如電子商務(例如,Amazon 1,圖書推薦系統)、在線新聞聚合器(例如,Digg 2)和在線視頻共享(例如,YouTube 3)等等。這是因為互聯網提供了可能對潛在購買者或消費者有用的大量信息(如在線新聞,書籍,文章,音樂,電影和其他產品)。

推薦系統中最成功的技術之一是協同過濾(Collaborative Filtering,CF),其基于志同道合的用戶(稱為鄰居)對項目/產品的明確評級反饋,許多在線公司和商業系統(例如Netflix.com的電影推薦,Amazon.com中的圖書推薦,Last.fm 5中的音樂推薦等)都適用于CF來為其客戶提供建議。CF推薦算法,為用戶提供了最好的結果和準確的建議,即使它具有簡單的算法。

但是,與用戶項目矩陣中的大量用戶和項目相比,用戶對項目的評級比較稀疏,CF會導致了差的推薦(數據稀疏性問題)。在項目缺乏用戶評級的情況下,隱式數據可用于分析用戶的項目偏好。隱性數據可以根據用戶行為的觀察提供更多的證據和信息來指示用戶的偏好。此外,諸如聚類的數據挖掘技術、分類、奇異值分解(Singular Value Decomposition,SVD)、關聯規則挖掘已被應用于推薦系統作為數據稀疏問題的解決方案,在用戶和項目基于明確檢索(用戶評級)或暗示用戶偏好,并獲得最有效的結果的基礎上以提供可能的連接。然而,很少有研究考慮通過關聯規則挖掘來開發推薦系統。關聯規則挖掘仍然存在一些需要根據新興推薦系統來解決的問題。此外,大多數基于聚類的CF技術在聚類過程中僅利用歷史評級信息,而忽略推薦系統中的其他數據資源,例如用戶之間的社交關系交互(標簽或用戶的收聽行為)以及項目之間的相關性。第2節(相關工作提供關于稀疏問題的不同解決方案的更多細節,并分析仍然存在過去的研究中未解決或被忽視的問題。

為了解決數據稀疏問題,文章將項目之間的相關性與用戶數據之間的相關性結合到關聯規則挖掘和聚類技術。提出了一種通過探索和利用由隱式用戶反饋創建的用戶簡檔來改進個性化推薦的CF技術。可以查看聚類技術(分層結構),以便有效地從歌曲的播放記錄中分析用戶的項目偏好以及作為規則挖掘部分的數據維度削減。更重要的是,文章中提出的技術主要集中在交易中使用關聯規則挖掘技術(Apriori算法)與項目重復(每個用戶經常播放/收聽一組項目),這可以增加CF的改進機會。在基于它們的特征來提出建議時,這種技術涉及項目之間的相似性計算。

研究的主要貢獻可以概括如下:

(1)首先,本研究的新穎性是在隱式數據技術中通過應用聚類和關聯規則挖掘來提高稀疏數據中協同過濾建議的準確性。這是第一個在關聯規則(計數問題)中捕獲每個交易多次購買的學術研究,而不僅僅是計算生成總的購買量。為此,實施使用事務中的項目重復分布作為關聯規則挖掘的輸入的修改的預處理以發現類似的興趣用戶之間的模式。

(2)本項研究的另一個獨特之處在于通過關聯規則挖掘有效地處理海量數據以模擬用戶的行為。為了實現這一能力,聚類技術可以被視為關聯規則挖掘部分的數據維數降低。

1 相關工作

CF技術可以分為用戶和項目類型。在基于用戶的CF中,用戶將根據志同道合的用戶的興趣受到建議。在基于項目的CF中,用戶將通過考慮對用戶/項目矩陣中的兩個項目進行評級的用戶,基于比較項目之間的相似度來接受建議。CF技術通過明確要求用戶對滑動尺度的項目進行評估來構建用戶項目評級矩陣。然后,CF使用相似度測量方法根據用戶的評分分數來計算用戶或項目之間的相似度,以便對矩陣的空單元進行預測。在大多數推薦系統中,通過增加項目數量,每個用戶無法在所有可用項目上說明自己的偏好,并且無法對數百萬個項目進行評估。因此,用戶項目矩陣的大部分單元都是空的。 這種情況下,確定類似的用戶或項目(鄰里形成)成為一個挑戰。這是因為兩個用戶或項目之間的相似性無法計算,因為沒有足夠的關于用戶評級的信息,因此推薦準確性變得非常低。

為了克服這個缺點,一些研究人員已經開發了數據挖掘算法,用于過濾不可見項目或采用純評級數據進行預測,如聚類CF模型,維數降低技術,貝葉斯信念網(BN)CF模型,鏈路分析,模式挖掘方法和潛在語義CF模型。特別地,解決CF中數據稀疏的解決方案之一是奇異值分解(SVD)方法通常用于降低CF技術中用戶項目評級矩陣的維度。SVD可以減少用戶項目矩陣中的空間,并通過從用戶項目矩陣中找到隱藏關系來提高評級密度并找到更多的評級。Zhou等提出了一種基于SVD的增量方法,每次重復計算原始矩陣的奇異值分解,以解決稀疏問題和用戶興趣的動態。

Zahra等(2015)提到[1],聚類技術用于降低稀疏評級矩陣的維數。這種技術是基于一個概念,即在一個小的子區域內,用戶往往比整個領域更好地相互聯系。由于聚類子矩陣可能比原始大矩陣更密集,預期可以找到更好的相關性,通過利用用戶/項目矩陣聚類的最大評級數的用戶來改進推薦過程,并找出最相似的質心作為活躍用戶的鄰居。

除了聚類技術之外,關聯規則挖掘技術也被應用于表示用戶在各個領域的興趣以提供推薦模型。這是因為它能夠擴展到大數據集并實現高精度。因此,使用關聯規則挖掘實施CF研究將是進一步研究的一個有趣的領域。此外,以前的研究論文都沒有考慮如何通過采用關聯規則挖掘來有效地處理大量數據從而預測用戶未來的行為。在本研究中,我們采用聚類技術,有效地處理海量數據,通過采用關聯規則挖掘來識別同一組歌曲中用戶之間的相似聽力歷史,并預測用戶的未知偏好。

除了傳統的強調應用算法來改善CF的鄰域形成階段,利用超越用戶/項目矩陣的附加信息源一直是研究人員的重要考慮因素。在用戶和項目之間的交互方面,推薦系統依賴不同類型的輸入數據來提出建議。使用最方便的交互是高質量的明確反饋,其中包括用戶對產品感興趣的明確輸入。例如,Netflix 6收集電影和TiVo用戶的星級,通過按向上/向下按鈕指示電視節目的喜好。然而,明確的反饋并不總是可用。 因此,推薦者可以通過豐富的隱含反饋來推斷用戶的偏好,通過觀察用戶的行為間接反映意見。在隱含反饋的情況下,用戶行為隱含的信息被視為偏好指標,用戶聽,訪問,查看或購買了什么。在這項工作中,我們的數據集包含用戶的音樂聆聽信息和標簽活動等隱含信息,以及歌曲的功能,如標題,藝術家,發行,年份,持續時間等,以獲得用戶對歌曲功能的興趣。

一般來說,根據Nakatsuji和Fujiwara(2014年)的研究,可以更容易地得到“喜歡”或“不喜歡”形式的輔助數據,克服數字評級中CF的數據稀疏性,如喜好/不喜歡數據在Moviepilot以及Last.fm中的愛/禁止數據以及Flixster中的“想看到”/“不感興趣”的數據。用戶更方便地表達這種偏好,而不是數字評級。以前有研究應用這些輔助數據,“是否評級”(Shinde&Kulkarni,2012)或“是否購買”(Cheng&Wang,2014)或“點擊流數據”(Choi et al 2012),以提高推薦準確度。Cheng和Wang(2014)也將模擬采購的隱含數據作為表示品牌忠誠度的用戶側元數據和“購買”用戶項目矩陣,將用戶品牌矩陣的隱含數據做了更改(Cheng&Wang,2014)[2]。

數據挖掘技術已被用于解決稀疏問題,因為它們能夠分析用戶購買行為并發現項目和用戶之間的隱藏關系。因此,有必要采用數據挖掘技術作為稀疏問題的解決方案。此外,預計將分析過去研究中仍未解決或忽視的問題,以開發新的推薦技術。

要注意的是,基于對CF研究的學術研究論文和問題的回顧,很明顯,即使在CF中進行的研究在不同的應用領域取得了很大的發展,音樂,書籍,玩笑和 需要進一步研究的文件推薦系統,特別是新出現的推薦系統應用。因此,為了填補這一空白,音樂,書籍,笑話和文件需要更多的研究。MovieLens數據集已經受到CF的重大研究,因為這個數據集被稱為常見用戶和使用中最著名的例子的數據集,并且很容易。因此,為了填補這個空白,需要更多的研究人員在其他應用領域而不是電影中使用數據集。此外,使用實用解決方案的研究工作每年都在增加用戶對其隱含行為的興趣。不幸的是,很少有研究工作已經被發布,用于從社交網絡活動中吸引用戶的興趣,例如用戶的標簽和音樂聽力信息,以推動推薦。因此,研究人員被驅使開發有效的技術來處理這些隱含的數據。

2 背景理論

本節將簡要介紹CF技術的重要概念。接下來,由于所提出的技術的核心是基于關聯規則挖掘技術,以基于用戶的交互活動(例如(“歌曲”活動))來識別用戶之間的類似興趣模式,將介紹這種技術的簡要說明。

2.1 基于CF的推薦系統概述

基本的CF系統可以分為三個步驟:建立用戶評級矩陣,開發鄰里基礎和評級預測(使用鄰居預測未分類的項目并生成建議)

CF使用用戶評價數據來計算用戶項目矩陣的實體之間的相似度,即用戶或項目。用戶和項目之間的相關性是預測用戶對他/她之前沒有看到的特定項目的評級的決定性因素之一。因此,通過CF設計推薦系統的中心方面是計算用戶或項目之間的相似度,重點是用戶或項目對之間的相關性。將這些類似的用戶或項目稱為最近鄰居,CF預測活動用戶的通過僅使用這樣的社區的評級,而不是整個現有的用戶評級,對未評級項目進行評級。因此,在成功選擇最近鄰居用戶時,CF的準確性受到強烈的影響。

CF中最常見的計算相似度是皮爾遜相關系數(PCC)( 式(1))(Gogna&Majumdar,2015)或余弦矢量相似性(CVS)(式(2))(Acilar & Arslan,2009)[3]。

其中,rxi和ryi是項目i上的用戶x和y的評級。該記號n表示用戶x和y已經評分的所有項目。

當有活躍用戶的類似用戶被選中時,式(1)和式(2),計算預測活躍用戶的偏好未分類的項目。例如,方程(3),predxj是按所有人給出的項目j的評分的加權平均數,計算在活躍用戶附近的用戶,如下所示:

其中,k表示被識別為的用戶集合活動用戶的鄰域和predxj是預測的用戶u對物品j的加權數[4]。

雖然這兩個相似性度量即Pearson和余弦度量(式(1)和式(2))在識別最近鄰居用戶方面是成功的,但他們在處理稀疏數據時可能會遇到挑戰:

(1)大量的項目遠遠超出用戶對其中一小部分進行評分的能力;(2)用戶不喜歡評估查看/購買的項目。當與大量的用戶和項目相比用戶偏好非常稀疏時,基于皮爾遜和余弦度量的用戶或項目之間的相似性,可能僅從少量的普通評級計算,并且可能最終導致不可靠的鄰域,降低推薦系統的準 確性。

文章介紹了一種技術,通過克服數據集的稀疏性來提高媒體項目推薦系統中為用戶生成的推薦的準確性。所提出的技術的核心基于關聯規則挖掘技術,其通過提取關于包括用戶已經玩過的標簽和歌曲持續時間的歌曲特征的規則,來擴展用戶的簡檔并且從隱式數據中識別用戶的偏好。這是因為MSD中的歌曲數據集非常大,以至于無法通過應用有效且準確地處理這些海量數據,關聯規則挖掘在正常的臺式機上。因此,對具有不同基數的歌曲進行分組的過程取決于預定義最佳數量的聚類。它是基于歌曲特征的。

2.2 關聯規則挖掘概述

關聯規則挖掘技術已被廣泛應用于改進建議并代表用戶的興趣的很多推薦系統,如Tyagi和Bharadwaj (2013)和Lucas,Segrera和Moreno(2012)[5]。這 種技術的目的是發現有趣的關系,根據描述重新記錄的數據載入大量數據中,典型的過去用戶的導航路徑之間的關系。

一般來說,用戶的興趣可以通過關聯規則來識別以'A->B'形式進行采礦(A和B是用戶的利益或利益)項目),這意味著對'A'感興趣的用戶可能是對'B'感興趣或換句話說,發生項目A(規則的先行一側)導致項目B的發生(規則的后續部分)基于數據的用戶事務組。例如,在營銷分析中,一個關聯規則'啤酒,水,尿布"表示購買啤酒和水的顧客都傾向于購買尿布。又如"當顧客購買產品時,X也可能購買產品Y,或者'喜歡產品X的用戶也喜歡產品y"可以被發現(Park等,2012)。

關聯規則中有兩個重要的概念采礦技術,支持和規則的信心措施,用這些措施進行評估。一個人的支持和信心關聯規則X->Y由等式(4)和(5)導出,只有具有以下支持和信心值的規則是被選為有用的規則(Kardan&Ebrahimi,2013;Tyagi&Bharadwaj,2013)[6]:

在推薦人中應用關聯規則的動機系統,這種技術背后的想法是基于項目或用戶之間的數據關聯,將活動用戶的數據與其他用戶的數據或關聯數據進行比較,活躍用戶對其他項目的數據感興趣的項目在系統上可用。事實上,關聯規則挖掘描述可追蹤對象之間關聯的概率(用戶或項目)在數據庫中。通過關聯規則生成的規則很容易解釋,因此可以很容易地應用于實踐。

3 推薦

這個階段的目標是改進CF中的預測過程并克服與CVS和PCC度量有關的問題,在稀疏情況下只有評級數據用于計算類似用戶之間的偏好和預測用戶的興趣(Bobadilla,Ortega,Hernando,&Bernal,2012)。為了解決數據稀疏性問題,我們的技術涉及聽用戶的歷史記錄,并且基于將歌曲特征(群集)匹配到用戶信息來擴展用戶的信息,因為歌曲的屬性可以對用戶的重要性加權。一旦通過跟蹤用戶收聽習慣獲得用戶簡檔,就表示用戶播放計數的比率,作為用戶對特定類別歌曲感興趣的提示。然后,根據具有相似偏好(鄰居)的用戶組的過去交易,使用關聯規則挖掘技術提取歌曲類別之間的關聯規則。換句話說,我們的技術通過參考用戶的類似聆聽模式,根據他們聽到的音樂的重疊情況,為活動用戶預測群集集合。

在預測某個類別的歌曲的活躍用戶的未知偏好之后,現在是為活躍用戶提供推薦給特定歌曲列表的時間。在這個階段,我們的技術使用關于歌曲特征的信息來計算歌曲之間的相似度,所述歌曲的特征是藝術家,年份,標題,發行版,歌曲--熱度,藝術家--熟悉度,持續時間和標簽,以找到與已經存在的項目相似的一組項目在用戶配置文件中。

改進技術基于這個邏輯計算項目對之間的相似性,如果兩個項目彼此具有緊密特征,則兩個項目是相似的。活躍用戶收到與他或她喜歡的歌曲類似的歌曲的推薦。以往,計算歌曲之間的相似度的想法是在生成推薦時將用戶簡檔(用戶的收聽歷史)與歌曲特征進行匹配。這個想法背后的邏輯是,用戶喜歡接收關于他們在過去基于歌曲特征選擇的項目(歌曲)的推薦。

4 結 語

CF根據志趣相投的用戶(鄰居用戶)過去的評級記錄向活躍用戶推薦項目。由于當用戶提供的評級為真時,CF無法準確找到相似的鄰居,因此用戶的參考預測準確度會較低。因此,導致低質量的建議。在這項研究中,為了克服用戶體驗矩陣的數據稀疏性,我們提出了一種新穎的基于隱式用戶反饋創建的用戶配置文件的建議技術,該技術非常適合具有數據稀疏性的CF。這項研究的目標是通過有效地分析用戶的項目來提高建議的準確性,以來自用戶的收聽活動的偏好以及與項目相關聯的標簽以及在同一類別的歌曲上標識類似的偏好。為了克服數據稀疏性問題,我們采用關聯規則挖掘技術來發現用戶之間來自隱式信息的相似興趣模式,而不是明確的信息。近年來,已經證明單個算法通常不能克服使用基本CF的缺點并優化推薦準確性。因此,我們提出的技術通過使用聚類分析技術來減小數據的大小,并且通過使用關聯規則挖掘技術來發現用戶之間的相似興趣模式,從而提高了建議的有效性。

作為未來的工作,我們打算在關聯規則挖掘過程中利用更多的隱式用戶反饋來通過識別相似用戶的活動來生成推薦。因此,提供的建議的準確性和質量將是通過使用從關聯規則中提取的更多隱式數據來改進。此外,我們計劃仔細閱讀用戶的人口統計數據等其他數據源,以便將它們與隱式數據結合使用,以便根據有關用戶及其與項目的交互的有用信息提取更可靠和更準確的規則。所進行的實驗涉及一個名為MSD的數據集,其包含關于用戶的收聽歷史的隱含數據并且可以鏈接到其他同胞數據集(音樂推薦數據集),以提供關于用戶的收聽歷史的更多信息和歌曲。此外,還建議在圖像,書籍和電視節目等其他領域繼續進行實驗評估。

猜你喜歡
關聯規則用戶
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产在线高清一级毛片| 素人激情视频福利| a在线观看免费| 亚洲精品国产成人7777| 国产一级一级毛片永久| 久久青草精品一区二区三区| 欧美日韩国产在线人| 国产区在线看| 久久久久久尹人网香蕉| 国语少妇高潮| av在线人妻熟妇| 久久亚洲天堂| 久久国产精品夜色| 一级毛片不卡片免费观看| 国产一区亚洲一区| 亚洲男人天堂久久| a亚洲视频| 天堂网亚洲系列亚洲系列| 国产成人精品免费视频大全五级| 69视频国产| 极品国产在线| 不卡的在线视频免费观看| 国产乱码精品一区二区三区中文 | 国产成人禁片在线观看| 久久久久久久久18禁秘| 午夜在线不卡| 亚洲日韩Av中文字幕无码| 99草精品视频| 久久精品只有这里有| 国产爽歪歪免费视频在线观看 | 亚洲综合婷婷激情| 中国毛片网| 香蕉国产精品视频| 国产乱人伦偷精品视频AAA| AV天堂资源福利在线观看| 日韩天堂网| 日本欧美成人免费| 国产区在线看| 午夜不卡福利| 丰满人妻久久中文字幕| 亚洲有无码中文网| 91探花在线观看国产最新| 国模在线视频一区二区三区| 亚洲天堂色色人体| 国产伦精品一区二区三区视频优播| av免费在线观看美女叉开腿| 一本一道波多野结衣一区二区 | 国产国模一区二区三区四区| 国产青榴视频| 亚亚洲乱码一二三四区| 成年人免费国产视频| 无码 在线 在线| 97se亚洲综合在线韩国专区福利| 免费激情网址| 99久久无色码中文字幕| 久久网欧美| 国产一二视频| 国产不卡一级毛片视频| 91青青草视频| 青草午夜精品视频在线观看| 精品一区二区三区自慰喷水| 国产亚洲精| 91免费精品国偷自产在线在线| 亚洲午夜综合网| 一本无码在线观看| 精品色综合| 国产成人精品日本亚洲| 日韩av无码精品专区| 国产欧美日韩在线一区| 欧美 亚洲 日韩 国产| 国内精品九九久久久精品| 欧美无专区| 九九免费观看全部免费视频| 国产色伊人| 青青青国产视频手机| 国产成人91精品| 精品国产成人a在线观看| 在线看片免费人成视久网下载| 67194亚洲无码| 99精品在线看| 亚洲欧洲自拍拍偷午夜色| 国产精品久久久久久久久|