999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據在音樂推薦質量提升中的實踐及應用

2014-02-28 06:12:50張玉忠袁立宇
電信科學 2014年10期
關鍵詞:音樂用戶

張玉忠,方 艾,金 鐸,袁立宇

(中國電信股份有限公司廣東研究院 廣州510630)

1 引言

大數據時代下,每個人都是數據的消費者,也是數據的貢獻者。IDC(International Data Corporation,國際數據公司)的調查數據顯示,全球產生和復制的數據量到2015年將達到8 ZB,2020年甚至有望達到40 ZB[1]。以具體的例子來看,百度的大數據當前雖然已經達到EB級別,但其信息量占比卻不足全人類所掌握信息量的百分之一。即使在游戲、電子商務、音樂應用等垂直領域,數據量級別雖然大大減少,但數據量依然非常驚人。因此如何高效地組織和利用大數據的分析結果,挖掘大數據蘊含的潛在價值,為用戶提供個性化的精確推薦服務以避免大海撈針式的搜尋,在當前信息技術產業中掀起了一個大數據的熱潮。正如《大數據時代》的作者維克托·邁爾·舍恩伯對大數據的洞見:“大數據時代最大的轉變,就是放棄對因果關系的渴求,取而代之的是關注相關關系。”

數據推薦作為大數據應用的方向之一,其目的就是通過收集和整理用戶的歷史行為、消費習慣、社會屬性等,把看似分散的、無關的、多樣性的底層數據轉化為用戶知識圖譜和用戶興趣畫像,這些綜合的、格式化的知識庫提供了觀察用戶的立體化、全方位的視角,并通過應用平臺以功能組件模式向終端用戶輸出。這些充分組合包裝的信息,盡力避免了用戶和產品之間不必要的交互,進而把信息向著用戶服務的“私人定制”智能化目標推進,使得信息消費者只需知道“是什么”,而不需要知道“為什么”。

2 音樂推薦的框架及實踐

音樂推薦是一種比較典型的互聯網應用,但因為音樂類軟件產品眾多,各產品在功能、UI(用戶界面)設計等方面相互借鑒和競爭,同質化現象越來越普遍。在這種音樂“紅海市場”的互聯網環境下,如何最大程度地發展和挽留用戶?個性化的內容推薦服務和完美的用戶體驗無疑是重要的解決途徑之一。

《埃森哲2014年技術展望》報告提出“無邊界企業的崛起”概念:企業的勞動力資源不再只是企業的員工,還包括互聯網上的所有用戶,因為互聯網時代的企業可以利用大數據技術把自己產品的用戶(更廣泛意義上還包含整個網絡用戶)視為自己的編外員工。充分發掘產品相關的“互聯網用戶”產生的數據價值,有助于從群體規律中提煉出用戶的個性特點,以個性化和差異化的服務來幫助企業擴大用戶規模,延長用戶的產品生命周期。協同過濾正是上述“集體智慧”應用的典型推薦方法之一,主要分為基于用戶(user-based)和基于項目(item-based)兩類算法。協同過濾推薦算法在內容分類信息缺乏(如標簽體系不完善)、具體內容難于量化表達(如用戶音樂品味)等情境下的推薦效果較好,但是它面臨的缺點也是很明顯的,如系統規模過大時,系統性能會變差;項目數量變多后,會造成評分矩陣稀疏度過低、新用戶的冷啟動等問題[2,3]。

本文以音樂產品的歌曲推薦為例,介紹大數據技術如何應用在音樂產品中,特別是如何通過多種推薦方式的組合以提高推薦質量的過程和方法。與眾多關注具體單一算法的實現及準確度的推薦系統不同,本文所述的推薦系統側重于解決準實時的在線運營產品面臨的如下困難:既要考慮推薦的準確性,也要考慮算法的復雜度和高效率,從業務角度還要考慮系統維護和內容調整的方便性、實時性。因此在解決方案上采用“協同過濾+業務規則+標簽內容體系等”多種模式相結合的混合推薦算法,經過一年左右的線上運營,相比于單一的推薦算法和推薦方式,本方案的推薦效果要理想很多。

系統運行的邏輯框架如圖1所示。本推薦系統以Cloudera提供的CDH開源分布式計算框架作ETL處理平臺,以Mahout工具集作為協同過濾算法的實現框架,通過海量原始數據的收集和處理、用戶音樂評分歸一化、初步歌曲推薦列表產生、內容標簽體系建立和二次過濾規則等多個步驟搭建了一個實時歌曲推薦系統。

圖1 系統運行的邏輯框架

在推薦模型的算法調整和優化時采用如下方法:在用戶歌曲評分上參考RFM(指最近一次消費(recency)、消費頻次(frequency)、消費金額(monetary))模 型,建立考慮多個維度的綜合評分;在推薦算法上,引入項目稀疏度、重疊度、可信度概念;混合推薦時引入飆升詞、內容標簽和二次規則過濾等方式,具體分為以下5個步驟。

2.1 收集大數據

用戶的音樂數據從形式上來說有格式化/半格式化數據,甚至有非格式化數據;從來源來看有歌曲的瀏覽、試聽、下載、購買、搜索、收藏等純粹的音樂偏好行為,還有評論、分享、轉發等社交性質的行為,這些信息可以從產品平臺日志或通過互聯網設備捕捉用戶上網的URL清單獲得。

還有一些信息如終端信息、消費能力、電信套餐及增值業務、移動支付能力等可以從電信CRM系統獲得,其社交關系圖譜等可以從電信話單、短信以及SNS類社交軟件日志獲得。

音樂的內容和標簽可以從產品的字典庫獲得,如曲風、歌手、歌詞,甚至可以依靠爬蟲軟件從互聯網補充字典庫所缺失的必要信息。

2.2 評分歸一化

用戶的評分數據有很多種類:如1~5分的5級數字評分表;差(差評)~好(點贊)的描述性階梯等級,但這兩種方式的評分多依賴于用戶個人的主觀判斷,也就是說對同一首歌曲,評分為3分的用戶A并不見得比評分為2分的用戶更欣賞這一首歌曲。要解決這類問題,可以采用歸一化的方式,以用戶A對其所有歌曲的評分均值為標準,其他分數相對該均值的比值作有效評分,并二次轉化為相應的可度量值。

對于沒采用評分數據的系統來說,可以通過用戶在瀏覽歌曲的相對駐留時長、對歌曲試聽或下載的完整程度以及業務權重(如付費購買>免費下載>免費試聽)相結合的方式作綜合評價。

最終的評分結果是對上述兩類評分,再做一次處理。因為用戶對歌曲的偏好,單獨考慮“用戶評分”這個維度并不能完整表述其偏好程度,因此參考數據挖掘的RFM模型,以周或天為時間單位,以離當前日期的周期值作R,以該周期內對同一首歌曲的試聽次數作F,以聽歌的完整程度或業務權重作M,構建用戶對歌曲的綜合評分。

2.3 相似度計算

隨著推薦系統規模越來越大(以本音樂產品為例,僅版權歌曲數量就超過了30萬首,互聯網歌曲達90萬首,更不要說淘寶這樣的在線商品數超過8億件的巨型系統),龐大的商品數目必然會導致兩個用戶之間選擇的重疊非常少,因此評分矩陣的稀疏性問題也是推薦面臨的難題之一。

目前解決稀疏性通常采用算法改進,以提高推薦效果,如矩陣降維、聚類等,本文引入“可信度”概念以調整用戶相似度取值,具體如下:假設用戶A和用戶B的歌曲歷史記錄分別為M和N,其歌曲空間維度值為Q,相同歌曲數目為P,則取可信度為:可信度=稀疏度×重疊度=(M/Q×N/Q)×(P/Q),因此以前的用戶相似度計算也要調整為:可信度×用戶相似度,按照這種修正算法,常用的Pearson模型可變為如下計算式:

其中,Dreliability是新引入的可信度值。

“稀疏度”反映了用戶的向量距離遠近程度,如果兩個用戶之間的歌曲交集差異越大,那么這兩個用戶的距離就越遠,反映在計算式中,他們的稀疏度值接近于0。

“重疊度”從另外一個維度反映了用戶的向量距離遠近程度,如果重疊度接近于1,則表示兩個向量都在某些相同的屬性上具有實際值,那么得到的距離就具有較高的可靠性。

“可信度”是向量的相對稀疏度和重疊度的乘積,共同影響用戶距離的計算。可信度的概念實際是對現有傳統協同過濾算法中計算距離方法的一種改進,可以降低因計算距離過程中的隨機性導致的距離偏差。由于在用戶相似度的計算中新引入了上述“可信度”變量因子,這使得在計算用戶鄰居的時候更準確,降低原算法中因為缺失值導致的用戶鄰居發現錯誤的可能性,由于計算這些值都可以在很短的時間內完成,因此對原算法的性能、計算速度影響不大,都在可接受的范圍內。

2.4 內容分類

上述用戶評分矩陣通過協同過濾算法得到推薦歌曲列表后,有時效果仍然不是很理想。其中部分原因是用戶在聽歌的過程中被一些外界原因干擾而出現了偏好噪音:若用戶聽歌過程被打斷后忘記進行“暫停”操作,但音樂產品卻隨機向用戶播放音樂;也有可能是用戶被動地接受了音樂產品的歌曲列表,而實際并沒有按照自己的偏好過濾和選擇。針對這種情況,分析歌曲的內容分類可以進一步提高推薦質量。

內容分類在數據挖掘領域有很多分類算法,對音樂產品來說,有基于歌詞分詞的文本內容分類,也有基于音符或音律的語音學分類。本文在實踐中以歌詞分類的方式,采用樸素貝葉斯算法,以互聯網音樂分類較好的典型分類和樣例歌詞歸類為種子,對字典庫的所有歌詞做了分類處理,整體效果可以達到40%~60%的匹配率。

另外一種分類是基于統計計數的分類,例如飆升詞、熱榜等。本文在使用這些統計數據的時候,沒有采用簡單的計數方式,而使用了用戶歸一化評分的累積方式。以飆升詞為例,定時統計每個時段的統計指標后,跟上一個時段的指標值相比較,如果相對比值超過一定的閾值,則認為該指標發生了飆升,從而指導運營人員快速響應,更新產品的相關推薦列表。

2.5 混合推薦

協同過濾推薦算法在滿足個性化需求方面雖然能起到較好的作用,但是在實際應用時通常需要混合的方式做歌曲推薦[4],也就是要采用多種推薦方式相互交叉和補充,這主要是由于以下幾種情況的存在。

首先,第一次使用音樂產品的用戶或者信息量過少的用戶,推薦系統需要處理冷啟動問題。這類用戶一種常用的解決辦法是利用引導性的文本信息進行輔助推薦,亦可通過在首次使用或者注冊時通過導航機制獲得用戶的關鍵屬性信息,如年齡段、居住地/地域方言、教育程度、性別、行業等;另外音樂的標簽系統(如語種、曲風、影視劇、歌手、熱榜榜單、首發/經典)的廣泛應用也是解決冷啟動問題的可選方案,這些標簽的分類整理本身就是商品內容的萃取,同時也可以視為收集用戶個性化偏好的初始種子。

其次,協同過濾雖然在推薦算法上效果較好,但也會碰到多樣性、新穎性和覆蓋率問題。具體表現為推薦的歌曲范圍太窄,特別是用戶使用一段時間之后會出現重復推薦,而且容易導致曲庫字典的大量歌曲成為“僵尸”,這種缺陷帶來的惡果就是用戶吸引力和滿意度下降,甚至導致用戶的留存率降低或用戶流失。

再次,從業務運營的角度來看,收費歌曲、上線新歌、主推歌曲、節假日應景音樂也需要一定的人工干預和展示途徑。這些運營元素的引入,可以在一定程度上彌補單一算法帶來的新穎性不夠等缺陷,擴大“長尾”,獲得規模效應。

3 音樂產品的實踐應用及效果

利用上述的大數據平臺框架及推薦處理流程,項目團隊在實際的運營支撐中進行了一系列的音樂產品研發運營實踐,包括建立個性化用戶知識庫、差異化歌曲推薦、開發和運營流程優化、用戶體驗及反饋分析等。

以某款手機的定制播放器為例,它是音樂運營中心與手機終端設備供應商之間約定的應用預裝產品,經過一年半的運營,到2014年上半年止,該產品的注冊用戶數達到2 500萬戶,日UV(unique visitor)突破100萬戶,產品功能包括聽歌、搜索、收藏、下載、分享、訂購等。這些用戶產生的原始日志量每日可達50 GB,有效數據超過5 000萬條,再加上超過2億條CRM歷史記錄以及其他終端、評論、SNS數據,這些用戶行為數據以日為單位,定期經過大數據平臺收集、整理、更新,最終導入用戶歌曲評分矩陣為推薦備用。

當用戶登錄后,首頁顯示的是一系列通過復雜、大規模、實時的算法得到的差異化信息,同時還有一些熱榜、專輯介紹等信息。以圖2為例,當用戶搜索并播放歌曲《高山流水》時,在用戶界面的左上部以列表的形式顯示經過混合推薦處理過的Top10歌曲,而在左下部顯示推薦的少量音樂專輯及圖片,在歌曲的播放過程中通過開關切換來控制是否顯示源于互聯網的歌詞或者歌手圖片(這些信息是爬蟲定期更新和運營人員人工整理的);右半部分的用戶界面以tab bar(選項卡)切換視圖的形式顯示Top10的熱榜/新榜/飆升榜3類不同維度的歌曲以滿足新用戶的選擇。整體來看,在這個用戶界面設計里,個性化推薦歌曲、熱榜歌曲、業務運營所需的人工干預歌曲都體現了出來,在一定程度上解決了冷啟動和新穎性不足等缺點,可以滿足不同用戶的音樂品味,收到了較好的效果。

圖2 用戶界面示例

4 結束語

由于Hadoop等開源項目的發展及應用,特別是CDH等開源平臺及生態系統的穩定以及相關工具如Hive、Impala、Machine Learning等的廣泛使用,解決了早期的推薦系統在數據量過大時面臨的內存、CPU等計算瓶頸的難題。基于分布式并行計算的算法改良可以充分發揮云計算的特點,提高大規模數據分析的效率,推動基于大數據的推薦系統的發展[5];同時由于分布式計算架構也降低了大數據處理的預算成本和技術門檻,IT部門可以較高的性價比進行大數據項目的研發和實踐,近來以Spark為基礎的基于內存的迭代式計算框架與以MapReduce為基礎的文件流模式的計算框架互為補充,也為機器學習(ML)和數據挖掘(DW)提供了技術保障。但就目前而言,大數據的應用及產生的效益還處于起步階段,缺乏成熟的大規模的商業模式,信息內容最終還是需要轉化為以結構化信息為主,未來隨著挖掘工具和算法的進一步發展和成熟,大數據在應用智能化和商業模式創新等方面必定會起到更大作用。

未來,互聯網推薦類應用可以通過跨域行業應用數據和互聯網海量數據的深度整合,建立多維的、綜合的統一用戶視圖,勾勒一個比較全面的用戶畫像。這種360度全方位的客戶洞察系統的建立,可以打造一個面向用戶本身及其衍生的社會網絡、生活消費等多層面的個性化知識庫,通過深入分析用戶在不同業務中的行為及關系并挖掘其中的潛在用戶價值,可以進一步促進不同行業領域的跨域業務協同發展,同時也會為用戶帶來更好的體驗,形成一個良性循環的生態圈。

1 大數據就在你身邊.http://info.secu.hc360.com/2014/01/201838764677.shtml,2014

2 大數據應用之個性化推薦的十大挑戰.http://www.kddchina.com/article-49-1.html,2014

3 個性化推薦十大挑戰.http://blog.sciencenet.cn/blog-3075-588779.html,2014

4 張瑤,陳維斌,傅順開.協同過濾推薦研究綜述.微型機與應用,2013(6)

5 李改,潘嶸,李章鳳等.基于大數據集的協同過濾算法的并行化研究.計算機工程與設計,2012,33(6)

猜你喜歡
音樂用戶
奇妙的“自然音樂”
音樂從哪里來?
藝術啟蒙(2018年7期)2018-08-23 09:14:16
圣誕音樂路
兒童繪本(2017年24期)2018-01-07 15:51:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
音樂
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 欧美日韩在线国产| 欧美午夜视频在线| 香蕉99国内自产自拍视频| 欧美一级99在线观看国产| 四虎永久在线精品影院| 国产精品免费露脸视频| 日韩成人午夜| 日韩精品一区二区三区中文无码| 亚洲国产中文综合专区在| 久久天天躁狠狠躁夜夜躁| 欧美a网站| 国产丝袜啪啪| 综合天天色| 欧美不卡在线视频| 国产高清不卡| 欧美亚洲日韩中文| 久草网视频在线| 精品国产香蕉伊思人在线| 伊人中文网| 男女男免费视频网站国产| 午夜福利亚洲精品| 色综合久久综合网| 免费无码一区二区| 99久久精品视香蕉蕉| 97亚洲色综久久精品| 九色在线视频导航91| 久久超级碰| 日韩精品一区二区三区swag| 亚洲国产欧美目韩成人综合| 国产极品美女在线观看| 9966国产精品视频| 亚洲无码A视频在线| 国产精品私拍在线爆乳| 精品免费在线视频| 亚洲一级毛片在线观播放| 毛片手机在线看| 天天综合色天天综合网| 欧美一级大片在线观看| 国产在线专区| 狠狠做深爱婷婷综合一区| 亚洲综合第一页| 久久99这里精品8国产| 亚洲人在线| 91综合色区亚洲熟妇p| 亚洲娇小与黑人巨大交| 国精品91人妻无码一区二区三区| 中文字幕不卡免费高清视频| 伊人久久大香线蕉成人综合网| 国产免费久久精品99re不卡| 国产呦视频免费视频在线观看| 99视频精品全国免费品| 六月婷婷精品视频在线观看| 特黄日韩免费一区二区三区| 国产精品成人观看视频国产| 美女扒开下面流白浆在线试听| 亚洲AV一二三区无码AV蜜桃| 99热这里只有精品在线观看| 97成人在线视频| 精品少妇人妻av无码久久| 97国产精品视频自在拍| 久久91精品牛牛| 色婷婷电影网| 成人毛片免费在线观看| 激情综合网激情综合| www.99在线观看| 久久国产精品影院| 亚洲一区第一页| av在线人妻熟妇| 欧美一级色视频| 在线网站18禁| 精品福利国产| www亚洲天堂| 亚洲人成影视在线观看| 国产00高中生在线播放| 亚洲成人在线网| 97se亚洲| 中文字幕人妻无码系列第三区| 亚洲男女天堂| 久久国产精品波多野结衣| 91视频国产高清| 国产精品自在在线午夜区app| 无码区日韩专区免费系列|