齊智超 喬帥 方源
摘要:本文介紹了推薦系統相關的重要技術及其技術發展路線,通過對推薦系統相關專利進行分析,梳理出推薦系統技術重要的發展及趨勢,并結合業內重要申請人的技術演進,對推薦系統的發展歷程和呈現形態進行分析,預測未來推薦系統技術的發展新趨勢。
關鍵詞:信息超載;推薦;檢索;匹配
1、概述
近年來,推薦系統在商業領域的應用越來越廣泛,其應用包含電子商務推薦、個性化廣告推薦、新聞推薦等諸多領域,如人們經常使用的淘寶、今日頭條、豆瓣影評等產品,其背后均有成熟的推薦系統作為支撐。推薦系統是一個能夠為用戶提供個性化服務的系統,其能夠將最符合用戶個性化需求的信息推薦給用戶。經過了二十多年的積累和沉淀,推薦系統逐漸成為一門獨立的學科在學術研究和業界應用中都取得了很多成果。
為了獲取推薦系統相關的專利技術的申請情況,本文使用專利檢索與服務系統,通過分類號(IPC:G06F17/30)+關鍵詞(recommend、match)在VEN數據庫(外文數據庫)中進行檢索,截止2019年6月6日,共檢索得到相關專利文獻共1827篇,其中中國國內申請量為1210篇,國外申請量為617篇。以下內容將對該1827篇專利進行分析,以獲得推薦系統相關專利申請總體情況,梳理其技術發展脈絡,并對主要申請人以及相關關鍵技術進行統計分析。
2、專利申請總體情況
隨著互聯網技術的廣泛應用,尤其是移動互聯網的發展,推薦系統逐漸成為互聯網技術中研究的熱點內容,從專利申請量來看,1999-2005年間并未出現明顯的增長,而2006-2010年間出現了小幅度的增長,然后在2011年迎來的爆發式的增長。從技術發展的角度來看,1999-2005年屬于互聯網應用比較平淡的時期,大多數PC重在客戶端軟件的開發;而2006-2010年,則互聯網技術快速更新迭代、逐漸累積大量用戶的過程,此時即是推薦系統技術的萌芽時期。2007年1月9日,蘋果發布iPhone,2008年Google發布安卓操作系統,經過4-5年的技術迭代,隨著技術的逐漸成熟,在2011年左右移動互聯網技術已經深刻改變了人們的生產生活方式,也正是移動互聯這樣肥沃的土壤中,推薦系統技術得以生根發芽,并逐漸壯大。相信隨著5G技術的推廣和普及,萬物互聯的逐漸成型,推薦系統技術必將迎來新一輪爆發。
3、專利技術分析
在推薦系統的發展過程中,推薦系統經歷了多種多樣的變化,但總體來說,主要還是從用戶模型、推薦算法、待推薦對象模型等三個方面進行改進。
3.1對用戶模型的改進
用戶模型主要用來存儲用戶興趣數據,其體現了用戶對哪些內容感興趣,也就是說用戶模型體現的是用戶的具體的需求,對用戶模型的改進即是解決如何更準確地獲取用戶興趣這一問題的過程。
北京搜神網絡技術有限責任公司申請的CN101105795A公開了一種基于網絡行為的個性化推薦方法,通過分析用戶的網絡行為,據此向用戶進行個性化的推薦。百度在線網絡技術(北京)有限公司申請的CN101968802 A公開了一種基于用戶瀏覽行為進行互聯網內容推薦的方法,實現了基于用戶瀏覽行為進行互聯網內容推薦,為用戶提供了更為豐富的、高相關度的信息內容,從而提高了用戶的搜索瀏覽體驗;北京字節跳動網絡技術有限公司申請的CN104317959A公開了一種基于社交平臺的數據挖掘方法,通過建立用戶(老用戶)在不同平臺上的關聯模型解決了現有技術中因新注冊用戶沒有歷史瀏覽記錄,導致的無法提供有針對性的資訊的問題。
3.2 對推薦算法的改進
推薦系統中,常見的推薦算法包括基于關聯規則的推薦,基于內容的推薦,協同過濾推薦和混合推薦等,其主要目的實現如何將用戶的興趣與待推薦的內容進行匹配。
3.2.1 基于關聯規則的推薦
推薦系統可以通過將原本存儲在原有數據庫中的信息和規則庫中的關聯規則數據對比得到最終的推薦結果,為客戶提供個性化的推薦。
杭州因豪信息科技開發有限公司申請的CN101697162A公開了一種智能化推薦點菜方法,其對所有菜品的屬性進行挖掘生成關聯規則集,計算每條關聯規則的置信度,從關聯規則集中尋找匹配的屬性關聯規則集,并得到菜品的推薦價值,將推薦價值進行排序,選取多個菜品作為推薦菜品并輸出,能夠使推薦的菜品更具科學化和合理化。
3.2.2 基于內容的推薦
基于內容的推薦是根據用戶歷史信息(如評分、評價、分享、和收藏過的文檔)構造用戶偏好文檔,計算推薦項目與用戶偏好文檔的相似度,將最相似的項目推薦給用戶。
索尼公司申請的CN102270214A公開了一種內容推薦方法,其基于存儲的優選判別信息和內容特征信息,通過對于每個用戶統合針對內容的評價及內容特征來產生每個用戶的優選信息,向客戶端發送基于內容特征信息、評價與優選信息的特征的相似度而提取的推薦內容列表,提高了推薦準確度,符合用戶需求,無需考慮用戶的當前環境,能在多種環境中推薦與用戶的期望匹配的內容。
3.2.3協同過濾推薦
協同過濾推薦(Collaborative Filtering Recommendation)一般采用最近鄰技術,利用用戶的歷史喜好信息計算用戶之間的距離,然后利用目標用戶的最近鄰居用戶對商品評價的加權評價值來預測目標用戶對特定商品的喜好程度,系統從而根據這一喜好程度來對目標用戶進行推薦。
得利在線信息技術(北京)有限公司申請的CN102236646A公開了一種對象級垂直搜索引擎個性化排序算法iRank,其實現了構建用戶和本體庫對象之間喜好興趣關系,并對語義模型排序結果進行基于用戶興趣模型的個性化推薦排序,構建結構化用戶之間的相似度信息,并對用戶興趣模型排序結果再進行基于用戶相似度模型的個性化推薦排序。
由此可知,協同過濾是基于這樣的假設的,為一用戶找到他真正感興趣的內容的好方法是首先找到與此用戶有相似興趣的其他用戶,然后將他們感興趣的內容推薦給此用戶。其思想在日常生活中也是常見的。
3.2.4 混合推薦
混合推薦(Hybrid Recommendation)經常被采用,最簡單的做法就是分別用基于內容的方法和協同過濾推薦方法產生一個推薦預測結果,然后用某方法混合其結果。盡管從理論上有很多種推薦混合方法,但在某一具體問題中并不見得都有效,混合推薦一個最重要原則就是通過混合后要能避免或彌補各自推薦技術的弱點,這里就不在專門針對混合推薦算法的相關專利申請進行專門的舉例。
整體來看,在1999至今的20年間,出現了多種多樣的對于推薦算法進行改進的專利申請,無論是基于關聯規則的推薦的、基于內容的推薦的、基于協同過濾推薦或者是混合推薦,在不同的時期都有著數量可觀的相關申請。分析來看,1999-2005年間,互聯網的發展還處在一個比較低的層次,相關的推薦算法并沒有實質性的進步,相關的推薦系統僅僅通過應用原始的算法進行相應的推薦。2005-至今,隨著互聯網的快速發展,互聯網中產生了海量的內容,而為了得到海量數據內容中與推薦系統相關的信息如用戶信息、待推薦對象信息以及用戶與待推薦對象間的關聯關系等內容,數據挖掘以及數據處理算法取得了長足的進步。對于推薦算法的改進,整體來說是隨著數據處理能力的提高而逐漸發展的。
3.3 對推薦對象模型的改進
電子科技大學申請的CN104239512A公開了一種文本推薦方法,通過建立用戶模型,預處理文本文檔,提取特征向量,計算特征向量間同義詞的最優匹配,根據特征向量與用戶模型間的相似度,確定推薦文本。本發明的方法在傳統余弦夾角算法基礎上加入同義詞間語義相似度的匹配因子,考慮文本同義詞對相似度的影響,更精確的計算文本間、文本與用戶模型間的相似程度。
清華大學申請的CN105975496A 公開了一種基于上下文感知的音樂推薦方法,基于上下文感知的音樂推薦方法,根據上下文信息與音樂特征的對應關系,得到上下文信息對應的音樂特征,根據音樂特征,獲取服務器端與音樂特征匹配的音樂,并將音樂推薦至當前設備的音樂播放器進行播放。其基于上下文感知的音樂推薦方法,不依賴于個人用戶,適用于普遍的個性化服務。
從其整體發展歷程來看,其主要是隨著特征提取相關技術的進步而進步。體現在專利申請中其改進也多是對于對象特征如何提取的改進。例如文本特征提取從普通的詞頻、權重來表示文本特征到利用語義特征來表示,再到利用機器學習算法對文本進行特征提取。
4、結論與建議
總體而言,推薦系統是建立人與信息之間的聯系,結合如今盛行的技術來看,2005年前,互聯網技術本身不具備太多內容,推薦系統發展相對比較沉寂,而2005-2010年間,隨著互聯網內容的不斷豐富,出現了利用數據挖掘、機器學習等技術進行改進后的推薦系統,而2011年至今,人工智能技術、深度學習算法的研究的逐漸推薦,有理由相信,通過人工智能以及深度學習算法的加持,推薦系統可以更好地了解到人們真正想要的是什么。人工智能技術擁有對于數據的超強處理能力以及強大的學習能力,可以預見,人工智能技術以及深度學習算法與推薦系統的結合,必然是未來發展的新的趨勢。
參考文獻
[1]Resnick P,Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.
[2]Dietmar Jannach,Markus Zanker,Alexander Felfernig,Gerhard Friedrich著.推薦系統[M].北京:人民郵電出版社,2018.04.
[3]王國霞,劉賀平.個性化推薦系統綜述[J].計算機工程與應用,2012,48(07):66-76.
作者簡介:齊智超(1991.01-),男,河南新鄉人,碩士研究生,實習研究員,大數據技術;
喬帥(1989.03-),男,河南鄭州人,碩士研究生,實習研究員,人工智能技術,等同第一作者;
方源(1990.06-),男,河南安陽人,碩士研究生,實習研究員,軟件測試技術。