王大玲,馮時,張一飛,于戈
(東北大學信息科學與工程學院,遼寧沈陽110819;2.東北大學醫(yī)學影像計算教育部重點實驗室,遼寧沈陽110819)
“推薦”是系統(tǒng)為用戶提供的一種主動的信息推送方式,它不同于搜索那樣具有直接而明確的用戶需求,因此涉及用戶興趣分析與推斷、推薦信息資源選擇2個主要部分。在用戶興趣推斷方面,傳統(tǒng)的推薦技術分為“基于內容的推薦”、“基于協(xié)同過濾的推薦”及其混合技術[1]。近年來,Web 2.0技術的發(fā)展促進了社會媒體(social media)這一新技術的誕生和迅速發(fā)展。與傳統(tǒng)的媒體相比,社會媒體中用戶角色的變化、用戶關系的形成、特別是信息資源形式的豐富,均對推薦系統(tǒng)提出了新的要求。基于社會媒體的推薦中,無論用戶興趣的推斷、還是推薦信息資源的選擇,均被賦予了新的內容。本文將首先分析社會媒體中的用戶與資源的關系,以及由此引出的社會媒體資源推薦的特點,綜述當前該領域研究的相關工作并進行討論。在此基礎上,從多模態(tài)、多層次資源推薦方面提出進一步的研究方向。
社會媒體作為一類新的在線交互平臺,允許用戶自發(fā)地撰寫、傳播和獲取信息,具有廣泛的用戶參與性。本文中,將“資源”定義為用戶在社會媒體中發(fā)布的原始信息單元及其組合或劃分。與傳統(tǒng)媒體相比,社會媒體中的“用戶”和“資源”呈現(xiàn)出許多新的特點。
首先,從社會媒體用戶的角度,呈現(xiàn)以下特點:
1)用戶角色雙重性。
社會媒體中信息的傳播是“眾對眾”方式,用戶不僅是信息的接收者,也是信息的發(fā)布者,發(fā)布時不僅提供信息,而且在社交網站上建立詳細的個人檔案并分享這些信息[2]。
2)社會網絡社群性。
社會媒體的用戶(包括信息的發(fā)布者和接收者)在社會媒體中通過信息交流可以表達關注同一事件或人、具有相同觀點以及結為好友等,這些關系構成各種網絡社群。
3)信息網絡異構性。
將用戶與資源作為對象并相互鏈接起來,即構成信息網絡[3]。在此情況下,社會媒體中的信息網絡節(jié)點是異構的,表現(xiàn)為用戶與信息是不同類型的對象,而且不同媒體形式的信息內容也是異構的。
4)用戶關系多元性。
前面1)中所述的用戶角色雙重性表現(xiàn)為信息網絡中的顯式鏈接即為“用戶節(jié)點→資源節(jié)點”、或者相反。此外,除顯式鏈接外,還存在更多的隱式鏈接關系,如信息之間的相關性鏈接以及由此而導致的用戶之間的相關性鏈接等,構成了多元化的用戶關系。
第二,從社會媒體資源的角度,呈現(xiàn)以下特點:
1)信息的多模態(tài)性。
在相關研究中,“模態(tài)”表現(xiàn)為不同的媒體形式(如文本、圖像、視頻等)[4],又可表現(xiàn)為同一媒體形式的不同特征(如圖像的顏色、紋理等特征)[5]。在本文中,從推薦的角度,網絡社群作為一種資源,其本身也是一種模態(tài)。
2)資源的多層次性。
由于社會媒體允許用戶自發(fā)地傳播和獲取信息,因此導致了社會媒體資源的多層次性。例如,在新浪博客中,用戶A撰寫了一篇關于三亞旅游的圖文并茂的博文,用戶B轉發(fā)了其中的部分文字并加上了評論,用戶C又配發(fā)一些照片,…,這些博文、評論、圖片等信息構成了同一資源的多個層次。同時,社會媒體信息之間由于背景、事件、位置、人物等實體的聯(lián)系,同樣會構成資源的不同層次。
如前所述,推薦系統(tǒng)涉及用戶興趣的分析和推薦資源的選擇2個主要部分。由于社會媒體中用戶和資源新的特點,因而對基于社會媒體的推薦系統(tǒng)提出了新的要求,從而導致了社會媒體推薦呈現(xiàn)出新的特點:
1)多模態(tài)的用戶興趣內容分析。
在分析用戶興趣方面,傳統(tǒng)的推薦技術之一是“基于內容的推薦”。即:對于一個用戶,推薦系統(tǒng)根據(jù)該用戶自己對資源的訪問歷史推斷其興趣。在社會媒體推薦中,“基于內容的推薦”同樣適用,但卻賦予了新的要求。首先,用戶對資源的訪問歷史記錄中,其內容可能包括不同的媒體形式;其次,對于某一種媒體形式(特別是非文本形式),用戶可能也會關注不同的方面。例如,對于用戶訪問歷史中的一幅“裙子”的圖片,用戶興趣可能是裙子的顏色、質地、圖案、款式等不同方面,而非這條裙子本身。用戶訪問歷史內容中不同的媒體形式和同一媒體形式的不同特征,構成了多模態(tài)的用戶興趣。
2)基于社會關系的協(xié)同過濾。
傳統(tǒng)推薦技術中,用戶興趣分析的另一主要方法是“基于協(xié)同過濾的推薦”。即:對于一個用戶,推薦系統(tǒng)根據(jù)與該用戶興趣相似的其他相關用戶對資源的訪問情況推斷其興趣,所依據(jù)的是“用戶-項目”點擊矩陣的相似性度量。社會媒體中,前述的“網絡社群性”使這種依據(jù)可以擴展為基于用戶社會關系的推薦,從而解決“點擊矩陣稀疏”等問題,而“用戶角色雙重性”、“信息網絡異構性”及“用戶關系多元性”等用戶特點使這一問題變成異構信息網絡中的社群發(fā)現(xiàn)及社群的用戶興趣推斷問題。
3)面向用戶的多層次資源推薦。
傳統(tǒng)的推薦系統(tǒng)中,無論“基于內容的推薦”、“基于協(xié)同過濾的推薦”、還是其混合技術,推薦結果的粒度大多是原始信息,即便是多媒體推薦,也較少考慮用戶不同粒度、不同層次的需求。這里重提前述“社會媒體資源多層次性”中的例子,即:用戶A撰寫了一篇關于三亞旅游的圖文并茂的博文,用戶B轉發(fā)了其中的部分文字并加上了評論,用戶C又配發(fā)了一些照片,…。在推薦時,通過對這些博文、評論、圖片等原始信息的分析,可以推薦:1)與博文中的圖片或某部分文字相關的信息;2)由多幅圖片和文字構成的三亞某一景點的介紹信息;3)諸如“三亞旅游最佳路線”這樣的綜合信息。這里,推薦1)是原始信息的子集,推薦2)是若干原始信息基于某種方式的組合,推薦3)則是原始信息基礎上高度的分析、處理、總結和重組。上述推薦項目的不同粒度表明了從原始信息的子集、原始信息、到它們某種形式的組合、再到更高層次的綜合這樣不同的資源層次。
綜上,對社會媒體推薦中涉及的“資源”和“用戶”給出如下定義:
定義1 社會媒體用戶。社會媒體資源的發(fā)布者和使用者(一般需要注冊),包括上傳、轉載、共享、瀏覽、關注等一切對社會媒體資源進行過操作的用戶。
定義2 社會媒體資源。即用戶在社會媒體中發(fā)布的原始信息單元及其組合或抽象。原始信息單元如一篇博文、一條微博、一幅圖片、一段視頻、一首樂曲等,稱之為單一資源;單一資源中的某個部分稱為子資源,如微博中的圖片、視頻中的音樂等;單一資源的有序組合稱為復合資源,如不同用戶上傳的關于同一景點的多幅圖片及若干文本;通過對單一、復合資源的分析和挖掘,可望得到綜合資源,例如,對于某個景點,對用戶上傳的圖片、撰寫的博文、發(fā)布的微博、微信等進行深入挖掘可構成“旅游綜合資源”;針對某個學術問題,對相關社群用戶的討論、發(fā)表的文章、乃至該社群本身的挖掘可構成“學術綜合資源”。由于用戶社群因與資源的關系而形成、并通過分析和挖掘而發(fā)現(xiàn),因此,用戶社群也是一種綜合資源。
根據(jù)定義2,本文提出的社會媒體推薦中的多模態(tài)、多層次資源如圖1所示。

圖1 社會媒體推薦中的多模態(tài)、多層次資源Fig.1 Multi-modal and multi-level resource in social media for recommendation
基于社會媒體平臺,在用戶與相關信息構成的異構信息網絡中挖掘用戶社群并進而推斷用戶興趣,在推薦內容上實施不同粒度、分層次、高質量的信息資源推薦,是用戶的潛在需求,更是推薦系統(tǒng)應該、并且通過應用相關技術可望實現(xiàn)的功能。
當前社會媒體資源推薦的特點,實際上可以視為傳統(tǒng)的推薦技術被賦予了社會媒體新的內容。在目前的相關工作中,作為最終目標的“面向用戶的多層次資源推薦”主要表現(xiàn)為基于用戶社群、媒體內容以及多種因素的推薦,而作為用戶興趣分析方法的“多模態(tài)的用戶興趣內容分析”和“基于社會關系的協(xié)同過濾”則需要社會媒體用戶關系分析、社會媒體多模態(tài)信息挖掘以及社會媒體中多模態(tài)信息相似性度量等相關技術的支撐。文中對上述涉及的內容進行歸類,其結果如圖2所示(圖中虛線意為當前工作并未完全具有的功能)。基于圖2,下文分別從社會媒體資源推薦策略和社會媒體推薦的支撐技術兩方面對相關工作進行綜述,并在第4節(jié)進行總結和討論。
根據(jù)圖2的歸納,將從基于用戶社群的推薦、基于媒體內容的推薦以及基于多種因素的推薦3方面綜述社會媒體資源推薦的相關工作。
用戶的網絡社群性是社會媒體的主要特點之一,挖掘社會媒體中的社群關系、并基于此進行推薦,是社會媒體推薦的一個主要途徑。

圖2 社會媒體資源推薦的特點與相關工作Fig.2 Characteristics and related work of social media resources recommendation
在基于用戶社群或社會關系的推薦方面,Pavlidis等[6]基于用戶個人信息和朋友信息等社交媒體信息推斷用戶的興趣、用戶朋友的興趣以及朋友的親密度,找到推薦禮物的重要時機,進行禮物推薦;Popescu等[7]把個性化旅游推薦視為協(xié)同過濾問題,挖掘在網絡上用戶的旅行數(shù)據(jù)、記錄數(shù)據(jù),并利用這些數(shù)據(jù)構建一個用戶-用戶的相似度矩陣,為一個想去某地旅游的用戶推薦景點;Schirru[8]基于用戶在Web2.0資源分享平臺上與其同事交換的感興趣話題的內容,建立一個基于話題的推薦系統(tǒng),利用話題追蹤檢測算法,檢測用戶短期或長期感興趣話題,提供基于話題的推薦,滿足用戶的需求和偏好;賈大文等[9]把用戶對具體媒體對象的偏好轉化成用戶對媒體對象所蘊含興趣元素的偏好,將具有相同偏好的用戶聚合成“共同偏好組”,基于共同偏好組進行社會媒體的共享與推薦;Koohborfardhaghighi等[10]在朋友網中向處在轉接點位置和具有高特征向量中心值的用戶實施推薦,認為前者具有重要的信息,后者與其他用戶具有更多的聯(lián)系或者被重要的用戶所聯(lián)系;Li等[11]通過發(fā)現(xiàn)面向用戶和面向社群的話題來捕獲用戶興趣和社群焦點,從而推薦有影響力的用戶和相關于話題的社群;Zhao等[12]在Twitte風格的社會網絡中根據(jù)關注與被關注關系發(fā)現(xiàn)社群,并基于社群進行粉絲推薦,從而改進基于內容推薦的低準確率和協(xié)同過濾推薦的稀疏性問題。
在此領域,與上述工作相似的還有很多,這里不多贅述。總體上,這些工作的主要特點是基于用戶的社會關系及由于共同話題、關注點等原因形成的社群,發(fā)現(xiàn)當前用戶的興趣偏好,從而進行推薦。推薦的內容包括社會媒體的原始信息[6-8],也包括用戶的相關信息,如社群[9,11]、朋友[10,12]等。
無論是傳統(tǒng)的推薦系統(tǒng)還是社會媒體資源的推薦,基于內容的推薦均是一個重要推薦技術。不同的是,社會媒體中的內容已呈現(xiàn)多模態(tài)的信息表現(xiàn)形式,因此,用戶的訪問記錄信息將由多模態(tài)的信息構成,推薦的內容也將是多模態(tài)、甚至是跨媒體(即基于一種媒體形式的訪問歷史推薦其他媒體形式的資源)的。
在基于媒體內容的推薦中,Zhang等[13]、Bu等[14]結合多種類型的社會媒體信息以及音樂原聲信號的多資源媒體信息,用超圖對社會媒體信息高階關系建模,利用各種多媒體信息數(shù)據(jù)以及基于音樂原聲的內容進行音樂推薦;Tan等[15]采用圖模型對評論間的關系以及評論與原始新聞間的關系進行建模,捕捉用戶關注點的動態(tài)變化,抽取話題模式,綜合考慮讀者和作者的觀點,進行相關信息推薦;Hu等[16]將在線社交網站 OSNs和視頻分享網站VSSes的度量標準結合起來,提出了一種基于相似度的方法來為Youtube這樣的視頻分享網站VSSes增加推薦視頻列表;Ma等[17]將用戶在社會媒體中發(fā)表和查看的數(shù)據(jù)視為社會流,提出了一個新的在線協(xié)同過濾框架和流排名矩陣分解,通過分析社會流來進行個性化主題推薦及發(fā)現(xiàn);Ernesto等[18]結合用戶評論、Li等[19]使用用戶產生的評論作為數(shù)據(jù)源,建模評論之間的關系,進行新聞推薦。
與上述工作相似的工作還有很多,這里不多贅述。就社會媒體資源推薦而言,除了新聞、評論等文本形式的社會媒體資源外,其他媒體形式的推薦主要還是如傳統(tǒng)多媒體推薦方法那樣以資源的原始粒度作為推薦單元,而缺少更小或更大粒度、特別是綜合資源的推薦。
除前述基于用戶關系和資源內容分析的推薦外,還有一些基于社會媒體多因素分析的推薦。
在基于多因素的推薦中,Messenger等[20]基于用戶在社交網絡中與其他成員的關聯(lián)關系、社會數(shù)據(jù)以及詞相關因素進行個性化書籍推薦;Pera等[21]研究基于用戶和標簽的社會媒體推薦,表明將兩者結合起來的性能會更為優(yōu)異;Guy等[22]利用包括帖子內容、帖子間相似度、帖子間或者其與博客間的鏈接以及與外部網站的鏈接在內的多種特征訓練了一個SVM排序分類器,進行用戶預測和鏈接預測,應用預測結果進行推薦;Wu等[23]基于旅行者使用搜索引擎查詢旅游計劃的上下文信息,生成一些有代表性的旅游目的地;Xiang[24]構建了相同類型的實體(如用戶與用戶)和不同類型的實體(如用戶與圖片)之間的關系圖,將推薦任務描述為一個在關系圖上的隨機游走過程;Chidlovskii等[25]挖掘 Tweet內容,并用其哈希標簽和內容對youtube、Flickr、Photobucket、Dailymotion和 SoundCloud進行標注,實現(xiàn)對大量的未被充分標注的用戶生成的Web資源進行語義上的標注,以此實現(xiàn)標簽推薦;Liu等[26]獲取社會媒體中各種女性面部和發(fā)式圖像,提取其中化妝品特征,構建一個化妝推薦系統(tǒng),提出一個多樹結構的超圖模型來探索各種化妝面部圖像的高層美麗屬性、中層相關于美麗的屬性以及低層圖像特征,基于用戶輸入的短發(fā)、素顏正臉圖像,為其推薦最合適的發(fā)式和化妝模式,并展示合成結果。與上文論述的工作相比,本節(jié)中大部分推薦是基于社會媒體的多種因素,包括用戶關系和媒體相關內容,但其中的“內容”主要是以標簽、鏈接等元數(shù)據(jù)或語義信息為主。此外,日常生活中經常接觸的如“淘寶”、“當當”這類購物網站,均具有根據(jù)用戶訪問歷史、好友關系等因素推薦商品的功能,但這種推薦也主要基于標簽等語義、文本信息的分析,因此可能出現(xiàn)這樣的例子:對于一個用戶,如果本人或其好友關注一條裙子的圖片,推薦的也往往就是各種裙子圖片,而不去考慮該用戶到底是喜歡裙子的款式、花色、進而據(jù)此進行推薦。這個例子表明當前的研究在針對不同模態(tài)和層次細節(jié)內容方面的推薦受到一定限制。
作為用戶興趣分析方法的“多模態(tài)的用戶興趣內容分析”和“基于社會關系的協(xié)同過濾”需要許多相關技術的支撐。根據(jù)圖2,這些相關技術主要包括社會媒體用戶關系分析、社會媒體多模態(tài)信息挖掘、以及社會媒體中多模態(tài)資源相似性度量等,本節(jié)將從這3個方面綜述相關工作。
社會媒體中的用戶關系分析和用戶社群發(fā)現(xiàn)是社會網絡研究中的一個重要組成部分。在社會媒體資源推薦中,由于用戶對資源的各種操作而表現(xiàn)出的“興趣相投”、“觀點相似”、“關注”、“跟隨”等關系構成了各種網絡社群,這些社群所表達的用戶之間的關系成為“基于協(xié)同過濾推薦”的一個有效的擴展。
在用戶關系分析和用戶社群發(fā)現(xiàn)研究方面,Sun等[27]在多類型對象構成的異構信息網絡中(如學術網絡中的術語、作者、文章等),提出基于元路徑與用戶指導聚類的方法對社會網絡中的對象進行聚類;Guv等[28]根據(jù)“認識同一個人或者被同一個人認識”、“對同樣的事情感興趣”、“都在相同的地點”發(fā)現(xiàn)社會媒體中的用戶關系;Barbier等[29]基于社會媒體存在大量群、數(shù)據(jù)有噪音、群不斷變化的問題,提出發(fā)現(xiàn)群、根據(jù)群建立用戶profile、理解群對其他個人或群的影響、探索跨社會媒體群以補充群成員評價的社會媒體在線群的理解;Yang等[30]針對電子商務社會網絡中“許多具有相似興趣的社會媒體用戶可能沒有直接的交互或購買相同商品、從而導致社會媒體中顯式鏈接稀疏”的問題,提出識別用戶之間這種隱式關系來豐富社會媒體結構的方法;Jorge等[31]認為鏈接預測對于社會網絡成員未來關系的發(fā)現(xiàn)至關重要,針對此前的“鏈接預測基于結構信息、而結構信息在大規(guī)模社會網絡中不足以獲得好的預測性能”的問題,研究將“Twitter”用戶的行為、興趣等非結構信息引入用戶社群分析,改進鏈接預測性能。
總體上,社會網絡挖掘中的社群發(fā)現(xiàn)與推薦均屬此范疇,還有很多的研究工作,這里不多贅述。上述工作中,有只考慮用戶關系或者文檔相似關系的同構網絡,也有考慮用戶、資源及其關系的異構網絡,鏈接關系包括顯式鏈接,也包括隱式鏈接,其最終目標還是發(fā)現(xiàn)各種用戶社群。
社會媒體內容豐富,為推薦系統(tǒng)提供了巨大的信息資源。但無論是用戶興趣分析、還是推薦資源的選擇,以及社會媒體信息具有的海量性、有噪音等特點,均需要對社會媒體內容(包括不同層次、粒度的內容)進行分析。由于當前社會媒體信息呈現(xiàn)多模態(tài)特征,因此多模態(tài)信息挖掘成為這種分析的主要技術手段。
在社會媒體多模態(tài)信息挖掘以及相關的信息檢索方面,Tang等[32]提出了社會媒體分析中去除噪音、多媒體數(shù)據(jù)及用戶的建模、標簽代表性與資源相關性、大規(guī)模社會媒體數(shù)據(jù)的挖掘與檢索的擴展性、數(shù)據(jù)的衡量標準等問題;Lee[33]構建了在線突發(fā)事件發(fā)展評價模型,提出了離線事件評價衡量指標,用以支持事件間隱性關系的分析;Jin等[34]提出社會媒體中的垃圾信息檢測問題,通過圖像、文本、社會網絡中用戶歷史及其行為等特征的提取和分析,以識別垃圾內容;Lee 等[35]通過 Facebook、Twitter、DocTrack、MemRecap等文本集和查詢集等社交數(shù)據(jù)的測試,研究社會媒體個性化搜索和評價問題;Choudhury等[36]提出一種對信息單元加權的維度表示,來描述大規(guī)模社交媒體空間,并通過一種抽樣方法來降低這種大型社交網絡空間的維度;Tsai等[37]應用社交媒體并根據(jù)出現(xiàn)概率最大的話題對其進行分類,進而構建分類框架;Kaschesky等[38]提出在社會媒體中進行觀點挖掘的過程,包括:社會媒體內容分析,意見層建模、模擬和預測,社交網絡的可視化、接口設計,系統(tǒng)架構和實時運行平臺;Jin等[39]提出了一個LikeMiner系統(tǒng)以便在社會媒體網路中挖掘“l(fā)ike”的內容,針對社會媒體引入“l(fā)ike”異構網絡模型,建立可視和文本話題空間,提出挖掘算法評價社會媒體的表現(xiàn)力和影響力;Cui等[40]提出社會媒體搜索中融合多特征及其相關性的方法進行相似性度量,其特征涉及正文特征、視覺內容特征和用戶特征,分別以這些特征為節(jié)點構建特征交互圖,并考慮同模態(tài)節(jié)點邊和跨模態(tài)節(jié)點邊的定義和構建。
社會媒體多模態(tài)信息挖掘與傳統(tǒng)的多媒體挖掘技術相關,因此還有很多研究成果,這里不多贅述。就支持社會媒體資源推薦而言,由于社會媒體中用戶發(fā)布、瀏覽信息時可能會為其賦予具有一定語義信息的標簽,眾包[41]、分類分眾[42]技術又使標簽進一步豐富和規(guī)范,加之用戶關系等線索,目前很多推薦策略是基于標簽和用戶關系而避開內容(特別是非文本內容)分析的。但是,針對前述“面向用戶的多層次資源推薦”的特點和需求,不同粒度的多模態(tài)內容分析和信息挖掘是必不可少的。
第2節(jié)所論述的各種社會媒體推薦策略中,均需要根據(jù)用戶興趣(通過用戶社群、媒體內容及其他各種因素等渠道獲得)找到最相關的推薦資源,相似性度量是必不可少的。此外,前文論述的相關支撐技術中,分析用戶的相關或相似性,特別是多模態(tài)信息挖掘的很多算法,更需要進行資源之間、特別是不同模態(tài)形式的資源之間的相似性度量。
在多模態(tài)資源相似性度量方面,Liu等[43]研究社會媒體用戶所構成的社會網絡中一個節(jié)點與對等節(jié)點連接方式的多樣性問題,提出捕獲多樣性語義的度量標準,在社會媒體網站中獲得各種類型的朋友、合作等關系;Ling等[44]提出一種支持跨媒體信息檢索的異構媒體對象的相似性度量方法,該方法探索一種結合了原始的低層特征空間和第三公共空間特點的tri空間,基于該空間進行不同媒體對象的相似性度量;Zhai等[45]提出一種使用最近鄰方法的異構相似性度量方法,通過計算2個不同媒體對象屬于同一語義類別的概率來獲得這兩個媒體對象之間的相似性;Jia等[46]構建一個話題模型的Markov隨機域,將文本和與其松散相關的圖像結合起來,對這兩種不同模態(tài)之間的聯(lián)系進行編碼,用以進行跨模態(tài)的話題學習;Zhu等[4]提出一種跨模態(tài)哈希方法,在對每種模態(tài)的數(shù)據(jù)進行聚類基礎上,將得到的數(shù)據(jù)表達轉換成普通二進制子空間,使所有模態(tài)的二進制編碼是“一致”和可比較的,同時輸出針對所有模態(tài)的哈希函數(shù),用于將未知數(shù)據(jù)轉換成二進制代碼,從而實現(xiàn)跨模態(tài)搜索;Wu等[5]提出一種在線多模態(tài)深度相似性學習框架,針對每種單一模態(tài)學習一種非線性轉換函數(shù),在此基礎上去學習發(fā)現(xiàn)多種模態(tài)的最優(yōu)組合,應用于多模態(tài)圖像檢索任務,與文獻[4]不同的是,文獻[5]中所述的模態(tài)是圖像的不同類型的特征;Wu等[47]提出一種Bi-CMSRM的跨媒體特征表示方法,將圖像和文本2種不同媒體對象映射到相同的公共空間,支持“圖像→文本”和“文本→圖像”的雙向查詢。
相似性度量一直是數(shù)據(jù)挖掘、信息檢索、資源推薦等領域的一個研究熱點,包括相同模態(tài)信息、跨模態(tài)資源之間的相似性度量,涉及文本、圖像、視頻等不同媒體信息,還涉及數(shù)值、向量、樹、圖等不同的數(shù)據(jù)結構,更涉及距離與非距離等不同的相似性表達機制,因此相關工作還有很多。本節(jié)所述的工作更多側重于非文本和跨媒體的相似性度量,途徑是將不同模態(tài)特征在相同的新特征空間表示并度量,其余的不多贅述。
縱觀前述第2、3節(jié)的相關工作,可以總結出以下的特點和問題,并進而引出社會媒體推薦面臨的挑戰(zhàn)。
前文論述了社會媒體資源推薦策略和支撐技術方面的相關工作,針對其中3方面推薦策略和3方面支撐技術進行歸納,可以總結出如下特點。
1)在社會媒體用戶社會關系分析方面,考慮網絡的異構性、并進行相關分析和挖掘,是一個新的研究熱點。在異構信息網絡中如何更好地發(fā)現(xiàn)隱式社群并最終應用于社會媒體資源推薦,仍有許多待解決的問題;
2)在基于用戶社群的推薦方面,相關工作主要是基于社群內的用戶興趣或用戶關系本身進行推薦。在社會媒體資源推薦中,還應考慮如何在用戶社群發(fā)現(xiàn)的基礎上、進一步推演用戶興趣并應用于資源推薦;
3)在社會媒體資源挖掘方面,除針對社會媒體海量、噪音等研究外,一方面基于傳統(tǒng)的多媒體挖掘技術,另一方面基于社會媒體中豐富的語義、元數(shù)據(jù)信息;
4)在社會媒體資源推薦方面,大多以資源原始粒度作為推薦單元,一些具有綜合資源推薦功能的工作也主要局限在“旅游”這樣特定需求方面,因而尚缺少更小或更大粒度、特別是綜合資源的推薦;
5)在多因素分析的社會媒體資源推薦方面,相關工作結合了用戶關系和媒體內容,但其中的內容分析仍主要以文本形式的元數(shù)據(jù)和語義信息為主。
實際上,內容分析在傳統(tǒng)的推薦、特別是基于內容的推薦中曾起過重要作用。在社會媒體中,豐富的標簽、元數(shù)據(jù)等語義信息以及用戶關系等線索,使得很多推薦工作在未進行內容分析的情況下也能取得不錯的推薦效果,甚至在ACM Multimedia 2012國際會議上還引發(fā)了在社會媒體環(huán)境下“內容已死”與“內容萬歲”的討論[48]。但是,如果考慮前述異構信息網絡的社群發(fā)現(xiàn)以及多層次、不同粒度的信息推薦,內容分析是必不可少的:① 在構建異構信息網絡并分析用戶社群時,信息節(jié)點的相關性分析與信息凈化(去噪、去重等)、以及隱式鏈接關系分析均離不開內容分析;②如果要推薦的信息比原始信息粒度更小,則需要對原始信息進行內容分割;③如果要推薦的是粒度更大的綜合信息,則更需要文本、圖像、視頻的內容分析和挖掘。由于用戶通過社會媒體傳播和交流的信息形式的多媒體化,內容分析更需要多模態(tài)內容分析技術。
可見,為實現(xiàn)社會媒體的多層次推薦,內容分析仍然有其他方法不可替代的作用。當然,內容分析在進行跨媒體分析時有其局限性,除眾所周知的高維性以外,不同類型媒體之間的相似性度量僅依賴于內容分析是難以完成的。考慮一幅圖片與一段音樂是否相似,不借助于其他信息幾乎無法實現(xiàn),因而也就限制了不同媒體之間(即跨媒體)的推薦。
綜上,內容分析能夠提供針對單一媒體精細的分析和比較結果,在推薦系統(tǒng)中的作用是其他分析方法不可替代的。但是,當這種分析和比較涉及不同類型媒體時,內容分析則不能直接應用。此時,內容信息之外的語義信息、元數(shù)據(jù)信息等,成為不同媒體之間的“橋梁”。基于此,可以認為,結合社會媒體中的用戶信息,標簽、媒體上下文、評論等用戶生成內容,以及這些內容中的術語、視覺、聽覺等特征于一體的分析方法,能夠更好地支持社會媒體的多模態(tài)、多層次資源推薦和用戶關系挖掘。表1歸納了上述討論的結果,該表解釋了圖2中虛線的原因。
根據(jù)圖2、表1及上節(jié)的討論,社會媒體多模態(tài)、多層次資源推薦仍面臨諸多挑戰(zhàn)。
1)異構信息網絡構建與用戶社群發(fā)現(xiàn)問題。
傳統(tǒng)的推薦系統(tǒng)中,基于內容的推薦不考慮用戶關系,基于協(xié)同過濾的推薦主要依據(jù)“用戶-項目”的點擊情況,因而存在“用戶-項目矩陣稀疏”等問題。社會媒體中,“網絡社群性”可望更好地解決上述問題。但這里用戶與資源的關系已不僅是“點擊”操作,在“用戶角色雙重性”及在多種媒體形式構成的社會媒體環(huán)境中,如何構建“用戶-資源”異構信息網絡并在其中挖掘用戶社群,并最終映射為用戶興趣,則是一個挑戰(zhàn)。
2)多層次資源質量與條件相關性判別問題。
社會媒體的資源是用戶發(fā)布的,因此存在大量噪音、重復數(shù)據(jù)等信息質量問題,不同用戶發(fā)布的相同內容的資源質量也不盡相同,信息質量問題較傳統(tǒng)媒體愈發(fā)嚴重。此外,就推薦而言,在傳統(tǒng)的推薦系統(tǒng)中,如果以項目或網頁序列表達用戶興趣,那么序列“A”與“AB”對應的推薦應該是不同的。在社會媒體中,這一特點同樣存在,然而不同的是,A、B資源的媒體形式更加多樣。而在多層次資源推薦中,A、B的粒度則可為子資源、資源和復合資源,推薦結果還可能是綜合資源,條件相關性的分析變得更加困難。
3)用戶興趣與多層次資源的描述問題。
無論多層次資源模型、還是用戶興趣模型,均涉及用戶、各層次資源及其關系的描述,而資源之間關系的獲取需要不同模態(tài)的內容分析,這種分析又將落實到特征分析,因此帶來如下問題:首先,表現(xiàn)這些資源的數(shù)據(jù)本身大多是非結構化的;其次,不同資源數(shù)據(jù)之間是內容異構的;第三,這些非結構化數(shù)據(jù)的特征是高維的。若準確而合理地表達不同資源之間的關系、并有效地支持綜合資源的挖掘以及多層次資源推薦時的搜索,這種描述非簡單的數(shù)據(jù)結構所能勝任。
4)綜合資源的發(fā)現(xiàn)與推薦問題。
前述定義2中,多層次資源的“子資源”、“資源”和“復合資源”一般以顯式方式存在,而“綜合資源”則是隱式的,需要在資源和復合資源基礎上,通過分析和挖掘才能獲得。如何在多(跨)模態(tài)的社會媒體資源中,通過針對各種模態(tài)的內容分析,發(fā)現(xiàn)并表達綜合資源、進而向所需用戶推薦綜合資源,將涉及多(跨)模態(tài)挖掘以及推薦時的搜索與匹配等若干新問題。
5)多層次資源模型中的信息度量問題。
如本節(jié)內容3)所述,表達社會媒體多層次資源推薦模型已非簡單的數(shù)據(jù)結構,推薦時用戶興趣與資源的匹配又涉及條件相關性判別。在結構化和純文本內容中,由于特征形式單一,傳統(tǒng)的距離度量機制一般尚可奏效。但在社會媒體多模態(tài)內容和多層次資源中,用戶興趣與資源之間、資源與資源之間的相似或相關性度量無法采用傳統(tǒng)的“距離”度量機制予以實現(xiàn)。
可以認為,社會媒體中用戶角色的變化構成了更加復雜的用戶關系,社會媒體資源表現(xiàn)形式呈現(xiàn)多模態(tài)特點,社會媒體資源推薦應該、并可以滿足多層次的用戶需求。基于此,提出進一步的研究方向。
1)社會媒體資源與用戶興趣模型結構研究。
令社會媒體資源集合為 R={r1,r2,...,rn},每個ri(i=1,2,...,n)為一個資源,n為資源總數(shù)。對一用戶 u,其興趣模型 Mu={mu1,mu2,...,mum}是根據(jù)該用戶對資源的操作歷史及其社群關系得到的資源序列集合,其中每個mu∈Mu為用戶u感興趣的一個資源序列。不失一般性,將mu表示為mu=r1r2...rm(m為該序列長度,即用戶 u感興趣的一組相關資源數(shù)目,m<n)。就興趣模型存儲本身,將 r∈Rr表示為〈r,wr〉,wr為用戶對 r的興趣度,基于用戶對r的操作(發(fā)布、轉發(fā)、...、以及來源于社群興趣等)賦予不同的權值。而在推薦時,將根據(jù)興趣度對資源序列進行篩選。基于指定的mu∈Mu的推薦,實際上需要在R中發(fā)現(xiàn)一個最適合推薦的資源序列Rr?R,使該序列中任一項r∈Rr滿足argmaxfrec(r|r1r2...rm),其中 frec為推薦指數(shù),frec(r|r1r2...rm)即用戶 u 對 r1r2...rm感興趣的條件下、推薦資源r的指數(shù)。由于社會媒體推薦中“資源”已非原始粒度的信息,因此,資源的識別和描述將是一個新的問題。同時,如何對多層次資源和用戶興趣建模,如何進行推薦條件判斷,乃至模型的維護和支持查詢的有效索引均為需要研究的問題。
2)社會媒體多模態(tài)內容與資源質量分析基礎研究。
由于社會媒體中存在大量噪音、重復資源等質量問題,無論在構建資源模型與用戶興趣模型、還是構建用戶-資源信息網絡時,均存在資源的質量分析問題,噪音和重復資源的檢測依賴于多模態(tài)內容分析。此外,資源模型的表達是以計算兩資源ra、rb∈R的frec(ra|rb)為基礎的,而frec(ra|rb)正比于資源內容相關性,內容相關性的度量同樣依賴于多模態(tài)內容分析。如前所述,這里的多模態(tài)內容除包括媒體上下文線索、標簽等元數(shù)據(jù)等語義信息外,視覺、聽覺等內容分析的基礎是特征提取,這需要將特征相關性問題首先在不同類別的特征中解決,再進一步在多類特征中融合。這樣,分層次、分類別的特征提取將是一個重要的研究問題。
3)社會媒體異構信息網絡社群挖掘技術研究。
本節(jié)內容1)中涉及的用戶興趣模型結構,是將用戶興趣模型表示為資源序列集合Mu={mu}m,一個用戶的Mu可以從該用戶對資源的發(fā)布和使用歷史獲得。在社會媒體中,一個更顯著的特點是基于用戶的網絡社會關系、也就是其所在的社群中其他用戶的興趣予以推斷。在本文中,社群本身也被視為一種綜合資源,通過社群挖掘獲得。前面提及,社會媒體中用戶和資源的關系構成異構信息網絡,網絡中除顯式的鏈接(用戶對資源的操作)外,還包括資源內容相關性以及由此導致的用戶相關性等隱式鏈接。
4)社會媒體資源條件相關性挖掘技術研究。
本節(jié)內容1)、2)分別研究模型的結構和各層次特征抽取及上下文線索的獲取問題。而更為復雜的問題是 frec(rl|rl-1,...,r1)關系的構建,它涉及同一資源的不同模態(tài)、相同模態(tài)的不同資源以及不同模態(tài)的不同資源之間的條件相關性的計算問題,多模態(tài)信息挖掘技術可望解決上述問題。
5)社會媒體綜合資源發(fā)現(xiàn)與推薦策略研究。
綜合資源并非像單一資源或復合資源那樣顯式地存在,它是通過對系統(tǒng)資源挖掘并結合用戶興趣模型中的資源分析后發(fā)現(xiàn)的,是由若干相同或不同來源的、相同或不同媒體類型的資源構成的集合。此外,前面提及,用戶社群也是一種綜合資源。
6)社會媒體資源與用戶興趣匹配機制研究。
本節(jié)1)~5)的研究內容將資源模型表示為一系列 frec(ri|ri-1,...,r1)(i>1)關系及這些資源不同層次的特征,將用戶模型表示成一系列資源訪問序列r1r2...rm及其中每個資源不同層次的特征。構建該模型的最終目的是在系統(tǒng)資源中發(fā)現(xiàn)滿足用戶興趣的資源予以推薦。因此,應用該模型推薦時,首先應在資源模型 frec(ri|ri-1,...,r1)的條件“ri-1,...,r1”中找到與用戶模型中的興趣資源序列“r1r2...rm”最匹配者,計算滿足該條件的所有frec(r|r1r2...rm),并將滿足 argmaxfrec(r|r1r2...rm)的資源 r(即具有最大推薦指數(shù)的資源)作為推薦候選。
綜上所述,本文4.2節(jié)提出的挑戰(zhàn)與本節(jié)提出的研究方向之間的對應關系如圖3所示。

圖3 社會媒體推薦現(xiàn)狀、問題挑戰(zhàn)與研究方向的對應關系Fig.3 Relationship among present situation,challenges,and research direction in social media
本文分析了社會媒體中的用戶和資源所呈現(xiàn)的新特點,提出社會媒體資源的推薦是對傳統(tǒng)的“基于內容的推薦”、“基于協(xié)同過濾的推薦”及其混合模式的擴展,具有“多模態(tài)的用戶興趣內容分析”、“基于社會關系的協(xié)同過濾”和“面向用戶的多層次資源推薦”的特點,進而以此展開,綜述了基于社群的推薦、基于媒體內容的推薦、基于多種因素的推薦等3種推薦策略的研究現(xiàn)狀,綜述了社會媒體用戶關系分析、社會媒體多模態(tài)信息挖掘、多模態(tài)信息相似性度量等3種社會媒體推薦的支撐技術的相關工作。在對研究現(xiàn)狀和相關工作討論的基礎上,將其概括為“社會媒體中用戶角色的變化構成了更加復雜的用戶關系”、“社會媒體資源表現(xiàn)形式呈現(xiàn)多模態(tài)特點”、以及“社會媒體資源推薦應該、并可以滿足多層次的用戶需求”,基于此提出了當前社會媒體資源推薦面臨的挑戰(zhàn)及進一步的研究方向。
社會媒體是一個巨大的數(shù)據(jù)和信息資源,涉及眾多研究領域,基于社會媒體的資源推薦僅僅是其中的一個領域。本文僅從社會媒體資源推薦、特別是多模態(tài)與多層次資源推薦方面進行了討論,其中所述的推薦策略和相關支撐技術本身均可作為一個研究方向并擴展出更多新的研究和應用,社會媒體與數(shù)據(jù)質量、隱私保護、大數(shù)據(jù)分析處理等技術的結合,均為社會媒體研究的一些新領域。
[1]ADOMAVICIUS G,TUZHILIN A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(6):734-749.
[2]黃立威,李德毅.社交媒體中的信息推薦[J].智能系統(tǒng)學報,2012,7(1):1-8.HUANG Liwei,LI Deyi.A review of information recommendation in social media[J].CAAI Transactions on Intelligent Systems,2012,7(1):1-8.
[3]SUN Y,HAN J.Mining heterogeneous information networks:a structural analysis approach[J].SIGKDD Explorations,2012,14(2):20-28.
[4]ZHU X,HUANG Z,SHEN H,et al.Linear cross-modal hashing for efficient multimedia search[C]//ACM Multimedia.Barcelona,Spain,2013:143-152.
[5]WU P,HOI S,XIA H,et al.Online multimodal deep similarity learning with application to image retrieval[C]//ACM Multimedia.Barcelona,Spain,2013:153-162.
[6]PAVLIDIS Y,MATHIHALLI M,CHAKRAVARTY I,et al.Anatomy of a gift recommendation engine powered by social media[C]//ACM SIGMOD Conference.Scottsdale,AZ,USA,2012:757-764.
[7]POPESCU A,GREFENSTETTE G.Mining social media to create personalized recommendations for tourist visits[C]//2nd International Conference and Exhibition on Computing for Geospatial Research& Application.Washington,DC,USA,2011:37.
[8]SCHIRRU R.Topic-based recommendations in enterprise social media sharing platforms[C]//ACM Conference on Recommender Systems.Barcelona, Spain,2010:369-372.
[9]賈大文,曾承,彭智勇,等:一種基于用戶偏好自動分類的社會媒體共享和推薦方法[J].計算機學報.2012,35(11):2381-2391.JIA Dawen,ZENG Cheng,PENG Zhiyong,et al.A user preference based automatic potential group generation method for social media sharing and recommendation[J].Chinese Journal of Computer,2012,35(11):2381-2391.
[10]KOOHBORFARDHAGHIGHI S,KIM J.Using structural information for distributed recommendation in a social network[J].Applied Intelligence,2013,38(2):255-266.
[11]LI L,PENG W,KATARIA S,et al.FRec:a novel framework of recommending users and communities in social media[C]//ACM International Conference on Information and Knowledge Management.San Francisco,CA,USA,2013:1765-1770.
[12]ZHAO G,LEE M,HSU W,Et al.Community-based user recommendation in uni-directional social networks[C]//ACM International Conference on Information and Knowledge Management.San Francisco,CA,USA,2013:189-191.
[13]ZHANG H,ZHA Z,YANG Y,et al.Attribute-augmented semantic hierarchy:towards bridging semantic gap and intention gap in image retrieval[C]//ACM Multimedia,Barcelona,Spain,2013:33-42.
[14]BU J,TAN S,CHEN C,et al.Music recommendation by unified hypergraph:combining social media information and music content[C]//ACM Multimedia.Firenze,Italy,2010:391-400.
[15]TAN S,BU J,CHEN C,et al.Using rich social media information for music recommendation via hypergraph model[C]//Social Media Modeling and Computing.London,UK,2011:213-237.
[16]HU C,ZHANG C,WANG T,et al.An adaptive recommendation system in social media[C]//45th Hawaii International Conference on System Sciences.Maui,USA,2012:1759-1767.
[17]MA X,WANG H,LI H,et al.Enhancing recommended video lists for youtube-like social media[C]//IEEE International Workshop on Multimedia Signal Processing.Banff,AB,Canada,2012:244-249.
[18]ERNESTO D,LUCAS D,LARS S,et al.Real-time top-n recommendation in social streams[C]//ACM Conference on Recommender Systems.Dublin,Ireland,2012:59-66.
[19]LI Q,WANG J,CHEN Y,et al.User comments for news recommendation in forum-based social media[J].Information Science,2013,180(24):4929-4939.
[20]MESSENGER A,WHITTLE J.Recommendations based on user-generated comments in social media[C]//IEEE Third International Conference on Social Computing.Boston,MA,USA,2011:505-508.
[21]PERA M,CONDIE N,NG Y.Personalized book recommendations created by using social media data[C]//WISE 2010 International Symposium WISS,and International Workshops CISE,MBC,Hong Kong,China,2010:390-403.
[22]GUY I,ZWERDLING N,RONEN I,et al.Social media recommendation based on people and tags[C]//ACM SIGIR Conference on Research and Development in Information Retrieval,Geneva,Switzerland,2010:194-201.
[23]WU S,RAND W,RASCHID L.Recommendations in social media for brand monitoring[C]//ACM Conference on Recommender Systems.Chicago,IL,USA,2011:345-348.
[24]XIANG Z.Dynamic social media in online travel information search:a preliminary analysis[C]//International Conference in Innsbruck,Innsbruck,Austria,2011:343-353.
[25]Chidlovskii B.Learning recommendations in social media systems by weighting multiple relations[C]//Machine Learning and Knowledge Discovery in Databases-European Conference.Athens,Greece,2011:328-334.
[26]LIU L,XU H,XING J,et al."Wow!You are so beautiful today!"[C]//ACM Multimedia,Barcelona,Spain,2013:3-12.
[27]SUN Y,NORICK B,HAN J,et al.Integrating meta-path selection with user-guided object clustering in heterogeneous information networks[C]//ACM SIGKDD Conference.Beijing,China,2012:1348-1356.
[28]GUY I,JACOVI M,PERER A,et al.Same places,same things,same people?:Mining user similarity on social media[C]//ACM Conference on Computer Supported Cooperative Work.Savannah,Georgia,USA,2010:41-50.
[29]BARBIER G,TANG L,LIU H.Understanding online groups through social media[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2011,1(4):330-338.
[30]YANG C,YANG H,TANG X,et al.Identifying implicit relationships between social media users to support social commerce[C]//International Conference on Electronic Commerce.Singapore 2012:41-47.
[31]JORGE C,ALNEU L.Exploiting behaviors of communities of twitter users for link prediction[J].Social Network A-nalysis and Mining,2013,3(4):1063-1074.
[32]TANG J,WANG M,HUA X,et al.Social media mining and search[J].Multimedia Tools and Applications,2012,56(1):1-7.
[33]LEE C.Unsupervised and supervised learning to evaluate event relatedness based on content mining from socialmedia streams[J].Expert Systems with Applications,2012,39(18):13338-13356.
[34]JIN X,LIN C,LUO J,et al.SocialSpamGuard:A data mining-based spam detection system for social media networks[J].Proceedings of the VLDB Endowment,2011,4(12):1458-1461.
[35]LEE C,CROFT W,KIM J.Evaluating search in personal social media collections[C]//International Conference on Web Search and Web Data Mining.Seattle,WA,USA,2012:683-692.
[36]CHOUDHURY M,COUNTS S,CZERWINSKI M.Find me the right content!diversity-based sampling of social media spaces for topic-centric search[C]//International Conference on Weblogs and Social Media.Barcelona,Catalonia,Spain 2011.
[37]TSAI F.Probabilistic models for social media mining[J].International Journal of Information Technology and Web Engineering,2011,6(1):13-24.
[38]KASCHESKY M,SOBKOWICZ P,BOUCHARD G.Opinion mining in social media:modeling,simulating,and visualizing political opinion formation in the Web[C]//12th Annual International Conference on Digital Government Research.MD,USA,2011:317-326.
[39]JIN X,WANG C,LUO J,et al.LikeMiner:a system for mining the power of‘like’in social media networks[C]//International Conference on Knowledge Discovery and Data Mining.San Diego,CA,USA,2011:753-756.
[40]CUI B,TUNG A,ZHANG C,et al.Multiple feature fusion for social media applications[C]//Proc ACM SIGMOD,Conference.Indianapolis,Indiana,USA,2010:435-446.
[41]SAXTON G,OH O,KISHORE R.Rules of crowdsourcing:models,issues,and systems of control[J].Information Systems Management,2013,30(1):2-20.
[42]RAWASHDEH M,KIM H,EL-SADDIK A.Social media annotation and tagging based on folksonomy link prediction in a tripartite graph[C]//Advances in Multimedia Modeling.Huangshan,China,2013:24-35.
[43]LIU L,ZHU F,JIANG M,et al.Mining diversity on social media networks[J].Multimedia Tools and Applications,2012,56(1):179-205.
[44]LING L,ZHAI X,PENG Y.Tri-space and ranking based heterogeneous similarity measure for cross-media retrieval[C]//International Conference on Pattern Recognition.Tsukuba,Japan,2012:230-233.
[45]ZHAI X,PENG Y,XIAO J.Effective heterogeneous similarity measure with nearest neighbors for cross-media retrieval[C]//Advances in Multimedia Modeling.Klagenfurt,Austria,2012:312-322.
[46]JIA Y,SALZMANN M,DARRELL T.Learning cross-modality similarity for multinomial data[C]//IEEE International Conference on Computer Vision.Barcelona,Spain,2011:2407-2414.
[47]WU F,LU X,ZHANG Z,et al.Cross-media semantic representation via bi-directional learning to rank[C]//ACM Multimedia.Barcelona,Spain,2013:877-886
[48]XIE L,SHAMMA D,SNOEK C.Content is dead:longlive content![C]//ACM Multimedia.Nara, Japan,2012:7-8.