999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

跨社交網絡用戶身份關聯技術

2021-11-06 12:03:46王李冬胡克用
重慶理工大學學報(自然科學) 2021年10期
關鍵詞:效果用戶信息

王李冬,張 引,胡克用,張 赟

(1.杭州師范大學 錢江學院,杭州 311121;2.浙江大學 計算機科學與技術學院,杭州 310012 3.浙江傳媒學院,杭州 310018)

自媒體時代越來越多的用戶開始習慣在社交網絡(social media network,SMN)上實現日常的互動和信息的獲取。現今,社交網絡個數已達上百個,且種類繁多,典型的如校園類的人人網、開心網,學習類的知乎網等,綜合類的如MySpace、Twi-tter和Facebook等。人們為了享受不同網站提供的服務往往需要注冊為該網站的用戶。普通用戶擁有多個不同社交網站的帳號是較普遍的情況。用戶可以在Foursquare上用手機與別人分享地理位置信息進行交流,也可以在MySpace上交友、分享個人信息并進行即時通訊。每個用戶若在不同的社交網絡注冊,會留下其個人信息(如年齡、工作單位、畢業院校等),發表的文本內容,發布的視頻、圖像等多媒體信息,以及在自己感興趣內容下的評論、轉發等。對這些信息進行整合、分析,將構成用戶完整的個人畫像。

現有的社交網絡與社交網絡之間由于功能不同,因此往往是相互獨立的,而且針對同一用戶在不同網絡上的注冊信息缺乏有效的管理平臺進行統一管理。為了分析某用戶甚至群體用戶在社交網絡上的行為,獲取用戶的完整圖像(profile),需要整合用戶在不同社交網絡上的數據,其突破口在于跨社交平臺的用戶身份匹配,即識別用戶在多個社交網絡上的帳號。跨社交平臺的身份匹配對商業上的信息服務推送、好友推薦以及網絡安全治理有重要意義。

同一用戶在不同社交網絡注冊時往往會填報相同或相似的屬性信息,如相同的用戶名,相同的性別、生日等信息。這些信息為跨社交網絡的身份匹配提供了一定的表面特征條件。但是,表面特征信息往往存在稀疏性、內容缺失以及部分屬性與事實不符等特征,因此單純依靠表征特征會提升匹配的錯誤率。本文主要研究跨社交網絡的身份匹配問題,即給定部分已知種子用戶(同時存在于2個社交網絡)節點集MPprior的基礎上,推斷出所有潛在的匹配用戶對集合MP。為了匹配跨社交網絡用戶,需要對2個網絡中的所有用戶一一比對。由于社交網絡的日益龐大,針對兩兩用戶節點進行計算會消耗大量的時間。因此,本文擬通過候選用戶選擇和基于匹配因子的識別方法實現配對用戶對的判定,并提出融合用戶表面特征(屬性信息)和基于網絡嵌入的朋友匹配度作為身份匹配的匹配因子,本文將該方法命名為JFA(joint friend-attribute)。現有方法往往單獨采用基于表面特征的匹配技術或者基于網絡嵌入學習的方法,而本文對這2種方法進行融合探討,屬于全新的一種嘗試。

1 相關工作

跨社交網絡用戶身份匹配方法主要包括基于社交網絡表面特征和基于表示學習2種方法。

1.1 社交網絡表面特征

該類方法主要利用用戶屬性信息或者融合用戶屬性信息和拓撲結構的方法實現跨社交平臺的身份匹配。針對前者,大部分方法計算某個特定屬性值的字符串相似度或者組合多個屬性值相似度,并通過不同的權重系數加權平均得到最終的結果,或將其作為輸入以訓練二類分類器。例如,Vosecky等[1]將姓名、出生年月等屬性信息構成用戶的特征向量,并計算用戶與用戶間的特征相似度,之后對每個相似度賦予權重計算綜合相似度。孟波等[2-3]利用監督學習方法和提取的屬性特征構建多個二類分類器實現身份識別,屬性特征包括名字特征、用戶信息特征以及拓撲特征。Kong等[4]利用用戶的上網時間、地理位置、文本信息等提出MNA方法(multi-network anchoring),構建SVM分類器,在其基礎上通過交叉匹配方法提升匹配效率。針對后者,Liang等[5]通過提取用戶名、姓名等特征,并利用交叉匹配和剪枝原則實現用戶匹配。Bartunov等[6]利用條件隨機場(conditional random fields)提出聯合屬性和鏈接關系的JLA方法,通過構建能量函數并最小化能量函數的方式得到用戶匹配,并利用監督分類器對結果實行剪枝操作,取得良好的匹配效果。該方法適用于由于隱私保護而導致個人信息缺乏的狀況。Wang等[7]提出融合二元朋友、三元朋友關系以及屬性特征的概率因子圖模型PIFGM (pairwise identical factor graph model),在部分訓練數據集的基礎上預測配對用戶對。大部分的研究表明,融入鏈接關系的身份匹配效果優越于單單依靠屬性信息的匹配效果[8]。

除上述2種方法外,也有部分研究機構利用其他表面特征,如社交網絡上的頭像、朋友關系、用戶發布的文本內容、用戶行為等進行身份識別。例如,Goga等[9]提出了一種適用于海量用戶的身份識別方法。該方法首先利用Jaro距離方法計算用戶名字之間的相似度,利用感知哈希計算頭像相似度,利用人臉識別技術得到臉部相似度,然后根據上述特征相似度,訓練樸素貝葉斯分類器得到匹配結果。Zhou等[10]提出基于朋友關系的用戶識別方法,為每個候選匹配用戶對計算匹配度,并通過排序的手段得到最佳匹配用戶對。Nie等[11]通過融合網絡結構和用戶發布的文本內容實現用戶核心興趣(core interest)建模,在其基礎上實現身份識別。Zafarani等[12]提出利用用戶行為建模的形式對不同網絡的用戶身份進行匹配。此外也有研究者開始針對MOOC網站的用戶行為進行分析[13],將用戶在不同MOOC網站上的學習資源進行整合。上述多數研究主要面向2個社交網絡的跨身份識別,Zhang等[14]為了滿足3個以上社交網絡用戶身份識別的局部一致性和全局一致性,提出一種全新的基于能量目標函數的方法。

1.2 表示學習

近幾年,基于網絡表示學習的方法開始引起學者們的關注[15-19]。該類方法的核心思想來自于網絡嵌入(network embedding),即將網絡嵌入到低維的特征空間,使得每個節點都由一個低維的特征向量表示,最后對不同網絡的節點表示學習結果進行分析以預測是否為同一用戶節點[20]。例如,Wang等[15]提出LHNE(linked heterogeneous network embedding model)模型將結構信息(朋友關系)和內容信息(主題)融合嵌入到統一的特征空間。Zhang等[16]假設若2個網絡的用戶在各自的ego network中具備更多的相似鄰居,則他們為同一用戶的概率就越大。基于此,提出基于圖神經網絡的MEgo2Vec模型,在構建匹配ego network的基礎上,通過多角度節點嵌入方法獲取用戶名的字面和語義特征,并利用注意力機制對不同鄰居用戶間的影響力建模,最后結合結構嵌入對用戶身份進行預測。Liu等[17-18]提出的IONE模型和PALE模型都利用結構信息進行用戶節點的表示學習并獲得嵌入向量,但沒有利用用戶的屬性特征。Shang等[19]針對表征學習模型的魯棒性提出基于對抗學習的方法,首先通過自編碼器得到網絡的低維嵌入空間,再引入節點的嵌入向量的先驗分布,利用對抗正則化方法提升嵌入向量的魯棒性。上述基于表示學習的方法雖然取得不錯的效果,但是網絡的表征學習和用戶身份的對齊尚無法結合到一個模型中。

總之,面向跨社交網絡的身份匹配已取得一定的研究成果,但多數方法缺乏普適性和高準確率。此外,大多數基于用戶屬性的匹配手段都缺乏對屬性貢獻度的深入分析,而且在研究方法上很少將表面特征匹配的結果與嵌入學習模型相結合。本文擬從融合屬性特征和拓撲結構的角度出發,探討單個特征和多個特征對用戶匹配方法準確率的影響,將表面特征匹配與網絡嵌入學習模型相結合提出準確有效的身份匹配準則。

2 JFA方法

Zhou等[10]對129個用戶(同時在新浪網和人人網注冊)進行調研,發現這些用戶大約有67.5%的朋友關系同時存在于新浪網和人人網。可見,用戶在不同的但具備相似功能的社交網絡中往往具備相似的社交群。Goga等[9]發現很多用戶同時具備Google+、MySpace、Twitter等帳號。由此,我們可以假設:① 若給定先驗種子用戶集,則可以根據朋友關系推斷出候選配對用戶對。② 若候選配對用戶對中具有相似的屬性信息和結構信息(朋友關系),則他們為同一個體的概率越大。基于此假設,我們提出融合屬性特征(如用戶名等)和拓撲結構(朋友匹配度)的JFA(joint friend-attribute)方法。

在講述方法前,本文先作下述定義:

定義1(配對用戶對) 給定2個社交網絡,分別表示為SMNA={UA,EA},SMNB={UB,EB}。UA表示網絡SMNA的用戶實體集合,EA為網絡SMNA的用戶關系(相互關注或鏈接關系),UB表示網絡SMNB的用戶實體集合,UAi代表用戶集合UA中的第i個用戶,UBj代表用戶集合UB中的第j個用戶。若用戶UAi和用戶UBj在現實生活中屬于同一個體,則(UAi,UBj)∈MP,MP為配對用戶集合。

定義2(先驗種子) 社交網絡SMNA和社交網絡SMNB的先驗種子代表已知的匹配用戶對,將先驗種子集記為MPprior。

定義3(朋友關系) 在社交網絡SMNA中,若用戶UAi與用戶UAj相互關注,則用戶UAi和用戶UAj為朋友關系,記為UAj∈friend(UAi)。

提出的JFA方法框架圖如圖1所示。

圖1 JFA方法框架

該方法主要包含候選用戶對選取和匹配過程兩部分。前者主要根據網絡的拓撲結構選出有較大可能成為匹配用戶對的候選用戶對。后者在候選用戶對集合中進一步選擇,利用字符串匹配等手段計算用戶屬性匹配度,并利用網絡嵌入學習算法計算朋友匹配度,最后通過基于貪心優化的判定準則對匹配因子進行比較,以得到最終匹配用戶對。上述2個過程相互迭代,直到種子用戶集為空。

2.1 候選用戶對選取

將候選用戶選取規則定義如下:

定義4(候選用戶對) 若UAi和UBj為2個社交網絡中的先驗種子用戶(即代表同一用戶),UAk∈friend(UAi),UBl∈friend(UBj),則(UAk,UBl)屬于候選用戶對CMP,定義為:

CMP={(UAk,UBl)

|UAk∈friend(UAi)∧UBl∈friend(UBj)∧

(UAi,UBj)∈MPprior}

(1)

其中,

friend(UAi)={UAj|(UAi,UAj)∈EA}

候選用戶對選取示例見圖2。圖2描述2個社交網絡SMNA和SMNB,2個網絡中的虛線表示先驗種子點,即存在于2個社交網絡中的同一用戶。根據候選用戶選取規則,從種子點出發,得到(Lisa,Ben)×(Lisa,Ray,Cathy,Violet)為候選用戶對,其中,×表示笛卡兒積。

圖2 候選用戶對選取示例

2.2 匹配過程

一旦獲得候選用戶對,需要通過一定的準則來判定這2個用戶是否屬于同一個體。目前沒有方法適用于任意2個社交網絡的配對用戶判定,一般針對特定社交網絡對已有方法進行適度的修改。Balduzzi等[21]提出利用email對用戶進行判定。由于email的唯一性,利用email進行判定可以準確的對用戶身份進行識別,但很多社交網絡將email作為隱私數據。同個用戶往往在不同的社交網絡使用同一個昵稱(nickname)[21]。若2個社交網絡中用戶的用戶名一樣,可認定為該對用戶為同一對象。但是部分社交網絡允許不同的用戶以相同用戶名進行注冊,如人人網。單單通過用戶名無法直接判斷兩用戶是否屬于同一人,因此可通過其他可獲取的因素,如地理位置、生日、工作單位、性別等屬性信息進行進一步確認。此外,部分網絡會提供額外的信息,如twitter網絡提供獨特的URL地址用于用戶識別,針對twitter網絡的用戶配對可直接利用該URL信息。除了上述信息外,已有研究表明融入網絡鏈接關系的匹配方法效果優越于單單依靠屬性信息的匹配效果[8]。

基于上述分析,本文融合屬性匹配度和依賴鏈接結構的朋友關系匹配度作為準則判定的依據,提取用戶名、姓名、URL信息(可選)、email(可選)等屬性匹配度以及朋友匹配度等匹配因子。

2.2.1屬性匹配度

用戶名信息,表示為u,部分文獻采用Levenshtein距離進行度量[22]。Levenshtein距離作為計算2個字符串間的差異程度的字符串度量,曾被多次應用于用戶名的差異度量并取得較好的效果[23]。本文將2個用戶名U1和U2之間的用戶名相似度Simu(U1,U2)按照下式進行計算:

(2)

式中:lev(U1,U2)表示用戶U1和U2之間的Levenshtein距離;l(ui)表示ui的字符數。

姓名信息(可選)表示為n,在多數的網絡中都會出現,例如Facebook和Twitter。該信息可作為與用戶名同等重要的屬性字段進行身份匹配,但無法作為身份識別的唯一判定信息。由于國外社交網絡的姓名中,“姓”和“名”的順序并無統一規則,部分用戶會將“姓”放前,部分用戶則不會。Levenshtein距離對順序較敏感,完全相同的名字,若“姓”和“名”的順序倒置,將產生完全不一樣的計算結果。利用VMN算法[6]對姓名進行度量。VMN是一種非常有效的名字匹配技術,可以對姓名等信息實現模糊匹配。在VMN算法中,名字“Tony Xie”和“Xie Tony”的相似度為1。

URL信息(可選),表示為l。若某社交網絡提供URL信息助于身份識別,則根據URL信息與相應社交網絡的鏈接地址進行比對,若相同,則返回1,否則為0。

2.2.2朋友匹配度

現今越來越多的社交網絡中用戶的屬性信息存在缺失、不真實等問題,而社交網絡的結構信息顯得更加穩定可靠。朋友匹配度主要依賴于網絡的鏈接結構。在社交網絡中,若2個用戶之間存在鏈接關系,往往代表2個用戶之間相互關注,又或稱之為朋友關系。若2個網絡中的用戶具備越多的共同朋友,則他們屬于同一個體的概率越大[10]。假設F_Matchij代表朋友匹配度,文獻[10]將其定義為:

F_matchij=|FAi∩FBj|

(3)

式中:FAi表示用戶UAi已經被識別的朋友集;FBj表示用戶UBj已經被識別的朋友集;F_Matchij表示用戶UAi和用戶UBj的共同朋友個數。F_Matchij值越高,代表兩用戶越匹配,為同一個體的概率越大。然而,上式計算模型在僅僅具備部分種子點的情況下,無法提前獲得用戶對的共同鄰居個數。考慮到社交網絡的朋友關系體現為網絡的拓撲結構信息,因此,為了獲得朋友匹配度,使用網絡嵌入的方法學習得到每個節點的結構嵌入向量,訓練多層感知機(MLP)模型作為網絡間節點結構特征向量的映射函數,再根據歐氏距離計算結構特征向量之間的距離作為兩節點的朋友匹配度。具體步驟如下:

步驟1針對社交網絡SMNA,首先采用網絡嵌入的方法將每個節點嵌入到低維向量空間。類似文獻[24]的表示學習方法,本文定義2個節點間存在邊的概率為:

(4)

式中:zAj和zAi分別代表節點UAj和節點UAi的嵌入向量;σ(x)代表 sigmoid函數。為了學習得到嵌入向量,通過最小化以下目標函數:

O′=-∑(UAi,UAj)∈EAlogp(UAj,UAi)

(5)

步驟2按照同樣的方法對社交網絡SMNB進行嵌入學習,再綜合2個網絡的目標函數得到網絡嵌入的最終目標函數:

O1=-(∑(UAi,UAj)∈EAlogp(UAj,UAi)+

∑(UBi,UBj)∈EBlogp(UBj,UBi))

(6)

為了最小化目標函數,采用隨機梯度下降法進行求解。同時,采用負采樣方法(Negative Sampling)解決目標函數求解過程中的耗時較大問題。對于每條邊(UAi,UAj),重新根據下式計算logp(UAj,UAi):

(7)

步驟3根據種子配對用戶對的嵌入向量,學習SMNA和SMNB中節點的結構特征向量之間的映射函數φ。給定zAi∈ZA,映射函數φ(zAi,θ)將向量zAi映射到空間ZB。其中,θ代表映射函數的參數集合。利用多層感知器模型構建映射函數φ(zAi,θ),獲得向量空間ZA到向量空間ZB的映射關系。設計的MLP模型包括輸入層、隱藏層和輸出層,隱藏層單元個數設定為2*d(d為輸入層個數)。將種子配對用戶的結構嵌入向量作為訓練數據,對MLP模型進行訓練。

步驟4通過下式計算得到用戶UAi和用戶UBj的用戶匹配度:

f(F_Matchij)=||φ(zAi;θ)-zBj||2

(8)

2.2.3匹配準則

將SMNA和SMNB中UA→UB的配對結果記為矩陣Y。為了簡化計算,假設SMNB中僅存在1個用戶與UAi配對。若UAi和UBj配對,記為yij=1,否則yij=0。則2個社交網絡的局部身份配對矩陣Y滿足∑lyil≤1?UAi∈UA,∑kykj≤1?UBj∈UB。

基于此,定義以下目標函數融合用戶的屬性和基于嵌入學習的朋友匹配度:

αf(F_Matchij))

(9)

其中,

(10)

Matcha(UAi,UBj)表示為用戶UAi和用戶UBj在匹配因子a上的匹配度。1≤k≤|K|,k表示規則使用的匹配因子個數,K表示所有的屬性匹配因子集合,|Κ|代表匹配因子總個數。式(9)中的參數α用于平衡屬性匹配值和朋友匹配度。式(10)中的wa代表匹配因子a的權重。2個網絡間用戶的匹配問題就可以轉化為式(9)的目標最大化問題:

(11)

為了對式(9)的組合優化問題進行求解,利用貪心優化的原理,每次從候選用戶集選取配對用戶對(UAi,UBj)的過程中,使得在yij=1的條件下,obj(y)得到最大化。基于此,定義匹配分值Mat_score,針對每一個候選用戶對中的用戶UAi,從UB中選取匹配分值最大的用戶為匹配用戶。

Mat_score(UAi,UBj)=(1-α)Rk(UAi,UBj)+

αf(F_Matchij)

(12)

2.3 JFA算法描述

根據上述流程,首先根據種子配對用戶對進行候選用戶對選取,將該過程記為CandidateSelection(SMNA,SMNB,MPprior),其中,MPprior代表先驗種子用戶集。針對候選用戶對集合中的每一對用戶計算Mat_score(UAi,UBj)(見式(12)),以得到新的配對用戶對,以此作為新的種子用戶重新選取候選用戶對。上述過程迭代計算,具體過程如下:

Input:SMNA,SMNB,種子用戶集MPprior

Output:配對用戶集MP

1MP←?;

2Repeat

3 Randomly select a userUAm∈MPprior;

//遍歷種子用戶集中的每個種子點

4CMP←CandidateSelection(SMNA,SMNB,UAm);

//CMP代表候選配對用戶對集合

5foreach(UAi,UBj)inCMPdo

6k←|K|; //初始化匹配因子個數

7 Calculate Mat_score(UAi,UBj) according to Eq.(14);

8endfor

9 (UAi,UBj)=arg max(UAk,UBl)∈CMPMat_score(UAk,UBl);

10MP←MP∪(UAi,UBj);

11 ifUAiis not included inMPpriorthen

12MPprior←MPprior∪UAi;

//將匹配好的用戶作為種子用戶

13 end if

14MPprior=MPprior-UAm;

15untilMPprior=?

由上述方法可得,一旦獲得配對用戶對,則將該用戶對視作新的種子點(見算法第12行),以重新計算得到候選配對用戶對。該方法迭代運行,若種子集為空,則方法終止。

3 實驗

3.1 數據集

使用3種數據集進行實驗驗證,分別為Facebook和Twitter數據集、SNS數據庫以及隨機網絡數據集。

1) Facebook和Twitter數據集

該數據集共包含16個來自Facebook和Twitter的網絡對。本數據集忽略網絡中的單向關注關系,保留互相關注鏈接關系。數據集已經標注2個網絡中的匹配用戶對,并同時標注了種子用戶,具體相關信息如表1所示。圖3描述了數據集中的一個網絡對,該網絡對的種子用戶為0號用戶,且存在3對配對用戶對(紅色虛線表示)。

表1 數據集信息

圖3 Facebook和Twitter網絡對示例

2) SNS數據集

SNS數據集包括當下5種流行的社交網絡:Twitter、Live-Journlal、Flickr、Last.fm和Myspace,每種數據集包括了用戶的基本屬性信息,同時包含了兩兩網絡間用戶對應的基準數據。具體數據集信息參考https://www.aminer.cn/cosnet。

3) 隨機網絡數據集

隨機網絡數據集利用Erdos-Renyi (ER)網絡[25]、Watts-Strogatz(WS)網絡[26]和Barabasi-Albert(BA)[27]網絡3種網絡類型。圖4表示3種隨機網絡圖(1 000個節點)的度分布。ER和WS網絡都是通過邊的隨機化重連生成,而且度概率符合正態分布,BA網絡的度概率符合冪律分布。

圖4 隨機網絡的度分布曲線圖

由于隨機網絡生成的節點無法體現用戶屬性等信息,因此,通過細粒化種子集在全部節點中的比例,分析JFA方法中的朋友匹配度因子在隨機網絡上的用戶匹配效果。為了在隨機網絡對中獲得配對用戶,首先生成較大規模的隨機網絡,然后按照文獻[28]的方法通過抽樣進行子網絡提取(抽樣過程如圖5所示),抽樣好后的網絡對(SMNA和SMNB)中序號相同的即為同一用戶。同時引入Jaccard系數測量生成的網絡對的節點/邊的覆蓋度。在實驗部分,先生成1 000節點數的ER、WS網絡(每種5個網絡),再生成10 000節點的BA網絡,然后分別針對ER、WS和BA網絡生成5對網絡對(共15對網絡對),WS網絡和ER網絡中的邊隨機化重連概率p設定為0.05。在BA網絡中,將每次引入新節點時新生成的邊數m設定為20。

圖5 隨機網絡抽樣示例

3.2 實驗結果

采用傳統的準確率(precision)、召回率(recall)以及F1-measure進行效果度量,具體如下:

recall=tp/(tp+fn)

(13)

precision=tp/(tp+fp)

(14)

(15)

式中:tp代表真陽性,即被正確匹配的賬號對;fp代表假陽性,即被錯誤匹配的賬號對;fn代表假陰性,即無法被匹配出來的賬號對。

3.2.1隨機網絡數據集

針對隨機網絡數據集,匹配準則中的匹配因子僅考慮朋友匹配度,并通過設定不同的種子個數,判定JFA方法的種子個數對用戶身份匹配效果的影響。需要注意的是,僅計算朋友匹配度作為匹配因子使得JFA方法演變為單純依賴拓撲結構的一種方法,因此本文將該方法和NS方法進行對比實驗,并將結果記錄于圖6和圖7中。由Narayanan等[29]提出的NS方法僅依賴于網絡的拓撲結構。

圖6 JFA和NS在3個隨機網絡上的召回率折線圖

圖7 JFA和NS在3個隨機網絡上的準確率折線圖

圖6表示JFA方法和NS方法在3個合成網絡上的召回率結果。橫坐標表示先驗種子集占的比例,縱坐標代表召回率。由結果可得,當種子集的比例升高,召回率也會相應提升。在所有情況下,僅利用朋友匹配度的JFA方法比NS方法能夠識別出更多的配對用戶。圖7給出2種方法在3個合成網絡上的查準率結果。橫坐標表示種子集占的比例,縱坐標代表召回率。在大部分情況下,隨著種子集個數的增多,查準率也會相應得到提高。針對ER和WS網絡,本文方法的識別準確率明顯高于NS方法。針對BA網絡,即便在種子集比例較小的情況下,本文方法依然能體現較強的優越性(在先驗種子集比例為0.02的情況下,召回率達到0.735)。

3.2.2真實網絡數據集

針對Facebook-Twitter數據集和SNS數據集,采用不同的基準算法與本文方法進行比較,分別為SVM、JLA(Joint Link-Attribute)[6]、NS[29]、SiGMa[30]、COSNET[14]和JFA。在SVM算法中,通過屬性相似度得到用戶UAi和用戶UBj之間的相似度向量H(SAi,SBj),SAi和SBj為其各自的屬性向量;然后將已知匹配的用戶對的屬性相似度向量作為訓練向量,不同屬性信息的相似度作為不同的向量維度值;基于此,用戶身份是否匹配轉化為一個二分類問題,即C(H(SAi,SBj))∈[0,1],C代表分類器,分類結果1代表UAi和UBj為同個用戶,否則為不同用戶。JLA方法為現今效果較好地實現局部身份匹配的常用方法,利用賬號屬性信息和網絡結構,將2種信息融合到一個框架中。SiGMa方法是一種融合結構信息和實體的屬性相似度測量的貪婪迭代算法。在具體實現上,將用戶名完全匹配的用戶作為種子點進行擴展,評分函數(score function)采用各個屬性相似度的加權和。JFA方法中,式(13)的平衡因子α通過實驗經驗設定為0.5。COSNET方法是近幾年效果較好的一種融合屬性信息和結構信息的匹配方法,將其應用于SNS數據集的兩兩社交網絡的匹配(去除全局匹配部分),局部屬性特征按照原文中的方法進行提取。表2記錄了不同匹配因子的測試結果。表3給出不同方法在Facebook-Twitter數據集的16對網絡上的匹配效果的均值。表4記錄了不同方法在SNS數據集上的實驗結果。

表2 面向Facebook-Twitter數據集不同匹配因子下的JFA方法效果

表3 Facebook-Twitter數據集的身份匹配效果

表4 SNS數據集的身份匹配效果

由表2數據可以看出,不同匹配因子取得不一樣的效果。從單個匹配因子來看,姓名和用戶名比朋友匹配度方法的準確率要高,而且能獲得更高的召回率。朋友匹配度在該數據集上效果不佳,主要是由于該數據集中配對用戶對的個數較少,且部分網絡的結構信息差異較大。基于用戶名的效果比基于姓名的效果好,主要源于部分用戶在網絡上填寫的姓名存在一定的不真實性。總的來說,高級別判定準則的匹配效果比較低級別的匹配效果好,尤其是查全率得到一定的提升,F1值也得到提升。如大部分R2判定準則的匹配效果比R1判定準則效果好。由此可見,特定的匹配因子組合可有效提升跨社交平臺用戶身份匹配的效果。

表3記錄了從Facebook到Twitter的匹配和Twitter到Facebook的匹配結果的均值。 其中,JLA方法使用監督分類器的剪枝手段,所有方法的結果都是無種子用戶存在的情況下取16對網絡對的均值。由表3結果可得,雖然JLA方法能得到最高的準確率,然而該方法的召回率并不十分理想。僅僅以網絡拓撲為計算依據的NS方法效果比綜合屬性因素和鏈接關系的JFA方法要差。JFA方法的效果不僅比JLA優越,而且JFA方法中基于判定準則的匹配方法比JLA中基于條件隨機場的最優用戶映射實現更加簡單,JLA方法需額外利用基于監督分類器的剪枝操作才可獲得相對滿意的效果,這樣的步驟使得該方法無法直接適用于海量用戶的跨社交平臺應用。

表4記錄SNS數據集中每對網絡的匹配效果。針對每對網絡,JFA算法的效果遠比SVM、SiGma以及NS算法和JLA算法效果好,且在大部分的數據集上,效果優越于COSNET。與JLA方法類似,SiGMa針對2種數據庫都可以獲得高于90%的準確率,但是卻獲得較低的召回率。在與COSNET的比較中,COSNET對部分數據集的查全率并不理想(如Flickr-MySpace,Last.fm-MySpace等),但本文算法針對大部分數據集查全率有所提升。綜合表3和表4數據可得,針對真實網絡,本文方法優越于基于拓撲結構的NS方法和基于屬性信息的SVM傳統方法,同樣比融合拓撲結構和屬性信息的JLA和SiGMa方法效果優越。

4 結論

提出一種基于JFA方法的跨社交平臺身份匹配,并將其應用于隨機網絡和真實社交網絡的數據集上。首次通過表面特征與嵌入學習相結合的方式進行匹配,并選擇不同的匹配因子進行實驗,結果表明:該方法在綜合多個匹配因子的條件下可取得較高的準確率,效果優于傳統的JLA、NS、SiGMa、COSNET等方法,而且單單基于朋友匹配度匹配因子的匹配效果依然優于傳統方法。今后的工作主要針對3個或3個以上的社交網絡群,研究解決兩兩網絡之間匹配結果不一致的情況。目前針對跨社交平臺用戶匹配的研究缺乏權威有效的基準數據集。

猜你喜歡
效果用戶信息
按摩效果確有理論依據
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 欧美www在线观看| 91免费观看视频| 园内精品自拍视频在线播放| 亚洲精品无码久久毛片波多野吉| 国产精品亚洲一区二区三区z | 欧美精品一区在线看| www.av男人.com| 亚洲AV无码乱码在线观看代蜜桃 | 色天天综合| 亚洲精品视频网| 天天色天天操综合网| 国产精品思思热在线| 欧美国产日韩一区二区三区精品影视| 欧美成人影院亚洲综合图| 国产黄色爱视频| 亚洲动漫h| 在线看免费无码av天堂的| 亚洲AⅤ波多系列中文字幕| 久久国产精品嫖妓| 久草视频福利在线观看| 青青操国产| 久久精品无码中文字幕| 日韩精品一区二区三区swag| 热思思久久免费视频| 成人亚洲国产| 91av国产在线| 一级毛片不卡片免费观看| 99精品久久精品| 精品亚洲麻豆1区2区3区| 色综合国产| 日韩国产精品无码一区二区三区 | 青青青伊人色综合久久| 久久综合九九亚洲一区| 久久人人97超碰人人澡爱香蕉| 区国产精品搜索视频| 成人在线不卡视频| 精品国产污污免费网站| 亚洲精品久综合蜜| 午夜精品福利影院| 国产亚洲欧美日韩在线观看一区二区| 国产情精品嫩草影院88av| 亚洲va欧美ⅴa国产va影院| 玖玖精品在线| 亚洲日本www| jizz在线观看| 日韩精品少妇无码受不了| 日本午夜精品一本在线观看 | 亚洲免费播放| 久久性视频| 日韩毛片在线视频| 日韩精品无码免费一区二区三区 | 亚洲国产清纯| 欧美亚洲一二三区| 久久精品无码国产一区二区三区| 999国内精品久久免费视频| 久久天天躁夜夜躁狠狠| 日韩精品无码一级毛片免费| 欧美精品一二三区| 中文字幕日韩丝袜一区| 国产精品自在自线免费观看| 永久免费av网站可以直接看的| 永久免费无码成人网站| 青青青亚洲精品国产| 亚洲天堂区| 国产无套粉嫩白浆| 天天爽免费视频| 99er这里只有精品| 欧美19综合中文字幕| 久久久受www免费人成| 亚洲成a人片在线观看88| 在线观看91香蕉国产免费| 久久五月视频| 波多野结衣国产精品| 国产福利不卡视频| 亚洲色图欧美| 好紧太爽了视频免费无码| a级免费视频| 国内精自视频品线一二区| 日韩成人免费网站| 久久国产精品麻豆系列| 国产欧美精品专区一区二区| 黄色国产在线|