999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的字符級用戶名嵌入跨社交網絡身份匹配算法

2021-04-13 19:14:09劉甜甜
電腦知識與技術 2021年5期

劉甜甜

摘要:針對現有基于用戶名的跨社交網絡用戶身份匹配算法,匹配時需要設計復雜的用戶名字符串統計特征用于機器學習模型輸入,本文提出了一個端到端的基于卷積神經網絡的用戶名字符級嵌入身份匹配算法。

關鍵詞:卷積神經網絡;用戶名嵌入;字符級;用戶身份匹配

1 概述

跨社交網絡用戶身份匹配技術是跨多個在線社交平臺進行信息融合的先決條件。現有的許多跨社交網絡用戶身份匹配模型主要是基于監督算法提出的,即給定一組標記的匹配用戶,錨鏈接推理預測問題可以建模為二分類任務。

用戶在選擇用戶名時通常會表現出某些行為模式,多個社交網絡平臺中傾向于使用具有個人特點的相似用戶名顯示自己的偏好,也具有獨特性[1],因此基于用戶名的跨社交網絡用戶身份匹配方法最簡單直觀,提取用戶名特征,設計基于相似度的學習匹配模型來預測錨鏈接。

Zafarani 等人[2]通過對多個社交網絡平臺中用戶名相似度的統計驗證分析,以實證的方式研究了在不同社交網絡平臺中識別相應身份的可能性。Li等人[3]利用有監督的機器學習算法來實現用戶身份匹配,該工作僅依靠不同的用戶名命名方式來提取冗余信息特征,在此特征集上進行模型的訓練。

用戶名是最直觀、最易獲取的數據形式,基于用戶名的跨網絡用戶身份匹配方法通過挖掘取名行為習慣特征進行匹配建模(如圖 1),取得了一定的研究成果。但是特征提取方法復雜煩瑣,針對此我們提出了基于卷積神經網絡用戶名字符嵌入的深度學習模型,避免了復雜的特征提取過程,提高了模型的泛化能力。

2 基于用戶名嵌入的跨社交網絡用戶身份匹配算法

本文中提出了基于卷積神經網絡的字符級用戶名嵌入匹配算法,實現端到端的跨社交網絡用戶身份匹配。

2.1 字符卷積神經網絡

文本嵌入通常采用循環神經網絡(RNN)來進行建模,因為RNN天生的循環自回歸結構是對時間序列很好表示。而傳統的卷積神經網絡一般認為不太適合時序問題的建模,主要由于其卷積核大小的限制,不能很好地抓取長時的依賴信息。Zhang[4]等人于2015年首次提出基于字符級的卷積神經網絡用于文本分類任務,初次探索了文本的字符級向量表示方法。

2.2 輸入文本處理

深度神經網絡模型的輸入應是文本向量化表示形式,在將用戶名文本信息輸入神經網絡模型前,需要將文本表示為模型可處理的數字形式。對該研究問題來說,輸入樣本應該是一對社交賬號的用戶名,首先需要從數據集中進行樣本對的構建,再對樣本進行初始的字符向量化表示。

2.2.1樣本對構建

對給定的已知錨鏈接集合[AS,T], 我們首先將其中的一對匹配賬號 [(vSi,uTj)] 的用戶名通過空格連接起來,作為二分類模型框架下的一個正樣本,隨機抽取數據產生負樣本對,使正負樣本比例達到 1:1,產生可以用于模型訓練的用戶名對樣本數據集。

2.2.2字符向量化

模型輸入層要求文本數據形式為矩陣形式,首先將字符轉化為可處理的數字化向量表示。為了比較用戶名中所包含的大、小寫字母對模型特征提取的貢獻,分別采用了兩種字母表進行用戶名嵌入。一是大小為 70 的字母表,包含英文小寫字母、數字和常見符號。大寫字母通常會用在用戶名首位,或表示用戶名縮寫,為了捕捉這一特性中的隱含特征,引入英文大寫字母 26 個,將字母表擴充為 96 個,進行字符級的用戶名文本嵌入,兩種字母如表1所示,表中的字母基本包含了用戶名樣本中的所有字符。

根據相應的字母表的長度,將樣本中每一個輸入的字符初始嵌入轉化為 [m] 維向量,將用戶名字符序列轉變為固定長度為 [l] 的 [m] 維序列,少數不在字母表中的特殊字符和空字符轉化為維度 [m] 的全零向量,得到二維文本字符特征矩陣。對于其中的一個用戶名對的樣本 [N=(w0,w1,...,wn)],其中 [n] 表示用戶名樣本中包含的單詞的個數,[wi ]表示其中的第 [i] 個詞, [wi ]包含[ l ]個字符,每個字符的嵌入向量為 [cj],其大小為 m 維,因此可以用于輸入卷積神經網絡來處理每一個字符得到該用戶名樣本的字符級向量表示。

2.3基于卷積神經網絡的字符級用戶名嵌入匹配模型設計

卷積神經網絡的核心結構主要包括卷積層、池化層以及全連接層,卷積層和池化層組合成為特征抽取器來提取用戶名文本中蘊含的高階語義特征。本文設計的跨社交網絡用戶匹配模型框架圖如2所示。

由模型框架可知,該模型以定長的二維矩陣作為輸入層,根據字母表選取的不同,輸入的特征個數分別為 70 和 96,用戶名文本特征向量的長度為該數據集中最大樣本長度的字符數。之后與卷積核做卷積操作,對輸入文本進行局部特征提取,經過池化層對卷積層輸出的特征圖進行最大池化操作,實現局部特征再提取。本論文中的模型設計了三個卷積池化層用于提取特征,將提取到的所有特征送入三個全連接層,由一個特征空間線性變換到另一個特征空間,最后通過softmax 分類器,輸出分類結果。本論文中所提模型設計的卷積池化層和全連接層如下表 2 所示,全連接層之間加入dropout 層實現模型的正則化。

3 實驗驗證與分析

為驗證所提算法的有效性,在真實社交網絡數據集上進行了實驗。實驗數據集來源于zhang等人的論文[5], 是Foursquare 和 Twitter 兩個社交網絡。

3.1實驗設置

我們采用以下基于用戶名嵌入表示的基準算法進行了對比實驗。

CharCNN Alignment-96。字母表采用96 個字符,全連接網絡作為預測輸出層。

CharCNN Alignment-70。字母表采用70 個字符,全連接網絡作為預測輸出層。

Word2Vec + Full Connected Layers。用戶名通過 word2vec 嵌入表示,CharCNN 模型中全連接部分作為預測層。

Word2Vec + 隨機森林。用戶名通過 word2vec 嵌入表示,隨機森林作為預測模型。

Word2Vec + SVM。用戶名通過 word2vec 嵌入表示,支持向量機作為預測模型。

Word2Vec + GBDT。 用戶名通過 word2vec 嵌入表示,梯度提升樹作為預測模型。

3.2實驗結果與分析

數據集劃分為 80% 作為訓練集,20% 作為測試集,與基于 word2vec 的用戶名嵌入基準匹配方法做對比實驗,得圖3中的實驗結果,橫軸表示預測結果的評價指標,縱軸表示三種預測指標值的大小,不同的顏色分別代表了不同的用戶名嵌入匹配方法。

對比不同方法的實驗結果發現,基于卷積神經網絡字符級用戶名嵌入模型當采用 96 個字符作為字母表時,其 Precision,Recall 和 F1 值分別提升了 2.2%,3.09%,2.62%。因此實驗結果表明在用戶名嵌入研究問題下,由于用戶名字符組成結構的特異性,大寫字母對于字符組合語義特征的表達具有積極作用。除此以外,經典的 Word2Vec 文本嵌入方法無法在基于用戶名嵌入的身份匹配這一問題上獲得比較好的結果。實驗證明了本文提出的基于卷積神經網絡的字符級用戶名嵌入匹配算法的有效性。

4總結

現有基于用戶名的身份匹配算法從用戶名字符串中提取各類字符統計特征以捕獲用戶名選取背后的行為模式,但設計特征提取過程復雜,不同數據集間特征設計規則差異較大,缺乏通用性。本文針對用戶名數據,提出了基于卷積神經網絡的字符級用戶名嵌入匹配算法,這是一個端到端的深度模型框架,可以自動學習獲得用戶名字符組合模式的隱含特征。該模型避免了復雜的特征提取過程,同時較易對模型進行擴展,提高了模型對不同語言的泛化能力以及通用性。

參考文獻:

[1] ZAFARANI R, LIU H. Connecting users across social media sites: a behavioral modeling approach[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2013: 41-49.

[2] ZAFARANI R, LIU H. Connecting Corresponding Identities across Communities.[C]//Proceedings of the 3rd International Conference on Weblogs and Social Media, 2009: 354-357.

[3] LI Y, PENG Y, JI W, et al. User identification based on display names across online social networks[J]. IEEE Access, 2017(5): 17342-17353.

[4] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[J]. Advances in neural information processing systems, 2015(28): 649657.

[5] ZHANG J, YU P S. Integrated anchor and social link predictions across social networks[C]//Proceedings of the 24th International Conference on Artificial Intelligence, 2015: 2125-2131.

【通聯編輯:光文玲】

主站蜘蛛池模板: 久久人午夜亚洲精品无码区| 国产传媒一区二区三区四区五区| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲天堂区| a毛片免费看| 一级全免费视频播放| 亚洲一级毛片| www.狠狠| 成人在线不卡| 人妻精品全国免费视频| 麻豆精品视频在线原创| 中文字幕亚洲电影| 美女啪啪无遮挡| 午夜小视频在线| 潮喷在线无码白浆| 亚洲精品无码不卡在线播放| 精品自拍视频在线观看| 99久久国产综合精品2023| 久操中文在线| 中字无码精油按摩中出视频| 中文字幕丝袜一区二区| 亚洲精品黄| 国产精品福利一区二区久久| 波多野结衣一区二区三区AV| 国产乱人伦精品一区二区| 国产成人精彩在线视频50| 国产成人亚洲精品蜜芽影院| 正在播放久久| 久久99这里精品8国产| 久久99精品国产麻豆宅宅| 国产成年女人特黄特色大片免费| 57pao国产成视频免费播放| 亚洲资源在线视频| 免费毛片全部不收费的| 又黄又湿又爽的视频| 亚洲AV免费一区二区三区| 香蕉伊思人视频| 中文字幕无码制服中字| 国产成人亚洲欧美激情| 91啪在线| 91精品久久久无码中文字幕vr| 91在线视频福利| 日韩经典精品无码一区二区| 日本高清有码人妻| 成人亚洲国产| 亚洲区一区| AV不卡无码免费一区二区三区| 麻豆国产精品视频| 麻豆精品在线视频| 天天躁日日躁狠狠躁中文字幕| 国产精品亚欧美一区二区| 狠狠ⅴ日韩v欧美v天堂| 国产在线无码av完整版在线观看| 色网站免费在线观看| 国产老女人精品免费视频| 国产亚洲一区二区三区在线| 波多野结衣一区二区三区四区视频| 亚洲国产成人久久77| 伊人久久大香线蕉成人综合网| 国产高潮流白浆视频| 波多野结衣一区二区三区88| 超清人妻系列无码专区| 国产成人综合在线观看| 免费毛片全部不收费的| 天天色综网| 欧美色视频日本| 欧美日本在线观看| 欧美国产日韩在线播放| 99福利视频导航| 日韩小视频在线观看| 黄色不卡视频| 国产成+人+综合+亚洲欧美| 99国产在线视频| 国产在线观看人成激情视频| 久久动漫精品| 制服无码网站| 国产最新无码专区在线| 囯产av无码片毛片一级| 欧美三级自拍| 久久久久九九精品影院| 中文国产成人久久精品小说| 亚洲第一av网站|