999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文社交媒體用戶性別預測研究

2021-12-01 09:51:27劉雅琦李得志王瑞雪
知識管理論壇 2021年4期

劉雅琦 李得志 王瑞雪

摘要:[目的/意義]與互聯網的高速發展不同,個人信息安全保護的發展相對滯后,通過預測社交媒體用戶的性別,能夠更好地針對不同性別用戶提供隱私保護。[方法/過程]以新浪微博這一社交媒體中用戶發布的短文本為研究對象,從中抽取語言特征和主題特征,為每一個用戶構建基于語言特征、主題特征以及兩個特征疊加的特征表達向量,利用SVM機器學習算法構建性別預測的分類器。[結果/結論]實驗表明,從微博短文本中抽取的語言特征和主題特征能夠準確預測用戶性別,其效果在主要評價指標中均有大幅提升。

關鍵詞:短文本? ? 性別預測? ? 主題特征? ? 語言特征

分類號:TP391.1

引用格式:劉雅琦, 李得志, 王瑞雪. 中文社交媒體用戶性別預測研究: 以新浪微博短文本內容為例[J/OL]. 知識管理論壇, 2021, 6(4): 213-227[引用日期]. http://www.kmf.ac.cn/p/255/.

1? 引言

隨著互聯網的深入發展,近年來信息安全逐步得到了人們的重視,中共中央成立了中央網絡安全和信息化領導小組,“沒有信息安全就沒有國家安全”的理念深入人心。但現階段,對信息商業價值的利用仍遠遠超過了對信息隱私安全的保護,信息的隱私保護依然處于相對滯后的狀態;公共部門信息資源增值利用中,個人信息還存在著信息授權、利益平衡、法律救濟和監管多方面的風險[1]?,F有的法律體系中,雖然有大量的法律法規對個人信息保護提出立法,但在實際過程中,法律法規起到的保護作用有限,個人信息的保護還存在一些障礙[2]。

社交媒體持續發展,用戶數量不斷壯大。一方面社交媒體的發展為用戶提供了方便快捷的信息獲取方式;另一方面由于社交媒體的使用者門檻較低,社交網絡的開放性、共享性與連通性的特點[3],使得用戶的個人信息容易受到侵犯。為保護個人信息安全,部分用戶在進行注冊時會選擇不填或虛假填寫自己的性別[4],而相關研究表明女性用戶對信息層面因素敏感,更易受影響[5],相較而言更容易透露自己的隱私信息[6]。因此需要基于用戶的性別提供服務,對用戶進行適當的信息保護,使用戶免受互聯網中大量垃圾信息的傷害,如不對女性群體進行暴力內容的推送等。與此同時,用戶的性別信息也是用戶畫像的重要組成部分,準確的用戶畫像可以為企業營銷、廣告投放、內容推薦提供便利[7];用戶也可以從中獲得個性化推薦內容,減少信息搜尋的時間,提高使用社交媒體的滿意度。

近年來,用戶畫像相關的測評比賽也廣泛興起,例如名為PAN的學者群體舉辦了6屆作者特征提取測評和1屆僵尸用戶與用戶性別測評[8],由中國中文信息學會社會媒體處理專委會主辦的全國社會媒體處理大會(SMP)于2016-2018年連續三年組織了相關的用戶畫像比賽[9]。相關測評比賽中,性別預測是重要的子任務,是用戶畫像的核心內容之一,也是其他應用的基礎[10]。之所以要進行社交媒體用戶的性別預測,是因為用戶在進行注冊時會忽略性別、興趣等相關信息[11-12]。

本文以新浪微博這一社交媒體平臺中的用戶信息為研究對象,利用不同性別用戶語言表達和興趣偏好上的差異預測用戶性別。在社交網絡中,男性和女性用戶使用的語言以及興趣愛好具有差異,A. H. Schwartz等[13]從75 000名志愿者的Facebook消息中收集了7億個單詞、短語和主題實例,對其分析顯示,不同性別的用戶使用的語言有很大的不同,語言和性別以及年齡之間有著比較大的關聯;M. Vicente等[14]對65 000名英語用戶的用戶名、用戶描述、圖片和發送的推特內容進行分析,發現性別對用戶的語言使用有影響,從而實現對用戶性別的預測。因此,用戶發布的社交媒體內容與性別相關聯,呈現出差異化的特點。在此基礎上,本文通過分析不同性別用戶在發送社交媒體短文本時的差異,提取相關的語言特征和主題特征,構建模型進行用戶性別的預測。

2? 相關研究

2.1? 基于圖像的性別預測

基于圖像的性別預測是通過分析用戶的面部特征進行預測。目前,基于圖像的用戶性別預測主要使用的是傳統圖像分類方法,即通過模型提取圖像中的人臉特征,再利用分類算法進行預測。常用于提取人臉特征的模型有BIF(Bio-inspired Features)[15-16]、主動外觀模型(Active Appearance Model, AAM)[17]、局部紋理特征(Local Binary Pattern, LBP)[18-19]等。完成人臉特征提取后,利用不同的算法進行分類,常使用的算法有k-近鄰[18]、SVM算法[19]、AdaBoost算法[20]等。近些年,隨著深度學習在圖像識別上的發展,各種神經網絡算法[21-22]在基于圖像的性別預測研究中取得了不錯的效果。

2.2? 基于用戶信息的性別預測

在社交網絡中,基于用戶信息的性別預測主要分為兩類,一類是基于用戶的公開信息進行預測,另一類為基于用戶發表的短文本內容進行預測。

2.2.1? 基于用戶公開信息的性別預測

基于用戶公開信息的性別預測利用用戶的賬戶名稱、個人描述、個人主頁設置、標簽等信息,如J. D. Burger等[23]使用Twitter用戶的賬戶名稱、個人描述等用戶公開信息預測用戶的性別,最高可達92%的準確率;J. S. Alowibdi等[24]提取了用戶在Twitter上5個不同位置設置的顏色:個人資料背景顏色、文字顏色、鏈接顏色、邊框填充顏色以及界面邊框顏色做為特征預測用戶的性別,在不同數據集大小的實驗中基本都能達到70%左右的準確率。社交媒體中存在大量緘默用戶,其特點為很少發表內容、微博標簽較少,因此準確預測較難,錢鐵云等[25]利用微博用戶個人資料中的標簽信息,對緘默用戶進行性別預測,達到了71%的準確率。

當用戶的公開信息特征與訓練樣本的特征之間差異較大時,基于用戶公開信息的性別預測方法的準確率會降低;同時用戶公開信息量較少也會影響預測結果,例如用戶昵稱簡短、沒有個人描述等。此外,用戶出于個人信息隱私保護的原因,在個人主頁設置中選擇不公開個人信息,將會使預測準確率大幅下降。

2.2.2? 基于內容的性別預測

文本內容可根據長度不同分為短文本與長文本,社交媒體的文本主要為短文本,包括原創文本、轉發文本以及評論文本三種類型。S. Li等[26]提出了一種整數線性規劃方法(Integer Linear Programming),利用用戶原創及轉發文本中的評論交互文本預測用戶性別;戴斌等[27]利用半監督學習的方法實現了基于短文本內容的用戶性別預測,達到了84.3%的準確率,解決了監督學習方法需要人工標注樣本的障礙;N. Cheng等[28]從Twitter文本中抽取了用戶語言的心理語言學特征用于構建特征空間進行用戶性別預測,達到了85.13%的準確率;J. A. B. L. Filho等[29]把用戶發送的Twitter文本中的字詞個數、標點符號等作為文本元屬性,進行用戶性別預測,其準確率達到了81.6%;Q. Wang等[30]對比了文本表示方法VSM(Vector space model)與主題模型LDA(Latent Dirichlet allocation)、LSA(Latent semantic analysis)預測中文社交媒體中的用戶性別、地域和年齡相關的人口統計學信息的效果,主題模型LSA在性別預測上效果表現最好,準確率達到87.2%,但相較于LDA與VSM效果提升也比較有限。

n元語法模型是自然語言處理中常用的模型,在性別預測領域有大量的研究以此為基礎進行短文本分析,進而預測用戶性別,例如C. Peersman等[31]使用n元語法模型并用卡方檢驗進行特征選擇,利用構造的特征向量進行用戶性別和年齡的預測;王晶晶等[32]在n元語法特征的基礎上加上了首尾特征,使用用戶的姓名和微博內容對性別進行預測,當用戶樣本足夠大時,將基于用戶姓名的分類器和基于微博內容的分類器融合之后能達到90%的準確率;Z. Miller等[33]使用n元語法特征結合貝葉斯算法來預測用戶的性別,其使用了6種特征選擇方法,最高可以達到97%的準確率;D. Rao等[34]抽取了用戶的社會語言特征并與n元語法特征結合對Twitter用戶的性別、年齡、地域和政治傾向進行了預測,對性別的預測準確率為72%。

基于內容的性別預測方法對文本內容量的需求較高,社交網絡中用戶發送的文本多以短文本為主,當用戶發送的內容較少時,僅憑借少量的文本內容很難準確預測用戶的性別,這要求進行性別預測時所選取的文本特征既要體現出性別差異,也要有足夠大的使用率。當數據量不足時會出現構建的分類器屬性稀疏等問題,導致性別預測的準確率下降。

3? 實驗數據與預處理

本文使用中文社交媒體平臺新浪微博的用戶數據,數據集來源于“SMP CUP2016微博用戶畫像”比賽[35]。數據集中一共包含三類信息:

(1)社交關系信息。包含一個約256.7萬名微博用戶構成的社交網絡,其中的社交關系可能是單向的(即單向關注,即為粉絲關系)或雙向的(即互相關注,即為好友關系)。

(2)用戶微博信息。包含約4.6萬名用戶的微博文本內容,這些用戶都屬于上述社交網絡。

(3)用戶標簽信息。包含約0.5萬名用戶的年齡、性別及地域標簽,均屬于上述4.6萬名用戶。

三類信息的關系如圖1所示:

本文是基于短文本內容的用戶性別研究,最終選擇了“SMP CUP2016微博用戶畫像”比賽數據集中的用戶標簽信息及其對應的用戶微博信息作為本研究的初始數據集,對數據進行預處理工作。

數據預處理分為以下3個步驟:

(1)剔除與分析無關的噪聲數據。用戶微博信息中存在網頁鏈接、字符亂碼等噪聲數據,這部分數據既不能還原用戶的語言表達意圖,也不能用于性別預測的特征提取,因此將其剔除。

(2)剔除缺失數據。將缺失性別標簽及微博信息少于5條的用戶標簽信息剔除,缺失性別信息的數據無法用于性別預測實驗,而微博信息過少也難以提取有效特征,導致性別預測效果差的結果。

(3)對微博信息中的短文本內容進行分詞,本研究采用NLPIR漢語分詞系統進行分詞處理,并保留標點符號等原始信息。

經過處理后的數據集包含4 342個用戶及其發送的微博短文本331 634條,用于實驗模型的訓練與檢驗。

4? 實驗構建與特征抽取

4.1? 實驗構建

本研究的輸入為微博短文本,通過對數據進行分析,利用數據特征進行建模,訓練相關算法,進而對微博用戶的性別進行預測。對性別預測的結果,通過相應評測指標的評價,對算法的效果進行評估。實驗的一般流程如圖2所示:

4.2? 特征抽取

根據特征抽取方式的不同,可以獲得微博短文本內容的兩類不同特征,分別為語言特征和主題特征。

4.2.1? 語言特征

N. Cheng[28]、D. Rao[34]在使用Twitter數據進行用戶性別預測時采納的語言特征如表1所示,考慮到中文文本與Twitter用戶使用語言的差別,在此基礎上,本研究總結了7個可從微博短文本中提取的語言特征類別,分別為:①表情:微博中用戶使用的表情;②情感詞語:積極、消極、焦慮、憤怒等情感詞的總稱;③語氣詞:“哈哈”“恩恩”等描述語氣的詞;④親屬稱呼:“媽媽”“父母”“兄弟姐妹”等稱呼;⑤標點符號:包括各種重復使用的標點,如“!?。 ?⑥代詞:“你”“你的”等;⑦禁語:指在用戶文本中出現的不文明語言。

本文通過以下方式獲取語言特征:

(1)表情。微博短文本中表情以“[具體表情]”的格式體現(例如:[微笑]),可使用正則表達式從文中抓取每一個用戶使用的表情,對每一個用戶的所有表情取并集獲得表情全集。

(2)情感詞。對于情感詞語語言特征可使用NTUSD情感詞典與原文進行匹配,獲取用戶使用的情感詞語,對每一個用戶的所有情感詞語取并集獲得情感詞語全集。

(3)語氣詞、親屬稱呼、標點符號、代詞、禁語。由于該類詞語的數量相對而言比較少,可以直接通過對部分用戶的微博短文本進行標記,找出相關的詞語。但考慮到人工標記不全的問題,本文嘗試利用文本向量化后的余弦距離,選擇相似的詞作為該類詞語的補充,具體而言:使用Word2Vec對分詞后的微博短文本進行計算,獲得每個詞的詞向量;針對人工標記出的語氣詞、親屬稱呼、代詞、禁語,計算這些詞語與語料庫中詞語的相似度,根據相似度排序篩選出同類別的詞作為補充最高的詞。

對于短文本中出現的詞語t,使用公式(1)統計性別i使用詞語t的人數占該性別總人數的比例,式中n(i,t)表示性別i的用戶中使用了t詞語的人數,n(i)表示性別i的用戶總人數。

公式(1)

通過對7個類別詞語在不同性別用戶中的使用比例,發現男性和女性使用標點符號和代詞類別詞語的比例相近,因而不選擇這兩類詞作為語言特征。

對表情、情感詞語、語氣詞、親屬稱呼和禁語這5個類別的詞語分析,男女使用比例最高的10個詞語的如圖3-圖7所示。橫坐標代表某個詞語,縱坐標為使用比例。從中可以看出:女性相比男性,使用表情的比例更大;情感詞語中不同詞語的使用情況不同;親屬稱呼和語氣詞中,個別詞語男性使用的比例更大,總體上女性更偏向使用該類詞語;禁語總體使用比例較小,但男性比女性更傾向使用這類詞語。

對于表情和情感詞語這兩個特征,本研究使用卡方檢驗(chi-square test)進行篩選詞語用于特征構建。對詞語t,統計不同性別使用該詞語的情況如表2所示:

詞語t的卡方值χ2可由公式(2)計算得,卡方值越大說明該詞語與性別的相關度越大,因此各選擇卡方值最大的100個詞語構成表情和情感詞語的語言特征。

對于語氣詞、親屬稱呼和禁語這三個語言特征,由于在特征詞篩選的過程中篩選的詞較少,本文不采用上述的卡方檢驗的方案選取特征,而是將這三個類別的全部詞語共計75個用于語言特征的構造。

以上5個類別共選取了275個詞語用于構成微博短文本內容的語言特征。對于第i個用戶,統計該用戶使用詞語t的頻次tin,構建語言特征向量Xi,其計算公式為:

Xi=(ti1,ti2,ti3,…,tin)? ? ? ? ? ? ? ? 公式(3)

4.2.2? 主題特征

不同性別用戶的興趣愛好不同會導致發送微博文本的主題不同,因此可以運用LDA(Latent Dirichlet Allocation)模型對用戶微博短文本的主題抽取,構建主題特征用于預測用戶性別。LDA是一種基于詞袋模型的無監督機器學習方法,可以用來識別大規模文檔集中潛藏的主題信息,同時也能有效對文本內容降維,解決數據稀疏問題。

LDA模型將語料庫中的每一篇文檔與K個主題的多項式分布記為θ,每個主題與詞匯表中的N個單詞的多項式分布記為 ?。θ和?分別有一個帶有超參數α和β的Dirichlet先驗分布。對于一篇文檔d中的每一個單詞wi,P(zi=k)代表從文檔中抽取一個單詞wi,P(wi|zi=k)屬于主題z的概率;從主題z中抽取一個單詞,代表當取出單詞屬于主題k時該單詞為wi的概率。將這個過程重復Nd次(Nd是文檔d的單詞總數),就產生了文檔d。文檔中單詞wi的概率就能表示為:

公式(4)

在本研究中,將每名用戶發布的所有短文本內容構成第i個用戶的文檔Di,那么可認為文檔Di的主題分布向量(zi1, zi2, zi3, …, zik)可認為構成了第i個用戶的主題分布向量。

Yi=(zi1, zi2, zi3, …, zik)? ? ? ? ? ?公式(5)

本文在LDA模型訓練的過程中使用困惑度確定模型最佳K值,實驗過程中,Gibbs抽樣迭代的次數設為100,α、β超參數設置為α=50/K,β=0.01,此時算法有較好的表現[37]。在K值提升的過程中,困惑度的下降有限,圖8展示的是K值與困惑度的關系,結合不同K值的困惑度和最終產出主題的詞語,本文使用K值為15時產出的模型結果。表3展示的是15個主題中排序前10的詞語。

5? 實驗結果與分析

5.1? 評價方法

研究選用精準率(Precision)、召回率(Recall)和F值(F-Measure)作為評價指標來對實驗的結果進行比較評價。三種指標的計算方式如下:

;? ? ? ? ? ? 公式(6)

;? ? ? ? ? ? ?公式(7)

公式(8)

以女性性別為例,TP表示將性別預測正確的數量;FN表示將正確的女性預測為男性的數量;FP表示將正確的男性預測為女性的數量。

5.2? 模型訓練

5.2.1? 訓練數據與測試數據

數據預處理得到的4 342名用戶中男性和女性的數據比例不一致,為更好地進行試驗,隨機選擇2 110名用戶按照1:1的性別比例構建實驗數據集,2 110名用戶共發表微博156 627篇。其中1 560名用戶用于模型的訓練(男女性別比例為1:1),550名用戶用于模型效果的檢驗(男女性別比例為1:1)。

在模型訓練階段,1 560名用戶采用5折交叉檢驗的方法進行模型訓練,保證數據的充分利用與模型訓練的準確。

5.2.2? 模型的參數調優

將抽取的用戶語言特征與主題特征組合成為新的特征向量進行實驗,獲取最佳的性別預測結果。

Mi=(Xi+Yi)=(ti1, ti2, ti3, …, tin, zi1, zi2, zi3, …, zik)

公式(9)

本研究采用的是支持向量機(Support Vector Machine, SVM)這一基于統計學習理論的機器學習方法。支持向量機通過核函數解決計算復雜度的問題,除重要的參數cost外,還有四種不同的核函數,分別為線性(Linear)核函數、徑向基(radial basis function, RBF)核函數、sigmoid核函數和多項式(Polynomial)核函數,每一種核函數有不同數量的參數。本文使用LIBSVM這一軟件包實現對用戶性別的預測,通過選定不同的核函數、控制相關變量對核函數進行參數訓練,從而獲得最優的預測效果。

對于線性核函數只需訓練參數cost。為了使cost值盡量覆蓋更多的值,本文使用指數函數規定cost的選取范圍,其取值范圍為2–10至25。最終結果顯示當cost=1/32時在評價指標上表現最好,有較好的預測效果。圖9展示了不同cost取值時的預測效果,可以看出當cost值較小或者較大的時候,預測的效果都不夠好,這是因為,cost值越高越容易過擬合,cost值越小越容易欠擬合。

徑向基核函數有gamma參數以及cost參數,本研究使用GridSearch網格搜索的方式確定最佳參數,gamma以及cost的變化范圍都是從2–10至25。當cost=32,gamma=1/128時預測結果最佳。gamma是RBF函數中自帶的一個參數,一定程度上決定了數據映射到新的特征空間后的分布,gamma值越大支持向量越少,gamma值越小支持向量越多,支持向量的個數影響模型訓練的速度和準確度。圖10展示的是固定cost值為1,改變模型gamma的值,在測試集中進行分類的結果,從中可以看到,當gamma大于1的時候預測的準確率很低。

sigmoid核函數有cost、gamma和coef0三種參數,本研究分兩步進行參數調優:①將cost設為默認值1,使用GridSearch網格搜索確定gamma以及coef0的值,其中gamma和coef0的取值范圍定為2–10至25;②使用第一步訓練出的gamma以及coef0值,將cost的范圍設定為2–10至25進行訓練。最終得到當cost=32,coef0=8,gamma=1/16時模型的預測效果最佳。圖11展示的是固定cost值與gamma值,改變模型中coef0的值對測試集的預測效果,當coef0的值超過某個值后,其預測效果將大幅下滑,通常情況下coef0的值越大,預測結果越差。

多項式核函數有cost、gamma、coef0和degree 4種參數,其中degree參數最為關鍵。本文分3個步驟來確定最佳參數:①將cost,gamma,coef0設定成為默認值,將degree范圍設定為0至19進行訓練,得到最佳degree值為1;②將cost設置為默認值,degree設置為最優參數1,使用GridSearch網格搜索法使gamma及coef0在2–10至25取值范圍內變化,得到最佳的gamma=1/4, coef0=16的值;③degree=1,gamma=1/4,coef0=16設為固定參數,將cost取值在2–10至25訓練,最終確定的最優參數為degree=1, gamma=1/4,coef0=16,cost=16時模型的預測效果最佳。圖12展示的是改變模型中degree的值,對測試集進行預測的效果,其中degree的變化范圍從0到19,隨著degree值越來越大,預測效果越來越差,當degree超過15后預測結果幾乎沒有任何改變。

針對在測試集的預測結果,選取4種不同核函數效果最優的參數進行橫向比較,可以看出sigmoid核函數的表現最差,在三個指標中均未達到80%;徑向基核函數的預測效果最好,在三個評測指標中都比其他核函數表現更好。因此將選擇參數為cost=32,gamma=1/128的徑向基核函數作為預測模型,用于實驗數據的預測。

5.3? 結果比較

5.3.1? baseline選擇

基于n元語法模型的性別預測方法[31-34]和基于心理語言學詞典的性別預測方法[38]都是利用用戶的微博文本內容進行性別預測的自然語言處理方法,在針對社交媒體中用戶的性別預測有較好的效果。本文選擇這兩種方法作為baseline進行比較。

在n元語法模型中,通過抽取500個最具有區分性的一元和二元詞,統計每名用戶的使用頻率作為權重構建用戶的特征向量;針對基于心理語言學詞典的用戶特征向量,使用文心(TextMind)中文心理分析系統[39]構建,對用戶發文的內容進行統計,提取102個特征,包括各種詞性詞語使用的數量、詞長比例、情感詞數量等。

5.3.2? 結果對比

將實驗數據應用于訓練所得的最優模型,如圖13所示,本文提出的主題特征、語言特征構建及兩種特征融合構建的性別預測模型的精準率、召回率和F值指標均比選擇的baseline有所提升,特別是與心理語言學詞典相比,提升較大,本研究表現最差的主題特征在該指標上都提升了14.3個百分點。

基于n元語法模型的性別預測效果不顯著,精準率、召回率和F值都未達到70%,其中F值表現最好,為69.3%。通過分析可知,n元語法模型雖然抽取了500個特征進行特征向量的降維,但構造的特征向量依然較為稀疏。表5展示了針對同一用戶使用n元語法模型和語言特征構造的向量。由于n元語法模型是針對所有的一元和二元詞匯進行的特征選擇,這些詞語數量較多,造成向量稀疏。而本文構建語言特征時選擇的詞語,通過對用戶使用頻率的統計有效避免了稀疏問題。

心理語言學詞典方法的精準率雖然達到了72.6%,但召回率只有60%。通過分析可知,心理語言詞典構建的特征中包含代詞、表達符合這類的詞語,而本文的語言特征通過統計這類詞語與性別的關聯度,這類詞語忽略,不納入語言特征的構建,而心理語言詞典沒有忽略,均納入了特征構建,得到的精確率、召回率和F值比語言特征分別低9.1%、20.4%和17.3%。從而進一步驗證了基于語言特征構建模型預測性別時需忽略代詞和表達符合等。

對比本研究的主題特征、語言特征和兩種特征疊加可知,主題特征表現最差,語言特征表現較好,疊加特征結果最優。在精準率指標上,語言特征的精準率為81.7%,僅比主題特征高0.8%,但在召回率和F值上,語言特征大幅提升,分別提升了6.1%和5.7%。精準率的提升,表明語言特征進行性別預測時更加有效。兩種特征疊加的預測結果,在語言特征的基礎上精準率進一步提升了1.4%,達到83.1%提升效果顯著;相較之下,召回率和F值與語言特征相比提升有限。分析可知這與主題特征的特征數量與預測效果有關,一方面主題特征的特征數量較少,另一方面主題特征的召回率與F值相對語言特征差值較大,因此兩種特征疊加對召回率和F值的提升較少。

同時,本文對比了SVM模型與BP神經網絡和TEXTCNN[40]神經網絡的效果。本文構建了2層隱藏層的BP神經網絡:第一層含有神經元120個,第二層有神經元60個,使用通過主題特征和語言特征提取的向量作為輸入,使用sigmoid函數作為輸出層函數。對于TEXTCNN模型,則不再使用特征向量作為輸入,而是用戶發送的文本分詞后的詞向量,向量的維數為128維;在卷積層,使用三種不同高度的卷積核,分別為2、3、4,每一種卷積核的個數設置為128個。兩種不同模型與SVM模型的效果對比如圖14所示,總體而言三種模型的效果較為接近,SVM的效果最好。SVM模型的F值比神經網絡高了4%,比TEXTCNN模型高了2%,精準率上SVM模型比BP神經網絡和TEXTCNN高1%。TEXTCNN的效果比較優秀也是因為模型考慮到了語言上下文之間的關系,而通過語言特征和主題特征提取的向量也有相同效果,進一步說明了語言、主題兩類特征對于文本性別分類的重要性。

總體而言,本文提出的主題特征、語言特征和兩種特征疊加對性別的預測均優于選取的baseline方法,對社交媒體用戶性別的預測效果起到了很好的提升。

6? 結語

社交媒體中個人信息的隱私保護始終面臨諸多挑戰,雖然已有法律條文的規范,但在實踐過程中用戶依然暴露在風險中。利用社交媒體中的相關信息進行性別預測,能對用戶起到一定的保護作用。

本文以中文社交媒體新浪微博為例,從用戶的短文本中提取主題特征和語言特征,對支持向量機的機器學習算法進行參數調優與訓練,得到一個對性別預測有顯著提升的分類器,起到了較好的預測效果,在精準率、召回率和F值上都有所提升,特別是精準率與baseline方法相比提升均超過10個百分點,說明從短文本的角度對用戶性別進行預測是一個有效的途徑。同時,與常用的n元語法模型和心理語言學詞典方法相比較,有效解決了構造向量的稀疏問題,為進一步促進基于性別的用戶信息保護提供了基礎。

本研究提出的方法是利用中文短文本進行性別預測,該方法可推廣到其他社交媒體如Twitter中進行中文用戶的性別預測。

參考文獻:

[1] 陳傳夫, 劉雅琦. 公共部門信息增值利用中的個人信息保護[J].情報科學, 2010, 28(10): 1455-1460.

[2] 劉雅琦. 公共部門信息增值利用中的個人信息保護立法研究[J]. 情報理論與實踐, 2011, 34(4): 40-43.

[3] 鄭莉, 蔡瓊, 石曼, 等. 社交網絡隱私成本的量化研究[J]. 科教導刊(電子版), 2019(1): 282.

[4] 曹楊. 微博用戶性別分類研究及應用[D]. 合肥: 安徽大學, 2019.

[5] 熊杰. 政務微博在線評論中的用戶情緒及行為研究[D].成都: 電子科技大學, 2020.

[6] WALTON S C, RICE R E. Mediated disclosure on Twitter: the roles of gender and identity in boundary impermeability, valence, disclosure, and stage[J]. Computers in human behavior, 2013, 29(4): 1465-1474.

[7] PIAO G, BRESLIN J G. User modeling on Twitter with WordNet Synsets and DBpedia Concepts for Personalized Recommendations[C]//ACM international conference on information & knowledge management. Indianapolis: ACM, 2016:2057-2060.

[8] PAN. Shared tasks[EB/OL].[2021-02-04]. https://pan.webis.de/shared-tasks.html.

[9] BIENDATA.比賽項目[EB/OL].[2021-02-04]. https://www.biendata.xyz/competition/.

[10] SMITH J. Gender prediction in social media[EB/OL].[2021-02-04]. https://arxiv.org/abs/1407.2147.

[11] ABBASI M A, CHAI S K, LIU H, et al. Real-world behavior analysis through a social media lens[C]//International conference on social computing, behavioral-cultural modeling, and prediction. Berlin: Springer, 2012: 18-26.

[12] ZHELEVA E, GETOOR L. To join or not to join: the illusion of privacy in social networks with mixed public and private user profiles[C]//Proceedings of the 18th international conference on World Wide Web, 2009: 531-540.

[13] SCHWARTZ H A, EICHSTAEDT J C, KERN M L, et al. Personality, gender, and age in the language of social media: the open-vocabulary approach[J]. PloS one, 2013, 8(9): e73791.

[14] VICENTE M, BATISTA F, CARVALHO J P. Gender detection of Twitter users based on multiple information sources[M]//Interactions between computational intelligence and mathematics part 2. Cham: Springer,? 2019: 39-54.

[15] SUN X, WU P, LIU H. Facial age estimation using bio-inspired features and cost-sensitive ordinal hyperplane rank[C]// IEEE, International Conference on Cloud Computing and Intelligence Systems. Shenzhen: IEEE, 2015:81-85.

[16] GUO G, MU G, FU Y. Gender from body: a biologically-inspired approach with manifold learning[M]// Computer vision – ACCV 2009. Berlin: Springer, 2009.

[17] LANITIS A, TAYLOR C J, COOTES T F. Toward automatic simulation of aging effects on face images[J]. Pattern analysis & machine intelligence IEEE transactions on, 2002, 24(4):442-455.

[18] GUNAY A, NABIYEV V V. Automatic age classification with LBP[C]// International symposium on computer and information sciences. Istanbul: IEEE, 2008:1-4.

[19] SHAN C. Learning local binary patterns for gender classification on real-world face images[M]. Amsterdam: Elsevier Science Inc. 2012.

[20] BALUJA S, ROWLEY H. Boosting sex identification performance[J]. International journal of computer vision, 2007, 71(1): 111-119.

[21] MANSANET J, ALBIOL A, PAREDES R. Local deep neural networks for gender recognition[M]. Amsterdam: Elsevier Science Inc, 2016.

[22] 吳澤銀. 基于集成卷積神經網絡的人臉性別識別研究[D].廣州: 華南理工大學,2016.

[23] BURGER J D, HENDERSON J, KIM G, et al. Discriminating gender on Twitter[C]// Conference on empirical methods in natural language processing. Edinburgh: Association for Computational Linguistics, 2011: 1301-1309.

[24] ALOWIBDI J S, BUY U A, YU P. Language independent gender classification on Twitter[C]// IEEE/ACM international conference on advances in social networks analysis and mining. Niagara Falls: IEEE, 2013:739-743.

[25] 錢鐵云, 尤珍妮, 陳麗, 等. 基于興趣標簽的緘默用戶性別預測研究[J]. 華中科技大學學報(自然科學版), 2015, 43(12): 101-105.

[26] LI S, WANG J, ZHOU G, et al. Interactive gender inference with integer linear programming[C]// International joint conference on artificial intelligence. Barcelona: AAAI Press, 2015: 2341-2347.

[27] 戴斌, 李壽山, 貢正仙, 等. 基于多類型文本的半監督性別分類方法研究[J]. 山西大學學報(自然科學版), 2017, 40(1):14-20.

[28] CHENG N, CHANDRAMOULI R, SUBBALAKSHMI K P. Author gender identification from text[J]. Digital investigation, 2012, 8(1):78-88.

[29] FILHO J A B L, PASTI R, CASTRO L N D. Gender classification of twitter data based on textual meta-attributes extraction[C]// World conference on information systems and technologies. Switzerland: Springer, 2016:1025-1034.

[30] WANG Q, MA S, ZHANG C. Predicting users demographic characteristics in a Chinese social media network[J]. The electronic library, 2017, 35(4): 758-769.

[31] PEERSMAN C, DAELEMANS W, VAERENBERGH L V. Predicting age and gender in online social networks[C]// International CIKM workshop on search and mining user-generated contents. Glasgow:DBLP, 2011:37-44.

[32] 王晶晶, 李壽山, 黃磊. 中文微博用戶性別分類方法研究[J]. 中文信息學報, 2014, 28(6):150-155.

[33] MILLER Z, DICKINSON B, HU W. Gender prediction on Twitter using stream algorithms with N-Gram character features[J]. International journal of intelligence science, 2012, 2(4):143-148.

[34] RAO D, YAROWSKY D, SHREEVATS A, et al. Classifying latent user attributes in Twitter[C]// International workshop on search and mining user-generated contents. New York: ACM, 2010:37-44.

[35] BIENDATA.SMPCUP2016微博用戶畫像數據[EB/OL]. [2020-10-08].https://www.biendata.xyz/competition/smpcup2016/data/.

[36] BAMMAN D, EISENSTEIN J, SCHNOEBELEN T. Gender identity and lexical variation in social media[J]. Journal of sociolinguistics, 2014, 18(2):135–160.

[37] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of machine learning research, 2003, 3(3):993-1022.

[38] CHEN J, HUANG H, TIAN S, et al. Feature selection for text classification with Na?ve Bayes[J]. Expert systems with applications an international journal, 2009, 36(3):5432-5435.

[39] GAO R, HAO B, LI H, et al. Developing simplified Chinese psychological linguistic analysis dictionary for Microblog[M]// Brain and health informatics, 2013:359-368.

[40] KIM Y. Convolutional neural networks for sentence classification[EB/OL].[2021-02-04]. https://arxiv.org/abs/1408.5882

作者貢獻說明:

雅琦:實驗設計與論文修改;

李得志:數據收集、實驗與部分論文撰寫;

王瑞雪:數據分析與部分論文撰寫。

Research on Gender Prediction of Chinese Social Media Users

——Taking Sina Weibo Short Text Content as an Example

Liu Yaqi1? Li Dezhi2? Wang Ruixue3

1. School of Information and Security Engineering, Zhongnan University of Economics and Law,

Wuhan? 430073

2. Baidu Network Technology Co.,Ltd., Beijing 100085

3. School of Information Management, Wuhan University, Wuhan 430072

Abstract: [Purpose/significance] Different from the rapid development of the Internet, the development of personal information security protection is relatively lagging. By predicting the gender of social media users, it can better provide privacy protection for the users. [Method/process] The short texts posted by users in social media, Sina Weibo, were taken as the research object. The experiment extracted linguistic features and topic features from the short texts. For each user, we constructed features vector based on linguistic features, topic features, and the superposition of two features, then used SVM Machine learning algorithms built a classifier for gender prediction. [Result/conclusion] Experiments show that the linguistic features and topic features can predict the gender of the users accurately, and the effect is superior to other features used in gender prediction.

Keywords: short text? ? gender prediction? ? topic features? ? linguistic features

主站蜘蛛池模板: 黄色网址手机国内免费在线观看| 久草中文网| 97在线免费视频| 国产精品所毛片视频| 五月婷婷亚洲综合| 成人精品在线观看| 国模粉嫩小泬视频在线观看| 97亚洲色综久久精品| 国产精品欧美在线观看| 亚洲AⅤ波多系列中文字幕| 亚洲成a人片| 国产白浆在线观看| 无码一区中文字幕| 久久a毛片| 久久99国产综合精品女同| 全免费a级毛片免费看不卡| 亚洲无码久久久久| 国产欧美性爱网| 2019国产在线| 国产免费看久久久| 在线观看国产精品一区| 伊人国产无码高清视频| 另类欧美日韩| 女人18毛片水真多国产| 国产精品专区第1页| 91精品国产丝袜| 99青青青精品视频在线| 亚洲va欧美ⅴa国产va影院| 无码日韩精品91超碰| 成人免费视频一区二区三区| 欧美精品v欧洲精品| 精品人妻无码中字系列| 中日无码在线观看| 伊人久综合| 国产成人h在线观看网站站| 欧美啪啪精品| 日韩欧美国产精品| 在线免费看黄的网站| 国产幂在线无码精品| 欧美综合在线观看| 99久久这里只精品麻豆| 国模视频一区二区| 亚洲国产日韩在线成人蜜芽| 国产免费福利网站| 亚洲人成人伊人成综合网无码| JIZZ亚洲国产| 特级aaaaaaaaa毛片免费视频 | 亚洲天堂福利视频| 亚洲va在线观看| 成人第一页| 超清无码熟妇人妻AV在线绿巨人| 欧美国产日韩另类| 99国产精品国产高清一区二区| 无码不卡的中文字幕视频| 国产成人综合亚洲欧美在| 国产97视频在线观看| 黄色三级网站免费| 久久久久青草大香线综合精品 | 亚洲最新在线| 亚洲午夜福利在线| 欧美区日韩区| 尤物午夜福利视频| 国产精品视频公开费视频| 亚洲天堂网在线播放| 国产第一页亚洲| 日韩精品一区二区三区中文无码| 久久国产精品77777| 天天综合色网| 免费国产高清视频| 啪啪免费视频一区二区| 国产福利小视频在线播放观看| 无码内射在线| 一区二区三区四区日韩| 国产美女自慰在线观看| AV天堂资源福利在线观看| 在线精品视频成人网| 在线国产毛片手机小视频| 国产91丝袜在线观看| 国产欧美日韩在线一区| 人妻出轨无码中文一区二区| 中国成人在线视频| 久久亚洲国产最新网站|