999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于微博的人格分類模型

2019-04-22 12:03:04馮豆豆
現代計算機 2019年8期
關鍵詞:分類特征文本

馮豆豆

(四川大學計算機學院,成都 610065)

0 引言

隨著網絡及移動設備的普及,新浪微博逐漸融入人們的生活,越來越多的用戶利用微博來記錄生活,表達個人觀點和抒發內心情感。這些微博數據記錄了用戶真實、長期的心理活動,是研究用戶人格的很好的數據。

人格作為心理學的一大分支,其研究重點是個體間的差異性。人格計算則是通過分析用戶的行為結果,預測用戶的人格,以量化個體間的差異性。利用這些量化了的差異性,可以判斷出不同用戶的不同需求,以提供更好的個性化服務,例如為高盡責性用戶推薦實用性較強的產品,為高開放性用戶推薦新奇產品等。人格計算擁有廣泛的應用空間,利用用戶的人格數據,可以為員工選聘提供指導意見,可以預測用戶是否具有攻擊行為,判斷用戶是否抑郁等。

全特質理論是William[1]等人提出的,全特質理論認為人格具有周期性,不同人格特質的人周期變化不同。

1 相關工作

微博是我國青年最常用的社交工具之一,在微博上人們可以無約束地表達自己的感受和心情。這些數據記錄了用戶真實、長期的心理活動,為建立人格分類模型提供了理想的數據基礎。

人格分類是通過分析用戶的行為結果,預測用戶的人格屬于哪種類型,以量化個體間的差異性2。據筆者所知,人格分類的第一個研究是Sholomo等人[3]在2005年發表的,他們收集了1200名學生的2263篇散文,研究中使用功能詞(Function Words)1功能詞:Function words,不具有實際意義,但發揮語法作用的詞,如英語中的冠詞the。和系統功能語法(Systemic Functional Grammar)2系統功能語法:是韓立德等人提出的一種理論,認為語言是一個系統網絡,其中包含了多個子系統,語言使用者可以從中做出選擇。中的詞類作為特征,分別為外向性和情緒穩定性特質建立分類模型。2006年,Oberlander等人[4]認為博客可以記錄用戶在不受限制的條件下所想的內容,能夠更好地體現用戶人格,于是收集整理了71名用戶在一個月內寫下的博客,以n元組在博客中出現的次數作為特征值,使用支持向量機和樸素貝葉斯建立分類模型,模型的準確率可達到85%。為檢驗模型的泛化能力,Nowson等人[5]建立了一個更大的語料庫,語料庫中包含了1672名用戶的博客,并將模型應用到新語料庫上,模型的準確率從85%下降到了60%左右,可見模型的泛化能力弱。

Golbeck等人[6]是最早開始用社交網絡數據進行人格計算的,他們開發了一個Facebook應用,可以讓用戶在線填寫人格測試問卷,并且在用戶填寫問卷時收集用戶在Facebook上的數據,去掉不合格樣本后,剩余167個被試。用到的特征包括:文本特征、個人信息、網絡結構特征以及活動偏好特征,一共77個,最終的平均絕對誤差在0.11左右,證明使用社交網絡數據預測人格是可行的。

此后,利用社交網絡進行人格計算的研究層出不窮,為便于各研究成果之間進行比較,Stillwell等人[7]建立了myPersonality語料庫,語料庫來自Facebook平臺,收集了用戶的文本數據以及網絡結構數據,使用IPIP NEO-PI-R 大五人格量表(Goldberg L R,2006)[8]獲取用戶人格分數。

基于 myPersonality語料庫,Markovikj等人[9]用SMO和AdaBoost算法建立分類模型,準確率高達0.86~0.95。模型用到的特征可分為五個子集:網絡屬性、LIWC、詞性統計、Afinn和H4Lvd,結果表明文本特征對于提高模型準確率很有幫助。

Farnadi等人[10],分別在 Facebook、Twitter和 You-Tube三個社交平臺上建立人格計算模型,并且嘗試用另一個社交平臺上的數據擴充當前語料庫(如,使用Facebook上的數據擴充Twitter語料庫),結果發現擴充后的語料庫更難以預測。因為,不同社交平臺上的用戶分布不同,簡單的擴充只會增加數據噪聲。所以,本文將關注的重點只放在新浪微博一個平臺上。

除了英文語外,其他國家的研究者們也針對自己的母語進行了研究。目前,最進的成果是Suhartono等人[11]的研究。Suhartono等人通過印度尼西亞版的Twitter平臺,收集了359名用戶的數據,分別用SVM和XGBoost建立分類模型,SVM的準確率為76.2%,而XGBoost的準確率達到了97.9%,甚至對于情緒穩定性和外向性達到了100%。

國內方面,基于中文社交媒體的人格計算一般從微博、人人網收集數據。

Bai等人[12]從335名人人網用戶的數據中提取出五個子特征集,包括基本信息、網絡屬性、時間屬性,情感類型四個方面,使用C4.5建立二分類模型。分類依據是所有用戶得分的平均值和標準差,低于平均值一個標準差的為低分組,高于平均值一個標準差的為高分組,剩余為中間組,中間組忽略不計。但正如Mairesse[13]所說,這樣做雖然可以提高準確率,但卻降低了召回率。考慮到召回率,且為避免數據不均衡,本研究中的分類依據以中位數為分界線。等于高于中位數者為高特質,低于中位數者為低特質者。

2 人格分類模型

在人格心理學中有多種人格因素模型,目前最流行的是大五人格模型(Big Five Model)也叫做五因素模型(Five Factor Inventory)。大五人格模型基于特質流派,研究取向可分為兩個:詞匯研究和問卷研究。詞匯研究基于詞匯假設,認為通過分析自然語言中的詞匯及語義,可以探究人格的維度。問卷研究的理論基礎是特質論,特質論認為人格是可預測的,通過觀察個人長期行為,便可總結得出人格特質。常用的人格問卷是Paul Costa和Robert McCrae共同編制的《NEO人格問卷》(NEO Personality Inventory,簡稱 NEO-PI,修訂版稱為NEO-PI-R)。大五人格模型共包含五個特質因素,表1介紹了大五人格模型的各個特質因素。

表1 大五人格模型

2.1 數據采集

為了收集數據,建立了人格測試網站3網址:http://www.panvote.top/。用戶打開網站后首先需要使用微博賬號登錄,然后做44題中文版的人格問卷。具體的操作流程如圖1所示。

圖1 網站操作流程圖

用戶填寫完量表后,向用戶反饋其人格數據。用戶看到結果后,可以選擇分享到微博或關閉。其他用戶若點擊了該用戶分享的內容,也可參與調查。數據收集過程從2017年12月5日到2018年5月23日,共收集了324名用戶的微博數據。為保證收集到的數據是有用戶自己寫的,過濾掉了非原創數據。

2.2 數據篩選

為去除噪聲、無效數據,對數據進行篩選,篩選規則如下:

(1)將注冊時間低于一個月的用戶數據去除,因為這樣的用戶可能還不熟悉微博的使用方式;

(2)將用戶中轉發的內容去掉,非原創的內容并不能體現出用戶的人格;

(3)將微博數量小于10條的去掉,因為這樣的用戶數據量太少;

(4)去掉平均每天發微博的數量超過50條的,因為這樣的賬號可能是營銷賬號,通常由某個工作室維護,并不是單個用戶使用。

篩選過后,只有236名用戶數據有效。

2.3 模型特征

本研究中用到的特征包括四個部分:

(1)個人信息:

個人信息是指每個用戶所公開的個人數據,包括昵稱、性別和年齡。

(2)網絡特征:

網絡特征是指用戶在使用微博網絡屬性,主要包括:粉絲數、關注數、微博數、分享數、評論數。不同的用戶在使用社交網絡時,會產生不同的行為,這些行為長期累積使得用戶的網絡屬性各不相同。所以,網絡屬性可以幫助我們分析用戶的人格。

(3)文本特征:

Pennebaker等人[14]認為個體所寫下的文本內容反映了個體的人格。所以,用戶的文本數據是人格計算的重要線索。

對于用戶文本分析來說,傳統的做法是基于SCLIWC等詞典提取文本特征,但是這種方法并不適合微博數據。因為微博數據具有很強的時新性,網絡用語更新換代快,新生詞層出不窮。而傳統做法所依賴的詞典并沒有囊括這些新生詞,會丟失許多信息。因此本研究中的文本特征通過TF-IDF選出特征詞,然后使用特征詞的頻率作為文本特征。

(4)情感特征:

基于中國知網的情感詞詞典分析每條微博的情感。如果微博中包含的積極情感詞數量大于消極情感詞數量,則該條微博屬于積極情感,反之亦然。以一個月為單位,統計每個月中積極情感的微博條數numpos,和消極情感的微博條數numneg,統計用戶最近一年內,每個月的numpos和numneg,分別求出積極情感的平均值avgpos和標準差stdpos,和消極情感的平均值avgneg和標準差stdneg。

2.4 分類模型

人格分類領域常用的分類算法有樸素貝葉斯NB[4,15-16,18]、支持向量機 SVM[4,10,17,20]和 C4.5算法[12]。為方便對比本文使用了樸素貝葉斯、支持向量機和C4.5,表2介紹了這四種分類算法的原理并列舉了各自的優缺點。

表2 NB、SVM、KNN及C4.5原理簡介及優缺點列舉

2.5 實驗結果

表3 本研究實驗結果和其他研究結果的對比

從表3中可以看出本研究結果優于其他研究。

3 結語

隨著社會的發展,人們對智能化的要求越來越高,因此,讓機器了解人類的心理活動,并作出適合的響應越來越重要。這就需要將心理學和計算機科學聯系起來,人格計算正是這樣的一個領域。人格計算自提出至今已有十多年的歷史,但仍存在很多問題,本文提出以下兩個改進方面。

(1)人格特質間的弱連接

文獻[18]提出人格特質間存在弱連接,文獻[19]中用皮爾遜相關計算人格特質間的相關性,發現各特質之間存在相關性(相關系數為-0.406~0.318),尤其是開放性和外向性這兩個維度,呈顯著相關(0.318)。文獻[20]中用J-S散度來計算人格特質間的弱相關性,并且使用肯德爾相關加以驗證,最后還比較了人格間弱相關對人格計算系統的影響,并得出結論:當不考慮人格特質間的弱相關性時,系統F1值相較于峰值下降很多。在未來的工作中需要將人格特質間的弱相關加入到人格計算系統中。

(2)利用大數據分析情境

人格計算根據用戶的行為結果(本文指文章內容)來預測用戶人格,但同一個用戶在不同的情境下產生的行為結果是不同的。例如,某用戶具有高外向性特質,在與朋友聚會后寫下的隨筆記錄可以反映出他的外向性特質,但是在失眠后寫下的隨筆記錄可能會表現出低外向性。文獻[21]提出需要在人格計算中考慮到情境因素,文獻[22]針對文獻[25]中的情境問題提出:通過大數據分析可以獲得情境對用戶行為的影響。朱廷劭等人[23]利用中文心理分析系統分析微博用戶的情緒內容,得出了情緒在一天內隨時間的變化規律。該變化規律在一定程度上反映出了情境對用戶行為的影響,基于此我們可以去除人格計算中的部分噪點信息。例如,文獻[27]中的規律指出,用戶在凌晨3點左右處于消極情緒,一個低神經質的用戶在凌晨3點可能受到失眠的困擾,而表現出高神經質的特質,這就屬于人格計算中的一個噪點信息。未來的人格計算工作中,可以考慮用大數據分析情景對用戶行為的影響,從而降低人格計算中的噪點。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲水蜜桃久久综合网站| 在线无码九区| 亚洲精品第一在线观看视频| 伊人色综合久久天天| 极品av一区二区| 日韩精品免费一线在线观看| 免费aa毛片| 亚洲色图在线观看| 99久久精品免费看国产免费软件| 欧美成人精品在线| 自偷自拍三级全三级视频| 国产欧美日韩另类精彩视频| 国产精品久久久久鬼色| 国产高清在线丝袜精品一区| 日韩欧美中文亚洲高清在线| 在线观看国产精美视频| 欧美另类一区| 国产女人在线观看| 亚洲欧美日韩天堂| 97一区二区在线播放| 在线观看亚洲天堂| 亚洲精品第1页| 韩日无码在线不卡| 国产精品不卡永久免费| 97超级碰碰碰碰精品| 99精品欧美一区| 国产在线无码av完整版在线观看| 91极品美女高潮叫床在线观看| 91午夜福利在线观看| 澳门av无码| 99久久国产自偷自偷免费一区| 中文字幕在线视频免费| 欧美日本激情| 亚洲日本中文字幕天堂网| 国产精品嫩草影院av| 69免费在线视频| 美女潮喷出白浆在线观看视频| 55夜色66夜色国产精品视频| 国产在线小视频| 无码电影在线观看| 99热国产这里只有精品9九| 色天天综合| 国产成人免费| av一区二区无码在线| a级毛片毛片免费观看久潮| 亚洲高清免费在线观看| 国产成年女人特黄特色毛片免| 亚洲中文字幕在线观看| 女同久久精品国产99国| 欧美高清视频一区二区三区| 亚洲三级a| 国产精品爆乳99久久| 91在线激情在线观看| 夜夜操天天摸| 国产午夜一级毛片| 91无码人妻精品一区| 午夜在线不卡| 国产精品久久久久婷婷五月| 亚洲Aⅴ无码专区在线观看q| 国产性生大片免费观看性欧美| 97在线观看视频免费| 国产精品第页| 色婷婷在线播放| 国产又色又刺激高潮免费看| 欧美中文字幕一区| 国产一区二区三区在线精品专区| 国产视频 第一页| 在线观看亚洲精品福利片| 国产精品吹潮在线观看中文| 亚洲精品你懂的| 国产精品美女在线| 国产成+人+综合+亚洲欧美| 欧美人与性动交a欧美精品| 久久男人资源站| 国产精品一区在线麻豆| 中文字幕在线一区二区在线| 99视频在线看| 日本国产在线| 国产a网站| AV在线天堂进入| 国模在线视频一区二区三区| 久久免费看片|