(天津師范大學管理學院 天津 300387)
介紹:目前,我們通過在線社交網站,如微博和豆瓣,以及個人網站上分享了許多個人信息和專業信息。這些網絡博客平臺在連接人們、分享信息、表達用戶的想法和觀點方面做出了重大貢獻。然而,當用戶發布和分享關于他們自己或朋友的信息時,他們不得不面對安全和隱私問題。我們相信,這個問題的嚴重性在我們分享并通過不同的網絡博客平臺發布更多的信息后變得至關重要。在這個工作中,我們關注于在網絡博客中挖掘用戶的個人相關信息。另外,我們假設當人們快樂或悲傷時,人們可能會更多地表達他們的個人信息、興趣。在線攻擊者可以利用這個問題進行推理攻擊,從而從個體中推斷出私人信息。
準備工作:研究表明,預測個人特征和屬性可能是一個嚴重的隱私問題。我們通過微博數據尋找個人信息,此外,還強調了可能從文本中泄露的潛在信息。微博還收集了用戶公開的個人信息,并開發了一種自動分析工具,收集用戶的更多信息。但是,這些研究都沒有涉及到網絡博客中用戶情緒和個人信息之間的關系。
研究方法:我們使用使用自然語言處理解析器和命名實體識別器來提取用戶的個人信息。我們提取專有名詞的詞性、標簽和數字等。此外,我們通過個人博客提取用戶的好惡,通過用戶的個人愛好揭示他們的特征。我們使用語言學的特性和同義詞來區分用戶喜歡或者不喜歡的程度,例如不反感、一般、喜歡、偏愛、無感、不喜歡、厭惡等等,以供用戶選擇。在情感分析方面,我們在每個博客中捕捉積極和消極的情緒。我們選擇用一句話來總結情緒分值,并在一個特定的博客上對多個句子進行綜合。我們相信,一個更廣泛的分數分布可以讓我們更好地提高情緒,而不是把整個博客的情緒建立在一個單詞或句子的分數上。我們選擇用一句話來總結情緒分值,并在一個特定的博客上對多個句子進行綜合。更廣泛的分數分布可以讓我們更好地判斷情緒,而不是把整個博客文章的情緒建立在一個單詞或句子的分數上。
我們使用ICWSM 2009的Spinn3r數據集進行評估,在這里,Spinn3r數據集是一個抓取數百萬篇博客文章、新聞文章、分類信息和論壇帖子的集合。我們使用Google協議緩沖API來解析和清理數據,以獲得網絡博客文章的純文本內容。此外,我們使用Spinn3r API將原始流文件解碼成單個有效負載對象,每個有效負載對象對應于一個爬行的網頁條目。
評價:我們從Spinn3r數據集中使用了2440個獨特的網絡博客。對于每個博客,我們分析了情緒評分的經驗概率分布函數。此外,我們還計算了情緒評分與其他三個特征之間的皮爾遜相關系數。
正面和負面情緒得分的總和用來捕捉故事的凈情感,而情感的絕對值,用來捕捉情緒得分的力量。總結我們的研究結果:
1.情緒與詞性標簽:Spinn3r數據集顯示了網絡情緒得分和詞性標簽之間的弱關聯(大約0.193)。我們相信在一個博客里有很多不同的積極和消極的情緒,這樣就可以抵消掉。我們觀察到絕對情緒強度和詞性標簽之間的相關性。這驗證了我們的假設:當人們快樂時,“積極的情緒”或悲傷的“高消極情緒”,人們可能會談論更多的個人信息。
2.情緒vs.喜歡/不喜歡:在博客中,人們傾向于更多地談論自己的(積極的)喜歡而不是(消極的)不喜歡的事情,因為比起不喜歡,喜歡與情緒有更高的正相關。
結論和未來的工作:我們的研究結果表明,用戶情感與語言特征之間存在著顯著的正相關關系。未來的工作是開發一個分類器,準確地預測個人信息的基礎上,我們的分析的特點。同時,我們計劃探討這種個人博客信息是否可以與其他開放系統網絡和公共信息相結合,以評估用戶的安全風險。
【參考文獻】
[1]李勇,徐震.青年報,2009,第19期,125-108
[2]徐靜.世界報.第51卷,2013,第10期,105-108
[3]許愛強,史賢俊,曲東才,2013全國學術論文集,北京,307-309
[4]Simon S.Woo,Harsha Manjunatha.Empirical Data Analysis on User Privacy and Sentiment in Personal Blogs
[5]魏來,鄭躍.隱私2.0:Web2.0時代的用戶隱私保護研究[J].圖書與情報,2010(5):60-64.