999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交媒體知識圖譜構建和知識推理的關鍵技術研究

2020-05-25 09:33:26陳學楷譚策劉湉吳正己
科學導報·學術 2020年18期
關鍵詞:情感用戶

陳學楷 譚策 劉湉 吳正己

摘 ?要:隨著社交媒體的發展,網絡平臺的言論逐漸趨于個體化,因此準確識別一個人對某話題的言論是否有夸大或偏激的成分便顯得尤為重要。傳統的社交媒體情感分析依靠詞袋模型來表現言論積極或消極的態度,這樣的方法往往會因每個人的用詞習慣的不同而變得有失偏頗。對某人話語是否偏激的推理主要依靠對每個個體長期以來的用詞習慣來進行判斷。因此,本文提出了基于知識圖譜和PageRank聯合的偏頗性預測模型,為每個詞定義了偏頗性分數,對判斷言論是否存在一定的水分提供了重要依據。實驗結果表明,文本的偏頗性得分在一定程度上確實可以判斷用戶的語言表達偏頗情況。

關鍵詞:知識圖譜PageRank偏頗性分析情感推理

1.引言:

相對于電視廣播、紙質報刊這類傳統媒體來說,互聯網無論從影響力還是輿論動員力方面都比傳統媒體更加有力,然而社交媒體上的言論往往因為其龐大的信息量以及用戶言論的片面性使得信息的水分過高,因此需要良好的識別系統來加以判定和篩選。而知識圖譜在自然語言處理方面的角色更像是一個數據庫,提供著記憶信息、提供信息的功能。構建完善的知識圖譜有利于發現詞與詞之間人們有時意識不到的數值關系,從而在自然語言處理中發揮重要作用。本次實驗就是圍繞知識圖譜的構建方法開始的。

2.相關研究

從技術層面來看,知識圖譜構建技術在本質上要解決的問題是數據之間潛在關系的預測和知識之間關系推理。學術組織很早就關注了知識圖譜相關技術的研究。1989年,第一屆國際知識表示和推理國際會議(The First International Conference on Principles of Knowledge Representation and Reasoning)的召開,推動了知識表示和推理理論和技術的研究。2012年,谷歌公司發布了基于語義搜索的項目Knowledge Graph,使得萬維網由基于數據鏈接的網絡逐步進化為鏈接知識的網絡。

知識圖譜推理是根據已知的實體之間關系推測實體之間的潛在關系,從而給知識圖譜增加新的事實。PageRank是一種基于圖模型的結點重要性排序方法,通常在搜索引擎中對網頁鏈接的重要性權衡中發揮著很大的作用。本文將使用PageRank算法的變形對生成的知識圖譜進行知識推理,并嘗試用推理后構建出的圖譜來預測文本的情感特征,檢驗推理圖譜的可靠性。

情感分析的方法主要可分為基于情感詞典的情感分析方法和基于機器學習的情感分析方法。基于情感詞典的情感分析是從待測文本中提取特征詞后,在情感詞典中查找該特征詞的情感值,根據累加的情感值進行情感分類的方法[2]。在情感詞典的選擇上,一般有兩種方式:一種是引用已有的情感詞典,如HowNet詞典、SentiWordNet、Inquirers等;另一種是通過研究數據自行構建詞典,如R.Feldman等學者在已有的情感詞典基礎上,利用部分人工標注和Bootstrapping的方式提取情感詞[1]。由于美國最早的社交媒體情感分析就是基于Twitter的社交媒體數據開展的,因此本文將采用針對Twitter平臺已有的且準確率較高的情感分析詞典SentiWordNet進行知識推理和話語的偏頗性判別。

3.正文

3.1實驗準備

3.1.1實驗數據集

本實驗采用情感詞典SentiWordNet_3.0.0來進行文本中詞語積極性和消極性的匹配和提取,應用于Twitter用戶名為METGALA、archie、best dressed三人的推文中來生成用戶主體依賴的知識圖譜。

下載鏈接:

推文:https://download.csdn.net/download/zzhaier/6640081

情感詞典:https://download.csdn.net/download/zzhaier/6640081

3.1.2評價標準

由于句子的情感表述無法通過準確率召回率等指標進行定量衡量,因此我們對最終的結果進行了人工評價,具體例子可以在3.2.3的部分看到。

3.2實驗過程

本篇文章大體步驟可分為三個部分,首先依據情感詞典和Twitter中用戶的話語來構建詞與詞之間的情感關系,生成一個兩種極性詞語全連接的龐大的雙向圖網絡。其次改進PageRank算法利用詞之間的雙向關系計算每個詞正向和逆向的偏頗值,給每個結點重新賦值。最后用新的推理圖譜,以詞語偏頗性代數和的結果判斷話語是否偏頗或過激。

3.2.1知識圖譜構建

現代知識圖譜通常使用W3C Resource Description Framework(RDF)[Cyganiak et al.,2014]這一用于存儲實體及其關系的基于圖的數據模型,標準RDF以三元組(subject,predicate,object)(SPO)來表示事實。在本篇論文中,我們將predicate視作一種相關性的表示,這種相關性用權重值Weight來表示,Weight的值越大,subject與object的情感對立性越強,反之則越弱,最終用三元組(subject,Weight,object)來表示。假設我們用符號L表示某一篇推文,li表示隸屬于L的每一個句子,對于句中任意的兩個詞Si和Ti,他們之間的Weight計算公式可如下表示:

其中,若Si與Ti同為積極性詞或同為消極性詞,則二者之間的Weight將較小,即對立性弱,反之若Si和Ti為不同類情感,則二者Weight較大,對立性強。

依照用戶話語生成用三元組表示的圖模型,用所有Weight的平均值為界限,將值較大的表示為紅色,較小的表示為綠色,線條越粗表示距均值越遠,用可視化圖片表示出來如下:

以使用頻率較高的love一詞舉例,該用戶使用的與love對立性最強的詞是never,最弱的詞(也是情感較為相近的詞)是honored。

3.2.2知識推理

目前,我們已經生成了一個詞匯網絡,下一步就是給每個節點的詞重新賦值。首先我們以Weight的均值為中心點對Weight進行了數據規約。而后,根據PageRank的圖理論原理,我們對每個結點的值采用如下計算方法:

其中,Bu表示所有結點的集合,w+(i,j)和w-(i,j)分別表示連接到結點i的所有正Weight值和負Weight值,W+(j)和W-(j)分別表示與結點i相連的每個結點j的正Weight值之和及負Weight值之和。PR+(u)和PR-(u)分別代表與結點i相連的每個結點j的正Weight加權出度值之和與負加權出度值之和。為了更方便描述,以下圖為例,假設圖結構中只有四個結點A,B,C,D,則PR(A)、PR(B)、PR(C)、PR(D)計算方法如下:

PR(A)=0–[W2/(W2+W3)+W1/W1]

PR(B)=[W4/W4+W5/W5]-W1/(W1+W2)

PR(C)=W4/(W4+W5)-[W2/(W1+W2)+W3/W3]

PR(D)=W3/(W2+W3)-W5/(W4+W5)

這里如果假設W2的值較高,即A點和C點在情感得分方面有著很強的關聯性,則PR(A)和PR(C)的值將會變小,同時,與C存在對立關系的B點的PR(B)將會變大,也就是說,兩個同為積極情感的詞若總是同時出現,則該用戶平時的推文表現應為平和正面的,而語句中一旦出現與其相反的消極詞匯,該模型將會指出這條語句的偏頗性較大,且偏頗值會隨著消極詞匯的增多而增大;但等到該用戶頻繁使用消極詞匯時,偏頗性又會減小。這與我們預想的效果基本一致。

3.2.3話語偏頗性判定

由于知識圖譜是根據某個人長期以來的話語文本和用詞習慣創建而來的,因此,在運用時,可作為這個特定的Twitter用戶話語偏頗性的重要評判依據,為了檢驗此知識推理的效果,在生成的知識圖譜中查找句中每個特征詞的偏頗性分值,根據累加進行有無偏頗的判斷,公式如下:

由于句子的偏頗性都是相對而言的,單獨計算出的Bia值在判斷是否過激的層面上沒有意義,因此待每句話都算出各自的Bia之后,對所有的值進行向0-1之間的歸一化映射,便于我們查看和評判。

實驗效果如下表所示:

可以看出,第一句話為積極話語,第二句話為消極話語,情感值反差較大,但偏頗值相似,第三句話由于all單詞的情感詞積極性值過高,其他詞語全部中立,因此情感值較高,但經過偏頗性評價,偏頗值大于0.5,發現此話語異常于平時的表達方式,在此判別為過激語句,經過仔細的人工分析其情感,發現也基本符合判斷。

但同時與人工評價相比對,該模型評價偏頗話語的錯誤率也達到了48%,僅僅比隨機預測效果好一點有限。

4.結論

本篇文章中設計了一個針對Twitter用戶的知識圖譜,該圖是一個帶權無向圖,其權重是根據用戶話語的情感詞的值之差計算得到的。而后將此無向圖視做一個雙向圖,我們設計了一個由PageRank改進來的結點值的靜態計算方法來定義結點詞語的偏頗性。最后為了檢驗我們的設想是否合理,運用數據集中未加入訓練的10%的數據挑選進行測試,證明了我們的研究是有一定意義的。

5.思考和展望

知識圖譜的構建技術是人工智能研究領域的一個前沿課題,此課題以知識工程、社交網絡、機器學習等領域的關鍵技術為支撐,這些領域涌現出的最新研究成果為知識圖譜的研究提供了新的研究思路和方法。本篇文章用于構建知識圖譜的數據量相對而言也非常小,實體關系刻畫也較為簡單,還尚不足以發揮知識圖譜的強大作用。情感分析中評價言論是否過激這一方面由于實際上因人而異。很難統一用一套標準來衡量所有人的過激言論,因此這一方面仍存在著可研究的地方,不排除需要培養機器“終身學習”的可能性,這將是存儲資源飛速發展的時代帶給人的新一種可能。

參考文獻

[1] ?易順明,周洪斌,周國棟.Twitter推文與情感詞典SentiWordNet匹配算法研究[J].南京師范大學學報(工程技術版),2016,16(03):41-47+53.

[2] ?趙常煜,吳亞平,王繼民.“一帶一路”倡議下的Twitter文本主題挖掘和情感分析[J/OL].圖書情報工作:1-9[2020-04-21]

[3] ?平健舟.基于商業知識圖譜的新聞輿情系統設計與實現[D].北京郵電大學,2019.

[4] ?Wei Chen,Xiao Zhang,Tengjiao Wang,等.Opinion-aware Knowledge Graph for Political Ideology Detection[C]//Twenty-Sixth International Joint Conference on Artificial Intelligence.2017.

猜你喜歡
情感用戶
如何在情感中自我成長,保持獨立
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
如何在情感中自我成長,保持獨立
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
主站蜘蛛池模板: 国产精女同一区二区三区久| 亚洲欧洲日产国产无码AV| 亚洲成人在线网| 国产在线小视频| 久久网综合| 亚洲精品第一页不卡| 日韩无码精品人妻| 女人av社区男人的天堂| 国产亚洲精品97AA片在线播放| 亚洲成人播放| 亚洲第一福利视频导航| 欧美日韩精品在线播放| 97国产精品视频自在拍| 亚洲精品国产综合99| 欧美一级专区免费大片| 日本亚洲欧美在线| 在线观看国产黄色| 欧美精品高清| 国产精品成人第一区| 中文字幕无码电影| 欧美午夜在线播放| 国产综合另类小说色区色噜噜| 极品国产一区二区三区| 国产浮力第一页永久地址| 亚洲精品视频在线观看视频| 深夜福利视频一区二区| 不卡无码h在线观看| 亚洲 欧美 偷自乱 图片| 国产成人91精品| 18禁高潮出水呻吟娇喘蜜芽| 91黄色在线观看| 日本色综合网| 狠狠色婷婷丁香综合久久韩国| 欧美日韩专区| 无码一区18禁| 久久精品91麻豆| 91人妻日韩人妻无码专区精品| 91毛片网| 国产成在线观看免费视频| 欧美国产精品不卡在线观看| 最新精品久久精品| 免费观看精品视频999| 国产亚洲视频中文字幕视频| 在线综合亚洲欧美网站| 国产精品自在在线午夜 | 国产va视频| 91精品啪在线观看国产| 免费观看国产小粉嫩喷水| 国产成人高清精品免费软件| 国产精品第一区| 国产免费一级精品视频| 精品少妇人妻一区二区| 台湾AV国片精品女同性| 国内精品免费| 国产一级小视频| 欧美天天干| 日韩第九页| 动漫精品中文字幕无码| 成人小视频在线观看免费| 免费国产高清精品一区在线| 中文字幕久久亚洲一区| 视频国产精品丝袜第一页| 97超爽成人免费视频在线播放| 精品久久香蕉国产线看观看gif| 久久精品国产精品一区二区| 成人精品免费视频| 蜜臀AV在线播放| 国产成人综合欧美精品久久| 四虎亚洲国产成人久久精品| 一区二区三区毛片无码| 五月婷婷综合在线视频| 久久婷婷五月综合97色| 久久久久亚洲AV成人人电影软件| 久久精品一品道久久精品| 欧美色视频在线| 国产丝袜无码精品| 波多野结衣一二三| 黄色a一级视频| 全色黄大色大片免费久久老太| 精品福利视频网| 久久国产精品77777| 日韩少妇激情一区二区|