999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于依存句法樹方法的微博文本的情感分析研究

2019-11-03 13:11:42王彬菁
電腦知識與技術 2019年24期

王彬菁

摘要:隨著移動互聯技術的發展,微博作為一種新媒體形式日益成為國內主流的移動社交媒體平臺。微博包含海量的信息數據且數據種類多樣,即有文檔文本數據,也有圖片、表情符號、視頻動畫等非結構化的數據。因此,對各政府部門和企業單位的網絡輿情監管提出了艱巨的挑戰,有關中文微博文本的情感分析的研究也成為近幾年數據挖掘領域的關注方向之一,情感分析研究主要圍繞著信息的抽取和情感傾向的判定,均離不開對微博文本的分詞工作。本文提出了一種基于依存句法樹的情感分析方法。根據不同的詞匯間的依存關系,制定了相應的情感短語削減規則。通過分析不同程度詞和否定詞對情感詞的修飾和組合關系,制定了不同的匯聚規則。使用LTP-Cloud(語言技術平臺云)進行句法分析,構建依存句法樹,通過對句法樹的后序遍歷逐步匯聚情感向量。使用了為情感值取絕對值的情感判別方法,得到最終的情感類別。

關鍵詞:微博文本;依存句法樹方法;情感分析;LTP-Cloud(語言技術平臺云)

中圖分類號:G642? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2019)24-0013-03

開放科學(資源服務)標識碼(OSID):

近些年,隨著移動互聯技術的迅猛發展和日益成熟,移動互聯技術已然進入社會大眾的生活,并且逐漸改變著我們的消費方式、溝通交往方式;其中,微博作為一種成熟的新媒體形式已經成為國內最大的移動社交媒體平臺。根據中國互聯網絡信息中心(CNNIC)最新發布的第41次《中國互聯網發展情況統計報告》顯示,截至2017年12月底,中國網民規模已經達到7.72億,這其中手機用戶的占比為97.5%,手機成為網民上網的主要終端設備[1]。這些網民獲得信息的方式又主要通過微博,微信,各類手機APP,移動社會化的傳播格局逐步形成,微博作為承載信息發布,互動交流功能的社交媒體平臺已經被社會大眾所熟知和使用。據《2017年微博用戶發展報告》顯示,截至2017年9月,微博月活躍人數共計3.97億,日活躍1.65億,[1]用戶的使用習慣趨向移動化,微博討論方式碎片化,強調高社交粘性的互動方式,這些特性吸引著年輕群體,他們在微博上表達帶有個人喜好的觀點和看法,對網絡輿論的傳播具有重大影響。所以,微博應該成為各級政府機構和企業關注的輿論陣地,積極引導正面輿論,及時監控不良的輿論導向。

微博文本主要使用文本形式傳播信息,其中也包含其他非結構化的數據,比如種類繁多的網絡表情符號、各式各樣的圖片、視頻、音頻。這些都為文本詞匯信息的提取增加了難度。微博平臺提供的API可以方便微博語料的獲取。另外,谷歌公司開發的Word2vec也可以將微博文本快速轉化為計算機可以識別的數據,作為一種機器學習方法,他可以在深度學習算法應用以前對語料進行預處理,將語料自動加載到模型中,通過設定相關參數,模型算法會將其訓練成對應的詞向量,通常使用在文本詞性分析、聚類和查找同義詞等方面,為微博文本的情感分析提供了便捷的處理手段。[2]通過查閱文獻可知,關于微博文本的情感分析的研究已經成為近幾年數據挖掘領域的主要研究方向。目前,情感分析研究主要圍繞著信息的抽取和情感傾向的判定,完成這兩項工作必須對微博文本中的數據信息進行預處理,包括分詞處理;網絡表情符號識;詞匯的情感分類匯聚以及情感判定。

1 LTP-Cloud(語言技術平臺云)

數據挖掘算法雖然在情感判定方面提供了一些方法,但其應用語境依然以英文語境為主,有關于中文語境環境下的研究較少,因為中文微博文本所處的中文語言結構復雜,語義表達多樣,且微博用戶趨于年輕化,文本包含的網絡用語居多,所以中文微博文本的情感詞的分類和判定方法帶有自身的特點與難點。另外,目前針對中文微博的情感分析的研究集中在情感傾向性分析領域,在細致情感分類方面尚處于起步階段。因其具有一定的學術研究價值和網絡應用價值,也吸引了國內外專家、學者的關注。針對中文微博文本“短”的特點,本文提出了構建依存句法樹的方法,對文本的情感類別進一步地細致分類。哈工大訊飛語言云是由哈工大和科大訊飛聯合研發的中文自然語言處理云服務平臺。LTP-Cloud可以實現分詞、詞性標注、命名實體識別、依存句法分析和語義角色標注五項功能。下面詳細介紹本文用到的分詞、詞性標注和依存句法分析三項功能。依存語法(Dependency Parsing,DP)立足于詞性標注,通過分析不同詞性組合,制定相應規則,將句子從線性詞串變為具有層次結構的樹。針對不同的詞性組合,可以綜合得到不同的依存句法類別,而依存句法在語義角色分析時有著很重要的作用。如劉俊使用依存句法分析了漢語復句內各個分句的相似度,取得了很好的效果。[3]例如句子“我愛北京天安門。”的依存句法分析結果如圖1所示:

分析結果顯示,句子的核心是謂語“愛”,“愛”和“我”是主謂關系,即“我”是“愛”的主語,“愛”和“天安門”是動賓關系。“天安門”是“愛”的賓語。“天安門”和“北京”是定中關系,“北京”用來修飾限定“天安門”。從分析結果可知,依存句法分析能夠揭示句子中不同詞語之間的依存關系,更好地理解語義。例如,雖然“北京”緊鄰“愛”之后,但是“愛”的賓語不是“北京”而是“天安門”。

2 依存句法匯聚規則

根據哈工大LTP定義,依存句法的標注有14種,考慮在匯聚時修飾詞和情感詞之間,或者修飾詞和修飾詞之間的匯聚規則,其中修飾詞包含了程度詞和否定詞。本文針對修飾短語提出了以下匯聚規則。

(1)否定詞修飾情感詞

否定詞修飾情感詞會改變情感傾向,如“不喜歡”這個短語中,“不”作為否定詞修飾“喜歡”。在此類關系匯聚時,因為否定詞的出現僅僅是修飾情感詞,自身不攜帶情感,因此不存在層級和削減的問題。本文針對此類情況,將否定詞的否定修飾附加到被修飾的情感詞傾向上,即改變情感詞的傾向,比如由“喜歡”改為“厭惡”。

(2)程度詞修飾情感詞

程度詞修飾情感詞會改變情感強度,如“非常喜歡”這個短語中,“非常”作為程度詞修飾“喜歡”。在此類關系匯聚時,因為程度詞的出現僅僅是修飾情感詞,自身不攜帶情感,因此不存在層級和削減的問題。本文針對此類情況,將程度詞的強度修飾附加到被修飾的情感詞傾向上,即改變情感詞的強度,比如由等級為1的“喜歡”改為等級為2的“喜歡”。

(3)否定詞修飾否定詞

否定詞修飾否定詞即為雙重否定,一般情況下不影響原來的情感傾向,對于情感程度的影響需要具體分析依存關系。如“不是不喜歡”中,第一個“不”作為否定詞修飾了“是”,后面的“不喜歡”和“是”是動賓關系。在這個樣例中,“不喜歡”自身是一個“厭惡”的情感短語,在動賓關系向上匯聚時會有一定的削減,而第一個“不”是對“是”的直接修飾,是在削減之后的否定修飾。最終,由于否定不會削減,而程度在匯聚時被削減,那么“不是不喜歡”最終的情感類別仍然是“喜歡”,但強度相比于“喜歡”有所降低。此處的例子其實不是嚴格的否定修飾否定的例子,而是否定修飾情感詞作為情感短語削減后再次被否定詞修飾的例子。

(4)否定詞修飾程度詞

否定詞修飾程度詞相當于對程度的否定,而非情感的否定,因此否定詞修飾后,最終情感傾向未變,但是程度有所降低。如“不很喜歡”中,“不”修飾了“很”,然后才是“很”修飾“喜歡”。“很”作為程度詞表現了一種情感等級的加強,但是“不”作為否定詞對“很”這個程度詞的否定使得最終的強度有一定的削減。“不很喜歡”這個情感短語仍然表現了“喜歡”這種情感類別,但是在強度上強于“喜歡”這個情感詞,弱于“很喜歡”這個情感短語。因為漢語表達的復雜性,對于這種修飾的疊加需要根據不同的依存句法不同分析。如“不是很喜歡”這個短語和“不很喜歡”就不一樣。“不是很喜歡”和上面“不是不喜歡”是同類型的結構。“不是很喜歡”這個短語相當于程度詞修飾情感詞作為情感短語削減后被否定詞修飾,在情感類別上是“厭惡”,其強度和“不喜歡”相比孰高孰低取決于“很”這個程度詞對“喜歡”在程度上的加強和動賓關系在匯聚時對程度上的削弱孰重孰輕。

(5)程度詞修飾否定詞

程度詞修飾否定詞相當于給否定加個強度,因為否定本身無強度可言,最終的強度會隨否定詞一起攜帶到情感詞上。如“很不喜歡”中,“很”修飾“不”,然后才是“不”修飾“喜歡”。在漢語表達習慣中,“很”對于“不”的修飾通常被附加到情感詞“喜歡”上。因此,“很不喜歡”在情感類別上是“厭惡”,在強度上比“不喜歡”更強,和“很喜歡”強度一致。

(6)程度詞修飾程度詞

程度詞修飾程度相當于程度的疊加。通常情況下,人們不使用這種不太合乎語法規則的表達方式。在微博語料中,此類表達方式多用于表現強烈情感。如“非常極其喜歡”中,“非常”修飾“極其”,然后是“極其”修飾“喜歡”。對于此類的表述,其情感強度相比于“非常喜歡”和“極其喜歡”都要強一些,甚至比兩個情感短語的并列相加的情感還要強。因此,在處理中,此類表述不僅僅是“非常喜歡”和“極其喜歡”強度的相加,更傾向于相乘之類的疊加處理。在具體問題中,要綜合考慮程度詞強度標注值與匯聚削減程度兩個系數綜合決定。

3 微博文本情感詞分類過程

針對每條微博樣例,首先要構建LTP-Cloud所需的字段,發起請求,得到依存句法關系。下面舉例說明。使用“我今天很不高興。”這個簡單的例子進行分析。將這句文本作為待分析內容,向LTP-Cloud發送請求后得到結果如圖2所示的。

觀察圖2可知,經過LTP-Cloud分析,“我今天很不高興”這句話被分詞,標注了詞性,而且標注了不同詞之間的依存句法關系。整個圖顯示為一種樹狀結構。虛擬節點“Root”作為樹的根,其孩子節點為“高興”,它們之間的修飾關系是核心關系。“高興”有四個孩子節點,分別是“我”“今天”“不”和“。”,它們之間的修飾關系分別是主謂關系,狀中關系,狀中關系和標點符號。在這四個孩子節點中,除“不”以外,其他都是葉子節點。“不”有一個孩子節點“很”,它們之間的修飾關系是狀中關系。“很”是葉子節點,整個樹分析結束。

LTP-Cloud提供如上所示的樹狀分析結果的同時,也提供了xml形式的分析結果。xml分析結果如下所示:

<?xml version="1.0" encoding="utf-8" ?>

在xml形式的分析結果中,給出了和樹狀圖一樣的信息,只是形式不同而已。其中,每一個“word”節點均給出了當前詞的序號,內容,詞性,父節點,與父節點關系。如第一個“word”節點中,當前詞id為“0”,內容為“我”,詞性為“r”表示代詞,父節點為“4”,即id為“4”的節點“高興”,與父節點關系為“SBV”,即主謂關系。xml分析結果中的三個“arg”節點是語義角色標注的內容,與本文分析無關,不予考慮。

4 構建依存句法樹

LTP-Cloud在提供界面演示樣例的同時,也提供了通過API調用的形式。本節使用API調用,選擇返回格式為PLAIN,構建句法樹用于進行自下而上的情感匯聚。

API調用LTP-Cloud后,返回的PLAIN格式的分析結果為:

我_0 高興_4 SBV

今天_1 高興_4 ADV

很_2 不_3 ADV

不_3 高興_4 ADV

高興_4 -1 HED

。_5 高興_4 WP

這6組數據代表了文本“我今天很不高興。”中的所有依存關系及其相關詞語和序號。本文構建如圖3所示的數據結構完成以樹狀結構存儲上述信息的任務。

在圖3中,整體的數據結構是一個哈希表。在對依存關系依次讀取時,逐步完成哈希表的構建。下面舉例說明依存關系句法樹構建過程。

5 結束語

微博文本的情感分析作為數據挖掘的研究熱門領域,隨著微博使用人數的增長,和網絡輿論監管力度不斷加深,目前針對中文微博的情感分析的研究主要集中于傾向性分析領域,在細致情感分類方面尚處于起步階段。因其具有一定的學術研究價值和網絡應用價值,也吸引了國內外專家、學者的關注。針對中文微博文本“短”的特點,本文提出了構建依存句法樹的方法,對文本的情感類別進行了近一步地細致分類。

參考文獻:

[1]http://www.xinhuanet.com/newmedia.

[2]袁婷婷,楊文忠,仲麗君,等.一種基于性格的微博情感分析模型PLSTM[J/OL].計算機應用研究:1-6[2019-01-04].

[3]來火堯,劉功申 . 基于主題相關性分析的文本傾向性研究[J]. 信息安全與通信保密, 2009(3):77-78.

[4]李小龍.基于統計的分詞系統字典模型研究[J].湖北工業大學學報,2010,25(05):71-73+79.

[5]劉鋼. 基于文本情感分析的企業輿情監測方法研究[D].大連海事大學,2018.

[6] Yu Hong. Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences [J]. Pediatrics, 2003, 116(3):58-59.

【通聯編輯:王力】

主站蜘蛛池模板: 国产无码精品在线| 久久77777| 在线精品亚洲一区二区古装| 强乱中文字幕在线播放不卡| 园内精品自拍视频在线播放| 中文成人无码国产亚洲| 福利在线不卡一区| 欧美在线网| 无码网站免费观看| 国产91在线|日本| 91久久精品国产| 日韩国产黄色网站| 精品第一国产综合精品Aⅴ| 国产69精品久久久久妇女| 久久这里只有精品2| 伊人91视频| 免费全部高H视频无码无遮掩| 国产xx在线观看| 日韩欧美一区在线观看| 国产欧美精品专区一区二区| 国模粉嫩小泬视频在线观看| 国产精品成人AⅤ在线一二三四| 蜜芽一区二区国产精品| 国产精品99在线观看| 二级毛片免费观看全程| 国产成人精品18| 国产剧情一区二区| 欧美黄色网站在线看| 国产91丝袜在线观看| 国产福利免费在线观看| 99无码中文字幕视频| 亚洲美女一区| 99视频精品在线观看| 国产一区二区免费播放| 亚洲福利一区二区三区| 国产人成在线观看| 成人精品视频一区二区在线| 国产专区综合另类日韩一区 | 国产在线视频自拍| 九九久久99精品| 青青操视频在线| 久久国产拍爱| 国产网友愉拍精品| 精品中文字幕一区在线| 久久国产亚洲偷自| 色视频国产| 亚洲日韩Av中文字幕无码| 国产精品美女自慰喷水| 亚洲欧美精品在线| 国产黄在线免费观看| 免费看一级毛片波多结衣| 国产精品蜜芽在线观看| 91热爆在线| 99国产在线视频| 亚洲AV人人澡人人双人| 欧美一级在线看| 色视频久久| 国产伦精品一区二区三区视频优播| 九月婷婷亚洲综合在线| 无码日韩视频| 午夜国产大片免费观看| 国产va在线| 乱人伦99久久| 首页亚洲国产丝袜长腿综合| 黄色免费在线网址| 国产精品短篇二区| 黄色免费在线网址| 一级全黄毛片| 午夜在线不卡| 熟妇丰满人妻av无码区| 国产综合欧美| 伊人久综合| 免费国产高清视频| 国产特级毛片aaaaaaa高清| 国产精品极品美女自在线网站| 成人综合在线观看| 欧美日本二区| 久久人妻系列无码一区| 精品91自产拍在线| 欧美国产成人在线| 色综合久久综合网| 亚洲无码免费黄色网址|