999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的輿情觸發詞解析方法*

2021-08-06 08:05:36李陽陽王亞珅
科技與創新 2021年14期
關鍵詞:特征文本信息

李陽陽,王亞珅,金 昊

(中國電子科技集團公司電子科學研究院,北京100041)

1 背景

輿情,全稱“輿論情況”,是指在一定的社會空間內,圍繞中介性社會事件的發生、發展和變化,作為主體的民眾對作為客體的社會管理者、企業、個人及其他各類組織及其政治、社會、道德等方面的取向產生和持有的社會態度。簡而言之,“輿情”一詞是中國特有的表述,是大多數民眾對待某一社會事件所持的社會態度。其中,網絡輿情是現代信息社會的一種主要的輿情類型。在網絡環境下,這類輿情信息的主要來源是各種主流社交媒體諸如微博、論壇和貼吧等,具有自由性、交互性、多元性、偏差性和突發性等特點[1]。

隨著中國互聯網的普及與高速發展,輿情監測工作已經成為政府和企業工作內容中不可或缺的一部分。2006年,黨的十六屆六中全會通過的《關于構建社會主義和諧社會若干重大問題的決定》中明確指出:“堅持正確導向,營造積極健康的思想輿論氛圍。正確的思想輿論導向是促進社會和諧的重要因素。新聞出版、廣播影視、文學藝術、社會科學,要堅持正確導向”。“加強對互聯網等的應用和管理,理順管理體制,倡導文明辦網、文明上網,使各類新興媒體成為促進社會和諧的重要陣地。”可見輿情的監測與管理對于和諧社會建設的重要意義,也可以看出,在互聯網時代,對網絡輿情進行監測是政府及時體察社情民意、準確把控輿情走向、快速處理突發事件的必要手段。于企業而言,第一時間掌握和了解企業相關的負面熱點信息尤為必要。對企業相關負面輿情進行監測,并對異常情況進行預警,有利于及時獲取和處理企業的負面信息,維護企業的健康良好形象。

在現代信息社會,輿情管理存在四個主要問題,分別是缺乏預警性、缺乏系統機制、具有嚴重的滯后性和缺乏影響力。其中提高預警性是加強輿情監管的首要問題,也是建立一套輿情監測系統的前提。而提高預警性的首要任務是能夠準確獲取輿情信息,并對其進行分析,進而對輿情民意的趨勢進行研判。在全媒體時代如何高效及時準確地從網絡上魚龍混雜的信息中獲取輿情信息,并對其進行解析是一個不小的挑戰。

2 相關工作

輿情是大多數民眾對待某一社會事件所持的社會態度,從而可以看出,輿情是社會事件引發的。想要準確的獲取輿情,核心是抓住文本信息中關鍵的事件以及該事件的觸發詞。

在目前國內外的研究中,對輿情的事件觸發研究并不多。大多數關于輿情的研究都停留在對已出現的輿情的分析和總結上,即針對一個已經產生影響的輿情事件,從它的傳播特點和規模角度出發,去總結歸納得到輿情的規律,然而這種思路本身就具有滯后性和過于泛化的缺點。想要具有預警性地監測和辨別輿情信息,從輿情事件觸發詞角度出發,進行識別和解析,是一種全新的思路。

要對輿情事件的事件觸發詞進行解析,首先需要明確事件的定義,自動內容抽取(Automatic Content Extraction,ACE)評測會議對事件[3]的定義為:事件是指發生了的事情,包含直接引起事件發生的觸發詞和事件的參與者。

以人民網輿論版塊上的一條新聞(簡化版)進行說明:“六千人員信息泄露引發社會關注”。我們的目標是對上述文本信息中事件觸發詞進行識別,判斷該文本信息中每個詞語成為觸發詞的概率,進而對該事件進行抽取,以達到解析輿情信息的目的。

近年來,在信息識別抽取的研究領域,對事件的抽取引發許多關注。HAI等提出采用最大熵模型進行事件抽取[8];AHN等提出的MAXENT方法使用了MEGAM等分類器[9];SAHA則使用支持向量機分類器對生物醫學事件進行檢測[10]。這一類方法主要是將事件抽取視作多分類問題,使用不同的分類器進行特征的提取,但是其學習能力較差,模型難以泛化。GRISHMAN提出基于模式匹配和分類器的事件抽取系統ACEJET[11];KIM提出將WORDNET語義數據庫與模式獲取相結合的方法[12]。這類方法主要是基于預先定義的模式匹配,應用范圍相對比較固定。之后,NGUYEN等[13]和CHEN等[14]提出將卷積神經網絡(CNN)應用到事件檢測和抽取的任務中,NGUYEN等使用CNN自動挖掘隱含特征[13],可以大大降低誤傳率;CHEN等提出了動態多池卷積神經網絡模型(DMCNN)[14],可以同時對多個事件進行檢測,并達到了不錯的效果。將事件抽取的方法對輿情的觸發詞進行研究和解析是從大數據時代海量信息中捕捉輿情信息的一種新型有效的研究思路。本文擬提出一種新的事件檢測模型,將卷積神經網絡CNN與分類器進行結合,從而進一步提高事件檢測的準確性。

3 方法

本文主要介紹一種基于卷積神經網絡模型的輿情觸發詞解析方法,整體流程結構如圖1所示。

圖1 基于卷積神經網絡模型整體流程結構圖

本方法主要包括四個部分,分別是特征的選取、多卷積融合、最大值池化和觸發詞分類。在選取特征之前,需要對信息進行分詞的預處理,以便進行特征的選取和嵌入。接下來,本文就方法的處理順序以事件“六千人員信息泄露引發社會關注”為例依次介紹說明,如圖2所示。

圖2 基于卷積神經網絡模型方法

3.1 特征的選取

對于已經預處理完成的文本信息,M={m1,m2,m3,…,mn}需要在這一步驟進行重要特征的提取。本方法中,主要使用以下四種方法依次對文本信息進行處理,擬從四個維度去盡可能全面而準確地捕獲輿情事件中觸發詞的特征。

3.1.1 詞嵌入特征

文本嵌入特征(Word Embedding),是處理文本信息的所有方式中最普遍、應用范圍最廣的一種。本方法使用詞嵌入特征下已經訓練好的GloVe模型對文本信息進行訓練,將訓練得到的特征作為基本特征。

3.1.2 實體嵌入特征

現有的研究表明,數據庫中的文本信息往往附帶有人工標注的實體信息。本方法對所有帶有的人工標注的實體信息進行實體特征嵌入,并在每次訓練過程中對實體信息進行隨機初始化和更新,將得到的特征作為本方法中的附加特征。

3.1.3 位置嵌入特征

詞語的位置信息也是捕獲輿情事件觸發詞的關鍵所在,可以作為一種語義信息進行訓練和提取。對文本的詞語位置進行逐一的處理和嵌入,訓練完成后得到本方法的位置特征。

3.1.4 詞性嵌入特征

觸發詞的詞性往往比較固定,通常是動詞和動名詞。對文本中詞性的抓取是獲取觸發詞的重要手段之一。本方法對句子中的詞語的詞性進行標注處理和嵌入,訓練完成后得到本方法的詞性特征。

經過以上四個特征嵌入的操作,將分別訓練得到的基本特征、附加特征、位置特征和詞性特征進行合并,得到一個四維的向量E∈R4×n。

3.2 多卷積融合

這一步需要對已經提取好的特征向量進行多卷積融合處理。即在每個卷積層都包含一個濾波器w,逐一與特征向量進行卷積操作,用于產生一個新的特征映射。

其中濾波器w∈Rh×4,h為窗口長度,對特征向量ei,ei+1,…,ei+j∈E進行卷積處理如下:

式(1)中:ci為每一次卷積操作產生的新的映射,ci的個數取決于濾波器的個數l,而其個數l則由文本的長度n和濾波器的長度h決定;f為非線性函數處理,本方法使用ReLU方法進行非線性化;b∈R為偏差項,用于每次訓練的更新。

本部分的輸出為新的特征映射的集合:

3.3 最大值池化

在這一部分,需要對新的特征映射的集合C進行最大值池化,目的是從特征映射中捕捉最為重要的特征。

具體的操作方法是,首先需要對特征映射集合中的每一個特征映射進行單獨的最大值池化:

然后再將所有的最大池化值進行特征融合:

式(4)中:輸出的向量MP∈Rl為高層次的主要特征;⊕為拼接符號。

3.4 觸發詞分類

最后需要利用最終提取處理完成的高層次主要特征進行分類,輸出結果為每個詞語成為觸發詞的概率pi,包括文本信息中無事件觸發詞的可能。即:

式(5)中:n為文本信息預處理之后得到的該條文本信息的詞語個數,選取n+1作為最終的分類個數是包括了該文本信息中無輿情事件觸發詞的概率Pn+1。

具體的觸發詞的分類方法是,對于上一部分得到的高層次主要特征{f1,f2,…,f1}∈MP,和給定的輸出分類標簽T={t1,t2,…,t(n+1)}∈Rn+1,之間存在如下關系:

得到簡化的公式為:

通過訓練和測試,得到最佳的α,作為最終的輸出分類權重值,進而得到詞語成為觸發詞的概率,作為最終的輸出。

定義分類器的目標函數為:

使目標函數達到最小值,進而主要使用softmax函數計算概率的方法得到每個詞語最可能成為觸發詞的概率。

4 結論

本文提出了一種基于卷積神經網絡的輿情觸發詞解析方法,利用卷積神經網絡CNN自動學習隱藏特征,從不同的維度上對輸入的文本信息進行特征的提取,然后進行融合,并通過多層次卷積的操作處理得到一個新的特征映射的集合,再對其進行最大值池化,進而得到一個高層次的主要特征向量,作為最終觸發詞分類的依據權重,在模型訓練的過程中,使用分類器進行觸發詞的分類,并不斷對輸出向量權重進行更新。在使目標函數最小化的同時,得到一個最為接近實測概率的輸出概率向量,作為本方法的輸出預測分類。

本方法從解析輿情觸發詞的角度出發,可以高效檢測文本信息的事件觸發詞,進而能夠對關鍵事件進行抽取,從而可以判斷文本信息是否為輿情信息,并且能夠對輿情信息的事件觸發有一個快捷清晰的定位,有利于短時間內在海量信息中準確監測輿情信息,并把握其觸發事件,進而找到輿情源頭,實現對輿情的有效預警。

猜你喜歡
特征文本信息
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产精品无码久久久久久| 99ri国产在线| AV网站中文| 国产靠逼视频| 国产精品微拍| 亚洲国产日韩欧美在线| 国产精品污视频| 亚洲黄色网站视频| 国产精品自在自线免费观看| 亚洲视频影院| 日韩视频精品在线| 亚洲欧美另类专区| 欧美日韩在线成人| 免费AV在线播放观看18禁强制| 成·人免费午夜无码视频在线观看 | 乱系列中文字幕在线视频| 97se亚洲综合| 国产精品hd在线播放| 97免费在线观看视频| 伊人久久大香线蕉成人综合网| 欧美亚洲国产一区| 亚洲无码高清一区| 亚洲AV色香蕉一区二区| 永久免费无码日韩视频| 精品少妇人妻av无码久久| 久久国产高潮流白浆免费观看| 欧美自慰一级看片免费| 日韩 欧美 国产 精品 综合| 亚洲综合二区| 美女高潮全身流白浆福利区| 亚洲色欲色欲www网| 人妻丰满熟妇av五码区| 国产精品无码久久久久AV| 99热这里只有精品在线播放| 中国毛片网| 亚洲三级成人| 在线中文字幕网| 亚洲精品va| 在线观看免费人成视频色快速| 午夜丁香婷婷| AV不卡在线永久免费观看| 亚洲欧美另类色图| 亚洲最猛黑人xxxx黑人猛交| 亚洲国产精品日韩专区AV| 人妻丝袜无码视频| 亚洲一区二区三区在线视频| 国产在线自揄拍揄视频网站| 欧美中文字幕在线播放| 欧美精品啪啪一区二区三区| 热这里只有精品国产热门精品| 国产麻豆精品手机在线观看| 91精品国产一区自在线拍| 久久久久久久久亚洲精品| 国产成人亚洲无码淙合青草| 欧美日本一区二区三区免费| 就去吻亚洲精品国产欧美| 2020久久国产综合精品swag| 天堂亚洲网| 亚洲一区波多野结衣二区三区| 97视频在线观看免费视频| 亚洲成人手机在线| 国产精品伦视频观看免费| 成人午夜久久| 无码又爽又刺激的高潮视频| 无码AV动漫| 永久成人无码激情视频免费| 国产精品亚洲va在线观看| 精品国产成人av免费| 亚洲成人高清在线观看| 亚洲美女久久| 亚洲精品国产综合99久久夜夜嗨| 乱人伦中文视频在线观看免费| 国产网友愉拍精品视频| 久久久久人妻精品一区三寸蜜桃| 亚洲人成在线免费观看| 在线精品视频成人网| 日韩av手机在线| 无码一区中文字幕| 免费国产小视频在线观看| 亚洲第一区欧美国产综合| 在线看片国产| 国产精品区视频中文字幕|