999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制的新聞事件檢測研究與應用?

2021-06-29 08:41:56張秀華云紅艷
計算機與數字工程 2021年6期
關鍵詞:機制文本檢測

張秀華 云紅艷 賀 英 胡 歡

(1.青島大學計算機科學技術學院 青島 266071)(2.青島大學電子信息學院 青島 266071)

1 引言

隨著大數據時代互聯網的發展,人們被大量的新聞信息環繞,它們來源廣泛,比如報紙、網絡等。其中新聞最常見的載體是文本,文本是最容易獲取有價值信息的方式。由于不同來源產生的新聞信息方式各種各樣,新聞文本的格式和蘊含的信息也往往雜亂無章,同時產生新聞信息的數量也極其龐大,完全依賴人工實現中文新聞事件的檢測是幾乎不可能的。

新聞事件檢測旨在從非結構化新聞數據流中對新聞文本描述的新聞事件檢測給出新聞事件主題。對于給定的新聞事件,主要包括事件發生的時間、地點、事件主體、事件的觸發詞等,傳統的新聞事件檢測要手工構建基于上述事件因素的特征,對新聞事件的特征加權表示突出特征的重要性提高識別的準確度。對于特征的構建如詞性標記、實體識別等會導致計算成本和額外傳播誤差的增加,另一方面手動構建特征非常耗時并且泛化能力不足。

傳統的中文新聞事件檢測方法主要有K-means聚類[1~2]、凝聚類[3]、在線增量聚類[4]、Sin?gle-pass聚類等[5]方法。張斌等提出基于時間片的Single-Pass增量聚類方法用于事件檢測[6]。龍志禕等提出基于詞聚類的方法檢測新事件,本質是利用詞之間的相似性檢測新事件[7]。上述聚類方法在中文新聞事件檢測過程為,當有新的新聞文本文件到來時,會計算新文本事件與已有事件的相似程度,并為相似度設定一個閾值,當新文本事件與已有事件的相似度閾值小于給定的閾值,會將其判定為新事件,否則為已有事件。對于相似度較高的眾多新聞事件,采用聚類算法進行檢測時,會帶來新聞事件混淆、新事件識別精度不高或者新聞事件識別錯誤的問題。

本文提出了基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型。模型利用雙向長短記憶網絡,利用神經網絡的注意力機制來捕獲句子中最重要的語義信息。此模型不再需要手動構建事件特征,它可以自動關注對新聞事件檢測具有決定性作用的詞,捕捉句子中最重要的語義信息而不依賴外部其他的特征。實驗證明基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型具有良好的性能,優于傳統的新聞事件檢測方法。

2 新聞文本預處理及量化表示

2.1 新聞文本預處理

在新聞事件檢測之前,首先是對獲得的文本進行文本預處理。文本預處理是后續工作的基礎,模型的性能以及結果都依賴于文本預處理的結果,可以說良好的文本預處理結果是新聞事件檢測的關鍵一步。文本預處理包括規范文本,中文分詞,去停用詞等。對文本數據的規范包括統一編碼格式,規范文本數據的內容,去除無效的標記例如HT?ML,XML標記,圖片信息等。規范文本之后采用結巴分詞對新聞文本進行分詞,然后去除如常見的“的”“在”“和”“接著”等停用詞以減少噪聲干擾。

2.2 新聞文本量化表示

本文采用Google開源的word2vec[9]詞向量生成工具訓練新聞文本的詞向量模型。Word2vec[10]本質上是一個三層神經網絡,包括輸入層、隱藏層、輸出層,作用就是利用深度學習的思想將自然語言中的字詞轉為計算機可以理解的K維空間稠密向量。Word2vec主要分為CBOW和Skip-gram兩種模式。CBOW是從原始語句推測目標字詞;而Skip-gram是從目標字詞推測原始語句。本文采用Word2vec中 的Skip-gram[11]模 式 訓 練 詞 向 量 。Skip-gram的結構如圖1所示。

圖1 skip-gram結構圖

Skip-gram模型由輸入層、隱藏層、輸出層組成,根據當前詞預測上下文的方法。Skip-gram模型根據負采樣的思想進行設計,其在神經網絡的目標優化函數如式(1):

其中c表示新聞文本語料,content(w)表示詞w的上下文,即w周圍詞的集合。

3 模型

本文提出基于注意力機制的雙向長短記憶網絡[14]的新聞事件檢測模型用于對新聞事件的檢測。深度學習可以自動學習新聞事件的特征,例如利用卷積神經網絡[8]對新聞文本進行處理,但是卷積神經網絡[12]不適合學習遠程的語義信息;普通的循環神經網絡存在梯度消失的問題,為了克服這個問題,Hochreiter等引入了門控制單元。本文基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型結構如圖2所示,共包含以下部分。

1)輸入層:輸入新聞事件檢測模型的新聞文本。

2)嵌入層:將每個詞與word2vec模型映射為稠密向量。

3)LSTM層:利用BiLSTM獲得高水平的新聞特征。

4)注意力機制層:產生權重向量。并通過乘以權重向量,將每個步長的新聞文本詞級特征合并為句子篇章級特征向量。

5)輸出層:新聞文本句子篇章級特征向量最終輸出結果。

圖2 新聞事件檢測模型結構

3.1 嵌入層

對于新聞文本無法直接將其輸入到模型中,首先要對新聞文本進行量化表示,本文基于word2vec訓練新聞文本的量化表示模型,為每一個詞訓練一個300維的向量表示。下一步將要輸入的新聞文本與詞向量模型做量化映射,對于一篇新聞文本包含若干詞構成,可表示為T={x1,x2,…,xn},其中xi代表組成新聞文本的每個詞語。

首先將新聞文本進行預處理操作得到新聞文本詞的集合,然后依據基于word2vec訓練的詞向量模型E,對每個詞進行詞向量映射具體為式(2):

其中exi為詞的向量表示,E[x]i為詞xi在詞向量模型中訓練好的稠密向量。經過這個步驟后一篇新聞文本的量化表示為e={ex1,ex2,…,exn}輸入到下一層的網絡中。

3.2 雙向LSTM網絡層

雙向LSTM網絡有效解決了梯度消失和梯度爆炸的問題。主要思想是引入了門控制機制,該機制決定了LSTM單元保持當前的特征狀態并記住輸入數據的特征。LSTM網絡包括三個門控制,即輸入門,遺忘門和輸出門,具體的更新公式如式(3)~(8)所示:

將新聞文本的量化表示輸入到雙向LSTM進行新聞事件檢測模型的計算和訓練。通過門機制,每一個LSTM神經元[15]都會有記憶歷史特征的能力,并且丟棄掉無效的特征,經過訓練學習結果如式(9)所示:

3.3 注意力機制層

基于注意力機制的神經網絡在各項任務中都取得了不錯的成果,包括智能問答,機器翻譯,語音識別,圖像處理等。在本節中,我們構建了基于新聞事件檢測的注意力機制。設雙向LSTM的輸出的新聞文本向量可以表示為H={h1,h2,…,hn},其中n為新聞文本的長度。將H輸入到注意力機制層,其得到的權重矩陣可由下式得到:

最終獲得篇章級的新聞文本特征可表示為

3.4 輸出層

經過注意力機制層處理的具有篇章級新聞特征的向量作為輸入,輸入到輸出層中。全連接層中的每個神經元與前一層的注意力機制進行全連接。輸出層可以整合注意力機制層抽取出的中具有決定性的特征信息,在語言任務中基于注意力機制的雙向長短記憶網絡的輸出層每個神經元的激勵函數采用ReLU函數。最后把得到的向量通過一個softmax函數得到,如式(6):

將y轉換為正數,和為1,得到中文新聞事件的概率分布,最終得出中文新聞事件的檢測結果。

4 實驗與分析

4.1 數據獲取

首先構建數據爬蟲系統從互聯網中通過搜索新聞事件關鍵詞獲取實驗數據,并且對爬蟲系統獲得的結果進行解析抽取出實驗數據。本文實驗所用數據包括中興事件在內共2258條數據,對獲取的數據集,首先進行規范化操作,去除HTML標記,圖片等無效信息,對原始數據集采用半人工標注形成規范化數據構建訓練集。在數據預處理方面采用結巴分詞對文本數據集進行中文分詞,去停用詞操作。基于word2vec對新聞文本集進行量化表示,采用skip-gram模型,詞向量的維度為300維,訓練詞向量模型。

4.2 實驗過程與結果

本文基于word2vec訓練新聞文本的詞向量模型,提出基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型。評價指標采用神經網絡常用的F1值對模型的效果進行評價,如式(15)所示

在訓練過程中,共設置100輪訓練,若中間模型準確率不在上升則自動終止訓練。最終模型在訓練集、驗證集和測試集上取得了不錯的效果,具體的F1值與其他模型的對比如表1所示。

表1 CNN模型與其他模型試驗結果對比

從表中可以得出,傳統機器學習方法,如SVM、KNN,傳統聚類方法在中文新聞事件檢測中表現較差,F1值只有0.5左右。新聞事件檢測模型的最佳性能是基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型。其F1得分為0.87?;谧⒁饬C制的雙向長短記憶網絡的新聞事件檢測模型的F1值高于其他模型。可以得出結論,基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型優于其他模型。結果表明,注意力機制和雙向長短記憶網絡和窗口滑動方法影響事件分類模型的性能?;谧⒁饬C制的雙向長短記憶網絡的新聞事件檢測模型具有強大的特征學習能力,可以從新聞文本中獲取每個事件的重要特征,從而實現事件的準確識別。

傳統的中文新聞事件檢測采用聚類的方法發現新事件,這種方法精度差,收斂慢。圖3是本文基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型訓練過程的收斂情況,其中圖3(a)為精度收斂情況,圖3(b)為損失值得收斂情況。圖中深色線表示模型在訓練集的收斂情況,淺色線為模型在驗證集的收斂情況。從圖中可以看出模型的收斂速度非常快當,當模型訓練近300步時,模型收斂,這也驗證了基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型在中文新聞事件檢測中的優越性。

圖3 模型訓練曲線

5 事件建模WEB應用工具

在自然語言處理領域有眾多的任務,而且在每個領域都取得了眾多的成果,但是上述的成果僅僅是理論的研究,缺乏面向用戶的實用工具。本節將介紹本文基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型構建事件建模應用系統,包括需求分析、系統設計、功能實現。

5.1 需求分析

為了能夠用戶充分利用非結構化數據,提高用戶在自然語言處理的效率,更方便快捷地構建自然語言處理模型,增強數據的可用性、可理解性。整個系統主要提供以下三個模塊。

1)數據預處理與量化表示:將新聞文本數據的預處理與向量化表示集成到一個模塊中,實現數據的預處理功能和訓練基于word2vec訓練詞向量模型的功能。

2)模型構建與訓練:針對新聞事件檢測模型,提供基于注意力機制的雙向長短記憶網絡的新聞事件模型的構建與訓練功能。用戶可以根據自己的需要定制自己的新聞事件檢測模型。

3)新聞事件檢測與分析:基于2)訓練好的新聞事件檢測模型,實現對新聞文本的檢測,并給出事件預測結果,對于新事件提供TF-IDF+kmeans的方法提取主題,并將文本加入訓練集更新模型的功能。

5.2 系統設計

本系統的設計嚴格按照“高內聚,低耦合”的設計原則,保證了系統的維護性和易擴展性。如圖4所示,將系統分為數據層、業務邏輯層和表現層。數據層主要涉及數據庫的相關操作,并將數據返回給業務邏輯層使用。業務邏輯層主要任務是業務邏輯的實現,對數據進行封裝和格式轉化處理,實現主要功能。表示層實現了為用戶提供交互和友好的可視化界面,負責數據的顯示和渲染。

系統采用B/S結構,后端服務有flask框架提供,提供RESTful接口。利用HTML5構建前端可視化界面。如圖4所示,系統由底向上的順序建立。首先在數據層,構建新聞文本模型的訓練集,測試集,驗證集,然后對新聞文本數據進行預處理操作,訓練詞向量模型。在業務邏輯層接收表示層的參數數據,訓練詞向量模型,訓練新聞事件檢測模型;新聞事件的檢測以及分析,將數據封裝成JSON格式傳遞到表示層。表示層結果業務邏輯層的數據,在前端對數據渲染展示,提供給用戶。

圖4 系統架構圖

5.3 功能實現

系統的功能主要分為事件建模和新聞事件檢測與分析兩個模塊。其中事件建??梢宰層脩糇远x構建基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型。新聞事件檢測與分析可以讓用戶應用自定義模型檢測新聞事件并進行分析將數據更新至模型。具體如下。

5.3.1 事件建模

此模塊為用戶自定義訓練基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型,包括新聞文本預處理及量化表示和模型的構建。

1)數據預處理與量化表示:文本數據上傳至服務器,進行中文分詞去停用詞操作,選擇詞向量模型的參數訓練詞向量模型如圖5所示。

圖5 事件建模

2)模型訓練:根據1)得到的詞向量模型選擇新聞事件檢測模型的參數包括網絡的層數、注意力層的尺度、dropout值、學習率以及模型名稱訓練新聞事件檢測模型,訓練完成在顯示區域顯示模型的性能。如圖5所示。

5.3.2 新聞事件檢測與分析

此模塊是對事件建模模塊模型的應用,用戶根據自定義訓練的新聞事件檢測模型,選取要檢測的新聞文本輸入到系統中,系統調用新聞事件檢策模型依次檢測新聞文本,給出新聞事件的主題。對于模型檢測出的新事件類型,系統提供了基于TF-IDF+kmeans[13]的方法提取新事件的主題并由用戶確定,最后加入到模型數據中對模型進行增量訓練不斷擴充模型。如圖6所示。

圖6 新聞事件檢測與分析

6 結語

本文介紹了新聞文本預處理及量化表示方法,提出了基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型,并基于上述模型開發構建了一套事件建模應用系統。實驗證明基于注意力機制的雙向長短記憶網絡的新聞事件檢測模型要優于傳統的事件檢測方法,在各方面均表現出良好的性能,構建的事件建模應用系統方便,便捷于用戶的使用。因此本文構建的模型和系統高效且實用。

猜你喜歡
機制文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 国产网站一区二区三区| 超碰精品无码一区二区| 欧美另类视频一区二区三区| 99在线小视频| 欧美激情网址| 国产毛片网站| 精品国产aⅴ一区二区三区| 欧美日韩理论| 亚洲无码熟妇人妻AV在线| 免费 国产 无码久久久| 欧美成人综合视频| 国产成人精品优优av| 欧美午夜小视频| 青青极品在线| 日韩一区精品视频一区二区| 亚洲乱码视频| 天天摸夜夜操| 91探花国产综合在线精品| 欧美中文字幕第一页线路一| 亚洲人妖在线| 狠狠干综合| 国产精品亚洲一区二区在线观看| 日本久久久久久免费网络| 亚洲日本中文综合在线| 久久久久人妻精品一区三寸蜜桃| 精品少妇人妻一区二区| 国产在线麻豆波多野结衣| 久久国产精品嫖妓| 99免费视频观看| 亚洲第一国产综合| 狠狠色丁香婷婷| 亚洲成a人在线播放www| 欧美激情视频二区| 欧美激情视频在线观看一区| 国产一区二区影院| 欧美成人怡春院在线激情| 无码国产偷倩在线播放老年人| 亚洲人成网站在线观看播放不卡| 好吊色妇女免费视频免费| 免费中文字幕一级毛片| 97国内精品久久久久不卡| 国产超碰在线观看| 91毛片网| 中文字幕亚洲精品2页| 波多野结衣第一页| 97久久精品人人| 怡红院美国分院一区二区| 99成人在线观看| 精品久久777| 亚洲无码电影| 日本www在线视频| 在线欧美日韩| 中文字幕一区二区人妻电影| 国产麻豆va精品视频| 国产日韩欧美在线视频免费观看| 亚洲一区二区三区国产精品| 精品国产香蕉伊思人在线| 欧美中文字幕无线码视频| 蜜芽国产尤物av尤物在线看| 婷婷色中文| 国产9191精品免费观看| 久久综合干| 亚洲一区免费看| 欧洲av毛片| 国产男人天堂| 全免费a级毛片免费看不卡| 久久成人国产精品免费软件| 99re在线观看视频| 成人免费一区二区三区| 国产激情在线视频| 国产一区在线观看无码| 一级毛片不卡片免费观看| 久久情精品国产品免费| 精品丝袜美腿国产一区| 在线观看av永久| 欧美在线综合视频| 性激烈欧美三级在线播放| 亚洲男人的天堂在线| 美女无遮挡免费视频网站| 毛片大全免费观看| 亚洲三级电影在线播放| 嫩草国产在线|