999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合模型的新聞事件要素提取方法①

2019-01-07 02:41:12虞金中楊先鳳
計算機系統應用 2018年12期
關鍵詞:方法模型

虞金中,楊先鳳,陳 雁,李 娟

(西南石油大學 計算機科學學院,成都 610500)

1 概述

近年來,隨著數據庫技術和網絡技術的廣泛應用,新聞文本數據增長迅速,數據的種類也逐漸增多.在這些海量的文本信息中,僅有很少的一部分信息是刻畫新聞事件的主要信息,因此對于每天接觸大量信息的現代人,快速篩選有用信息,提取事件要素,提高閱讀效率,無疑是很有意義的.

現有的新聞事件要素提取方法容易受到新聞數據稀疏性的影響,雖然基于語義分析實現效果不錯,但是可移植性差、對語料庫有很大的依賴性.針對提取新聞事件要素存在的不足,許多研究者提出了改進的算法.裴東輝等人[1]提出了通過新聞中的子事件與事件因素的關聯性抽取新聞要素的方法,以子事件元素與元素間關聯關系分別表征為節點、邊,構建新聞事件提取無向圖模型.最后,求解無向圖中節點的權重,實現對新聞事件要素的提取.該方法沒有涉及新聞中的子事件之間的關聯關系.朱青等人[2]提出了一種通過生成標題的要素關聯樹對包含地點進行關聯度評價的方法,依次從新聞正文中抽取地點要素.該方法由于依賴于地名關系數據庫,因此具有對地名因素抽取的細粒度有限、可移植性不高的缺點.涂子令等人[3]提出了一種基于超圖的PageRank隨機游走的方法提取新聞話題要素,通過該方法計算后,對新聞事件要素集合給出一個信息重要性的排序.由于這類方法沒有考慮新聞數據中的指代,容易產生錯誤.

通過對中文新聞數據進行提取關聯事件要素方面的分析與研究,本文提出了一種混合模型提取事件要素的方法 ERCDSPEE(Extraction of event elements entity recognition combining dependency syntactic parsing),實質是綜合新聞內容實體識別、依存句法分析提取新聞事件要素.本文以提取事件人名要素為例對方法進行分析驗證,首先,通過命名實體識別[4,5]技術識別出相關新聞事件中的人名實體,對新聞數據中的實體進行加權,然后使用依存句法樹[6,7]分析實體在新聞事件中扮演的角色,并且對關于要素的指代現象進行消解,進一步根據改進的Sigmoid函數對事件要素賦予權重,有效地提取出新聞事件關聯性較為重要的人名要素.

2 相關工作

2.1 挖掘要素的方法

新聞文本中通常包含一些描述事件發生的對象、時間、地點等要素信息,但是怎么對數據所隱藏的價值進行充分挖掘和利用,帶著這樣的思路對新聞數據進行深入分析,有利于找到解決問題的關鍵.考慮到新聞事件中人名實體的比重以及人名實體與事件的關聯關系,本文提出得研究方法ERCDSPEE是在實體識別[8]和依存句法算法的基礎上構建一個抽取刻畫事件要素的模型,實現了新聞要素的提取.

2.2 命名實體識別方法與依存句法分析

2.2.1 命名實體識別

命名實體識別(NER)是自然語言處理(NLP)的一個基礎任務,它的目的是識別文本數據中時間、人名、地名、組織機構名等命名實體.本文使用條件隨機場[9](Conditional Random Field,CRF)模型進行實體識別,條件隨機場是由 Lafferty[10]等人在最大熵模型和HMM模型的基礎上提出的統計序列標注算法.條件隨機場模型不僅放寬了HMM模型的條件獨立性,在一定程度上,還解決了標記偏置的問題,并且具有時間復雜度低、準確度高等優點.

CRF是一種概率無向圖模型,它能夠被用來定義在給定一個觀察序列x的條件下,標記序列y的條件概率P(y|x),是一種判別模型.但在現實應用中,尤其是對標記序列建模時,最常采用線性鏈(linear-chain)CRF模型,其圖模型如下圖1所示的結構.

圖1 鏈式條件隨機場的圖結構

給定觀測序列x,圖1所示的鏈式CRF[11]主要包括單個標記變量{yi}和其相鄰的標記變量{yi-1,yi}兩種.關于標記變量的團在條件隨機場中,λj通過選用指數勢函數并引入特征函數,條件概率被定義為:

其中,tj{yi+1,yi,x,i}是在觀測序列的兩個相鄰標記位置處定義的轉移特征函數,其目的是表示相鄰標記變量之間的相關性和觀測序列對它們的影響,sk{yi,x,i}是定義在觀測序列的標記位置i處的狀態特征函數,以此表示觀測序列對標簽標量的影響,λj和uk為參數,Z為規范化因子,用于確保式(1)是正確定義的概率.

2.2.2 依存句法分析

依存句法分析是基于依存句法的一種自動句法分析方法,它將句子解析成一顆依存句法樹,描述出句子中詞與詞之間直接關系,這種關系被稱為依存關系,一個依存關系連接兩個詞(核心詞和修飾詞).在依存句法樹中不含終節點,只有由具體詞構成的終結點,一條依存邊連接兩個節點,核心詞所對應的節點為父親節點,而修飾詞所對應的節點為樹中的孩子節點.兩個詞之間的依存關系可以細分為十幾種類型,如主謂關系(SBV)、并列關系(COO)、動賓關系(VOB)等等.例如,

依存句法分析的任務是針對已經分詞和詞性標注完成的句子,進行其依存句法結構的分析.給定輸入為一個分詞、詞性標注完的句子,進行依存句法分析后,得到一個依存句法樹.依存句法分析器的輸入如圖3所示.

經過依存句法分析之后,結果如圖2所示.其中小海(修飾詞)和吃(核心詞)之間存在依存關系SBV(主謂關系),Root(核心詞)和吃(修飾詞)之間存在依存關系HED(核心關系),吃(核心詞)和魚(修飾詞)之間存在依存關系VOB(動賓關系).

圖2 依存句法分析例子

圖3 依存句法分析器輸入格式

3 提取中文新聞事件要素

3.1 語料收集與語料自動標注方法

首先抽取中文新聞實體,然后分析新聞事件句[12]中的重要要素.本文選用1998年人民日報語料作為實驗語料,將該語料分成訓練語料和測試語料,大小為80%和20%.通過訓練語料建立實體識別模型,使用測試語料測試模型,準確率達到97%.以網絡爬蟲抓取的新聞數據作為實驗測試數據,其來源網站包括微博、頭條、搜狐新聞、網易新聞、新華網,該數據有86 655篇新聞.

托人打聽到的情況讓表姐更是絕望。陶水旺東營陶莊人不假,這個人名聲不好,出了名的好吃懶做,四十多歲了還沒娶到媳婦。

由于中文新聞文本內部人名[13]關系不多,名稱形成的規律性不突出,單詞詞性的識別需要基于準確的分詞結果.如果分析不明確,相反,它會干擾識別過程和結果,因此這個實驗任務是在單詞級粒度進行建模,1個單詞是一個標記.中文實體識別任務是一個序列標注任務,本文使用4tag(S表示單個詞、B表示詞首、M表示詞中、E表示詞尾)的標注方式來確定序列標注集.通過1998年人民日報語料訓練的模型識別新聞文本實體的效果并不是很理想,其原因是當今新聞文本中出現很多新穎的名字等因素.為解決此問題,本文采用增加新語料來提高模型準確率的方法[14],首先使用已訓練好的模型測試少量的新聞數據,并對其錯誤的詞性標注進行手動修改標注,然后把修改后的語料擴充到已有的訓練數據來訓練新模型,再使用新模型測試少量的新聞數據,循環往復,最終獲得性能良好的模型.

3.2 提取刻畫新聞事件要素

為了從大量且繁雜的數據中挖掘出與新聞事件關聯性較為強的人名,本文基于ERCDSPEE方法構建出提取刻畫新聞事件人名要素的模型.提取刻畫新聞事件要素的對象即針對新聞文本數據,提取刻畫新聞事件要素的具體流程如圖4所示.在識別新聞實體的基礎上,通過對新聞文本進行依存分析,消除不同關系類型的人稱代詞,進一步調整模型的參數,使模型能夠有效識別新聞人物與新聞事件的關聯性;最后,把依存分析的要素與實體要素權重相融合,實現新聞事件人名要素的抽取.

圖4 提取新聞事件要素的流程

3.2.1 構建識別新聞實體模型

首先基于命名實體規則挖掘的相關概念、過程和方法,使用了工具CRF++(CRF++是一個CRFs模型的實現)提取新聞文本中的實體.

單一的CRF是根據詞之間關系、詞性等特征來區分專有名詞和非專有名詞,難以識別一些特征不明顯的專有名詞.結合具有新詞的自定義詞典的CRF能識別出來一些特征不明顯的人名,詞典可以自定義擴充那些特征不明顯的人名和新穎的人名新詞,在正確分詞方面具有良好的可控性,可以提高了抽取實體人名的準確率.針對人名實體識別存在的不足,本文采用詞典與CRF相結合的方法來識別實體;通過生成的命名實體識別模型,實現了對新聞文檔人名實體的抽取,進一步進行實體消岐,從而對相同的實體進行統計并通過公式(2)和(3)對實體特征賦予權重.

關于新詞的識別,根據Qiu[15]等提出一種中文未知單詞自動POS猜測的方法建模.首先使用機器學習方法根據其內部組件特征預測未知詞的POS,然后測量預測結果的可信度,對于低可信度的單詞,進一步根據這些單詞的全局上下文信息對標注結果進行校正.使用模型對當代的新聞文本數據抽取出新詞,進一步結合詞典更新詞語.

3.2.2 依存句法分析及指代消解

雖然識別出了某新聞事件中大量的人名,但是哪些人物是此新聞事件句主要刻畫的人?通過依存句法樹分析實體在新聞事件中扮演的角色,并根據其角色有效地提取出新聞事件關聯性較為重要的要素.本文由于依存樹的結構復雜,分析文本句子時間復雜度比較高,因此使用基于神經網絡的高性能依存句法分析器[16]來分析實體之間的依存關系.

通過依存句法分析器提取新聞事件的因素、因素詞性、關系類型.雖然根據句中的詞與詞之間的關系可以分析出這一句話中的事件人物,但是句中含有一些動賓關系、介賓關系、主謂關系等的人稱代詞,它對提取刻畫事件人物有一定影響.結合以上描述,本文考慮到人稱代詞的詞性及不同的關系類型對句中事件關聯性人物的影響,可以通過對人稱代詞的處理來加重事件人物權重的方法,不僅對人稱代詞進行了消解,而且更能考慮到人物在事件中扮演角色的重要性.綜上所述,消除人稱代詞方法如下:

(1)首先如果句中人名是主謂關系或者非主謂關系,并且句子中含有人稱代詞,然后對此人名的權重增加1.

(2)在句中沒有人名且含有人稱代詞的基礎上,盡管句中含有一系列的職位及稱呼的名詞,但是考慮到事件人物的多樣性,實行零代詞消解,更能提高識別的容錯率.

(3)句中含有人名和人稱代詞,經判斷得知識別的人名是一個單個姓氏詞,為減少人名識別的錯誤率,使用jieba抽取的人名,同(1)可以達到消除人稱代詞的效果.

3.2.3 權重融合及要素提取

一般一篇人物報道新聞講究綠葉配紅花的原則,在人物報道中,主要人物是紅花,次要人物是綠葉,通過次要人物的活動襯托主要人物,可以使主要人物形象更加鮮明.如果文檔中的人物是事件關聯的主要人物,他(她)一定會在文檔重復出現(至少兩次)且在句中做主語;如果主要人物的人名僅在文中出現一次,一般是次要人物來襯托主要人物的.有些新聞報道為了突出主要人物,常常多次提及次要人物,本文根據主謂關系和非主謂關系來區分主要人物和次要人物,達到提取事件關聯性人物要素的目的.

本文稱主謂關系的人物為主語(簡稱主),非主謂關系的人物稱為賓語(簡稱賓).相同人名不同關系所占的比例計算大概分為四個方面:有主無賓、無主有賓、有主有賓和無主無賓.通過上面的指代消解,再根據不同方面的主賓人名比率以及分別所占個數的范圍設置不同的權重.結合以上特點,分析出此新聞中主謂關系的人名數目和非主謂關系的人名數目,并對同時含有主謂和非主謂關系的人名進行消解,根據新聞人物報道的特點,使非主謂關系權重的0.4倍相疊加到主謂關系人名的權重.根據相同人名不同關系所占的比例設置一定的權值W,W的計算方法如下:

(1)使用Sigmoid函數把輸入值(主謂關系類型的不同人名個數)“壓縮”到0~1之間,輸出的值是相對應于人名的權重.公式如下:

personmax表示此新聞人名權重的最大值,intervalθ表示使用Sigmoid函數的區間長度,xi表示統計的主謂關系的人名個數;通過式(3)對重要性不同程度的人名賦予權值,根據權值抽取刻畫新聞事件的人名.

(2)如果不考慮實體本身的權值,直接對(1)所得人名根據權值抽取新聞事件人名要素;否則,(1)所得與其對應的實體人名的權值(權值獲取的方法與主謂關系人名計算權值一樣)相融合,然后抽取與事件關聯密切的人名.

考慮到兩個人名的個數都很大,經過Sigmoid函數輸出的值基本上接近于1且兩者之間的差異性不明顯,然而又基于實體的權值有可能會造成偏差.為了避免丟失新聞事件的主要人物信息,并放大主要人物和次要人物的差距,所以本文把統計的主謂關系的人名個數xi歸一化到0~6區間的φi值作為Sigmoid函數的輸入值.

4 實驗結果及分析

實驗1提出基于條件隨機場方法來識別新聞文本中的實體,本文以人名實體識別為例對訓練模型進行分析驗證.以人民日報數據和擴展新聞數據的語料庫作為訓練語料訓練模型,選取預處理后的86 655篇新聞作為測試數據.基于訓練完成的模型進行實驗,多次隨機選取100條新聞實驗結果進行分析.

實驗結果表明,只使用人民日報新聞作為訓練數據訓練出的模型對應的F值為63%,而添加當今新聞數據后的語料庫訓練出的模型,對新聞數據進行測試,準確率明顯提高了22%,其原因是現今的新聞文本和1998年的人民日報語料存在一些新意的專有名詞和語境環境的偏差,擴展語料庫進一步提高了模型的預測能力.

實驗2提取刻畫新聞事件的要素,以提取事件人名為例對方法進行驗證.首先,在實驗1識別出人名實體的基礎上,通過依存句法算法分析人名實體在新聞事件中扮演的角色,根據實體之間的依存關系,通過提取刻畫事件要素模型對新聞事件要素設置不同的權重,根據權重進行排序,并提取出新聞事件關聯性較為重要的人名.實驗把測試數據分成社會、時政、財經、娛樂與體育五大類別.No weight表示基于實體不帶權值的基礎上提取事件人名要素的準確率,Weight是基于人名實體(有權值)的基礎上提取人名要素的準確率.實驗2結果如表1所示.

通過對實驗結果和新聞人物報道的研究與分析,最后,通過提取刻畫新聞事件人名要素的模型抽取前三項要素作為與事件密切相關的人物,經過多次實驗結果表明提出的方法能夠有效地提取事件要素.

表1 基于實體的事件要素提取

從表1可以看出,基于實體識別和依存句法算法兩者產生的新思路(建立一個提取刻畫事件要素的模型)比傳統提取事件要素的算法更能體現新聞事件的主題,更符合用戶的需求,且算法的性能較優;在帶有權值實體的基礎上提取新聞要素的準確率有明顯的提升,主要是因為本文除了考慮實體之間的關系外,還考慮了事件要素與新聞事件關聯性;測試數據分為社會、時政、財經、娛樂與體育五大類別,關于社會生活新聞的要素識別準確率明顯低于娛樂、時政新聞,其主要原因是娛樂與時政新聞刻畫事件人物比較明顯、深刻.

5 結束語

本文提出基于混合模型的新聞事件要素提取方法,該方法借鑒命名實體識別方法的構建思想,提取出新聞事件中關鍵要素(專有名詞),進一步提取匹配概括新聞事件最為接近的要素,取得了一個較好的實現效果.面向新聞事件要素的分析研究迫切需要解決的問題就是新聞文本的要素語料的收集和標注問題.隨著半監督和監督學習方法不斷引入該領域,使用未標注語料集的方法將逐步解決語料庫不足的問題,也為新聞數據挖掘方面的研究提供了較好的基礎.提取新聞要素之間的關系類型比較耗時,如何提高模型的性能并保證提取要素的效果,是我們下一步需要研究的工作之一.我們下一步的探討工作將圍繞新聞事件發生的時間、地點、內容以及對事件人物的情感色彩[18]展開研究,用這些要素來表達整個新聞的核心思想.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 91人人妻人人做人人爽男同| 中文无码影院| a级毛片在线免费| 久久精品日日躁夜夜躁欧美| 午夜久久影院| 中文毛片无遮挡播放免费| 一本视频精品中文字幕| 国产一区二区三区在线无码| 欧美日在线观看| 色亚洲激情综合精品无码视频| 天堂成人av| 蜜桃视频一区二区| 亚洲精品福利视频| 久久国产精品无码hdav| 人妻精品久久无码区| 久久久久国色AV免费观看性色| 19国产精品麻豆免费观看| 伊人成色综合网| 国产在线观看人成激情视频| 亚洲精品va| 四虎成人免费毛片| 九九九国产| 亚洲综合第一区| 露脸国产精品自产在线播| 最新国产网站| 亚洲欧美另类日本| 日韩精品久久久久久久电影蜜臀| 老司机午夜精品视频你懂的| 亚洲最黄视频| 国产丰满成熟女性性满足视频| 国内老司机精品视频在线播出| 91精品日韩人妻无码久久| 97精品国产高清久久久久蜜芽| 2021国产精品自拍| 精品無碼一區在線觀看 | 激情六月丁香婷婷四房播| 一级毛片免费播放视频| 伊人久久福利中文字幕| 在线国产三级| 中文字幕日韩欧美| 一区二区在线视频免费观看| 国产新AV天堂| 91欧美亚洲国产五月天| 亚洲va在线∨a天堂va欧美va| 在线观看国产精美视频| 日韩av无码DVD| 国外欧美一区另类中文字幕| 欧美日韩一区二区在线免费观看| 国产无码在线调教| 国产欧美又粗又猛又爽老| 精品三级在线| 亚洲欧美自拍一区| 国产经典在线观看一区| 中文纯内无码H| 久久国产精品影院| 欧美成人一级| 国产精品人人做人人爽人人添| 色婷婷亚洲十月十月色天| 亚洲天堂色色人体| 欧美成人怡春院在线激情| 欧美成a人片在线观看| 午夜电影在线观看国产1区| 伊人久久大香线蕉影院| 无码国产伊人| 欧美在线综合视频| 亚洲国语自产一区第二页| 99久视频| 91人人妻人人做人人爽男同| 国产免费黄| 色综合五月婷婷| 伊人激情综合网| 日韩福利视频导航| 亚洲久悠悠色悠在线播放| 97在线观看视频免费| 欧美亚洲激情| 亚洲AⅤ永久无码精品毛片| 无码网站免费观看| 亚洲狼网站狼狼鲁亚洲下载| 欧美成人午夜视频免看| 免费又黄又爽又猛大片午夜| 午夜视频www| 欧美色视频日本|