999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向中文新聞語料的事件規范化研究

2021-09-26 16:25:16謝紅,孫銳
電腦知識與技術 2021年20期

謝紅,孫銳

摘要:本文針對中文文本事件形態存在的不統一或省略的現象,提出一種基于自舉的事件規范化方法。在中文新聞語料上的實驗表明了方法的有效性。通過對事件規范化結果的分析明確了事件分析中的一些新難點,為后續事件相關任務研究提供了思路。

關鍵詞:原子事件;事件抽取;事件模板;事件規范化

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)20-0139-02

1 引言

篇章學習任務大多以短語或語句作為單位,在學術界和工業界均取得較大的成功。從語義層面來看,詞或短語存在較大的歧義,而事件語義表達確切,無需消歧,故受到越來越多的重視,如事件知識圖譜[1]。

學術界對“事件”沒有統一的定義,但多表示為“謂詞+論元”結構。論元個數不同,事件的形態不同。本文關注原子事件,其謂詞論元結構為,分別對應事件主語、謂語和賓語。近年來,這種事件結構已被證明可有效地應用到各種任務[2-3]。

中文是一種意合的語言,在文本中會大量存在著省略和開放靈活的語法結構。主要表現在:1)原子事件的形式呈現多樣化。如,事件“人,受傷,nil”與事件“nil,受傷,人”語義相同,但語法結構是不同的。直覺地,這種語義相似的事件可采用統一的形式來表示;2)存在一些事件因省略或由于觸發詞與論元的距離過遠而丟失論元;3)部分事件會以名詞短語的形式出現。如,“四川火災”是一個名詞短語,但實際上對應原子事件“四川,發生,火災”。

可以看出,中文原子事件因表達形式靈活,必然面臨較嚴重的稀疏問題,從而給事件語義分析帶來一定的制約。受語音合成和文本規范化的啟發,本文提出一種自舉(Bootstrapping)的事件規范化(Event Normalization)方法,在爬取的新聞語料上對事件規范化進行了統計分析,同時討論了當前事件規范化面臨的問題。

2 相關工作

2.1 事件抽取

由于學術界沒有公開可用的原子事件標注語料,原子事件的抽取主要有兩種無監督的方案:一是基于規則的方法,另一種是基于關系抽取的方法。

基于規則的方法大多利用依存分析結果,例如,根據“nsubj”、“dobj”和“loc”等確定事件觸發詞和主要論元。Hu等[4]將詞性為“VB”的動詞視為事件觸發詞,借助依存分析尋找每個動詞的論元。Glavas等[5]為構建事件圖,定義了句法模板并根據依存關系提取事件論元。

基于關系抽取的方法利用了實體關系來表達事件論元的語義關聯。Balasubramanian等[6]將關系三元組中詞干化后的關系動詞作觸發詞,詞干化后的各實體詞作為事件論元。Qiu等[7]首次在中文開放文本領域實現實體關系的抽取算法,關注關系動詞為核心的三元組。

2.2 文本規范化

文本規范化是將非規范詞轉化為規范詞,進而得到規范文本的過程。大多數工作關注詞的規范化。對英文而言,可通過詞典來判斷詞的規范性。而對中文而言,由于詞的構成形式的多樣性,規范化難度更大。一般而言,通過構建非規范詞典,將規范化問題轉化為檢索問題來實現。

本文關注結構化事件的規范化問題,即如何解決中文原子事件在表現形態上的差異,以緩解原子事件的稀疏性問題,以后續事件關系分析和統計提供良好的數據保障。

3 事件規范化

通過統計觀察發現,原子事件的分布符合一種假設:大規模語料中的事件如果有更寬的分布和更高的出現頻率,則可泛化成一個標準模板。例如,兩個候選事件“人,死亡,nil”和“nil,死亡,人”,假設前者在20個文檔中出現了123次,后者在18個文檔中出現了96次。則可以將前者作為標準模板,其它與之語義相似的事件均應規范成該模板。由此可見,事件模板的生成基于事件信息,而事件的規范化則需要標準事件模板的指導。

本文采用自舉的事件規范化方法,具體流程如圖1所示,首先由初始化候選事件集合得到候選模板,對所有候選事件模板進行置信度評估,由此產生標準模板并候選事件進行修正或規范化,修正后的事件重新加入規范事件集合。此過程反復迭代,直至再無標準模板產生為止(所有候選模板置信度低于某一閾值)。

3.1 候選模板抽取

本文首先沿用基于規則的方法[7]來抽取候選事件,利用依存分析結果中的“nsubj”和“dobj”兩種關系。給定語句“民政局公布相關數據”,可得到兩個依存關系:“nsubj (公布,民政局)”和“dobj (公布,數據)”,可合并為事件“民政局,公布,數據”。

事件模板應具有泛化能力,故選擇了同義詞詞林擴展版為每個詞語提供語義標簽,如“四川”可賦予地名標簽“Di02B”,“地震”可賦予語義類別“Da09B”。由此,將候選事件按語義標簽類別進行統計,即可得到候選事件模板。

3.2 置信度評估

每個候選模板[p]采用下式進行置信度評估:

[Score(p)=Efreq(p)×Dcover(p)=|i:ei∈p|E×|j:p∈dj|D]? ? ? ? ?(1)

其中,[Efreq(p)]表示事件在語料中的出現概率,[Dcover(p)]則代表事件出現的文檔概率,[|E|]和[|D|]分別代表事件集合和文檔集合大小。事件概率度量了模板的事件覆蓋度,而文檔概率則度量了模板的文檔覆蓋度,得分最高的即為標準模板。

3.3 事件規范化

在得到標準模板后,可直接對事件集合中的不規范事件進行修正以達到規范化的目的。若事件對應多個標準模板,可根據事件與模板間的語義距離以確定標準模板的選擇。

主站蜘蛛池模板: 欧美精品1区2区| 免费看黄片一区二区三区| 2020国产精品视频| 一本大道香蕉久中文在线播放 | 久久情精品国产品免费| 国内精自线i品一区202| 色综合日本| 无码国产伊人| 亚洲精品中文字幕无乱码| 国产综合色在线视频播放线视| 国产精品一区二区无码免费看片| 国产亚洲精品97在线观看| 五月天天天色| 国产成在线观看免费视频 | 九九视频免费看| 国产乱人免费视频| 国产96在线 | 亚洲成人黄色网址| 国产精品亚洲va在线观看| 久热re国产手机在线观看| 欧洲高清无码在线| 91福利国产成人精品导航| a毛片免费在线观看| 夜夜爽免费视频| 超碰aⅴ人人做人人爽欧美| 国产精品开放后亚洲| 国产成人艳妇AA视频在线| 国产在线无码av完整版在线观看| 国产日本欧美在线观看| 成人年鲁鲁在线观看视频| 福利视频99| 精品天海翼一区二区| 国产青榴视频| 国产免费黄| 日本一区高清| 国产jizz| 亚洲第一视频区| 丁香婷婷久久| 波多野结衣国产精品| 久久久久久久久久国产精品| 免费激情网址| 欧美成人aⅴ| 免费无码在线观看| 72种姿势欧美久久久久大黄蕉| 四虎在线观看视频高清无码| 亚洲成人网在线播放| 尤物精品视频一区二区三区| 91九色视频网| 国产成人8x视频一区二区| 中美日韩在线网免费毛片视频| 97久久超碰极品视觉盛宴| 国产1区2区在线观看| 国内视频精品| 在线无码九区| 国产成人亚洲精品蜜芽影院| 亚洲天堂区| 无码专区国产精品第一页| 国产午夜无码专区喷水| 婷婷五月在线视频| 超级碰免费视频91| 97se亚洲| 精品午夜国产福利观看| 丰满人妻中出白浆| 怡红院美国分院一区二区| 热伊人99re久久精品最新地| 免费A∨中文乱码专区| 国产高清不卡| 欧亚日韩Av| 第一页亚洲| 欧美综合在线观看| 国产高清在线观看| 青青青视频蜜桃一区二区| 国产精品2| 日本不卡视频在线| 日韩欧美高清视频| 强奷白丝美女在线观看| 亚洲天堂福利视频| 在线另类稀缺国产呦| 亚洲男人的天堂网| 国产久草视频| 久久99国产精品成人欧美| 99视频精品在线观看|