999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動態機制的主題事件中的時間識別和規范化

2015-05-30 10:48:04李風環鄭德權趙鐵軍
智能計算機與應用 2015年6期
關鍵詞:關鍵規范化

李風環 鄭德權 趙鐵軍

摘 要:事件中與主題相關的時間信息體現了事件在時間維度的特征。而當前面向事件的時間識別大多是基于句子或短語的,并采用靜態時間值機制。本文提出了一個面向主題事件的時間識別模型。該模型采用參考時間動態選擇機制對時間表達式進行規范化,然后利用設置了優先級的關鍵詞,將基于句子或短語的時間識別轉化為基于篇章的時間識別,從而識別主題事件中的時間。改善了純粹基于關鍵詞或靜態參考時間機制的主題事件中的時間識別的性能。

關鍵詞:主題事件;時間表達式規范化;時間識別;參考時間;動態

中圖分類號:TP391 文獻標識號:A 文章編號:2095-2163(2015)06-

Abstract: Temporal information related to topic event reflects temporal characteristic of events. Most research on time recognition is sentence-oriented or phrase-oriented, and adopts static mechanism. A time recognition model for topic event is proposed in this paper. Dynamic choosing mechanism of reference time is developed for normalizing temporal expressions, then key words are assigned to different priorities. Sentence-level or phrase-level time recognition is transformed into document-level in topic event. The performance is improved greatly compared to the algorithm just based on key word or reference time static choosing strategy.

Keywords: Topic Event; Temporal Expression Normalization; Time Recognition; Reference Time; Dynamic

0 引言

人們不止關注一個動作的發生和變化,更多的是想關注一個專題事件整體的信息框架和發展過程。本文根據這一現象提出面向主題事件的時間識別和規范化。目前規范化處理主要采用兩種參考時間選擇機制,即上下文無關策略[1]和上下文局部相關策略[2]。但是研究發現這兩種機制都不適用于真實的新聞文本,因為固定的時間值或者規則[3-4]僅僅能解決靜態的單一時態參照選擇問題,對于動態變化的真實語境下的時間表達式不適合[5]。研究者對時間表達式的識別和規范化已經提出了很多方法。主要是基于規則[6]和機器學習[7-8]的方法。基于規則的方法簡單,易于理解,便于擴展。但是缺點是人工工作量較大,早期的方法完全使用人工方式來構建規則,后期則先通過一些機器標注的方法對文本進行預處理,然后根據標注結果構建規則。基于機器學習方面,D.Ahn[7]和K.Hacioglu[8]分別進行了嘗試,研究中首先將語料進行預處理,接著有選擇地抽取特征,通過分類器訓練模型進行時間表達式的標注。Lin等人[9]采用動態方法來處理隱式時間表達式,用新的計分模型來確定網頁的關注時間并設計了基于時間和文本相關度的時間-文本檢索排序方法。趙旭劍等人[10]在時間表達式的規范化方面,選擇了動態基準時間選擇機制,并對模糊時間表達式根據場景依賴性進行了去模糊處理,達到了較好的效果。

當前面向事件的時間識別大多是基于句子或短語的,并采用靜態時間值機制。針對上述問題,本文提出了一個面向主題事件的時間識別模型,該模型采用參考時間動態選擇機制對時間表達式進行規范化,然后將基于句子或短語的時間識別轉化為基于篇章的時間識別。改善了純粹基于關鍵詞或靜態參考時間機制的性能。本文內容包括兩個任務:時間表達式的識別和規范化,以及主題事件片段的時間識別。

1 基于動態選擇機制的時間表達式的識別和規范化

中文表達式是多種多樣的,包括明確的時間表達式和隱式時間表達式[10]。在此,給出這兩類表達式的具體含義。

(1) 顯式時間表達式(Explicit Time,ET):能夠直接在時間軸上定位準確的時間,不需要進行轉換,比如“2008年5月12日”、“2008-05-12”等。

(2) 隱式時間表達式(Implicit Time,IT):需通過上下文和先驗知識進行確定準確時間,且需要轉換,比如“5月12日”、“兩天以前”等。還包括基于事件的時間,比如:“汶川地震發生后兩小時”等。

時間表達式的表現規則是多種多樣的,不僅包括外部規則,還有內部規則。時間表達式的出現總是伴隨著相應事件的發生,并且和關聯的名詞、動詞、介詞等構成了外部規則,比如:在北京時間+time+發生。如果一個句子的出現符合該規則,則認為“發生”前面的詞語為時間表達式。內部規則是時間表達式本身的組織結構,通常,時間表達式包括年月日時分秒,描述方式如:“2008年5月12日”、“2008-05-12”等。如果一個時間表達式滿足這種規則,相應位置的數字就被識別為特定的時間。顯式時間表達式的內部規則相對比較明顯和統一,因此對顯式時間表達式利用內部規則模式匹配的方法進行識別和規范化,規范化后的時間格式如“年-月-日”,并且被標記為“ET”。

隱式時間表達式利用基于規則的方法進行規范化,該過程需要確定參考時間、偏移粒度、偏移量。規范化后的時間被標記為“IT”。偏移量和偏移粒度由時間表達式本身的語義決定。偏移量是相對參考時間的偏移量,偏移粒度是時間表達式本身的粒度。比如“5月”或“12日”這樣的隱式時間, 偏移量和偏移粒度能夠很明確地獲得,因此這樣的表達式能夠很容易被規范化。但是像“昨晚” 和“當時”等表達式,研究則創建了一個隱式時間表達式參照表來獲得偏移量、偏移粒度以及參考時間類型。隱式時間轉換參考表根據語料獲取并進行擴展,組成四元詞對的形式,如(今晚,0,天,GRT)可以擴展出(明晚,1,天,GRT),參考表如表1所示。本文并沒有對所有時間進行轉換,因為一些表達式轉換后并不能對具體時間的確定起到作用,反而會影響時間確定的效果,比如“近期”,“震后”,“將來”等。隱式時間表達式規范的參考時間有兩種:全局參考時間和局部參考時間。

(1) 全局參考時間(Global Reference Time,GRT):以報道時間或者新聞的發布時間作為參考時間,推測出時間表達式的具體時間信息。

(2) 局部參考時間(Local Reference Time,LRT):以最近的敘述時間為參考時間,即以前一個時間表達式的信息為參考來推斷當前時間表達式的具體時間信息。

本文選用動態參考時間選擇機制,全局隱式時間表達式(Global Implicit Time, GIT)選用全局參考時間,局部隱式時間表達式(Local Implicit Time,LIT)選用局部參考時間。同時需要維護局部參考時間表的更新,以確保最新的局部參考時間和隱式時間表達式的及時性。局部參考時間列表的維護和隱式時間表達式的轉化如圖1所示。

2主題事件片段時間識別

主題事件片段對應于一篇新聞報道,因此主題事件片段時間的識別是基于篇章的。事件發生的時間常常是和能代表事件的關鍵動名詞相關聯。對于主題事件片段時間的識別,一般是把每個關鍵動名詞前面的時間表達式識別出來,如果沒有,則識別后面的時間表達式,然后再考慮其他的關鍵動名詞。由于時間信息一般出現在關鍵詞的前面,因此研究中改變了關鍵詞的檢索方式。而且還需要確定主題事件片段的發生時間,所以這些關鍵動名詞要盡可能地覆蓋語料中所有事件片段。同時,每一個關鍵動名詞對于時間識別的影響不是同等重要的,在此即對動名詞的優先級進行了設置,關鍵詞的確定方法如下:

(1) 根據TFIDF(Term Frequency,Inverse Document Frequency)公式來確定時間表達式所在句子中的詞語的權重,選取權重最高的詞語,作為一個關鍵動名詞,并把該詞語的優先級設為最高。

(2) 對不包含已確定關鍵詞,但包含時間表達式的句子中的詞語,應用TFIDF公式,選取權重最高的詞語,作為一個關鍵動名詞,并把該詞語的優先級設為其次。

(3) 重復(2)中的過程,直到語料中的所有文件都能找出關鍵動名詞,形成最初的關鍵動名詞表。

(4) 對關鍵動名詞表進行基于領域和同義詞進行擴展,形成最終的關鍵動名詞表。

主題事件片段時間識別的步驟如下:

(1) 規范化顯式和隱式時間表達式;

(2) 按照上述方法確定具有優先級屬性的關鍵動名詞表;

(3) 按照優先級依次查找每個關鍵動名詞的前面是否有規范化后的時間表達式,如果有,則把該時間作為主題事件片段時間,不再繼續查找;

(4) 如果所有的關鍵動名詞之前都沒有規范化后的時間表達式,則按照優先級依次查找關鍵動名詞之后的時間表達式,如果有,則把該時間作為主題事件片段的時間,不再繼續查找;

(5) 如果所有關鍵動名詞之后都沒有規范化后的時間表達式,則認為為空。

3 實驗結果與結論分析

本文在ACE07語料上進行了時間表達式的識別和規范化,識別結果如表2所示,規范化結果如表3,表4和表5所示。本文主要是時間規范化和主題事件片段的時間識別,因此沒有對時間表達式的識別進行對比分析,而只是針對時間規范化的參考時間選擇策略進行了分析,對比實驗分別選擇上下文無關策略和上下文局部相關策略。時間表達式規范化包括3組實驗:

(1) 在正確識別的表達式上的實驗,記為:RC。

(2) 在所有識別的表達式上的實驗,記為:R。

(3) 在語料中標注的所有表達式上的實驗,記為:G。

從表3,表4和表5的實驗結果看出,本文算法的性能明顯超過了另外兩種策略。正確率最高提高了18%。相對于上下文局部相關算法,本研究解決了在參考時間選擇過程中,僅僅考慮局部語境而忽視了時間表達式本身的語義問題。同時相對于上下文無關策略,其采用文檔的報道時間或者發布時間作為全局參考時間,所有的時間表達式都選用相同的參考時間,就使其具有了一定的局限性。ACE07語料中有很多基于事件的時間表達式,比如:“年前”和“個把小時”等,這類時間表達式很難規范化,因此當在語料中標注的所有表達式上進行時間表達式規范化時,效果反而可能是最差的。

為了研究主題事件片段時間識別的性能,本文從網站爬取了1 890篇地震事件。因為語料中不但有對當天事件的報道,還有跟蹤報道,因此不能單純地選用局部參考時間,這將顯著影響了實驗效果。根據本文算法的特點,實驗分為3個階段,每個階段的實驗效果如表6所示。

(1) 階段1:選用局部參考時間規范化隱式時間表達式,檢索所有關鍵動名詞前面的時間表達式,如果所有關鍵詞前面都沒有規范后的時間表達式,則檢索關鍵詞后面的時間表達式。

(2) 階段2:根據語義不同,隱式時間進行規范化時動態選擇全局和局部參考時間。

(3) 階段3:由于關鍵詞對時間確定的影響不是同等重要的,因此對關鍵詞設置了優先級,依據優先級,依次處理每一個關鍵詞。

可以看到,隱式時間規范化改進處理后,結果并沒有顯著的改進。經分析,地震新聞報道中,由于地震的發生幾乎都是瞬時的,因此全局時間和局部時間的時間差不是很大,除非是專題報道或災后重建這樣的報道中,時間差相對較大。設置了關鍵詞的優先級后,實驗效果得到了較大的提高,說明不同關鍵詞對于時間表達式識別的影響還是有一定的差距的,并驗證了本文方法的可行性和有效性。由于本文沒有處理基于事件的時間,比如“汶川地震”,如果文章中提到這個詞,將會直接聯想到發生時間是“2008年5月12日”,但在實現過程中沒有對此信息進行處理。下一步要考慮基于事件的時間。同時,本文與馮禮的方法[11]進行了比較,可以看到本文方法的實驗效果大大好于對比方法,如表6所示。

4 結束語

當前面向事件的時間識別大多是基于句子或短語的,并采用靜態時間值機制。針對這些問題,本文提出了一個面向主題事件的時間識別模型。該模型采用參考時間動態選擇機制對時間表達式進行規范化,然后利用設置了優先級的關鍵詞,將基于句子或短語的時間識別轉化為基于篇章的時間識別,從而識別主題事件中的時間。實驗表明,在時間表達式規范化任務中,參考時間動態選擇機制比上下文無關策略和上下文局部相關算法取得了更高的正確率;關鍵動名詞優先級的設置,大大改善了主題事件片段的時間識別效果。

參考文獻:

[1] WU Mingl, LI Wenjie, LU Qin, et al. CTEMP: A Chinese temporal parser for extracting and normalizing temporal information[C]// Proceedings of IJCNLP, Berlin, Heidelberg, Germany: Springer-Verlag, 2005: 694-706.

[2] 林靜, 曹德芳, 苑春法. 中文時間信息的TIMEX2自動標注[J]. 清華大學學報, 2008, 48(1): 117-120.

[3] 趙華. 話題檢測與跟蹤關鍵技術研究[D]. 哈爾濱: 哈爾濱工業大學, 2008.

[4] HE Dan, PARKER D S. Topic dynamics: An alternative model of ‘Bursts in streams of topics[C]// Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM, 2010:443-452.

[5] 趙旭劍. 中文新聞話題動態演化及其關鍵技術研究[D]. 合肥: 中國科學技術大學, 2012.

[6] LLIDO D, BERLANGA R, ARAMBURU M J. Extracting temporal references to assign document event-time periods[C]// Proceedings of the 12th International Conference on Database and Expert Systems Applications, Berlin, Heidelberg, Germany: Springer-Verlag, 2001: 62-71.

[7] AHN D, ADAFRE S F, De RIJKE M. Towards task-based temporal extraction and recognition[C]// Proceedings of Annotating, Extracting, and Reasoning about Time and Events, Dagstuhl, Germany: Internationales Begenungs-und Forschungszentrum Informatik (IBFI), 2005:05151.

[8] HACIOGLU K , CHEN Ying, DOUGLAS B. Automatic time expression labeling for English and Chinese text[C]// Proceedings of Computational Linguistics and Intelligent Text Processing (CICLing), Berlin, Heidelberg, Germany: Springer-Verlag, 2005, 3406: 548-559.

[9] LIN Sheng, JIN Peiquan, ZHAO Xujian, et al. Exploiting temporal information in Web Search[J]. Expert Systems with Applications, 2014, 41(2): 331-341.

[10] ZHAO Xujian, JIN Peiquan, YUE Lihua. Automatic temporal expression normalization with reference time dynamic-choosing[C]// Proceedings of Coling, Stroudsburg, PA, USA: Association for Computational Linguistics, 2010:1498-1506.

[11] 馮禮. 基于事件框架的突發事件信息抽取[D]. 上海: 上海交通大學, 2008.

猜你喜歡
關鍵規范化
高考考好是關鍵
走好關鍵“五步” 加強自身建設
人大建設(2019年9期)2019-12-27 09:06:30
價格認定的規范化之路
商周刊(2017年23期)2017-11-24 03:24:09
談人事檔案的規范化管理
蘭臺內外(2017年5期)2017-06-06 02:24:19
政務微博的規范化運行探討
時代農機(2016年6期)2016-12-01 04:07:29
狂犬?、蠹壉┞兑幏痘A防處置實踐
高血壓病中醫規范化管理模式思考
滿足全科化和規范化的新要求
中國衛生(2014年3期)2014-11-12 13:18:18
獲勝關鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
生意無大小,關鍵是怎么做?
中國商人(2013年1期)2013-12-04 08:52:52
主站蜘蛛池模板: 老色鬼久久亚洲AV综合| 亚洲天堂色色人体| 人禽伦免费交视频网页播放| 国产浮力第一页永久地址 | 在线人成精品免费视频| 亚洲第一视频免费在线| 亚洲欧美成人| 久草视频一区| 成年人免费国产视频| 免费人成视网站在线不卡| 亚洲av片在线免费观看| 视频一本大道香蕉久在线播放| 国产区在线观看视频| 伊人婷婷色香五月综合缴缴情| 大乳丰满人妻中文字幕日本| 亚洲无码电影| 亚洲91在线精品| 一本色道久久88| 国产成人综合网| 呦视频在线一区二区三区| 一区二区三区四区日韩| 国产福利微拍精品一区二区| 精品国产一区二区三区在线观看 | 91九色视频网| 找国产毛片看| 亚洲欧美日韩天堂| 中文字幕亚洲乱码熟女1区2区| 国产成人8x视频一区二区| 67194亚洲无码| 久久伊人操| 三上悠亚一区二区| 国产激情无码一区二区免费| 91丝袜美腿高跟国产极品老师| 人妻丝袜无码视频| 欧美精品在线观看视频| 国产女人18水真多毛片18精品 | 欧美日韩久久综合| 亚洲精品久综合蜜| 久久精品人人做人人| 青草91视频免费观看| 亚洲国产精品成人久久综合影院| 国产成人高清精品免费5388| 中国一级毛片免费观看| 91免费观看视频| 国产精品999在线| 日本人又色又爽的视频| 国产91视频免费| 91外围女在线观看| 国产一区二区网站| 亚洲无码精彩视频在线观看| a级免费视频| 久久黄色免费电影| 日本www色视频| 91精品综合| 国产成人乱无码视频| 国内精品免费| 免费在线成人网| 亚洲精品大秀视频| 99视频有精品视频免费观看| 亚洲精品无码不卡在线播放| 午夜国产精品视频| 欧美色综合网站| 激情综合网激情综合| 久久综合伊人77777| 精品剧情v国产在线观看| 亚洲国产精品一区二区第一页免| 99中文字幕亚洲一区二区| 成人综合网址| 狠狠色丁香婷婷| 欧美成人综合在线| 国产噜噜噜| 伊人激情久久综合中文字幕| а∨天堂一区中文字幕| 在线国产欧美| 中文字幕在线播放不卡| 亚洲视频在线青青| 欧美日韩在线第一页| 婷婷99视频精品全部在线观看| 亚洲免费成人网| 综合成人国产| 亚洲中文字幕国产av| 丝袜亚洲综合|