999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于事件的新聞報道分析技術研究進展

2007-01-01 00:00:00吳玲達劉宇弛
計算機應用研究 2007年5期

摘要:首先給出基于事件的新聞報道分析技術相關概念的定義,并提出一個基于事件的新聞報道分析技術框架;然后從四個方面介紹了基于事件的新聞報道分析中的關鍵技術,包括事件探測、事件追蹤、事件相關文檔摘要和事件RSU檢索。對一些關鍵技術進行了分類和評價,剖析其優勢及不足,通過對各種方法的分析和比較,提出了一些改進的方法和建議。最后展望了未來基于事件的新聞報道分析技術的發展方向。

關鍵詞:事件探測;事件追蹤;事件相關文檔摘要;事件相關故事單元檢索 

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2007)05-0013-04

0引言

當今,信息產業已成為全球關注的焦點,世界各國正從深度和廣度兩個方面推動國民經濟信息化的進程,并采取了相應的對策。隨著信息傳播技術的迅猛發展,尤其是廣播、電視等媒體信息流在互聯網上的全面“開花”,使人類社會面臨著日益嚴重的信息挑戰。人們不但重視信息的有效性,而且更加關注信息獲取的便捷性。如何對海量的新聞報道信息進行有效的組織和管理顯得至關重要。

新聞報道作為有代表性的多源媒體,廣泛地受到人們的關注,并且由于其具有如下特征而使其可利用價值遠遠超出了瀏覽與檢索的范疇:①新聞報道作為一種公開的信息源,容易獲取;②新聞報道具有報道及時、反映迅速的特點;③新聞報道尤其是專題性新聞報道具有目的明確、信息豐富的特點;④新聞報道代表了不同國家、不同政治團體的政治立場和媒體呼聲,能夠反映其政治、外交和軍事等不同領域的政策和態度。

基于事件的新聞報道分析技術是近年來備受關注的前沿學科,同時也是信息資源管理領域一個新興的研究方向。研究基于事件的新聞報道分析技術,將在一定程度上改善耗時并且代價昂貴的人工組織和管理新聞報道事件的過程,同時將體現新聞事件來龍去脈的分析結果呈現給用戶,提高情報收集整理工作的效率,也能夠大大簡化新聞報道信息的管理工作。最重要的是它能夠幫助人們從大量新聞報道數據中獲取有價值的情報,具有切實的軍事意義。它不僅可以將情報分析人員從繁重耗時的人工勞動中解脫出來,而且可以提高新聞報道分析和情報分析的智能化程度,推動信息組織技術的進一步發展。

1相關概念

事件探測與追蹤領域的幾個基本概念的定義:

定義1話題。它是TDT研究中一個最基本的概念,研究者對于話題與事件定義有多種方式。文獻[1]將話題定義為“由某些原因、條件引起的,發生在特定時間和地點,并可能伴隨某些必然結果的一個事件”,即認為話題與事件的含義相同。而目前的TDT評測機構定義的話題概念則要相對寬泛一些,它將話題定義為“包括一個核心事件或活動以及所有與之直接相關的事件和活動”。如果一篇報道討論了與某個話題的核心事件直接相關的事件或活動,那么就認為該報道與此話題相關。比如,搜尋印度洋海嘯過后的幸存者、安葬死難者都被看作與印度洋海嘯事件直接相關。

定義2事件。Yang[2]將事件定義為“發生在某特定時間和地點的某事”。他認為事件可以看成是話題的某一實例并伴隨著特定的行為,如“USA427空難”是一個事件,但不是話題,“空難”則是某個話題而不是事件。文獻[3]將事件定義為“事件是一個動態話題,該動態話題往往會發生遷移進化并可分裂為幾個不同的子事件”。

由以上定義不難發現,雖然研究者對于話題和事件的定義名目繁多,但實際上大同小異。例如TDT評測機構定義的話題概念與文獻[3]定義的事件本質上是相同的。TDT評測機構是將“話題”理解為“動態變化的事件”,文獻[3]則是將“事件”理解為“動態變化的話題”。基于以上研究者對事件和話題的多種定義方式,并考慮到由于TDT研究中所涉及的“話題”的含義與中文語言學上使用的概念不同有可能導致理解上的歧義等諸多因素,本文采用Yang和文獻[3]對事件的定義,即認為“事件是一個動態話題,該動態話題往往會發生遷移進化并可分裂為幾個不同的子事件,并將事件看成是話題的某一實例”。相應地,在TDT研究中使用術語“事件探測”和“事件追蹤”。定義 3事件探測。它旨在發現新的事件并將談論某一事件的所有新聞報道歸入相應的事件簇,所以事件探測本質上是一種特殊的文本聚類技術。它又可分為回溯探測與在線探測。回溯探測是在一個按時間次序累積的新聞報道流中發現以前未經確認的事件并在整個數據集合上進行聚類;它允許系統在開始事件探測任務之前先預覽要處理的整個新聞報道集,因而可以獲得一定的關于待處理文本信息流的先驗知識。在線探測的目的是實時地從新聞媒體流中發現新事件并以增量方式對輸入的新聞報道進行聚類,在作出最終的決策前只能向前面看有限的新聞報道。

定義4事件追蹤。它是通過監控新聞媒體流以發現與某一已知事件相關的后續新聞報道。通常要事先給出一個或幾個已知的、關于該事件的新聞報道。這項研究與信息檢索領域中基于示例的檢索有許多共同之處。在事件追蹤中已知的訓練正例非常少,并且與某個事件相關的報道常常集中出現在某一特定的時間區間。

定義5事件相關文檔摘要。它是指通過某種手段,提煉出某篇新聞報道的濃縮版,以輔助新聞報道事件的探測和追蹤,或在事件探測的基礎上生成某事件簇內的同一類事件報道集的摘要。

定義6事件RSU檢索。它在某種程度上可以看成是一種概念化的檢索方式,這種檢索方式更有現實意義。通過學習自動建立新聞事件類的模型,它是在一定程度上解決基于內容的視頻檢索中低級特征與高級概念之間的語義鴻溝的一種有效途徑。本質上它是根據所獲得的文本信息進行事件相關故事單元的檢索。

2基于事件的新聞報道分析技術框架

基于事件的新聞報道分析技術框架側重于對高層分析層所涉及的關鍵技術和內容的進一步細化,如圖1所示。

從圖1中可看出,基于事件的新聞報道分析是一個多層次、多源的過程。盡管所處理的源數據包含視頻、音頻和文本等多種媒體類型,但是經過故事單元切分、預處理、字幕探測與識別等低層處理后,新聞事件探測、追蹤、事件相關故事單元的檢索和摘要等高層分析任務均是以文本為核心處理對象。

新聞報道事件追蹤是在事件探測基礎上進行的。換言之,系統首先通過事件探測過程識別出每類新聞事件的新事件種子并對事件進行動態聚類形成若干個事件簇;而事件追蹤過程則根據已經存在的事件種子對新聞報道信息流進行監控,發掘出與已知事件相關的后續新聞報道。無獨有偶,事件簇多文件摘要也是在事件探測的基礎上進行的,它通過對每類事件進行斷句和斷詞,對語句進行群聚,最后產生事件簇多文件摘要。多種新聞媒體數據經過預處理等步驟提取出文本之后,通過結構劃分、特征詞提取和關鍵語句選取(即代表詞句的選取),得到粗略摘要,后經平滑修正即可得到事件單文檔摘要。事件單文檔摘要雖然不依賴事件探測結果,但其結果可以輔助事件探測與追蹤過程。因為摘要本身可以視為一個精簡的過程,使用精簡后的新聞報道進行事件探測和追蹤可以將對新聞主題意義貢獻不大的句子刪除,只保留攜帶重要信息的句子,這在一定程度上提高了事件探測和追蹤的性能。事件RSU檢索的核心思想是通過評價事件模板和從每段新聞故事單元中獲取的文本向量之間的相似性度量來對檢索到的事件RSU進行降序排列。與事件模板的相似度越大的故事單元其排列位置越靠前。該過程的關鍵是獲取合適的事件模板,事件模板生成質量的優劣直接影響著檢索結果的滿意度。由圖1可以看出,事件模板是在事件探測后形成事件簇的基礎上,運用一定的特征提取策略獲得的。

3事件探測

這項研究等同于無監督的聚類研究。通常的聚類可看成是基于全局信息的聚類,即在整個數據集合上進行聚類,但事件探測中用到的聚類是以增量方式進行的。 圖2給出了事件探測任務的一個直觀圖示。

CMU的研究者在事件探測時主要采用了一種帶有時間窗口的單遍聚類方法[6]。此外,他們還嘗試了兩種不同的特征權重計算方法,即TF-IDF和基于語言模型的方法,并試圖將采用這兩種權重計算方法的系統組合起來。報道向量與事件類向量之間相似度的計算主要采用向量夾角余弦值,但要根據時間因素利用一個時間窗口作調整。

馬薩諸塞大學的事件探測系統也是基于單遍聚類算法[6]的。在最初的實現中,集成了已有的一些研究成果;目前的系統同樣用向量模型表示新聞報道,即把每篇報道表示成特征空間中的一個向量,每一維對應于某個特征在報道中出現的頻次。它們在確定與當前報道最相近的事件簇時,除了原有的質心比較策略外,還增加了最近鄰居比較策略。

IBM公司的事件探測系統采用了兩層聚類的策略[6],即兩遍聚類:第一遍將所有報道分成不同的微類,第二遍以這些微類為處理對象形成較大的類,將兩遍處理結果作為最終結果輸出。每一遍聚類的基本算法都是一致的,采用單遍聚類算法,差別只在于處理的對象不同和選取的閾值不同。 該系統一個最突出的特點是使用一種對稱的Okapi公式計算兩篇報道之間的相似度。

臺灣大學[4]的研究者主要是對漢語普通話文本的處理。他們使用的基本算法也是單遍聚類算法。首先將GB編碼數據轉換成BIG5編碼的,然后利用他們在MUC-71中使用的漢語命名實體抽取系統識別出新聞報道中的人名、機構名、地名等命名實體。他們為事件探測系統指定了一高一低兩個閾值,即THh和THl。當報道與事件之間的相似度高于THh時,就認為報道與事件相關;當它們的相似度低于THl時,就認為它們不相關;如果相似度的值介于THh和THl之間,則不能馬上給出一個判斷,需要利用允許的延遲時間作進一步判斷。

本文針對事件探測的特點提出了初始化類中心的增量k均值事件探測法[5]。該算法使用密度函數法進行聚類中心的初始化以便客觀地選擇初始聚類中心,既可以用于在線探測也可以用于回溯探測,并且執行結果受新聞語料被處理順序的影響較小。實驗結果表明,本文所提出的方法是有效的。

4事件追蹤

如前所述,事件追蹤就是要識別出關于某個已知事件的新報道。通常要事先給出一個或幾個已知的、關于該事件的新聞報道。圖3給出了事件追蹤任務的一個直觀圖示。 

卡內基-梅隆大學(CMU)的研究者嘗試了使用多種不同的方法來追蹤事件[6],包括K近鄰算法、Rocchio算法以及語言模型方法。其中K近鄰算法是一種基于實例或稱基于記憶的學習算法。它的基本思想非常直接。簡單地說,為了對某個文檔歸類,只要找到訓練集合中與此文檔最相似的文檔(稱之為最近鄰居),將這個最相似文檔的類別賦予該文檔即可。Rocchio算法[6]是基于Rocchio在1971年為向量空間檢索模型提出的一種相關反饋算法。首先為每個類別訓練得到一個原型向量或稱核向量,作為該類別文檔的代表(類向量)。在分類時,分別計算每個待分類文檔的文檔向量與各個類向量之間的相似度(夾角余弦值),將其歸入具有最大相似度的類別中。此外,他們還將這些方法組合成BORG算法,取得了優于任何一種單獨方法的性能。 

馬薩諸塞大學的事件追蹤系統基于簡單的Rocchio算法[7](0=γ)。事件向量是訓練正例樣本的某種質心,如訓練樣本的算術平均,相似度評價函數也是使用向量的夾角余弦。系統的判斷決策值是事件向量與待測報道之間的相似度經規范化后得到的值。

BBN公司的研究者[6]在他們開發的事件追蹤與識別系統中使用了概率模型,主要基于簡單貝葉斯算法。在簡單貝葉斯文本分類中可以使用兩種不同的事件模型,即多項式模型和多值伯努利模型。在伯努利模型中,不使用特征在文檔中出現的頻次信息,而只關心某個特征是否在文檔中出現了。與之相應,在多項式模型中,則需要考慮特征在文檔中出現的頻次信息。此外,BBN公司的事件追蹤系統還使用了兩個閾值,一個用于判斷某報道是否與事件相關,另一個用于自適應調整,即只有在結果超過這一閾值時才作適應性調整。

本文提出一種基于NEP-SVM的事件追蹤算法[8]。該算法首先借鑒主題提取的思想對傳統文檔表示方式進行了改進,即通過簡單的串匹配技術給能夠更好地反映新聞主題的特征項分配更大的權值;然后修剪反例樣本,根據距離和類標決定某個反例樣本的取舍;使用SVM對修剪后的樣本集進行訓練;最后通過參數訓練將SVM的輸出結果映射成概率,從而確定某報道與事件相關與否,同時給出某報道與事件相關的置信度。

5事件相關文檔摘要

新聞報道事件相關文檔摘要隸屬于文本摘要的范疇,但是與普通意義的文本摘要又有所不同。普通文本摘要處理的對象非常廣泛,在本文中僅以新聞事件報道為處理對象,研究中既借鑒了普通的文摘生成方法,同時也兼顧了新聞報道事件本身所具有的特點。

很多情況下,眾多的新聞媒體會在不同時間對同一事件作不同的報道,這樣會導致信息的重復性,不便于用戶瀏覽和查詢,如果將這些信息盲目地拼湊在一起,就會產生大量的冗余信息。為了避免用戶查看這些大量煩瑣文摘的并達到過濾重復信息的目的,可以通過處理將同一事件主題下的多篇文本有機地結合在一起,集中生成一篇摘要,以便將簡潔全面的信息展示給用戶,這就是事件相關多文檔摘要研究的內容。著名的國際文本理解會議中的一項任務就是針對事件的短文摘生成。具體而言,給系統30個TDT(Topic Detection and Tracking)文檔集和30個與文檔集一一對應的事件主題,要求系統為每個文檔集生成100個單詞左右的綜述。這個綜述必須與對應事件主題相關,這就將事件探測與事件相關文檔摘要有機地結合在了一起。很多時候,根據系統需求,可以先進行事件探測,特別是回溯探測,將具有同一事件主題的新聞報道匯集成簇,然后在此基礎上對每個事件簇生成其對應的多文檔摘要。

隨著網絡資源的爆炸式增長,事件相關文檔摘要在研究領域和商用領域均展現了很好的發展前景。尤其是基于統計的方法,由于其健壯性和實用性而得到了廣泛的應用。另外,隨著自然語言處理技術的發展,應用于文本自動摘要的方法也會越來越多。

6事件RSU檢索

新聞報道事件RSU(相關故事單元)的檢索是針對新聞視頻的特點提出的一種結構化分析和檢索新聞視頻的思想。更準確地說是解決該領域問題的一個切入點,其本質上仍屬于視頻檢索。視頻檢索一般分為鏡頭檢索[9]和片段檢索[10]。鏡頭一般是由攝像機一次攝像的開始和結束的所有幀構成,表示一個物理概念,而片段是由一連串語義相關的連續鏡頭構成,表示的是一個語義概念。

目前視頻檢索的多數研究集中在鏡頭檢索上,而片段檢索方面的研究則剛剛開始。本文以含有比鏡頭更多語義信息的事件RSU為檢索單位,通過提取事件相關媒體中的文本信息并利用機器學習方法自動建立事件類的模型,從而提供概念化的RSU查詢方式。本文還提出了組合特征選擇方法和一種二階段修剪KNN,即TSP-KNN。組合特征選擇方法相對于MI方法更適合事件相關故事單元的檢索。二階段修剪KNN先對訓練集進行修剪,然后再用KNN訓練得到分類器。該方法解決了樣本混疊以及多中心分布問題。

7結束語

基于事件的新聞報道分析是自然語言處理領域的研究熱點,尤其是新聞報道事件探測與追蹤的研究更是方興未艾。該課題涉及多個學科和技術領域,需要研究的問題還很多。概括起來,在本文的基礎上有待進一步研究的問題包括:

(1)詞頻空間向概念空間的轉換

概念空間克服了詞頻空間中各個詞之間具有關聯的缺點。在概念空間中,每個概念描述了文本集合中其他概念無法完全描述的特點。從詞頻空間到概念空間轉換的過程中,可以忽略那些不重要的概念,而留下那些重要的、信息量多的概念。在這個過程中,不僅使概念的維數降低了,而且濾掉了部分噪聲。由于特征值反映了對應向量的重要性,那么就可以通過篩選特征值的方法來濾掉不重要的概念。目前在基于事件的新聞報道分析研究過程中大多使用的是詞頻空間,在詞頻空間中,主特征向量是最具有表達能力的一個方向,它涵蓋這個詞頻空間的信息量最多。如果能夠用特征向量這樣的正交空間來代替文本的詞頻空間表示文本,就能夠對文本進行更為透徹的分析。所以在下一步的研究中,筆者將嘗試使用概念空間代替詞頻空間。

(2)分析過程中閾值的自動選擇

基于事件的新聞報道分析過程中的閾值設置通常采用的方法是根據探測或追蹤時積累的數據,設置閾值使系統采用的某種性能評價函數最優。這種方法雖然簡單直觀且在訓練數據足夠充分時也很有效,但是這種方法不能靈活適應不同數據集合的要求,因此需要尋找其他自適應的閾值確定法。本文認為:通過機器學習算法進行訓練或通過動態調整系數的方法以跟蹤用戶的反饋給系統帶來的變化,控制閾值調整的方向也許是一種可行的設置自適應閾值的方法。總之,尋找一種更魯棒、更高效、更實用和非經驗性的閾值計算方法來改善基于事件的新聞報道分析系統的性能是很有意義的,這也是下一步工作所要考慮的問題。

(3)新聞報道文檔的結構分析

新聞報道文檔的結構分析可以更好地理解文本的主題思想,了解新聞報道所表達的內容。它可以有效地改進基于事件的新聞報道分析的精度,為準確快速地探測與追蹤新聞事件提供有價值的線索和范圍,并有助于改進新聞報道RSU檢索的匹配機制,改善新聞報道事件摘要的質量。事實上,新聞報道段落長度的均勻性或體裁均會對層次分析的效果造成一定的影響,在實際操作過程中如何減小向量間的依賴性,如何提高向量空間模型應用的效率,如何使層次劃分更加有序,這些問題都值得深入探索。

基于事件的新聞報道分析技術需要綜合語言處理的多種技術來完成。目前,基于自然語言理解的語言處理技術還存在許多困難,涉及到的領域和知識也比較繁雜,因此,研究過程中將有大量的理論和現實問題需要解決。

參考文獻:

[1]ALLAN J, CARBONELL J, DODDINGTON G,et al.Topic detection and tracking pilot study:final report:proceedings of the DARPA Broadcast News Transcription and Understanding Workshop[C].San Francisco: Morgan Kaufmann Publishers, 1998:194-218.

[2]YANG Yiming, CARBONELL J, BROWN R,et al. Learning approaches for detecting and tracking news events[J].IEEE Intelligent Systems: Special Issue on Applications of Intelligent Information Retrieval,1999,14(4): 32-43. 

[3]JUHA M, HELENA A M,Marko S. Applying semantic classes in event detection and tracking:proceedings of International Conference on Natural Language Processing[C].Mumbai:[s.n.],2002:175-183.

[4]CHEN H,KU Lunwei. Description of a topic detection algorithm on TDT3 mandarin text:proceedings of Topic Detection and Tracking Workshop[C].[S.l.]:[s.n.],2000:165-166.

[5]雷震, 吳玲達,雷蕾,等. 初始化類中心的增量K均值法及其在新聞事件探測中的應用[J]. 情報學報,2006,25(3):289-295.

[6]ALLAN J. Topic detection and tracking:event-based information organization[M]. Dordrecht: Kluwer Academic Publishers, 2002. 

[7]PAPKA R. On-line new event detection, clustering, and tracking[D]. [S.l.]:Department of Computer Science, University of Massachusetts, 1999.

[8]LEI Zhen, WU Lingda, et.al. A NEP-SVM based simulation system for tracking news event:proceedings of Asia Simulation Conference /the 6th International Conference on System Simulation and Scientific Computing[C].[S.l.]:[s.n.],2005:1522-1526.

[9]NGO C W,PONG Tingchuen, ZHANG Hongjiang.On clustering and retrieval of video shots through temporal slices analysis[J].IEEE Transactions on Multimedia,2002,4(4): 446-459.

[10]彭宇新, NGO C W, 董慶杰,等. 一種通過視頻片段進行視頻檢索的方法[J]. 軟件學報, 2003, 14(8):1409-1417.

注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 日本一区中文字幕最新在线| 成人无码一区二区三区视频在线观看 | 99国产在线视频| 国产丝袜丝视频在线观看| a级高清毛片| 4虎影视国产在线观看精品| 亚洲va欧美va国产综合下载| 中文字幕久久波多野结衣| 国产麻豆精品在线观看| 亚洲不卡影院| 狂欢视频在线观看不卡| 久久99精品久久久久久不卡| 呦女精品网站| 午夜啪啪网| 国产成人av一区二区三区| 99久久国产自偷自偷免费一区| 国产成人成人一区二区| 亚亚洲乱码一二三四区| 中文字幕人妻av一区二区| 在线播放国产一区| 欧美激情,国产精品| 伊人婷婷色香五月综合缴缴情| 日本福利视频网站| 人妻中文久热无码丝袜| 中日无码在线观看| 人妻一区二区三区无码精品一区| 91精品久久久久久无码人妻| 欧美中文字幕一区| 亚洲永久免费网站| 狠狠色成人综合首页| 亚洲欧美不卡视频| 在线观看亚洲精品福利片| 精品国产女同疯狂摩擦2| 尤物国产在线| 国产精品成人第一区| 最近最新中文字幕在线第一页| 毛片在线区| 亚洲欧美成aⅴ人在线观看| 亚洲第一色网站| 久久成人免费| 99尹人香蕉国产免费天天拍| 国产成本人片免费a∨短片| 国产精品成人免费综合| 亚洲人成影院午夜网站| 一边摸一边做爽的视频17国产| 国产91透明丝袜美腿在线| 亚洲欧美日韩视频一区| 精品伊人久久久香线蕉| 国产成人亚洲精品色欲AV| 538国产视频| 蝴蝶伊人久久中文娱乐网| 国产午夜一级毛片| 日本欧美视频在线观看| 婷婷色一区二区三区| 国产a在视频线精品视频下载| 亚洲天堂精品在线| 日韩精品免费一线在线观看| AV无码一区二区三区四区| 久久久久久久久18禁秘| 一级成人欧美一区在线观看| 欧美日韩国产精品va| 久久免费精品琪琪| 狼友视频一区二区三区| 天天色综网| 亚洲国产精品无码久久一线| 精品91视频| 日韩欧美中文亚洲高清在线| 91丝袜在线观看| 在线观看精品国产入口| 五月六月伊人狠狠丁香网| 91网站国产| 欧美精品黑人粗大| 最新日本中文字幕| AV网站中文| 久久婷婷色综合老司机| 亚洲精品制服丝袜二区| 99精品一区二区免费视频| 欧美有码在线| 日韩欧美色综合| 亚洲精品自拍区在线观看| 国产精品免费久久久久影院无码| 四虎成人免费毛片|