文 劉蔚然
世界正在不斷的隨著計算機技術以及數字媒體技術的發展,使得人們能每時每刻更加便捷的獲取到新聞以及相關新聞的視頻,每天都有大量的新聞來自不同的國家、各種在線網站都在播放形式各異的影視節目。這些富有特色的節目豐富了人們的生活,但是同時為人們帶來了大量的冗余以及不斷重復的信息,這樣對于觀看新聞的人們來講很難得到新聞事件的相關信息。如果以在進行報道的時候采用專題的形式、可以提高新聞視頻管理工作的水平。將新聞進行這樣的分析與組織不僅能夠向視頻用戶展示新聞事件發生的來龍去脈,將這個事件的專題結構清晰的展示出來,還能夠讓用戶在觀看的同時在相關視頻列表中找到更多的相關信息,這樣是非常吸引用戶的。
故事指的是新聞視頻中對一個新聞事件的細致以及完整的報道,并且也為整個新聞事件提供了完整的于一方面的信息。本文是提出了一個以故事為基礎的新聞事件專題分析方法,新聞中的基本思路是通過將所有相關新聞的報道匯聚在一起,來分析新聞事件內部故事中所存在相似以及相互之間的關系,根據事件中相互依賴的關系來構建屬于一個新聞事件的專題結構。
當前新聞組織的形式非常的多,其中應用最為廣泛的是針對報道節目的主題的跟蹤以及檢測技術,簡稱TDT。TDT的定義是對文本進行組織和利用的研究,此項技術主要應對的是當前信息過載的問題。
Nallapati R結合了當前的TDT技術的特點,對文本媒體的研究進行了擴展,概括了諸如:故事、事件等定義,通過文章的結構獲得主題以及事件之間所存在的依賴關系。此項研究通過事件結構的建模來獲取故事的語義相比平面列表來講更加有效。相對于其他形式的新聞視頻而言,結合新聞故事進行的專題報道,必然會出現一些相似的關鍵幀,這些文章具體表現為圖像的一些關鍵幀會有很多的相似點,只有一些地方存在差異,比如時間點以及編輯等操作上存在差異。
針對相似關鍵幀的進行辨別的方法非常的多。有一種方法,把專題新聞報道中的相似幀數看做概念。表示為一個具體的故事結合,即矩陣A,列則表示為新聞故事,行為概念那么矩陣A就表示為:

在公式中,A1表示的一個詞—故事矩陣,行對應著詞,列對應著新聞故事。專題故事和以及關鍵幀數的結合形式使用的是tf-idf的計算方法。A2代表重要的幀數,即故事矩陣,重要的幀聚類用列表示,主要用來描述新故事。在本文中,主要對新聞的具體結構進行了研究。因此,使用了傳統的k—均值聚類算法,具體的方法如下:
(1)建立A1(專題故事)、A2(專題關鍵幀),A(專題結構);
(2)對正規劃的矩陣進行相應的計算;
(3)針對矩陣Am實施奇異值的分解,計算得到矩陣Z;
(4)運用均值聚類的計算方法,計算獲得k個聚類。
往往在一個新聞事件中會存在大量的冗余,尤其是不同新聞頻道中的新聞報道。一般的來講用戶更加關注的是對整個事件的快速了解,并不是通過瀏覽整個事件來找出了新聞故事。所以,新聞的存在內容過多的情況是非常正常的,存在豐滿的內容會大大的減少報道的費用,不僅如此還可以對進行報道進行鋪墊。
每個報道者和收看者對這些內容的理解各不相同,閾值的選取也因人而異,為了能夠減少故事的不一致性,一般將新聞故事分成以下幾種類型:豐富的故事,新故事,后續故事。一個故事當中如果沒有太多的新東西,但是信息量卻非常的大,這就是豐富的故事;在故事中有存在一些新的故事并且結合了豐富的故事這就是后續故事,后續的故事報道的主要方向是專題的發展;絕大多數內容為新內容的為新故事,代表了事件是向新的方向發展的,也可以將事件中所包含的事件稱為子事件。
專題和新聞是相互依賴關系后,在構建新聞事件的專題結構時采用樹的方式,樹里面每個具體的節點描述的是故事,邊主要描述故事之間的聯系。一般這兩者的閾值采用TN以及TR表示,抓提報道的結構建立方式如下:
(1)在進行專題報道的時候,把每個故事按時間進行排列,選取初始故事作為根節點;
(2)對報道的故事進行相似度計算,發現關聯性大的故事,并且將其設置故事的依賴關系為<(Si,Sj),R(Si,Sj)>;
(3)根據依賴關系,如果R(Si,Sj)>=TR表示當前的故事是冗余故事,所以可以直接就可以放棄該故事;如果R(Si,Sj)<=TN,就表示該內容比較的新,從而進行依賴關系的設置,即(E,Sj),并把這些連接到具體的節點上;TN (4)對以上步驟進行反復,讓所有節點融合到到了樹的結構中。如圖為韓國天安號事件的事件專題結構。 針對專題報道的實際,根據視覺和特征報道進行聚類性的分析,利用公式找出專題中包含故事的相似性,之后建立聯系。本文所提出的基于樹的新聞事件的專題的結構,并且又將所有的專題綜合起來分析,從而更加的直觀的反映整個新聞事件的發展。新聞事件的專題的結構簡潔有效,能夠很好的表現事件的發展關系。總結