[摘 要] 話題識別與跟蹤以大規模新聞流為研究對象,通過監控新聞報道描述的話題,發現新的用戶感興趣的信息并將涉及某個話題的新聞報道組織起來以某種方式呈現給用戶。本文首先介紹話題識別與跟蹤的主要任務、相關概念和評價方法,然后對話題識別國內外研究現狀進行詳細論述,最后對話題識別的發展趨勢和未來的研究方向進行分析。
[關鍵詞] 話題; 話題識別; 話題跟蹤
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 09 . 014
[中圖分類號]TP391 [文獻標識碼]A [文章編號]1673 - 0194(2011)09- 0056 - 04
1引言
互聯網的飛速發展和廣泛應用,使得信息采集、傳播的速度和規模達到很高的水平。這雖然實現了信息的全球共享與交互,但也造成了網絡信息的急劇膨脹和雜亂無序,使人們難以迅速而準確地獲取自己最需要的信息。
話題識別與跟蹤(Topic Detection and Tracking,TDT) 技術就是在這種情況下產生的。它可以將關于話題的分散多變的信息匯集并組織起來,以幫助用戶發現話題中各種因素之間的關系,從整體上了解話題的各方面信息以及話題與話題之間的聯系[1]。隨著TDT技術的不斷進步,其研究目標和處理對象已不再局限于媒體信息流,而是越來越廣泛地應用于與信息相關的各個領域。
本文簡要介紹TDT的任務和相關概念,重點論述國內外在該領域的研究現狀,并展望TDT領域的發展趨勢。文章具體結構為:第二節介紹TDT的相關概念、任務及測評方式;第三節詳細論述話題識別技術的研究、應用現狀以及發展趨勢;第四節進行總結論述。
2TDT簡介
2.1基本概念
TDT的處理對象是隨時間動態變化的語言信息流,而不是靜態的、封閉的文本集合。為了區別于語言學上的概念,TDT評測會議對“話題”及常用概念進行了定義[1-2]:
(1) 話題(Topic):一個種子事件或活動,以及所有與之直接相關的事件或活動。
(2) 事件(Event):由某些原因、條件引起,發生在特定時間、地點,并可能伴隨某些必然結果的一個特例。
(3) 報道(Story):與話題緊密相關、包含兩個或多個獨立陳述某個事件的子句的新聞片斷。
2.2TDT任務
TDT 研究設立了以下5項基礎性任務[1-2]:報道切分任務(Story Segmentation Task,SST)、話題跟蹤(Topic Tracking,TT)、話題識別(Topic Detection,TD)、新事件的識別(New Event Detection,NED)、報道關系識別(Story Link Detection,SLD)。其中,話題跟蹤(TT)是指監控新聞信息流以發現與某一已知話題有關的新報道,通常要事先給出一個或幾個已知的、關于該話題的新聞報道。這項研究類似于信息檢索領域基于例子的查詢以及信息過濾,在數據挖掘領域則類似于對新聞數據流的分類研究。話題識別(TD)是指識別出系統未知的話題及其相關報道,將輸入的新聞報道歸入不同的話題簇,并在需要的時候建立新的話題簇。從本質上看,這項研究等同于對新聞報道流數據的聚類研究。
2.3測評技術
在TDT領域, 對系統性能的評價主要使用歸一化識別代價(Cdet)norm這一指標, 它由系統的識別漏報率和誤報率計算得到, 計算公式如下:
其中,Cmiss和Cfa分別是漏報和誤報的開銷;Pmiss和Pnon - target分別是漏報和誤報的條件概率;Cdet是錯誤識別代價,由以下公式得到:
Cdet = CmissPmissPtarget + CfaPfaPnon - target(2)
其中,Ptarget是目標話題的先驗概率,Ptarget = 1 - Pnon - target,Cmiss、Cfa和Ptarget都是預設值, 作為調節漏報率和誤報率在評測結果中所占比重的系數。除此之外, 還可以根據系統對每個判斷給出的可能性大小繪制識別錯誤權衡曲線,來直觀地刻畫漏報率與誤報率之間的一種反比關系[3]。
3話題識別(TD)的研究及應用現狀
TDT研究的最終目標是在多種形式多種語言的新聞報道流中準確地自動檢測新話題并對已知話題進行跟蹤。話題識別任務是對這一終極目標的最佳體現,因此在TDT研究中處于比較重要的位置,引起了國內外研究者們的廣泛關注。
3.1基于聚類的TD算法
目前TD研究主要是對文本聚類算法的改進和延伸。一般可將TD分為回溯檢測和在線檢測兩類,回溯檢測的目的是從已有的新聞報道集合中發現以前未標識的新聞話題,而在線檢測的重點在于及時從實時新聞報道流中檢測出新的話題。相應的,主要的TD算法可分為基于層次聚類法和基于在線增量式聚類算法兩類,其中在線增量式聚類算法能夠及時從新聞報道流中檢測到新話題,應用最為廣泛。下面對幾種具有代表性的TD算法進行分析。
3.1.1基于層次聚類的TD算法
卡內基梅隆大學的研究者使用基于平均分組的層次聚類法(Group Average Clustering,GAC)實現話題識別,GAC是針對回溯檢測的一種較好算法[4]。這種聚類方法是一種自底向上的貪心算法,采用分而治之的策略。該算法的輸入為按照時間排好序的新聞報道集合,輸出為層次式的話題結構。由于GAC算法只適合回溯檢測,不適合話題的在線檢測,因此應用范圍受到了一定的限制。
3.1.2基于在線增量式TD算法
基于增量式聚類算法被廣泛應用于TDT研究中,其核心思想是:順序地處理輸入的報道,每次處理一篇,增量地更新聚類。預先設定一個相似度閾值Tc,如果報道與已有話題模型之間的相似度超過Tc,這篇報道就歸屬該話題模型文本類;否則根據該報道創建一個新的話題及其對應的話題模型,同時把該報道歸屬創建的新話題模型文本類,通過調整Tc可以控制聚類的粒度。
TDT研究中常用的增量聚類算法有單遍(Single-Pass)聚類算法和K平均(K-means)聚類算法。
Ron Papka提出利用單遍(Single-Pass)聚類算法來實現在線新事件發現系統[5]。Single-Pass聚類是增量式的,先驗相關報道稀疏會導致話題模型不準確,并且隨著Single-Pass聚類進一步進行,誤檢率與漏檢率會有可能增加,因此,駱衛華等人在傳統Single-Pass聚類的基礎上提出多策略優化的分治多層聚類算法[6],旨在將數據分組來減少大規模數據處理時的系統負荷,其核心思想是把全部數據分割成具有一定相關性的分組,對各個分組分別進行聚類,得到各個分組內部的話題(微類) ,然后對所有的微類再進行聚類,得到最終的話題,該算法在TD領域取得了一定成果;針對Single-Pass聚類過程缺少用戶或分類器的指導而產生不了理想的簇的問題,稅儀東等人提出了周期分類和Single-Pass聚類相結合的TDT方法,有效地降低了漏檢率與錯檢率,減少了歸一化錯誤識別代價[7]。
在利用K-means聚類實現話題識別時,必然會面臨聚類類別數K的確定和初始質心的選擇兩個問題。劉素芹[8]等人針對K-means聚類出現的難題,提出基于命名實體的K-means動態檢測方法。首先從文檔特征提取方面進行突破,將文本中的命名實體和關鍵詞進行分別處理,予以不同的權重,然后將二者結合構造話題向量,從話題的向量表示上加大了命名實體對文檔表示的力度,豐富了詞對文檔表示的內容。然后在K-means聚類方法中加入了基于最大最小的自相似度收斂策略,實現了K-means聚類方法中K值的自動選取。
3.1.3基于雙閾值的TD算法
Hsin-His Chen等人提出了基于雙閾值的話題檢測算法[9],預設了另一個閾值Tn,通常Tc≥Tn。該算法與基本的在線增量式算法的區別在于判斷方法不同,其判斷過程為: 如果報道與已有話題模型之間的相似度超過Tc,則認為報道和話題相關,更新該話題的模型表示;如果相似度在兩個閾值之間,則認為報道和話題相關,但不更新該話題的模型表示;如果相似度小于Tn,則認為報道和話題不相關。
此外還有一些根據傳統信息檢索技術演變而來的話題檢測算法,例如基于查詢的話題檢測算法[10]、基于K近鄰的最相似文檔比較法[11]等。
3.2基于語義和語法特征的TD算法
TD研究的某些特殊性及其處理對象的特點,決定了僅僅利用現有信息檢索方法來進一步提高系統的性能是很困難的,要想有所突破必須要借助更多的自然語言理解技術。目前,越來越多TDT研究者開始致力于基于話題本身特性的探索。
麻省大學的研究者根據詞法特征自動生成多個分類器,并且每類事件通過包含查詢語法和閾值的分類器來表現,最后根據標準化后的相似分值確定事件的類別歸屬[4]; James Allan提出利用文本分類技術和命名實體識別技術相結合的方法來提高新事件的識別率[12];賈自艷等人給出了一種基于動態進化模型的TD算法,該動態模型是基于新聞事件的生存特點提出的,包括:基于時間距離的相似度計算模型、事件模板進化策略以及動態閾值設置思想,該算法可以自動對新聞資料進行組織生成新聞專題,進而為用戶提供個性化服務[13];萬小軍等人通過改進加窗策略, 采用自適應倒排文檔頻率, 設計了一個中文新聞主題檢測系統,并將其成功應用于新華網數據中心[14];宋丹等人摒棄了傳統向量空間模型中的單個向量,而借助自然語言理解技術,對特征詞進行語義分組(人物、時間、地點、內容4組),形成具有4 個獨立向量空間的改進的向量空間模型,并基于這個模型采用一種啟發式的聚類方法,取得了比較理想的效果[15]。
3.3TDT技術的應用及發展趨勢
近年來,TDT研究開始致力于網絡信息挖掘及應用的探索,特別是熱點話題發現、多文檔摘要、流數據挖掘等。其中,網絡熱點話題發現不僅能夠幫助用戶準確高效地獲取熱點話題,而且其對網絡信息安全以及輿論導向控制也有著重要意義。
隨著網絡上自由交流平臺的不斷發展,虛擬網絡社區,特別是論壇(BBS)和博客(Blog),已經成為人們獲取信息、發表言論的重要場所。近年來,TDT在該領域的應用研究也取得了一些成果。
針對BBS 帖子文檔字數少,語言隨意的特點,研究者常采用基于語義分析的方法實現TD任務[16-18]:首先采用語義分析技術來消除傳統算法忽略用詞的上下文環境以及同義詞帶來的誤判問題,然后依據帖子的內容進行相似度計算,最后進行聚類分析。但是,傳統的計算BBS論壇中有影響力話題的方法還有很多不足,針對這一問題,蔣凡等人通過計算詞語在回帖傳播鏈上的影響力,提出了一種基于對有影響力詞語聚類的TD方法,有效提高了提取BBS中重要話題信息的效率和準確率[19];為解決單個帖子線索的多話題性問題,識別聚類中的孤立點, 魯明羽等人采用模糊聚類進行TD,使得一個帖子線索可以隸屬于多個話題,而對于隸屬度遠小于類內平均隸屬度的帖子線索,則當作孤立點來處理,此外還給出了一種面向BBS文本的特征表示方法,并結合隸屬度給出基于模糊劃分的話題熱度評分公式,取得了比較理想的效果[20]。
在Blog中,評論信息是識別話題熱點度的一個主要因素,Gilad Mishne對Blog評論及其與話題的關系進行了大規模的研究,分析了評論數量及其平均長度對Blog關注度的影響,并說明了評論信息的使用可以提高Blog的檢索排名[21]。但是這并沒有考慮評論和話題的內容,針對這一問題,時明達等人將內容相關度和語義分析相結合用于Blog熱點話題發現,在考慮評論數量的同時,還通過分析評論與話題內容的相關度以及評論的語義來計算話題在該Blog中的熱點度,并最終實現熱點話題發現[22]。
4總結
本文介紹了TDT任務等相關知識,重點論述了TD技術研究及應用現狀。關注話題本身特性,并考慮多種方法的綜合運用,將是未來TDT的主要發展方向。目前TDT研究仍然沒能充分利用話題本身的特性來有效提高系統性能,因此,將來的研究需要在建立具備新聞語料特性的描述模型、機器學習與自然語言處理技術的有效融合、TDT模型的自適應學習與更新策略、話題特有的特征提取與信息挖掘技術等方面進行更深入的探索。
主要參考文獻
[1] Charles L. Wayne. Multilingual Topic Detection and Tracking: Successful Research Enabled by Corpora and Evaluation[C] // Language Resources and Evaluation Conference(LREC), 2000:1487-1494.
[2] The National Institute of Standards and Technology(NIST). The 2002 Topic Detection and Tracking (TDT2002) Task Definition and Evaluation Plan[Z]. ftp://jaguar.ncsl.nist.gov//tdt/tdt2002/evalplans/TDT02.Eval.Plan.vl.l.ps.
[3] James Allan, Victor Lavrenko and Margaret E Connell. A Month to Topic Detection and Tracking in Hindi[J]. ACM Transactions on Asian Language Information Processing,2003,2(2):85-100.
[4] James Allan, Jaime Carbonell, et al. Topic Detection and Tracking Pilot Study: Final Report[C] // Proceedings of the DARPA Broadcast News Transcription and Understanding Workship,1998.
[5] James Allan, Ron Papka. On-line New Event Detection and Tracking[C] // The Proceedings of ACM SIGIR 1998, Melbourne: Association for Computing Machinery Press,1998:37-45.
[6] 駱衛華,于滿泉,許洪波. 基于多策略優化的分治多層聚類算法的話題發現研究[C] // 全國第八屆計算機語言學聯合學術會議(JSCL-2005)論文集,南京,2005:362-368.
[7] 稅儀冬,瞿有利,黃厚寬. 周期分類和Single-Pass聚類相結合的話題識別與跟蹤方法[J]. 北京交通大學學報:自然科學版,2009,33(5):85-89.
[8] 劉素芹,柴松. 命名實體的網絡話題K-means動態檢測方法[J]. 智能系統學報,2010,5(2):122-126.
[9] Hsin-His Chen and Lun-Wei Ku. Description of a Topic Detection Algorithm on TDT3 Mandarin Text[C] // Proceeding of Topic Detection and Tracking Workshop, Vienna, Virginia, 2000:165-166.
[10] Ron Papka. On-line New Event Detection, Clustering and Tracking[D]. Boston:University of Massachusetts, 1999:4-5.
[11] James Allan, Victor Lavrenko, D Frey, V Khandelwal. UMass at TDT2000[R]. 2000.
[12] James Allan, Victor Lavrenko, Hubert Jin. First Story Detection in TDT is Hard[C] // Proceedings of 9th Conference on Information Knowledge Management CIKM, 2000: 374-381.
[13] 賈自艷,何清,張俊海,李嘉佑,史忠植. 一種基于動態進化模型的事件探測和追蹤算法[J]. 計算機研究與發展,2004,41(7):1273-1280.
[14] 萬小軍,楊建武.在線新聞主體檢測系統的設計與應用[J]. 華南理工大學學報:自然科學版,2004,32(z1):14-18.
[15] 宋丹,王衛東,陳英. 基于改進向量空間模型的話題識別與跟蹤[J]. 計算機技術與發展, 2006,16(9):62-67.
[16] 劉昌鈺,唐常杰,于中華,杜永萍,郭穎. 基于潛在語義分析的BBS 文檔Bayes 鑒別器[J]. 計算機學報, 2004,27(4):566-572.
[17] 奚偉鵬,李昕,蔣凱,武港山. 面向網上論壇的信息抽取技術[J]. 計算機工程,2005,31(4):66-68.
[18] 吳昊,耿煥同. 基于潛在語義分析的BBS 主題發現算法研究[J]. 電腦知識與技術,2008,4(2):431-433.
[19] 蔣凡,高俊波,張敏,王煦法. BBS中主題發現原型系統的設計與實現[J]. 計算機工程與應用,2005,41(31):151-153.
[20] 魯明羽,姚曉娜,魏善嶺. 基于模糊聚類的網絡論壇熱點話題挖掘[J]. 大連海事大學學報,2008,34(4):52-58.
[21] Gilad Mishne, Natalie Glance. Leave a Reply: An Analysis of Weblog Comments[C] // The Third Annual Workshop on the Weblogging Ecosystem, Edinburgh, Scotland, May 2006.
[22] 時明達,林鴻飛. 基于內容相關度和語義分析的Blog熱點話題發現[C] // 內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集,2007:570-575.
Research on Development of Topic Detection and Tracking
CHEN Xue-chang, HAN Jia-zhen, WEI Gui-ying
(School of Economics and Management, University of Science and Technology Beijing, Beijing 100083, China)
Abstract: The research object of TDT (Topic Detection and Tracking) is massive news flow, monitoring the topic of news, finds out new users attracting information, and somehow show the organized reports about a certain topic. At first, the paper introduces TDT and its primary tasks, related concepts and evaluation methods. Then, recent research situation about Topic Detection is focused. Finally, the paper analyzes the development tendency and future direction of Topic Detection.
Key words: Topic; Topic Detection; Topic Tracking