劉海娟,劉文展
(中國電子科技集團公司第五十四研究所,河北 石家莊 050081)
?
基于雙向量模型的話題跟蹤
劉海娟,劉文展
(中國電子科技集團公司第五十四研究所,河北 石家莊 050081)
摘要針對話題跟蹤任務及話題自身的特點,研究了面向該任務的文本表示技術,通過對文本表示技術的研究來提高話題跟蹤系統的跟蹤性能。通過分析報道文本的內容特點,提出了采用雙向量來表示報道文本,將文本中的命名實體進行了單獨處理。對命名實體識別技術進行了簡要介紹,詳細描述了基于雙向量模型的話題跟蹤系統的構建。實驗結果表明,在話題跟蹤中,雙向量的文本示方法比單向量的文本表示方法更準確。
關鍵詞話題跟蹤;雙向量模型;命名實體;文本表示
Topic Tracking Based on Double Vector Model
LIU Hai-juan,LIU Wen-zhan
(The54thResearchInstituteofCETC,ShijiazhuangHebei050081,China)
AbstractIn view of the characteristics of topic and topic tracking task,this paper studies the task-oriented text representation technology for improving the tracking performance of topic tracking system.By analyzing the content characteristics of story text,this paper presents a method of representing story text by using double vectors,that is,the named entities in the story form a separate vector.The named entity identification technology is introduced briefly,and the constitution of topic tracking system based on double-vector model is described in detail.The experiment results show that,in topic tracking system,the text representation method of double-vector is more exact than that of single-vector.
Key wordstopic tracking;double-vector model;named entity;text representation
0引言
隨著信息傳播手段的進步,尤其是互聯網的出現,信息急劇膨脹。在這種情況下,如何快捷準確地獲取感興趣的信息成為人們關注的焦點。由于網絡信息量太大,與一個事件話題相關的信息往往孤立地分散在不同的時間段和不同的地方。僅僅通過這些孤立的信息,人們對某些事件難以做到全面地把握。因此,人們迫切地希望擁有一種工具,能夠自動把與特定事件話題相關的信息匯總組織供人查閱。話題識別與跟蹤(Topic Detection and Tracking,TDT)技術就是在這種情況下產生的。話題跟蹤(Topic Tracking)任務是TDT的一個子任務,它的目的是監控新聞信息報道(Story)流識別出與預先給定的幾個新聞報道所表述的話題相關的后續報道[1,2]。話題跟蹤能夠幫助人們把分散的信息有效地匯集并組織起來,從整體上了解一個話題的全部細節[3]。
在話題跟蹤系統中,要有效跟蹤出屬于同一話題的后繼報道,必須尋找出真正具有代表性的特征。本文把報道文本中的特征劃分為2種類型:命名實體NE和非命名實體N。命名實體主要包括人名、地名、機構名和時間等。從直覺上來看,當報道2個不同的火車事故時,事故所發生的時間、地點以及涉及到的人物會有比較大的區分能力。但由于命名實體在文本中出現的頻率一般都比較低,采用傳統的單向量表示文本,往往會使得命名實體所表達的信息被其他無關緊要的高頻信息淹沒掉。
本文采用了雙向量來表示報道文本,該策略的基本思想是對報道文本中的命名實體單獨處理,使其單獨組成一個向量,文本中的非命名實體組成另外一個向量。在跟蹤過程中,使用2個向量來計算已知話題和每個到來報道的相似度,得到2個相似度SimNE和SimN,再將2個相似度加權求和,得到最終的已知話題和報道的相似度Sim。
1命名實體識別
命名實體識別最初是在MUC-6(Message Understanding Conference)上作為一個子任務提出的[4]。命名實體識別任務主要是要識別出文本中的專有名詞和有意義的數量短語并加以歸類[5]。命名實體識別的方法主要分為2大類:基于規則(Rule-based)的方法和基于統計(Statistic-based)的方法[6,7]。本文在實驗中是以分詞后的詞性標注為依據來進行命名實體識別的,主要識別了時間、人名、地名和機構名。只把這4種類型的詞認為是命名實體NE,其余的詞都被認為是非命名實體N。
其中,時間信息代表了事件發生的背景,對于話題跟蹤來說,是一個非常重要的信息。在分詞和詞性標注結果中,時間特征是由連續的詞性標記為“/t”的特征來表示的[8]。因此,可以將2個或多個連續的詞性標記為“/t”的特征合并,實現時間特征的識別。如:“新華社/nt 伊朗/ns 11月/t 6日/t 電/n”,識別出來的時間特征為:“11月6日”。
在分詞和詞性標注結果中,姓和名都是用詞性標記“/nr”來表示的[9],且姓和名分別進行標記。因此,可以將2個或多個連續的詞性標記為“/nr”的詞合并,實現人名實體特征的識別。如:“山崎/nr 龍/nr 一郎/nr”,識別出來的人名特征為“山崎龍一郎”。在對人名識別時,還有一種情況是指代關系,需要將詞還原[10]。在新聞報道的敘述中,主要的事件角色特征詞往往出現很少的次數,有的甚至只出現一次,更多的是利用指代詞對該特征進行引用。下面舉例來說明本文對人名指代關系的處理方法。“王/nr 岳山/nr 目前/t 強調/v…………,/w 王/nr 主任/n 還/c 表示/v……………”,對于“王/nr 主任/n”這樣的格式,表達得很明顯,同樣指的是“王岳山”,如果單獨將“王”作為人名特征提取出來,由于兩者字面上的表現不同,系統會將其作為2個不同的人名來處理。很顯然,這樣會丟失一些信息,因此,需要對“王/nr”進行還原。本文采用的方法是將特征提取出來后,按照音標將其進行排序。上面的句子特征經過排序后就成為:表示(1)強調(1)王(1)王岳山(1)主任(1),然后將“王”還原成“王岳山”,結果就成為:表示(1)強調(1)王岳山(2)主任(1)。從而就實現了人名實體特征的識別。其中,括號內的數字表示特征在當前句子中出現的次數。
同人名一樣,地名和機構名也是2個重要的信息,在分詞結果的詞性標注中地名信息是由“/ns”來標記的,機構名是由“/nt”來標記的。按照詞性標注進行的命名實體識別雖然不是太準確,但其在實驗中也取得了一定的效果。
2系統構建
所謂的雙向量模型就是將文本D用命名實體向量和非命名實體向量2個向量來表示。
2.1話題的雙向量模型
在話題跟蹤任務中,話題T和報道S都可看作文本,使用雙向量表示。在對話題構建雙向量模型時,需要先對訓練樣本中Nt篇報道文本分別建雙向量模型,得到Nt個雙向量模型,即


式中,1≤i≤Nt,wneij(1≤j≤m)和wnih(1≤h≤k)分別表示命名實體fnej和非命名實體fnh在第i篇報道文本中的權重,m表示從訓練樣本中識別出來的命名實體特征的數目,k表示從訓練樣本中選擇的非命名實體特征的數目;最后,利用中心向量空間模型構建得到話題的雙向量模型為:


2.2雙向量模型跟蹤系統的構建
為了驗證雙向量模型在話題跟蹤任務中的有效性,構建了基于雙向量模型的話題跟蹤系統。由上幾節可知,在構建雙向量模型時,其中最關鍵的一步是命名實體識別,命名實體識別的好壞會直接影響到話題跟蹤系統的性能。系統的具體構建步驟如下:
文本預處理:首先對訓練樣本中的報道進行分詞、特征選擇、命名實體識別等預處理;最后,利用中心向量空間模型將已知話題表示為雙向量。
相似度計算:對每個到來的報道進行雙向量表示,采用如下公式計算已知話題和每個到來的報道的相似度:
Sim(S,T)=Sim(SNE,TNE)+αSim(SN,TN)。
式中,Sim(SNE,TNE)表示已知話題的命名實體和后來報道的命名實體之間的相似度;Sim(SN,TN)表示已知話題的非命名實體和后來報道的非命名實體之間的相似度;α(0<α<1)為加權系數,用來實現命名實體和非命名實體的合理組合。
話題跟蹤:對于每個到來的報道S,利用相似度計算公式來計算它與已知話題T的相似度Sim(S,T)[11],按照相似度大小降序排列,顯示跟蹤出來的新聞報道。基于雙向量的話題跟蹤過程圖如圖1所示。

圖1 基于雙向量的話題跟蹤過程
3實驗說明及結果分析
3.1實驗語料
實驗所使用的語料是一個含有2 124篇新聞報道文本的文本集合。該文本集合由基礎文本和話題文本2部分組成,基礎文本部分包含1 987篇文本,這些文本是在數據庫-慧科新聞上下載得到的;話題文本部分包含137篇文本,它們分別屬于25個話題,這些話題新聞報道文本是從新浪網站的專題新聞下載獲取的。
3.2評測機制
在話題識別與跟蹤領域,對一個系統性能的評價主要使用歸一化識別代價(CDet)Norm這一指標。計算如下[12]:

式中,CDet為系統的錯誤識別代價,其計算如下:
CDet=CMiss*PMiss*Ptarget+CFA*PFA*Pnon-target。
式中,CMiss和CFA分別為漏報和誤報的代價,它們的值通常是根據應用預先給定。目前,大多數TDT評測任務中它們分別取1和0.1,即認為漏報的代價要高得多;Ptarget是一個先驗的目標出現概率,表示關于某個話題的新聞報道出現的可能性;Pnon-target=1-Ptarget,它們的值通常也根據具體的應用給出,在TDT評測任務中Ptarget=0.02;Pnon-target=0.98;PMiss和PFA分別是系統跟蹤的漏報率和誤報率,漏報率是指系統沒有跟蹤出來的關于某個話題的新聞報道的數目與語料庫中描述該話題的新聞報道總數之比,而誤報率是指系統對某一話題判斷錯誤的新聞報道的數目與語料庫中沒有描述該話題的新聞報道的總數之比[13]。
3.3加權系數的選取
加權系數α(0<α<1)是話題的非命名實體向量與每個到來的報道的非命名實體向量之間的相似度的加權值,它是用來實現命名實體向量和非命名實體向量的合理組合的。α取值的不同對采用雙向量模型的話題跟蹤系統的性能有很大影響。實驗中,考察了α取0.05~0.9值時話題跟蹤系統性能的變化情況,以0.05為間隔。實驗結果如圖2所示。

圖2 α的不同取值對跟蹤系統性能的影響
從圖2不難看出,當α取0.15時,基于雙向量的話題跟蹤系統的性能最好,系統的歸一化識別代價為0.217 58。隨著α的增大,非命名實體的比重加大,系統的歸一化識別代價也呈上升趨勢,這表明在報道文本中命名實體比非命名實體更具有代表性,對不同的話題具有較大的區分能力。
3.4結果分析
由于用戶耐心閱讀文檔的最大限額是20篇,所以通過考察前20篇的跟蹤結果來評估跟蹤系統性能的好壞。本章選取跟蹤結果前n(n=2、5、8、10、15、20)篇計算出相應的基于單向量與基于雙向量的話題跟蹤系統的歸一化識別代價。構建的話題跟蹤系統是以向量空間模型為基礎。實驗結果如圖3所示。

圖3 系統性能比較
從圖3中可以看出,當參考文檔分別取2、5、8、10、15、20時,基于雙向量的跟蹤系統的歸一化識別代價都小于基于單向量的跟蹤系統的歸一化識別代價。隨著參考文檔的增多,2個系統的歸一化識別代價的差值越來越大。當參考文檔取20時,基于雙向量的跟蹤系統的歸一化識別代價為0.217 58,而基于單向量的跟蹤系統的歸一化識別代價為0.438 05,采用雙向量模型使得話題跟蹤系統的性能提高了50.3%。總的來說,圖3表明了基于雙向量的話題跟蹤系統的性能要好于基于單向量的話題跟蹤系統的性能。換言之,在話題跟蹤中,雙向量的文本示方法比單向量的文本表示方法更準確。
4結束語
基于雙向量模型的話題跟蹤,能夠突出報道文本的內容信息,大大提高了跟蹤系統的性能。但是由于在進行命名實體識別時是根據分詞后的詞性標注來進行識別提取的,會使得識別出來的命名實體很不準確,而且會導致有些命名實體識別不出來。雙向量模型的優點就不能充分體現出來。
目前,話題跟蹤研究領域使用的模型還都是在信息檢索模型的基礎上,通過調整某些參數來使這些技術更適合于話題跟蹤。但是話題跟蹤有其自身的特點,如面向話題和基于時間等,僅僅利用現有信息檢索的方法來進一步提升話題跟蹤系統的性能是很有限的,今后將尋求一些新的直接面向話題跟蹤的方法,使話題跟蹤系統的性能得到一個質的提升。
參考文獻
[1]SUNDHEIM B M.Named Entity Task Definition[J].Version 2.1.In:Proc of the Sixth Message Understanding Conf.,1995,31(5):319-332.
[2]陳勇,張佳驥,吳立德,等.基于數據挖掘的面向話題搜索引擎研究[J].無線電通信技術,2011,27(5):38-40.
[3]李保利,俞士汶.話題識別與跟蹤研究[J] .計算機工程與應用,2003,39(17):6-10.
[4]YANG Yi-ming,CARBONELL J,BROWN R,et al.
Learning Approaches for Detecting and Tracking News Events [J].IEEE Intelligent Systems:Special Issue on Applications of Intelligent Information Retrieval,1999,14(4):32-43.
[5]駱衛華,劉群,程學旗.話題檢測與跟蹤技術的研究[C]∥ 哈爾濱:語言計算與基于內容的文本處理,全國第七屆計算語言學聯合學術會議,2003.
[6]ALLAN J.Topic Detection and Tracking:Event-based Information Organization [M].USA:Kluwer Academic Publishers,2002,1-16.
[7]WAYNE C.Multilingual Topic Detection and Tracking:Successful Research Enabled by Corpora and Evaluation[C]∥Language Resources and Evaluation Conference(LREC),2000:1487-1494.
[8]譚應偉,莫倩.基于Web的有監督自適應話題跟蹤系統的設計與實現[J].鄭州大學學報,2007,39(2):25-29.
[9]周強,段慧明.現代漢語語料庫加工中的切詞與詞性標注處理[J].中國計算機報,1994,21(1):85-87.
[10]張鵬飛,李赟,劉建毅,等.基于相對詞頻的文本特征選擇方法[J].計算機應用研究,2005(4):23-26.
[11]張學亮,陳金勇,陳勇.基于Hadoop云計算平臺的海量文本處理研究[J].無線電通信技術,2014,40(1):54-57.
[12]黃萱菁,夏迎炬,吳立德.基于向量空間模型的文本過濾系統[J].軟件學報,2003,14(3):435-442.
[13]陳勇.一種目標行為序列模式的數據挖掘方法[J].無線電通信技術,2015,41(2):79-81.
劉海娟女,(1981—),碩士研究生。主要研究方向:信號與信息處理。
劉文展男,(1983—),碩士研究生。主要研究方向:地圖學與地理信息系統。
作者簡介
中圖分類號TP311
文獻標識碼A
文章編號1003-3106(2016)02-0027-04
收稿日期:2015-11-23
doi:10.3969/j.issn.1003-3106.2016.02.07
引用格式:劉海娟,劉文展.基于雙向量模型的話題跟蹤[J].無線電工程,2016,46(2):27-30.