999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于層疊模型的話題檢測方法研究

2012-05-15 09:05:16謝林燕張素香戚銀城
關(guān)鍵詞:實(shí)驗(yàn)檢測信息

謝林燕, 張素香, 戚銀城

(1.華北電力大學(xué) 電子與通信工程系 河北 保定 071003; 2.國網(wǎng)信息通信有限公司 北京 100053)

0 引言

隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人類已經(jīng)進(jìn)入了信息爆炸和信息過載的時(shí)代,海量的網(wǎng)絡(luò)媒體信息使得人們在獲取信息時(shí)產(chǎn)生了一種咨詢焦慮,因此,建立以話題為主線的信息組織模式,快速有效地檢測出用戶感興趣的信息成為新的研究熱點(diǎn).話題檢測與跟蹤[1](topic detection and tracking, TDT)技術(shù)就是在這種背景下產(chǎn)生并發(fā)展起來的.話題檢測是TDT測評任務(wù)中的一項(xiàng)任務(wù),它是將新聞數(shù)據(jù)流中的報(bào)道歸入不同的話題,并在必要的時(shí)候建立新話題的技術(shù).

目前,已有很多學(xué)者針對話題檢測展開研究,文獻(xiàn)[2]通過分析大量英文報(bào)道的特征,提出基于內(nèi)容分析的話題檢測算法,通過內(nèi)容分析將話題表示成標(biāo)識中心向量和內(nèi)容中心向量.文獻(xiàn)[3]提出利用計(jì)算時(shí)間相似度和地點(diǎn)相似度進(jìn)行話題檢測,但是沒有將兩者結(jié)合起來.文獻(xiàn)[4]提出了一種時(shí)間相似度和地點(diǎn)相似度計(jì)算方法,并結(jié)合兩者進(jìn)行話題檢測.目前,多數(shù)話題檢測算法是以語法信息為基礎(chǔ)計(jì)算話題和報(bào)道的相似度,最終完成話題檢測任務(wù).然而,影響話題檢測系統(tǒng)性能的一個(gè)重要因素是相似話題[1]的區(qū)分,如兩次不同的海嘯事故,因?yàn)槊枋鲞@些事件的報(bào)道所使用的詞匯大部分是相同的.針對這一問題作者提出了基于層疊模型的話題檢測方法,首先識別話題和報(bào)道中的實(shí)體信息,同時(shí)改進(jìn)時(shí)間相似度和地點(diǎn)相似度的計(jì)算方法,在底層通過計(jì)算文本內(nèi)容相似度進(jìn)行話題檢測,在高層結(jié)合時(shí)間相似度和地點(diǎn)相似度,融合三類相似度的計(jì)算結(jié)果作為最后的判別標(biāo)準(zhǔn),以此來克服相似話題難以區(qū)分的問題.實(shí)驗(yàn)結(jié)果表明,該方法很好地提高了檢測精度.

1 構(gòu)建話題檢測系統(tǒng)

提出的話題檢測系統(tǒng)如圖1所示,主要包括建立新聞報(bào)道模型與話題模型、基于層疊模型的話題檢測方法和話題檢測算法3部分.

1.1 建立新聞報(bào)道模型與話題模型

1.1.1預(yù)處理與報(bào)道模型 文本預(yù)處理包括分詞和去停用詞兩部分.分詞是自然語言處理研究的出發(fā)點(diǎn),本系統(tǒng)首先對輸入的文本進(jìn)行分詞,然后為了降低后續(xù)處理流程的復(fù)雜度,提高檢測精度,要去除停用詞.

(1)

(2)

其中,tfi是termi在報(bào)道S中的詞頻,N是所有已輸入報(bào)道的總數(shù),ni是N篇報(bào)道中含有termi的報(bào)道的數(shù)量.

圖1 話題檢測系統(tǒng)框圖Fig.1 Topic detection system chart

1.1.2話題模型 話題模型通常以質(zhì)心表示,而質(zhì)心也是通過向量空間模型描述的,因此,通過提取特征和計(jì)算特征權(quán)值將特定話題表示為質(zhì)心.從已收集的話題語料中隨機(jī)抽取若干篇作為訓(xùn)練語料形成相應(yīng)話題,采用基于文檔頻率的方法選取文本特征.文檔頻率主要是統(tǒng)計(jì)所有不同詞在話題中的文檔的頻次,并將這些詞按照其頻次的高低順序排列,在該排列中抽取特定數(shù)目的詞作為話題特征項(xiàng).話題特征項(xiàng)的權(quán)重計(jì)算方法如下:

(3)

其中,weight(term,T)表示特征項(xiàng)term在話題T中的權(quán)重;Si是話題T中包含的新聞報(bào)道;N為話題T包含新聞報(bào)道的總數(shù)量;ω(term,Si)是特征項(xiàng)term在Si中的權(quán)重值.

1.2 基于層疊模型的話題檢測方法

一個(gè)事件涉及到的時(shí)間、地點(diǎn)信息在解決相似話題難以區(qū)分的問題中起著不可忽視的作用.作者提出了基于層疊模型的話題檢測方法,多層次、多角度地分析話題和報(bào)道中的相似性,將基于baseline模型[2]的計(jì)算結(jié)果作為底層檢測,在高層結(jié)合時(shí)間、地點(diǎn)信息的相似度,三類相似度融合的結(jié)果用于完成話題檢測任務(wù).

1.2.1話題和報(bào)道的內(nèi)容相似度計(jì)算 采用夾角余弦函數(shù)作為內(nèi)容相似度的計(jì)算方法.假設(shè)報(bào)道S與話題T的向量空間模型分別為S=(ws1,ws2,…,wsn)和T=(wt1,wt2,…,wtn),那么報(bào)道S與話題T的相似度計(jì)算公式為

(4)

1.2.2話題和報(bào)道的地點(diǎn)相似度計(jì)算 對文獻(xiàn)[4]提出的地點(diǎn)相似度的計(jì)算方法進(jìn)行了改進(jìn),首先建立與話題相關(guān)的地點(diǎn)詞典,將話題中涉及的重要地點(diǎn)信息收集到該詞典中,形成話題地點(diǎn)向量,然后提取報(bào)道的地點(diǎn)信息形成報(bào)道地點(diǎn)向量,進(jìn)行地點(diǎn)相似度計(jì)算,計(jì)算公式為

(5)

其中,mi為該話題的地點(diǎn)向量,mj為新聞報(bào)道Si的地點(diǎn)向量.

1.2.3話題和報(bào)道的時(shí)間相似度計(jì)算 時(shí)間信息在自然語言處理相關(guān)領(lǐng)域中起著重要的作用[6].在話題檢測中,可以利用時(shí)間信息判斷報(bào)道是否與某話題的后續(xù)報(bào)道相關(guān),當(dāng)報(bào)道時(shí)間與話題事件發(fā)生的時(shí)間差距增大時(shí),認(rèn)為兩者之間的相關(guān)性減弱,因此將這一特點(diǎn)融入了話題檢測中.作者改進(jìn)了文獻(xiàn)[4]中提出的時(shí)間相似度計(jì)算方法,利用新聞報(bào)道的發(fā)布時(shí)間與話題事件的發(fā)生時(shí)間差來表示話題和后續(xù)報(bào)道之間的相關(guān)性.算法改進(jìn)后,緩解了相似話題難以區(qū)分的問題.為完成該任務(wù),必須將報(bào)道和話題中的時(shí)間信息規(guī)范化,精確到天,時(shí)間信息的格式為:2010-11-23,計(jì)算公式為

sim(ti,tj)=-|ti-tj|,

(6)

其中,ti為新聞報(bào)道Si發(fā)布的時(shí)間,tj為話題事件T發(fā)生的時(shí)間.

1.2.4基于層疊模型的話題與報(bào)道相似度計(jì)算 將基于文本內(nèi)容、時(shí)間、地點(diǎn)計(jì)算出的相似度加以融合,通過線性組合的方式得到最終的相似度,計(jì)算公式為

sim(Si,T)=cos(Si,T)+αsim(mi,mj)-βsim(ti,tj),

(7)

其中,α與β為設(shè)定的參數(shù).本實(shí)驗(yàn)中,α=0.4,β=0.000 1.

1.3 話題檢測算法

以Single-Pass聚類策略為基礎(chǔ)實(shí)現(xiàn)話題檢測算法,該算法按新聞報(bào)道輸入的先后順序依次處理信息流中的報(bào)道,直到所有的報(bào)道處理完畢,具體過程如下:

1)對新聞報(bào)道進(jìn)行預(yù)處理,然后利用1.1.1節(jié)和1.1.2節(jié)中的特征權(quán)重計(jì)算方法計(jì)算報(bào)道和話題中各個(gè)詞的權(quán)重值,分別建立報(bào)道模型和話題模型.

2)計(jì)算新聞報(bào)道與話題的相似度,與預(yù)設(shè)的閾值進(jìn)行比較,報(bào)道與話題的相似度高于閾值,則判定該報(bào)道與話題相關(guān),否則判定該報(bào)道與話題不相關(guān).

3)重復(fù)上述過程直到信息流中的所有報(bào)道都處理完畢.

2 實(shí)驗(yàn)結(jié)果與分析

2.1 評價(jià)指標(biāo)

實(shí)驗(yàn)采用的性能指標(biāo)為正確率(P)、召回率(R)和F1測試值,計(jì)算公式如下:

2.2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

采用從互聯(lián)網(wǎng)收集到的新聞報(bào)道作為評測語料,該語料包含725篇中文報(bào)道,定義了包括韓朝開戰(zhàn)、韓國前總統(tǒng)金大中去世、法國總統(tǒng)薩科齊訪華、云南盈江地震、索馬里海盜、韓國羅老號火箭墜毀等10個(gè)話題.隨機(jī)選取4篇與韓朝開戰(zhàn)相關(guān)的新聞報(bào)道作為訓(xùn)練語料,構(gòu)建話題模型,剩余721篇新聞報(bào)道作為測試語料,其中選取韓朝開戰(zhàn)事件作為本次實(shí)驗(yàn)的相關(guān)話題,其余話題作為與該話題不相關(guān)的反例話題,共計(jì)220篇報(bào)道.

設(shè)計(jì)了如下3個(gè)實(shí)驗(yàn):

實(shí)驗(yàn)一 采用基于傳統(tǒng)TF-IDF權(quán)重計(jì)算的baseline模型完成話題檢測任務(wù);

實(shí)驗(yàn)二 采用基于歸一化TF-IDF權(quán)重計(jì)算的baseline模型完成話題檢測任務(wù);

實(shí)驗(yàn)三 采用基于層疊模型完成話題檢測任務(wù).

實(shí)驗(yàn)對比結(jié)果見表1.

表1 實(shí)驗(yàn)結(jié)果Tab.1 Experimental results

由上述實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論:

1)通過設(shè)定不同的相似度閾值發(fā)現(xiàn),隨著該值的增大,正確率提高,召回率下降.

2)通過比較實(shí)驗(yàn)一和實(shí)驗(yàn)二的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)二中構(gòu)建的系統(tǒng)模型的召回率在同等實(shí)驗(yàn)條件下均高于實(shí)驗(yàn)一,同時(shí)F1測試值與實(shí)驗(yàn)一相比,也有所改進(jìn),這說明基于歸一化TF-IDF權(quán)重計(jì)算的baseline系統(tǒng)模型的檢測性能優(yōu)于基于傳統(tǒng)TF-IDF權(quán)重計(jì)算的baseline模型.

3)通過比較實(shí)驗(yàn)二和實(shí)驗(yàn)三的實(shí)驗(yàn)結(jié)果,基于歸一化TF-IDF權(quán)重計(jì)算的baseline模型的話題檢測方法的性能指標(biāo),在同等條件下低于結(jié)合新聞特征的檢測結(jié)果,這說明將時(shí)間和地點(diǎn)信息應(yīng)用到話題檢測中是一種行之有效的方法.

對實(shí)驗(yàn)結(jié)果進(jìn)行分析可知,未能正確檢測識別新聞報(bào)道的原因主要有以下3種:

1)實(shí)驗(yàn)設(shè)定的反例中,存在與目標(biāo)話題類似的話題語料,如“韓國前總統(tǒng)金大中去世”和“韓國羅老號火箭墜毀”兩個(gè)事件中,均涉及到韓國的一些地名(如“首爾”、“青瓦臺”等),它們在兩個(gè)不同的話題中均出現(xiàn),造成結(jié)果誤判.

2)實(shí)驗(yàn)中存在部分與目標(biāo)話題相關(guān)的新聞報(bào)道,語料篇幅偏短,涉及到的特征不夠明顯,因此在相似度計(jì)算中,計(jì)算結(jié)果偏低,隨著相似度閾值的提高,對這部分相關(guān)語料就會誤判.

3)實(shí)驗(yàn)語料中涉及一些關(guān)鍵人名,如“韓朝開戰(zhàn)”事件中出現(xiàn)的官員名稱“崔泰福”、“金星煥”等,對于區(qū)分相似話題可以起到作用,作者未對關(guān)鍵人名進(jìn)行考慮.

3 結(jié)論

提出了基于層疊模型的話題檢測方法.該方法通過分析新聞報(bào)道語料的特點(diǎn),充分考慮了報(bào)道中地點(diǎn)、時(shí)間等信息,并結(jié)合基于baseline模型的相似度計(jì)算結(jié)果,將三類相似度的計(jì)算結(jié)果進(jìn)行線性組合,以此結(jié)果為依據(jù),進(jìn)行報(bào)道和話題的相似度檢測,從而完成話題檢測任務(wù).實(shí)驗(yàn)結(jié)果表明,基于層疊模型的話題檢測方法能夠提高檢測性能指標(biāo).

參考文獻(xiàn):

[1] 洪宇,張宇,劉挺,等.話題檢測與跟蹤的評測及研究綜述[J].中文信息學(xué)報(bào),2007,21(6):71-87.

[2] 趙華,趙鐵軍,張姝,等.基于內(nèi)容分析的話題檢測研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2006,38(10):1740-1743.

[3] Jin Y,Myaeng S H,Jung Y. Use of place information for improved event tracking[J].Information Processing and Management,2007,43(2):365-378.

[4] 薛曉飛,張永奎,任曉東.基于新聞要素的新事件檢測方法研究[J].計(jì)算機(jī)應(yīng)用,2008,28(11):2975-2977.

[5] 劉海峰,王元元,劉守生.一種組合型中文文本分類特征選擇方法[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版, 2007, 25(4):208-211.

[6] Li Baoli, Li Wenjie, Lu Qin.Topic tracking with time granularity reasoning[J]. ACM Transactions on Asian Language Information Processing,2006,5(4):388-412.

猜你喜歡
實(shí)驗(yàn)檢測信息
記一次有趣的實(shí)驗(yàn)
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
做個(gè)怪怪長實(shí)驗(yàn)
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
小波變換在PCB缺陷檢測中的應(yīng)用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 精品伊人久久久大香线蕉欧美| 免费人成又黄又爽的视频网站| 精品久久久久成人码免费动漫| 国产白浆在线| 草草线在成年免费视频2| 日本一区二区不卡视频| 日韩午夜片| 欧美日韩激情在线| 免费三A级毛片视频| 亚洲αv毛片| 真人高潮娇喘嗯啊在线观看| 毛片网站在线看| 国产成人一区免费观看| 日本三级精品| 婷婷六月综合| 精品国产自在在线在线观看| 欧美日韩一区二区在线免费观看| 在线精品欧美日韩| 亚洲中文无码av永久伊人| 不卡网亚洲无码| 全裸无码专区| 亚洲精品成人7777在线观看| 三区在线视频| 91视频日本| 国产毛片一区| 九色国产在线| 亚洲日韩精品欧美中文字幕| 国产精品久久久久无码网站| 国产精品久久自在自2021| 毛片大全免费观看| 亚洲天堂视频网| 亚洲国产精品不卡在线| 日韩毛片免费观看| 亚洲精品视频免费看| 国产亚洲欧美在线视频| 青青青国产免费线在| 免费人成黄页在线观看国产| 国产午夜人做人免费视频中文| 国产av一码二码三码无码| 午夜小视频在线| 少妇被粗大的猛烈进出免费视频| 欧美性久久久久| 久久久91人妻无码精品蜜桃HD| 亚洲男人的天堂久久精品| 久久性视频| 免费人成视频在线观看网站| 无码AV动漫| 国产日韩欧美一区二区三区在线| 亚洲无限乱码| 亚洲国产精品日韩欧美一区| 专干老肥熟女视频网站| 欧美一区国产| 午夜日本永久乱码免费播放片| 亚洲欧美色中文字幕| 欧美午夜在线播放| 亚洲成在人线av品善网好看| 色一情一乱一伦一区二区三区小说 | 亚洲AV人人澡人人双人| 久久精品人妻中文系列| 99这里精品| 国产毛片基地| 日韩高清欧美| 久久精品人人做人人综合试看| 无码中文字幕精品推荐| 在线视频精品一区| 亚洲啪啪网| 国产成人高清精品免费| 91成人精品视频| 成人福利在线看| 久久精品人妻中文视频| 国产精品美女免费视频大全| 青青草综合网| 在线毛片免费| 在线a视频免费观看| 国产成人精品一区二区三区| 国产av剧情无码精品色午夜| 亚洲第一黄色网址| 亚洲色图欧美| 国产麻豆福利av在线播放| 91av成人日本不卡三区| 亚洲色图欧美| 亚欧美国产综合|