999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

相容商空間粒度下的話題識別與跟蹤

2011-12-31 00:00:00王艷茹溫長峰洪曉蕾
中國管理信息化 2011年14期

[摘要] 本課題以話題識別與跟蹤為研究內容,根據相容關系集和距離函數形成話題層次結構,利用相容隸屬函數對不確定邊界文本進行話題確認,形成帶有明確話題標注信息的語料。以此建立話題識別與跟蹤體系,為相關部門實時、精確掌握網絡輿情提供理論支撐和方法指引。

[關鍵詞] 話題識別與跟蹤; 相容商空間粒度; 語料

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 14. 045

[中圖分類號]TP391.1 [文獻標識碼]A [文章編號]1673 - 0194(2011)14- 0077- 02

1引言

話題識別與跟蹤作為輿情分析的重要組成部分,仍有許多需要解決的問題。在話題識別與跟蹤方面,涉及聚類策略的選擇大都基于硬聚類過程,所得聚類簇中的文本對象是無層次的確定聚類結果。無層次結構造成話題結構的混亂。由于有些邊界文本對象無法準確地劃分到某一個簇,造成對這些文本無法進行較準確判斷,降低了話題識別的精度。

本課題基于相容商空間粒度下的軟聚類算法,定義相容關系集I和距離函數dis(α,β),確認聚類的重心點集合,計算距離函數dis(α,β),并與距離半徑di進行比較,在相容商空間粒度下對文檔集進行反復合成與分解,同時動態形成聚類重心點集合;利用相容隸屬函數μ(Xj,X) = | I(Xj)∩X | / I(Xj)對邊界文本進行話題確認,形成帶有明確話題標注信息的語料。本課題在相容商空間粒度下對話題進行識別和跟蹤,使得在識別和跟蹤過程中易于實現話題層次的劃分及處理容錯文本的能力,提高話題識別與跟蹤的效率和精度。

2相容商空間粒度下的話題識別與跟蹤

2.1國內外研究現狀

話題識別與跟蹤為話題傾向性分析的基礎。文獻[1]訓練一項表征話題演化周期的閾值,檢測后續報道與話題模型內最新事件的時間差是否高于該閾值,將滿足這一條件的報道作為話題演化的邊界;文獻[2]的時間“覆蓋矩陣”將相關性匹配雙方的時間信息統一為標準格式,分別映射于橫縱時間軸上的點,基于對角線檢測所有同步點及其時間間隔,在此基礎上以所有間隔的覆蓋率描述匹配雙方時序關系的相似性。然而,目前的聚類方法確定的聚類結果多是無層次的,無層次的話題結構會造成話題混亂。

2.2我們的工作

在相容商空間粒度下,根據相容關系集和距離函數,確認聚類的重心點集合,在相容商空間粒度下對文檔集進行反復合成與分解,形成話題的層次結構,同時動態形成聚類重心點集合;利用相容隸屬函數對邊界文本進行話題確認,形成帶有明確話題標注信息的語料。

2.2.1不同相容商空間粒度的獲取

定義1:令[X] = {[x]I | x∈X},稱[X]是關于相容關系I的相容商空間。

根據相容關系定義距離函數,假設α, β, γ是論域X中的3個n維向量,dis(α,β)是一個距離函數。作為一個距離函數,dis(α,β)應該滿足下列特征:

(1) dis(α,β) ≥ 0

(2) dis(α,α) = 0

(3) dis(α,β) = dis(β,α)

(4) dis(α,β) ≤ dis(α,γ) + dis(γ,β)

顯然dis(α,β) ≤ d是一個相容關系,其中d ≥ 0,稱d為距離函數dis(α,β)的半徑。

如此把相容關系I與距離函數dis(α,β) ≤ d建立了一一對應關系。

定義2:設I1和I2∈I,對于任意x,y∈X都有xI2y ?圯xI1y,那么就稱I2比I1細,記作I1 < I2。

一個n層的層次結構對應的n個相應的相容關系就有如下的相容序關系:

I0 < I1 < I2 < … < In

相容距離函數表示n層的層次結構對應的距離半徑有如下序關系:

d0 > d1 > d2 > … > dn > 0

設Ii對應的相容商集為[X]i(i = 0,…,n),則不同層次粒度論域集有如下的相容序關系:

[X]0 < [X]1 < [X]2 < … < [X]n

2.2.2相容商空間粒度下的軟聚類

(1) 選取初始k個樣本X = {X1,X2,…,Xk}為樣本的重心點集合, d0是相容距離半徑。

(2) 計算dis(Xi,Xj)(i∈(1,2,…,k),j∈(1,2,…,n)),判斷dis(Xi,Xj)與d0的關系。

(3) 當dis(Xi,Xj) ≤ d0時,表示Xi,Xj屬于同一類,如此計算所有樣本與重心的距離,并與距離半徑進行比較。

(4) 采用相容商空間粒度分析法對聚類結果進行分析,相容商空間粒度的確定過程是一個不斷分析比較、動態調整樣本重心點的過程,這個過程稱為相容商空間粒度分析。在實際求解中,可采用合并和分解法來調整粒度,實現層次劃分。

(5) 對于邊界距離dis(Xi,Xj) = di表示Xj在兩個簇中同時存在,利用相容隸屬函數μ(Xj,X) = | I(Xj)∩X | / I(Xj)判斷Xj屬于哪個簇。如此反復,達到軟聚類結果。

如此,距離函數和相容關系建立了一一對應關系,經過不斷對相容商空間粒度的合成與分解及對邊界對象的隸屬處理,形成軟聚類結果,解決了話題層次及不確定邊界的問題。

2.2.3話題識別與跟蹤

把經過解析的Web語料中的XML文檔集表示為向量空間模型D ={D1,D2,…,Dr},其中Di表示第i篇文檔的向量空間:Di = {(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…},wij表示文檔Di中第j個詞匯Tij的權重值。對于文檔向量空間進行降維處理,形成n維文檔向量空間集,其中D = {D′1,D′2,…,D′r},其中D′i = {(T′i1,wi1),(T′i2,wi2),…,(T′in,win)}(n < m)。利用軟聚類算法對文檔集D進行話題識別,形成層次話題集TP = {tp1,tp2,…,tps}。在聚類過程中,動態形成話題重心點向量集C = {c1,c2, …,cs}。根據話題tpi中的所有文檔向量集tpi = {di1,di2,…,dic},對XML文檔集中話題節點的標注信息進行更新。

話題跟蹤是話題識別的繼續,是在確定的話題基礎上,在話題監督的作用下動態跟蹤的過程。針對帶有明確標注的層次化話題集TP = {(tp1,name1),(tp2,name2),…,(tps,names)}以及文檔重心點集C = {c1,c2,…,cs},對新報道向量空間F,利用軟聚類算法對F進行分類。首先計算F與文檔重心點集距離函數dis(F,C),然后與確定的距離半徑dr比較,確認F屬于哪一類話題。如果dis(F,C) > dr,則以F為重心點,作為新話題加入新層次話題集TP = {(tp1,name1),(tp2,name2),…,(tps,names),(F,namef)},同時更新語料中對應的XML文檔的話題節點的標注信息。

主要參考文獻

[1] 趙華,趙鐵軍,于浩,張姝. 面向動態演化的話題檢測研究[J]. 高技術通訊,2006,16(12):1230-1235.

[2] 宋丹,王衛東,陳英. 基于改進向量空間模型的話題識別跟蹤[J]. 計算機技術與發展,2006,16(9).

主站蜘蛛池模板: 毛片免费在线视频| 欧美精品成人一区二区在线观看| 国产成人一区| 日日拍夜夜操| 日韩av无码精品专区| 搞黄网站免费观看| 日韩精品欧美国产在线| 五月婷婷综合网| 999国产精品| 国产特一级毛片| 人人爱天天做夜夜爽| AV无码国产在线看岛国岛| 天天做天天爱夜夜爽毛片毛片| 中文字幕在线观| 在线观看欧美精品二区| 天堂成人在线视频| 又粗又大又爽又紧免费视频| 欧美精品v日韩精品v国产精品| 青青极品在线| 欧美亚洲日韩不卡在线在线观看| 国产精品丝袜视频| 无码av免费不卡在线观看| 欧美精品v| 18黑白丝水手服自慰喷水网站| 999精品视频在线| 片在线无码观看| 国产高清不卡视频| 美女扒开下面流白浆在线试听 | 在线国产你懂的| 国产成人欧美| 自慰网址在线观看| 亚洲欧美极品| 日本欧美视频在线观看| 国产成人夜色91| 久久综合亚洲鲁鲁九月天| 久久久久亚洲AV成人人电影软件| 天天干伊人| 国产成人精品一区二区不卡 | 2018日日摸夜夜添狠狠躁| 久久综合成人| 国内精品一区二区在线观看| 亚洲精品在线观看91| 在线观看91精品国产剧情免费| 黄片一区二区三区| 亚洲,国产,日韩,综合一区 | 黄色国产在线| 欧美成在线视频| 狠狠色综合久久狠狠色综合| 理论片一区| 制服丝袜 91视频| 欧美激情首页| 激情综合网址| 欧美激情首页| 狠狠色丁香婷婷综合| 中文字幕在线一区二区在线| 9久久伊人精品综合| 国产激情无码一区二区免费 | 一级毛片在线播放| 拍国产真实乱人偷精品| 日本午夜影院| 国产一区免费在线观看| 欧美亚洲香蕉| 免费av一区二区三区在线| 国产a在视频线精品视频下载| 亚洲av日韩av制服丝袜| 国产亚洲精久久久久久久91| 日本人又色又爽的视频| 精品人妻一区二区三区蜜桃AⅤ| 久久九九热视频| 免费在线国产一区二区三区精品| 国产亚洲日韩av在线| 亚洲无码精彩视频在线观看| 欧美激情第一欧美在线| 蜜芽一区二区国产精品| 亚洲国产成人超福利久久精品| 国产中文一区二区苍井空| 国产网友愉拍精品视频| 72种姿势欧美久久久大黄蕉| 久久青草热| 国产亚洲精品自在线| 国产资源免费观看| 色综合久久88|