999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向熱點(diǎn)話(huà)題檢測(cè)的增量文本聚類(lèi)算法①

2022-09-20 04:11:44胡偉華
關(guān)鍵詞:文本檢測(cè)

郭 瑩, 薛 濤, 胡偉華

1(西安工程大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 西安 710600)

2(西安工程大學(xué) 人文社會(huì)科學(xué)學(xué)院, 西安 710600)

1 引言

隨著大數(shù)據(jù)時(shí)代的飛速發(fā)展, 如何能夠快速、及時(shí)地從大量的網(wǎng)絡(luò)新聞信息中發(fā)現(xiàn)熱點(diǎn)話(huà)題已經(jīng)成為當(dāng)前研究的熱點(diǎn). 話(huà)題檢測(cè)[1]作為一種有效的能夠自動(dòng)從大量網(wǎng)絡(luò)數(shù)據(jù)流中挖掘重要信息的研究方法, 在信息檢索[2]、輿情監(jiān)督[3]、輿情預(yù)測(cè)[4]等方面有著廣泛的應(yīng)用場(chǎng)景. 如監(jiān)測(cè)和把握中國(guó)在國(guó)際上的受關(guān)注領(lǐng)域和程度, 為中國(guó)政府調(diào)整外交策略和媒體建構(gòu)海外中國(guó)形象獻(xiàn)計(jì)獻(xiàn)策, 具有重要的研究意義.

文本的話(huà)題檢測(cè)任務(wù)主要分為文本表示和文本聚類(lèi)兩個(gè)重要部分. 在文本表示方面, 文中以L(fǎng)DA2Vec主題模型[5]為基礎(chǔ), 結(jié)合LDA模型[6]注重全局文本語(yǔ)義特征和Word2Vec模型[7]注重局部文本語(yǔ)義特征的優(yōu)勢(shì), 將主題向量和詞向量融合到同一語(yǔ)義空間中形成嵌入式向量模型, 進(jìn)而學(xué)習(xí)主題, 產(chǎn)生的主題詞可解釋性更強(qiáng), 更注重上下文語(yǔ)義相似度, 同時(shí)也解決了文本特征維度過(guò)高的問(wèn)題. 但文本表示模型僅考慮了提取隱含語(yǔ)義主題的準(zhǔn)確性, 沒(méi)有考慮到全部文本信息,且話(huà)題的凝聚度不高, 由此, 本文在文本表示的基礎(chǔ)上,利用文本聚類(lèi)算法, 對(duì)數(shù)據(jù)進(jìn)行熱點(diǎn)話(huà)題聚類(lèi).

采用增量文本聚類(lèi)思想, 不需要重新對(duì)全部數(shù)據(jù)進(jìn)行訓(xùn)練, 可以更全面、更高效地對(duì)動(dòng)態(tài)實(shí)時(shí)增長(zhǎng)的數(shù)據(jù)流進(jìn)行熱點(diǎn)話(huà)題聚類(lèi). 目前廣泛應(yīng)用的增量文本聚類(lèi)算法如Single-Pass算法[8], 由于其實(shí)現(xiàn)簡(jiǎn)單、高效且不需要提前設(shè)定聚類(lèi)類(lèi)別數(shù)量的優(yōu)勢(shì), 被許多學(xué)者研究并改進(jìn), 文獻(xiàn)[9]通過(guò)對(duì)已經(jīng)標(biāo)注的話(huà)題類(lèi)別和時(shí)間間隔較遠(yuǎn)的文檔類(lèi)別增加時(shí)間參數(shù)動(dòng)態(tài)閾值, 證明了不同文檔順序?qū)垲?lèi)效果的影響. 文獻(xiàn)[10]提出了一種通過(guò)調(diào)整關(guān)鍵詞權(quán)重降低文本噪聲, 將上下文和相似度矩陣相結(jié)合的關(guān)聯(lián)模型, 從而提升算法的話(huà)題挖掘速度. 文獻(xiàn)[11]在文本特征詞選取時(shí), 以權(quán)重系數(shù)表達(dá)特征詞位置, 并引入了子話(huà)題判斷, 得到了不同粒度的話(huà)題聚類(lèi)效果. 文獻(xiàn)[12]在余弦相似度的基礎(chǔ)上, 考慮從取值和方向兩方面改進(jìn)余弦相似度, 從而提高話(huà)題發(fā)現(xiàn)的算法正確率. 上述方法在一定程度上提高了話(huà)題聚類(lèi)的精度, 但隨著數(shù)據(jù)規(guī)模的增長(zhǎng), 時(shí)間復(fù)雜度也急劇增長(zhǎng), 尤其針對(duì)動(dòng)態(tài)增長(zhǎng)的數(shù)據(jù)流, 話(huà)題檢測(cè)的準(zhǔn)確率依然較低, 同時(shí)還會(huì)影響到相似度計(jì)算結(jié)果準(zhǔn)確率.

鑒于此, 本文提出一種面向熱點(diǎn)話(huà)題檢測(cè)的增強(qiáng)文本聚類(lèi)算法(Single Pass-hot topic detection, SP-HTD).以Single-Pass算法思想為基礎(chǔ), 從文本表示、文本聚類(lèi)和相似度計(jì)算3個(gè)方面進(jìn)行了改進(jìn), 并通過(guò)爬取并預(yù)處理《紐約時(shí)報(bào)》《泰晤士報(bào)》《朝日新聞》等10個(gè)國(guó)際主流媒體中的涉華報(bào)道作為數(shù)據(jù)集, 與多個(gè)聚類(lèi)算法進(jìn)行對(duì)比實(shí)驗(yàn). 結(jié)果表明, 在保證聚類(lèi)精度的前提下, 所提算法能夠取得更優(yōu)的話(huà)題檢測(cè)效果, 可以有效提升聚類(lèi)算法對(duì)新文本的反應(yīng)能力.

2 SP-HTD增量文本聚類(lèi)算法

2.1 問(wèn)題的提出

傳統(tǒng)的Single-Pass算法是一種流式處理文本數(shù)據(jù)的聚類(lèi)算法, 根據(jù)文檔輸入的先后順序, 依次比較要輸入的新文本數(shù)據(jù)與已有類(lèi)簇的文本相似度來(lái)進(jìn)行劃分聚類(lèi), 不需要每次對(duì)整個(gè)文檔集合重新聚類(lèi), 具有實(shí)現(xiàn)便捷、易于理解和應(yīng)用廣泛的特點(diǎn). 它的基本流程是首先將輸入的第一篇文檔作為話(huà)題聚類(lèi)的首個(gè)類(lèi)簇,并設(shè)定一個(gè)初始的文本相似度閾值, 然后計(jì)算要加入的新文本數(shù)據(jù)與已有的各個(gè)類(lèi)簇文檔的相似度, 如果該相似度大于初始的相似度閾值, 就把該文本歸為當(dāng)前聚類(lèi)類(lèi)簇, 否則以該文檔為聚類(lèi)中心增加一個(gè)新類(lèi)簇, 直到所有的文檔數(shù)據(jù)處理完畢, 結(jié)束話(huà)題聚類(lèi)過(guò)程.其處理流程如圖1所示.

圖1 Single-Pass算法處理流程

在文本聚類(lèi)的過(guò)程中, Single-Pass聚類(lèi)算法對(duì)整個(gè)文檔集合只需要遍歷一次, 根據(jù)數(shù)據(jù)實(shí)時(shí)情況聚類(lèi),不需要給定初始聚類(lèi)類(lèi)別的個(gè)數(shù), 所以邏輯簡(jiǎn)單且執(zhí)行效率高. 但該算法也存在一定的缺陷, 主要體現(xiàn)在以下兩點(diǎn): (1)對(duì)文本數(shù)據(jù)的輸入順序過(guò)于敏感, 文檔的輸入順序會(huì)影響文本聚類(lèi)的結(jié)果. (2)對(duì)新文檔類(lèi)簇劃分時(shí), 需要逐一比較文本相似度, 隨著文檔和類(lèi)簇的增加, 未及時(shí)淘汰舊的類(lèi)簇, 會(huì)導(dǎo)致算法計(jì)算復(fù)雜度增加,影響聚類(lèi)效率.

2.2 算法框架

熱點(diǎn)話(huà)題檢測(cè)是以話(huà)題為粒度, 考慮語(yǔ)料的實(shí)時(shí)性和數(shù)據(jù)來(lái)源等因素, 利用文本聚類(lèi)算法去發(fā)現(xiàn)新的熱點(diǎn)事件, 將同一話(huà)題下的新聞報(bào)道聚合到同一類(lèi)簇下, 生成不同的聚類(lèi)類(lèi)別, 從而可以更好的組織新聞事件, 了解事件的進(jìn)展. 處理流程如圖2所示.

圖2 話(huà)題檢測(cè)處理流程圖

本文在文本表示模型的基礎(chǔ)上, 改進(jìn)Single-Pass增量文本聚類(lèi)算法發(fā)現(xiàn)新熱點(diǎn)話(huà)題. 首先通過(guò)解析LDA2Vec主題模型, 聯(lián)合訓(xùn)練文檔向量和詞向量, 獲得語(yǔ)料數(shù)據(jù)的主題分布, 用來(lái)解決在文本聚類(lèi)過(guò)程中產(chǎn)生的文本特征維數(shù)高和數(shù)據(jù)稀疏的問(wèn)題, 然后基于Single-Pass算法進(jìn)行初始化聚類(lèi), 引入時(shí)間閾值, 確定類(lèi)簇的時(shí)效性, 最后將挖掘的文本語(yǔ)義特征和熱點(diǎn)話(huà)題檢測(cè)任務(wù)相結(jié)合, 動(dòng)態(tài)優(yōu)化類(lèi)簇中心, 進(jìn)行迭代聚類(lèi),并在文本相似度方面, 以新聞報(bào)道時(shí)間特性為輔, 優(yōu)化文本相似度計(jì)算方法, 改善Single-Pass算法的缺陷. 主要改進(jìn)內(nèi)容分為文本表示、文本相似度和文本聚類(lèi)3個(gè)部分.

2.3 聯(lián)合訓(xùn)練文本表示

在熱點(diǎn)話(huà)題聚類(lèi)過(guò)程中, 需要用文本表示模型來(lái)表示新聞事件. 傳統(tǒng)的LDA及其改進(jìn)模型[13-15]存在主題語(yǔ)義一致性較弱和準(zhǔn)確率較低等問(wèn)題. 本文依據(jù)文獻(xiàn)[16]提出的NS-LDA2Vec主題模型, 在考慮詞語(yǔ)信息和主題信息的基礎(chǔ)上, 使用LDA和Word2Vec模型對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練, 然后解析LDA2Vec模型的核心算法, 迭代學(xué)習(xí)語(yǔ)料中含有主題信息的文檔向量, 最后聯(lián)合訓(xùn)練該文檔向量與Word2Vec訓(xùn)練的詞向量得到上下文向量, 利用上下文向量完成熱點(diǎn)主題識(shí)別任務(wù).主要分為詞向量表示和文檔向量表示兩個(gè)部分.

在詞向量表示部分, 根據(jù)Skip-gram負(fù)采樣思想[17]訓(xùn)練得到文本的詞向量表示, 采用文獻(xiàn)[7]提出的移動(dòng)窗口形式來(lái)掃描數(shù)據(jù)集, 通過(guò)對(duì)模型多次迭代訓(xùn)練, 對(duì)窗口參數(shù)進(jìn)行調(diào)優(yōu), 文中將滑動(dòng)窗口的大小設(shè)置為5,即包含中樞詞在內(nèi)的5個(gè)單詞, 然后動(dòng)態(tài)移動(dòng)窗口, 利用選定的中樞詞來(lái)預(yù)測(cè)鄰近窗口內(nèi)出現(xiàn)的目標(biāo)詞, 從而學(xué)習(xí)文本的上下文和主題信息, 學(xué)習(xí)的上下文向量表示表現(xiàn)的更為密集. 文檔向量表示部分主要包括文檔權(quán)重向量和主題向量的計(jì)算. 文檔權(quán)重向量表示文檔中各個(gè)主題的重要性. 主題向量是通過(guò)調(diào)節(jié)文檔權(quán)重來(lái)更新主題強(qiáng)度. 初始化語(yǔ)料庫(kù)中文檔的權(quán)重向量時(shí), 通過(guò)約束文檔向量生成一組潛在主題向量計(jì)算公式如式(1)所示:

其中, Pjk表 示單個(gè)文檔中不同主題的百分比;表示文檔k 對(duì)應(yīng)主題的向量表示. 在模型迭代訓(xùn)練結(jié)束后, 融合文檔權(quán)重向量和主題向量, 得到含有隱含主題信息的文檔向量, 然后將詞向量表示部分得到的樞軸詞向量與該文檔向量相加得到上下文向量, 以此來(lái)最小化主題預(yù)測(cè)過(guò)程中的負(fù)采樣損失和Dirichlet 似然項(xiàng)總和,生成可解釋的文檔表示.

模型的總損失L是詞向量表示部分的損失與文檔向量表示部分的損失之和, 計(jì)算公式如式(2)所示:

2.4 文本相似度計(jì)算方法

文本相似度作為衡量不同文本間相關(guān)程度的指標(biāo),是熱點(diǎn)話(huà)題聚類(lèi)過(guò)程中不可或缺的一部分. 文本間相似度越高, 說(shuō)明其內(nèi)容語(yǔ)義更接近. 在熱點(diǎn)話(huà)題聚類(lèi)任務(wù)中, 設(shè)計(jì)合理的相似度計(jì)算方法, 可以使聚類(lèi)的性能更優(yōu), 話(huà)題的凝聚度更好. 余弦相似度方法[18]通過(guò)計(jì)算兩個(gè)向量在向量空間方向上的余弦值, 來(lái)度量文本間相似度. 當(dāng)兩個(gè)向量屬于同一方向時(shí), 余弦值越接近1, 兩個(gè)向量就越相似, 表明該報(bào)道越可能聚類(lèi)到該話(huà)題下.利用余弦相似度計(jì)算向量集合a=(a1,a2,···,ai,···,an)和b=(b1,b2,···,bi,···,bn) 的語(yǔ)義相似度 s im(a,b)的計(jì)算公式如式(3)所示:

其中, ai、 bi表示文本對(duì)應(yīng)的主題特征詞概率向量, 表示形式為( ti,wi), ti表 示特征詞, wi表示該特征詞的權(quán)重.

新聞的實(shí)時(shí)增長(zhǎng)性決定了一個(gè)話(huà)題結(jié)束后, 會(huì)繼續(xù)出現(xiàn)新的話(huà)題. 利用文本表示模型提取主題特征詞,如果新話(huà)題存在很多與舊話(huà)題相同的特征詞, 其文本相似度就會(huì)超過(guò)給定的相似度閾值, 此時(shí)就會(huì)將新的話(huà)題歸到舊話(huà)題中, 這種情況下, 想要改善聚類(lèi)質(zhì)量,就可以通過(guò)新的新聞報(bào)道發(fā)布的時(shí)間和舊話(huà)題中最先出現(xiàn)出現(xiàn)的新聞報(bào)道發(fā)布時(shí)間進(jìn)行比較, 時(shí)間差越大,不屬于該話(huà)題的可能性就越大. 所以, 在話(huà)題生成的過(guò)程中, 考慮利用時(shí)間特性?xún)?yōu)化文本相似度算法, 用來(lái)更好的區(qū)別當(dāng)前報(bào)道是否屬于已有的話(huà)題, 提高聚類(lèi)精度. 文中結(jié)合聯(lián)合訓(xùn)練得到的熱點(diǎn)主題特征詞和時(shí)間特性, 將文本表示為( ti,wi,(tl,tb)) , 其中ti表示利用本文主題表示模型提取的隱含主題特征詞, wi表示對(duì)應(yīng)特征詞的權(quán)重, tl表示話(huà)題特征詞在對(duì)應(yīng)話(huà)題報(bào)道中最后出現(xiàn)的更新時(shí)間, tb表示該話(huà)題特征詞在報(bào)道中第一次出現(xiàn)的時(shí)間. 在最新報(bào)道與已有文本出現(xiàn)相同特征詞時(shí), 其與相應(yīng)新聞話(huà)題的時(shí)間差dt的計(jì)算如式(4)所示:

其中, tn表示該話(huà)題特征詞在報(bào)道中最新出現(xiàn)的時(shí)間,由于新聞報(bào)道隨著時(shí)間差 dt的增大, 文本相似度會(huì)降低, 反之, dt減小, 文本相似度會(huì)增大, 文中采用增函數(shù)的方式進(jìn)行表示, 即:, 同時(shí)為了保證其在(0, 1]上連續(xù)變化, 文中令 x =tn-tl, 時(shí)間相似度計(jì)算公式如式(5)所示:

基于文中文本表示方法和余弦相似度, 得到報(bào)道的文本相似度算法公式如式(6)所示:

采用式(6)計(jì)算文本語(yǔ)義相似度, 在對(duì)新增量的文本進(jìn)行相似度計(jì)算時(shí), 不需要重復(fù)計(jì)算與話(huà)題集合下的每篇新聞報(bào)道的相似度, 只需計(jì)算其對(duì)應(yīng)文本表示向量與該話(huà)題中多篇報(bào)道特征向量平均值的相似度值,這樣不僅提升了文本相似度的計(jì)算效率, 節(jié)省了文本聚類(lèi)時(shí)間, 也有效提升了聚類(lèi)算法對(duì)新文本的反應(yīng)能力.

2.5 SP-HTD增量文本聚類(lèi)

增量聚類(lèi)主要是用來(lái)觀(guān)察和發(fā)現(xiàn)動(dòng)態(tài)數(shù)據(jù)流中文本信息的變化趨勢(shì). 與其他聚類(lèi)算法不同的是, 在算法初始化時(shí), 增量聚類(lèi)不需要預(yù)先設(shè)定類(lèi)簇的個(gè)數(shù)、初始中心點(diǎn)和結(jié)束條件, 在對(duì)新的文本數(shù)據(jù)加入時(shí), 會(huì)依據(jù)一定的類(lèi)簇劃分規(guī)則形成新的類(lèi)簇、或加入原有類(lèi)簇、或造成原有類(lèi)簇的分裂或合并, 在處理新數(shù)據(jù)時(shí)更便捷、高效, 能夠提升話(huà)題聚類(lèi)的效率.

假設(shè)文本的向量表示為 D=(d1,d2,···,dk,···,dn),其中 dk表示第k 個(gè)特征詞對(duì)應(yīng)的向量表示, D0表示初始的文本聚類(lèi)類(lèi)簇, 對(duì)于動(dòng)態(tài)增加的文本數(shù)據(jù)流, 具體識(shí)別規(guī)則如下: 在整個(gè)聚類(lèi)過(guò)程中, 文本的初始類(lèi)簇只有一個(gè), 利用當(dāng)前文本和已存在的類(lèi)簇中心分別計(jì)算相似度, 判斷新數(shù)據(jù)與最大相似度和閾值的關(guān)系, 如果大于閾值, 則歸類(lèi)到該類(lèi)簇中, 否則添加新的類(lèi)簇, 即標(biāo)記新的增量節(jié)點(diǎn), 以此動(dòng)態(tài)增加類(lèi)簇, 遍歷至無(wú)輸入新數(shù)據(jù)時(shí), 算法結(jié)束, 完成文本的聚類(lèi). 可以看出, 對(duì)初始類(lèi)簇的選擇會(huì)對(duì)聚類(lèi)結(jié)果產(chǎn)生很大的影響, 且對(duì)文本的相似度閾值比較敏感.

針對(duì)Single-Pass聚類(lèi)算法不足, 考慮到熱點(diǎn)話(huà)題檢測(cè)任務(wù)的擴(kuò)展性和性能需求, 本文做了以下改進(jìn):(1)動(dòng)態(tài)更新類(lèi)簇中心, 通過(guò)文本發(fā)布時(shí)間和時(shí)間閾值不斷優(yōu)化, 避免重復(fù)的簇內(nèi)相似度比較, 減小算法計(jì)算次數(shù), 提高話(huà)題聚類(lèi)的質(zhì)量. (2)對(duì)要聚類(lèi)的文本數(shù)據(jù)按照話(huà)題的發(fā)布時(shí)間進(jìn)行排序, 并采用Single-Pass算法對(duì)其進(jìn)行初始化粗聚類(lèi), 然后將該聚類(lèi)結(jié)果作為下一次文本聚類(lèi)的輸入來(lái)進(jìn)行迭代聚類(lèi), 以此來(lái)降低聚類(lèi)結(jié)果對(duì)文本輸入順序的過(guò)于敏感的問(wèn)題. (3)細(xì)化話(huà)題劃分粒度, 選取文本表示模型提取的話(huà)題對(duì)應(yīng)的主題詞來(lái)劃分子話(huà)題, 提升對(duì)報(bào)道間相似度計(jì)算的準(zhǔn)確性. 算法流程如圖3所示.

圖3 SP-HTD算法流程圖

具體算法步驟如下:

步驟1. 輸入初始文本集合和文本相似度閾值S0;

步驟3. 考慮其文本時(shí)間特性, 按照發(fā)布時(shí)間先后將文本數(shù)據(jù)集進(jìn)行排序;

步驟4. 選取步驟3中得到的當(dāng)前輸入文本對(duì)應(yīng)話(huà)題的前3個(gè)熱點(diǎn)主題詞分別設(shè)為子話(huà)題, 然后初始化設(shè)定類(lèi)簇中心 D0, 以此代表該聚類(lèi)中所有文檔具有的共同話(huà)題;

步驟5. 依據(jù)本文第2.4節(jié)的文本相似度計(jì)算方法,計(jì)算要新輸入的文本與各子話(huà)題之間的相似度 s im;

步驟6. 判斷如果計(jì)算的相似度值 sim大于新文本與子話(huà)題的質(zhì)心向量的相似度閾值S1, 則增加新聚類(lèi)到子話(huà)題, 否則執(zhí)行步驟7;

步驟7. 考慮將計(jì)算的 s im 與S0、 S1同時(shí)比較, 若處于兩者之間, 則增加新的子話(huà)題, 同時(shí)更新類(lèi)簇中心.否則執(zhí)行步驟8;

步驟8. 如果計(jì)算的相似度不在S0、 S1之間, 則增加新的初始話(huà)題, 同時(shí)更新新話(huà)題對(duì)應(yīng)子話(huà)題的3個(gè)主題詞, 執(zhí)行步驟9;

元代時(shí)期的飲茶方式已近接近現(xiàn)在,茶葉的烘培制作也成熟,茶葉是放在茶壺里用炭爐煮,茶葉的形式是正片的葉子(經(jīng)過(guò)殺青發(fā)酵的,葉子成不規(guī)則),叫做“蒸青散茶”。至明代時(shí)終于出現(xiàn)了和今天一樣的綠茶制法——炒青制法。

步驟9. 判斷文本是否處理完畢, 如果處理完畢, 則結(jié)束聚類(lèi)過(guò)程, 否則繼續(xù)輸入新文本, 從步驟5繼續(xù)進(jìn)行迭代聚類(lèi), 直至算法結(jié)束;

步驟10. 輸出SP-HTD聚類(lèi)算法得到的熱點(diǎn)話(huà)題聚類(lèi)結(jié)果.

在處理輸入的新文本時(shí), 通過(guò)動(dòng)態(tài)更新類(lèi)簇中心,僅僅需要將輸入的新文本與該類(lèi)簇的子話(huà)題質(zhì)心向量比較相似度, 就可以判斷是否屬于該聚類(lèi), 減少了比較的次數(shù), 降低了算法運(yùn)算復(fù)雜度, 提高了新文本反應(yīng)能力. 在子話(huà)題主題詞選擇時(shí), 選擇前3個(gè)主題詞, 原因在于選取的主題詞太多, 會(huì)增加后續(xù)輸入文本與話(huà)題類(lèi)簇中心相似度比較的時(shí)間, 選取的太少又會(huì)使得話(huà)題劃分不夠精細(xì). 因此本文選擇前3個(gè)主題詞作為對(duì)應(yīng)話(huà)題的子話(huà)題, 在計(jì)算文本相似度時(shí)保留更多新聞文本之間的相似性, 提高熱點(diǎn)話(huà)題聚類(lèi)的效率.

3 實(shí)驗(yàn)及結(jié)果分析

3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

本文通過(guò)爬取《紐約時(shí)報(bào)》《泰晤士報(bào)》等10個(gè)國(guó)際主流媒體近10年內(nèi)有關(guān)中國(guó)的新聞報(bào)道作為語(yǔ)料庫(kù), 并將其分為經(jīng)濟(jì)、政治等8組不同類(lèi)別的文檔集. 在預(yù)處理階段, 對(duì)數(shù)據(jù)進(jìn)行降噪處理, 包括過(guò)濾停用詞、去除重復(fù)文本數(shù)據(jù)和對(duì)缺失值進(jìn)行正則匹配等操作, 最終獲得22 731篇有效報(bào)道數(shù)據(jù). 實(shí)驗(yàn)將詞向量維度設(shè)置為350維, 初始率設(shè)為0.06, 同時(shí)采用GloVe詞向量模型[19]初始化英文詞向量, 獲得數(shù)據(jù)集的全局共現(xiàn)信息. 具體數(shù)據(jù)組成如表1所列.

表1 實(shí)驗(yàn)數(shù)據(jù)組成表

3.2 評(píng)價(jià)指標(biāo)

本文采用熱點(diǎn)話(huà)題檢測(cè)常用的評(píng)價(jià)指標(biāo)準(zhǔn)確率P 、召回率R 和 F 值對(duì)話(huà)題檢測(cè)的精度進(jìn)行評(píng)估. 計(jì)算公式如下:

其中, A表示預(yù)測(cè)正確, 實(shí)際也正確的聚類(lèi)元素?cái)?shù)量,B 表示預(yù)測(cè)正確, 實(shí)際不正確的聚類(lèi)元素?cái)?shù)量, C表示預(yù)測(cè)不正確, 實(shí)際正確的聚類(lèi)元素?cái)?shù)量. 可以看出 F 值越大, 說(shuō)明話(huà)題檢測(cè)的效果越好.

采用漏檢率Pm(missing detection rate)和誤檢率Pf(false detection rate)對(duì)改進(jìn)算法得到的聚類(lèi)結(jié)果進(jìn)行評(píng)測(cè), 評(píng)估聚類(lèi)效果[20]. 計(jì)算公式如下:

其中, Pm表 示相關(guān)文檔的漏檢率. Pf表示不相關(guān)文檔的誤檢率. Da表 示被檢測(cè)到的相關(guān)文檔數(shù), Db表示未檢測(cè)到的相關(guān)文檔數(shù). Dc表示被檢測(cè)到的不相關(guān)文檔數(shù),Dd表示未檢測(cè)到的不相關(guān)文檔數(shù).

3.3 結(jié)果與分析

為了評(píng)估本文SP-HTD聚類(lèi)算法的聚類(lèi)結(jié)果的可行性和有效性, 在第2.3節(jié)主題模型對(duì)數(shù)據(jù)集進(jìn)行文本表示的基礎(chǔ)上, 以Single-Pass (SP)聚類(lèi)算法、文獻(xiàn)[21]提出的SP-NN和SP-WC聚類(lèi)算法為基線(xiàn), 將4種算法在測(cè)試集上進(jìn)行話(huà)題聚類(lèi)任務(wù), 其結(jié)果如圖4所示.

圖4 P、R和F值結(jié)果比較

從圖4可以看出, 在熱點(diǎn)話(huà)題檢測(cè)任務(wù)上, SP-HTD聚類(lèi)算法的 F值最高可達(dá)89.3%, 相比于SP、SP-NN和SP-WC在準(zhǔn)確率分別提高了15%、3.6%、7.5%, 在召回率上分別提高了10.2%、3.5%、6.3%, 均有更好的效果, 表明SP-HTD聚類(lèi)算法能夠?qū)⑽谋揪垲?lèi)到更好的話(huà)題類(lèi)別, 熱點(diǎn)話(huà)題聚類(lèi)效果更好. 原因在于本文算法考慮了更全面的語(yǔ)義特征信息, 聯(lián)合訓(xùn)練文檔向量和詞向量, 挖掘的主題表示更為精確, 并且在文本相似度計(jì)算時(shí), 考慮了新聞報(bào)道的時(shí)效性, 通過(guò)報(bào)道發(fā)布的時(shí)間差, 動(dòng)態(tài)更新質(zhì)心向量, 提高了熱點(diǎn)話(huà)題聚類(lèi)的準(zhǔn)確率.

本文采用漏檢率和誤檢率對(duì)話(huà)題聚類(lèi)結(jié)果的質(zhì)量進(jìn)行對(duì)比評(píng)估, 從數(shù)據(jù)集中選取6個(gè)熱點(diǎn)話(huà)題, 按8:2的比例選取每個(gè)話(huà)題的文本作為聚類(lèi)訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集, 將其經(jīng)過(guò)文本表示模型的建模后作為聚類(lèi)算法的輸入, 采用SP、SP-NN、SP-WC和SP-HTD聚類(lèi)算法分別進(jìn)行實(shí)驗(yàn), 其結(jié)果如圖5、圖6所示.

圖5 漏檢率比較

圖6 誤檢率比較

從圖5、圖6可以看出, 對(duì)相同的新聞數(shù)據(jù)集進(jìn)行熱點(diǎn)話(huà)題檢測(cè)的話(huà)題聚類(lèi)任務(wù), 文中提出的SP-HTD聚類(lèi)算法相比于SP、SP-NN和SP-WC聚類(lèi)算法得到的漏檢率分別可降低約7.6%、6.1%、4.1%, 誤檢率可降低約3.1%、2.3%、1.5%. 其中, 與SP-WC算法相比,話(huà)題1和話(huà)題5的漏檢率差距較小, 話(huà)題2和話(huà)題4的漏檢率差距較大. 與SP算法相比, 在話(huà)題4和話(huà)題5的誤檢率差距較大, 話(huà)題2和話(huà)題3的誤差率差異較小, 但綜合來(lái)看, 本文提出的SP-HTD聚類(lèi)算法提高了話(huà)題檢測(cè)聚類(lèi)的質(zhì)量. 原因在于本文算法在處理新文本時(shí), 無(wú)需重復(fù)計(jì)算整個(gè)文檔集, 并且根據(jù)時(shí)間閾值, 在聚類(lèi)過(guò)程中不斷優(yōu)化類(lèi)簇中心, 保證了聚類(lèi)算法對(duì)新文本擴(kuò)展性能和聚類(lèi)質(zhì)量.

4 結(jié)束語(yǔ)

本文提出了一種面向熱點(diǎn)話(huà)題檢測(cè)任務(wù)的增量文本聚類(lèi)算法(SP-HTD), 針對(duì)Single-Pass算法對(duì)數(shù)據(jù)的輸入順序過(guò)于敏感和聚類(lèi)效率相對(duì)低的問(wèn)題, 從文本表示、相似度計(jì)算和文本聚類(lèi)3個(gè)方面進(jìn)行了改善,并與SP、SP-NN和SP-WC聚類(lèi)算法做對(duì)比實(shí)驗(yàn). 結(jié)果表明, 在熱點(diǎn)話(huà)題檢測(cè)任務(wù)上, 相比傳統(tǒng)的Single-Pass算法, 在保證聚類(lèi)精度的前提下, 所提算法計(jì)算的聚類(lèi)中心的代表性更強(qiáng), 可以有效提高話(huà)題檢測(cè)的準(zhǔn)確性. 在下一階段工作中, 將考慮更進(jìn)一步細(xì)化話(huà)題檢測(cè)粒度, 對(duì)特定話(huà)題下的子話(huà)題, 研究其內(nèi)部結(jié)構(gòu)和聯(lián)系, 以期實(shí)現(xiàn)更好的熱點(diǎn)話(huà)題檢測(cè)效果.

猜你喜歡
文本檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
“幾何圖形”檢測(cè)題
“角”檢測(cè)題
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
主站蜘蛛池模板: 久草国产在线观看| 国产一级片网址| 蝌蚪国产精品视频第一页| 亚洲精品国产首次亮相| 国产特一级毛片| AⅤ色综合久久天堂AV色综合| 亚洲欧美成人在线视频| 久久人体视频| 福利小视频在线播放| 久久青草免费91观看| 国产成人亚洲精品色欲AV | 亚洲国产精品无码久久一线| 美女被操黄色视频网站| 国产精品一老牛影视频| 欧美精品xx| 色悠久久久| 日日碰狠狠添天天爽| 欧美精品导航| 国产黄网站在线观看| 亚洲国产成人在线| 国产精品13页| 中文字幕在线日本| 高潮毛片无遮挡高清视频播放| 国产波多野结衣中文在线播放| 特级aaaaaaaaa毛片免费视频| 呦女亚洲一区精品| 人妻精品久久久无码区色视| 精品免费在线视频| 亚洲Av综合日韩精品久久久| 午夜精品久久久久久久99热下载 | 97人人做人人爽香蕉精品| 欧美精品在线观看视频| 国产在线拍偷自揄拍精品| 国产亚洲欧美在线中文bt天堂| 亚洲中文字幕日产无码2021| 亚洲毛片一级带毛片基地| 午夜电影在线观看国产1区| 国产凹凸一区在线观看视频| 久久精品一卡日本电影| 久久国产精品娇妻素人| 美女无遮挡拍拍拍免费视频| 国产av色站网站| 国产精品偷伦视频免费观看国产| 久久久精品无码一二三区| 毛片免费网址| 欧美日韩国产精品va| 亚洲无码37.| 91毛片网| 成人无码区免费视频网站蜜臀| 国产欧美自拍视频| 日韩欧美中文| 2021亚洲精品不卡a| 欧美一区二区三区不卡免费| 国产小视频免费| 久久婷婷六月| 久久不卡国产精品无码| 重口调教一区二区视频| 国产在线拍偷自揄观看视频网站| 久久99国产视频| 国产情侣一区| 亚洲色欲色欲www网| 九九热视频在线免费观看| 在线视频一区二区三区不卡| 91po国产在线精品免费观看| 亚洲国产天堂久久综合| 夜夜拍夜夜爽| 久久香蕉国产线看观看亚洲片| 国产成人精品高清不卡在线| a天堂视频| 中国精品久久| 亚洲一区二区三区在线视频| 99999久久久久久亚洲| 亚洲精品国产精品乱码不卞| 亚洲最新网址| 亚洲男人天堂久久| 97在线公开视频| 日本国产一区在线观看| 丁香婷婷激情综合激情| 无码内射中文字幕岛国片| 亚洲成人在线免费观看| 欧洲熟妇精品视频| 无码日韩人妻精品久久蜜桃|