999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DMA與特征劃分的多源文本主題模型

2021-07-26 11:54:50許偉佳秦永彬黃瑞章陳艷平
計算機工程 2021年7期
關(guān)鍵詞:文本模型

許偉佳,秦永彬,黃瑞章,陳艷平

(1.貴州大學(xué)計算機科學(xué)與技術(shù)學(xué)院,貴陽550025;2.公共大數(shù)據(jù)國家重點實驗室,貴陽550025)

0 概述

隨著計算機網(wǎng)絡(luò)技術(shù)的快速發(fā)展,各種各樣的Internet/Intranet 應(yīng)用在全球范圍內(nèi)日益普及,產(chǎn)生了大量的文本信息。研究人員將來自多個應(yīng)用平臺的不同來源的文本集合到一起構(gòu)成多源文本數(shù)據(jù)集。在一般情況下,多源文本數(shù)據(jù)集中的主題信息要比單源文本數(shù)據(jù)集中的主題信息更加全面準(zhǔn)確。因此,研究一種能挖掘多源文本數(shù)據(jù)集中主題信息的文本挖掘模型是非常必要的[1]。

主題模型是目前較流行的文本挖掘模型,因此需研究一種針對多源文本數(shù)據(jù)集的主題模型來挖掘多源文本數(shù)據(jù)集中的文本信息,但傳統(tǒng)主題模型挖掘多源文本數(shù)據(jù)集信息時存在兩方面的問題。一方面,在多源文本數(shù)據(jù)集中,每一篇文檔都由大量的詞來表示,包括特征詞和大量的無關(guān)噪聲詞,并且由于書寫風(fēng)格的不同,因此來自不同數(shù)據(jù)源的噪聲詞也不同,不相關(guān)的噪聲詞會干擾模型構(gòu)建,導(dǎo)致模型性能不佳。另一方面,每個數(shù)據(jù)源中相同主題的詞分布相似但不相同也會影響主題模型的性能,例如新聞網(wǎng)站和社交媒體論述同一主題,部分能夠明確指向主題含義的詞語會同時出現(xiàn)在這兩個數(shù)據(jù)源中,但由于描述角度的不同會導(dǎo)致一些特定詞語只出現(xiàn)在其中一個數(shù)據(jù)源中。因此,直接采用傳統(tǒng)主題模型挖掘多源文本的詞特征等信息會因為不同來源的主題的書寫風(fēng)格差異以及描述角度的不同嚴(yán)重影響模型性能,并且在多源文本數(shù)據(jù)集中對主題數(shù)量的估計也非常困難。對于多數(shù)傳統(tǒng)主題模型而言,主題數(shù)量被認(rèn)為是需用戶事先確定的參數(shù),但在進(jìn)行主題模型挖掘前提供正確的主題數(shù)量是不切實際的。此外,對于不同的數(shù)據(jù)源,主題數(shù)量通常是不同的,從而大幅增加了主題數(shù)量正確估計的難度。因此,如果多源文本主題模型能夠自動地估計每個數(shù)據(jù)源的主題數(shù)量,則對于模型的推廣和應(yīng)用是非常有利的。本文提出一種新的多源文本主題模型MCDMAfp。MCDMAfp 以狄利克雷多項式分配(Dirichlet Multinomial Allocation,DMA)模型為基礎(chǔ)。當(dāng)主題數(shù)量無窮大時,DMA 模型近似為狄利克雷過程混合(Dirichlet Process Mixture,DPM)模型[2]。DMA 模型作為DPM 模型的近似模型,能夠自動推斷出數(shù)據(jù)集的主題數(shù)量,而無需提前設(shè)置主題數(shù)量。

1 相關(guān)工作

網(wǎng)絡(luò)信息隨著互聯(lián)網(wǎng)的高速發(fā)展呈現(xiàn)爆炸式增長,如何快速準(zhǔn)確地從這些海量數(shù)據(jù)中獲取有用的信息成為研究人員關(guān)注的焦點。主題模型是目前較流行的文本挖掘模型,其中較常見的隱含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型由BLEI等[3]于2003年提出。后續(xù)的主題模型多數(shù)建立在LDA 模型的基礎(chǔ)上,例如針對短文本集的PYPM 模型[4]以及TRTD 模型[5],其中,PYPM 模型可在無需人為提前設(shè)置主題數(shù)量的情況下進(jìn)行主題聚類,TRTD 模型利用詞的貼近性和重要性,解決了短文本集信息稀疏的問題。但是,目前文本信息的來源多樣,而上述模型均在單源數(shù)據(jù)集上進(jìn)行,不能直接應(yīng)用于多源數(shù)據(jù)集。

近年來,針對多源文本的主題模型被陸續(xù)提出,例如DLDA 模型[6]、DDMAfs 模型[7]和DDMR 模型[8],這3 種模型的主要思想是利用輔助數(shù)據(jù)源的文本信息提升目標(biāo)數(shù)據(jù)源的主題發(fā)現(xiàn)效果,但其目標(biāo)仍是解決單個數(shù)據(jù)源的建模問題。除此之外,一部分多源文本主題模型雖然旨在解決多數(shù)據(jù)源的建模問題,但僅能應(yīng)用于特定領(lǐng)域[9],例如:結(jié)合ATM[10]與LDA 模型的HTM 模型[11],HTM 模型假設(shè)Twitter文本為ATM 模型生成,新聞文本由LDA 模型生成,兩者受同一主題-詞分布影響,提升了整體聚類效果;COTM 模型[12]是針對新聞及其評論數(shù)據(jù)源的主題模型,能從這兩個數(shù)據(jù)源中學(xué)習(xí)相應(yīng)的主題,并提升整體聚類效果;HHTM 模型[13]主要針對新聞報道和用戶評論,提高了摘要生成質(zhì)量。

由于上述主題模型僅能應(yīng)用于特定領(lǐng)域,不具備普適性,因此針對多源文本的主題模型的研究也逐漸增多。文獻(xiàn)[14]提出的mf-CTM 模型適用于多源文本數(shù)據(jù)集,基于CTM[15]模型擴展得到,繼承了CTM 的優(yōu)點,能夠?qū)χ黝}之間的相關(guān)性進(jìn)行建模,并且能對多領(lǐng)域及多數(shù)據(jù)源進(jìn)行主題建模,但mf-CTM 模型假設(shè)所有數(shù)據(jù)源的文本集共享相同的主題分布參數(shù),而現(xiàn)實生活中不同數(shù)據(jù)源通常有不同的主題分布,這就導(dǎo)致了mf-CTM 模型不能很好地應(yīng)用于多源數(shù)據(jù)集主題模型的構(gòu)建。文獻(xiàn)[16]提出的Probabilistic Source LDA 模型能夠為每個數(shù)據(jù)源計算潛在主題,維護源之間的主題-主題對應(yīng)關(guān)系,保留每個數(shù)據(jù)源獨特的特征,但是該模型的構(gòu)建需要已知數(shù)據(jù)源的先驗知識,這提升了模型構(gòu)建的難度,并且該模型是標(biāo)準(zhǔn)的LDA[17]擴展模型,不能自動推斷每個數(shù)據(jù)源的主題數(shù)量。文獻(xiàn)[18]提出的C-LDA 和C-HDP 模型擴展了ccLDA 以適應(yīng)集合主題級的不對稱性,使得兩個模型能發(fā)現(xiàn)具有不同主題數(shù)量的任意集合之間的主題關(guān)聯(lián)性。C-LDA 模型與LDA 模型類似,需要人為提前設(shè)定主題數(shù)量。C-HDP 模型繼承了HDP 模型[19]的優(yōu)點,無需人為設(shè)定主題數(shù)量,方便了模型的應(yīng)用。但是,C-HDP 與C-LDA 模型多數(shù)針對同一數(shù)據(jù)源的多個數(shù)據(jù)集,若應(yīng)用于多源數(shù)據(jù)集,則不能較好地學(xué)習(xí)每個數(shù)據(jù)源的源級詞特征。

2 MCDMAfp 模型

2.1 相關(guān)定義

單詞w是文本的最小單元,是{1,2,…,W}詞匯表中的一項。詞匯表由所有數(shù)據(jù)源共享,每個數(shù)據(jù)源都可以使用詞匯表中的部分單詞。一篇文檔由W維向量xd={xd1,xd2,…,xdW}表示,其中xdj是第d個文檔中第j個單詞出現(xiàn)的次數(shù)。數(shù)據(jù)源χ是由D個文檔組成的集合,表示為χ={x1,x2,…,xD}。多源文本數(shù)據(jù)集M是由S個數(shù)據(jù)源組成的集合,表示為M={χ1,χ2,…,χS}。

由于詞匯表中只有一部分詞對數(shù)據(jù)集中的不同文檔有區(qū)分作用,因此本文引入一個潛在的二元向量γ={γ1,γ2,…,γW}來識別有區(qū)分作用的特征詞,其中Ω表示特征詞集。對于每個j∈{1,2,…,W},γ表示為:

本文為γ分配一個先驗參數(shù),并假設(shè)γ是由伯努利分布B(1,ω)生成的,參數(shù)ω可以看作是詞匯表中每個單詞的先驗概率。潛在變量γ采用文獻(xiàn)[19]中的隨機變量搜索思想進(jìn)行選擇。

2.2 模型基本思想

MCDMAfp 模型的基本思想是:1)多源文本數(shù)據(jù)集中同一主題的詞分布共享同一先驗;2)多源文本數(shù)據(jù)集中每個數(shù)據(jù)源具有主題分布、主題-詞分布以及噪音詞分布參數(shù)。MCDMAfp 模型的圖形化表示如圖1所示。

圖1 MCDMAfp 模型的圖形化表示Fig.1 Graphical representation of MCDMAfp model

本文模型假設(shè)多源文本數(shù)據(jù)集M的生成過程如下:

2)對于每個主題i∈N

3 Gibbs 采樣算法

傳統(tǒng)主題模型多數(shù)為了方便計算,將主題-詞分布的狄利克雷先驗參數(shù)設(shè)置為統(tǒng)一值,但實際上先驗參數(shù)代表了詞的分布情況,例如,表示在主題i中獲得單詞j的概率比獲得單詞x的概率大,即單詞j在主題i中更具代表性。筆者發(fā)現(xiàn)不同數(shù)據(jù)源具有不同但相似的主題-詞分布,因此認(rèn)為不同數(shù)據(jù)源的主題-詞分布由同一先驗產(chǎn)生,通過研究多源文本數(shù)據(jù)中表現(xiàn)較好的數(shù)據(jù)源的文本信息得到更具代表性的先驗參數(shù)λ[21],從而提升模型的整體性能表現(xiàn)。

3.1 先驗參數(shù)

本文通過優(yōu)化生成整個數(shù)據(jù)集的后驗概率來獲得參數(shù)λ,已知多源數(shù)據(jù)集中數(shù)據(jù)源χs的概率近似為:

為了方便計算,本文使用對數(shù)似然函數(shù)進(jìn)行運算,計算如下:

然后得到參數(shù)λ的梯度函數(shù):

其中,Ψ(x)是Γ(x)的對數(shù)導(dǎo)數(shù)函數(shù),由式(12)可得到更新后的:

3.2 基于Blocked-Gibbs 的參數(shù)學(xué)習(xí)

1)通過重復(fù)以下步驟R次更新潛在特征詞指示符γ:通過隨機選取γold中的W個索引中的一個并改變其值,生成新的候選γnew并添加或刪除特征詞。新候選值被接受的概率q為:

其中,f(γ|χs,zs)∝f(χs|γs,zs)p(γs)。

2)在給定其他潛在變量的條件下,對于i=1,2,…,N,如果i不在中,則從以λi為參數(shù)的Dirichlet 分布中得出,否則將T1作為Dirichlet 分布的參數(shù),采樣更新:

3)將T2作為Dirichlet 分布的參數(shù),采樣更新ηs0:

4)將T3作為Dirichlet 分布的參數(shù),采樣更新P:

其中,I(zd=i)為示性函數(shù),當(dāng)zd=i時,I(zd=i)=1,否則I(zd=i)=0。

5)在給定其他潛在變量時,對于d=1,2,…,Ds,通過從參數(shù)為{sd,1,sd,2,…,sd,N}的離散分布中采樣更新,其中。

在采樣過程的不同數(shù)據(jù)源中,為保證主題的一一對應(yīng),即數(shù)據(jù)源si中的簇類k和數(shù)據(jù)源sj中的簇類k相同,可在開始時將所有數(shù)據(jù)源的文本看成單個數(shù)據(jù)源進(jìn)行一次采樣,再對每個數(shù)據(jù)源進(jìn)行單獨采樣。在采樣結(jié)果收斂后,根據(jù)各個數(shù)據(jù)源在算法運行過程中的最大生成概率判斷表現(xiàn)最優(yōu)秀的數(shù)據(jù)集,按照式(15)對參數(shù)λ進(jìn)行更新操作。性能表現(xiàn)差的數(shù)據(jù)源因為得到了較準(zhǔn)確的先驗知識,提升了整體效果,作為更新依據(jù)的數(shù)據(jù)源也因為強化了自身的先驗知識,整體效果也有所提升。在獲得新的參數(shù)λ后重復(fù)采樣過程,便可得到更好的主題發(fā)現(xiàn)結(jié)果。

4 實驗結(jié)果與分析

4.1 度量標(biāo)準(zhǔn)

本文使用標(biāo)準(zhǔn)化互信息(Normalized Mutual Information,NMI)來評估聚類質(zhì)量。NMI 表示主題模型得到的聚類結(jié)果與標(biāo)準(zhǔn)結(jié)果之間的相似性,其取值區(qū)間為(0,1),越接近1,表示主題發(fā)現(xiàn)的效果越好,計算公式如下[22]:

其中:D表示文檔數(shù);dh表示主題h中的文檔數(shù);cl表示集群l中的文檔數(shù);dh,l表示主題h和集群l中的文檔數(shù)。

4.2 數(shù)據(jù)集

本文使用NASet 和BTSet 兩個真實的多源文本數(shù)據(jù)集來驗證MCDMAfp 模型的準(zhǔn)確性:

1)NASet 數(shù)據(jù)集。該數(shù)據(jù)集包含9 986 篇文本和food 與sport 兩個主題,其中,5 000 篇文本來自HuffPost 網(wǎng)站的新聞文章(記為NewSet),剩余文本來自Amazon 網(wǎng)站的評論文本(記為ASet)。

2)BTSet 數(shù)據(jù)集。該數(shù)據(jù)集包含10 000 篇文本和4 個主題,其中:5 000 篇文本來自BBC 網(wǎng)站收集的新聞文章(記為bbcSet),共有travel、bussiness、sport、politic等4 個主題;5 000 篇文本來自Twitter 收集的文章(記為TSet),共有bussiness、sport、politic 等3 個主題。

對于這兩個數(shù)據(jù)集,本文進(jìn)行以下預(yù)處理:1)將字母轉(zhuǎn)換為小寫字母;2)刪除非拉丁字符和停止字符;3)刪除長度小于2 或大于15 的單詞。

4.3 實驗結(jié)果

本文在NASet 和BTSet 數(shù)據(jù)集上進(jìn)行實驗,并評估MCDMAfp 模型的性能。為便于對比研究,將K-means 模型[23]作為基線模型,對比模型包括基于單源數(shù)據(jù)集的PYPM 模型以及基于多源數(shù)據(jù)集的C-LDA 和C-HDP 模型。各模型在NASet 和BTSet 數(shù)據(jù)集上的聚類效果如表1所示。PYPM 模型與K-means 模型表示將每個多源數(shù)據(jù)集中每個數(shù)據(jù)源的文本集單獨作為該模型的輸入。PYPMall模型和K-meansall模型表示將多源數(shù)據(jù)集中所有數(shù)據(jù)源的文本集融合成一個數(shù)據(jù)集,并當(dāng)作單源數(shù)據(jù)集作為該模型的輸入。K-means 模型(k=30)表示在K-means模型中設(shè)定的主題數(shù)量為30,K-means 模型(k為真實值)表示在K-means 模型中設(shè)定的主題數(shù)量為各數(shù)據(jù)集中真實的主題數(shù)量。PYPMall模型在NASet和BTSet 多源數(shù)據(jù)集上的NMI 值為0.770 和0.237。K-meansall模型(k=30)在NASet 和BTSet 多源數(shù)據(jù)集上的NMI 值為0.276 和0.207。K-meansall模型(k為真實值)在NASet 和BTSet 多源數(shù)據(jù)集上的NMI 值為0.209 和0.110。從表1 可以看出,MCDMAfp 模型相比其他模型聚類效果更好。

表1 5種模型在NASet和BTSet多源數(shù)據(jù)集上的NMI值Table 1 NMI values of five models on NASet and BTSet multi-source datasets

各模型估計的主題數(shù)量如表2所示,其中PYPMall模型在NASet 和BTSet 多源數(shù)據(jù)集上的主題數(shù)量為9 986 和10 000。從表2 可以看出:PYPM 模型估計的主題數(shù)量比較多,這是因為PYPM 模型無需提前輸入主題數(shù)量,而是直接將文檔數(shù)目當(dāng)作主題數(shù)量,所以PYPM 模型估計的主題數(shù)目比較大;MCDMAfp 模型相比其他模型發(fā)現(xiàn)的主題數(shù)量更接近于真實情況,而且每個數(shù)據(jù)源都擁有被估計的主題數(shù)量,這證明了MCDMAfp 模型能保留多源數(shù)據(jù)集中每個數(shù)據(jù)源的主題特征。

表2 4 種模型在NASet 和BTSet 多源數(shù)據(jù)集上估計的主題數(shù)量Table 2 Number of topics estimated by four models on NASet and BTSet multi-source datasets

本文進(jìn)一步研究了NASet 多源數(shù)據(jù)集中每個數(shù)據(jù)源的部分特征詞和噪音詞,如表3所示。可以看出,每個數(shù)據(jù)源的噪音詞集不同,并且與特征詞集無關(guān)。這證明了MCDMAfp 模型能夠?qū)⒚總€數(shù)據(jù)源的特征詞集與噪音詞集分開,避免了噪音詞集對模型的干擾。在表3 中的特征詞展示的是每個主題下概率最大的前20 個特征詞。針對food 主題,兩個數(shù)據(jù)集都出現(xiàn)了food、chocolate 等詞,主要原因為這些詞可以明確指示主題的含義,即使數(shù)據(jù)源不同,這些詞也會在不同數(shù)據(jù)源的詞分布中占據(jù)重要地位。但因為不同的數(shù)據(jù)源側(cè)重點不同,taste 和price 等判別詞只會較多出現(xiàn)在Aset 數(shù)據(jù)集中,而幾乎不出現(xiàn)在NewSet 數(shù)據(jù)集中,主要原因為亞馬遜的評論通常側(cè)重從食物的價格和味道來評判食物,而新聞主要是從食物本身的風(fēng)味特征來描述食物,所以不同數(shù)據(jù)源下相同主題的判別詞雖然相似但不同。類似地,對于sport 主題,新聞文章與評論文章都有g(shù)ame、player 等詞,但新聞文章通常集中在奧運會等重要的體育賽事上,而評論文章對sport 主題的評論通常與普通賽事有關(guān),這證明了不同數(shù)據(jù)源具有不同但相似的主題-詞分布,而判別詞的不同也證明了MCDMAfp 模型能夠?qū)W習(xí)并保留每個數(shù)據(jù)源獨特的源級詞特征。

表3 NASet 多源數(shù)據(jù)集上每個數(shù)據(jù)源的部分特征詞和噪音詞Table 3 Some feature words and noise words of each data source in NASet multi-source dataset

4.4 超參數(shù)對MCDMAfp 模型性能的影響

4.4.1 超參數(shù)ω

本文研究了ω值對MCDMAfp 模型性能的影響,將迭代次數(shù)、α、N、λ和β分別設(shè)為160、1.0、30、0.9 和4.0,通過改變ω值,觀察MCDMAfp 模型的性能變化,其中ω的取值為0.5、0.6、0.8、0.9 和1.0。圖2給出了當(dāng)ω取不同值時,由NMI 評估的MCDMAfp模型的文檔聚類性能變化。可以看出,當(dāng)ω值位于0.5~0.9 時,NMI 值較穩(wěn)定,當(dāng)ω取值為1.0 時,多源數(shù)據(jù)集的NMI 值有明顯降低。圖3 給出了當(dāng)ω取不同值時,MCDMAfp 模型發(fā)現(xiàn)的噪音詞數(shù)量的變化曲線。

圖2 ω 值對MCDMAfp 模型聚類效果的影響Fig.2 The influence of the values of ω on clustering effect of MCDMAfp model

圖3 不同ω 值下MCDMAfp 模型發(fā)現(xiàn)的噪音詞數(shù)量Fig.3 The number of noise words found by MCDMAfp model under different values of ω

由圖3 可知,當(dāng)ω值為1.0 時,MCDMAfp 模型發(fā)現(xiàn)的噪音詞數(shù)量為0,這表示沒有區(qū)分噪音詞集與特征詞集,因此文檔聚類效果較差。隨著ω值的增大,MCDMAfp 模型發(fā)現(xiàn)的噪音詞越來越少,這是因為噪音詞的指示符γ服從B(1,ω)的伯努利分布。除此之外,可以看出在ASet 數(shù)據(jù)集中發(fā)現(xiàn)的噪音數(shù)總比在NewSet 數(shù)據(jù)集中發(fā)現(xiàn)的多,這是因為新聞文檔用詞較專業(yè),而評論文檔用詞較隨意。

4.4.2 超參數(shù)α

本文研究了α值對MCDMAfp 模型性能的影響,將迭代次數(shù)、N、β、λ和ω分別設(shè)為160、30、4.0、0.9 和0.9,通過改變α值,觀察MCDMAfp 模型的性能變化,其中α的取值為0.2、0.4、0.6、0.8 和1.0。圖4給出了當(dāng)α取不同值時,由NMI 評估的MCDMAfp模型的文檔聚類性能變化。可以看出,MCDMAfp模型在不同α值下聚類效果能夠保持相對的穩(wěn)定,這說明α值對MCDMAfp 模型的影響較小。

圖4 α 值對MCDMAfp 模型聚類效果的影響Fig.4 The influence of the values of α on clustering effect of MCDMAfp model

4.4.3 超參數(shù)β

本文研究了β值對MCDMAfp 模型性能的影響,將迭代次數(shù)、N、λ、ω和α分別設(shè)為160、30、0.9、0.9和1.0,通過改變β值,觀察MCDMAfp 模型的性能變化,其中β的取值為2、3、4、5 和6。圖5 給出了當(dāng)β取不同值時,以NMI為評估標(biāo)準(zhǔn)的MCDMAfp 模型的文檔聚類性能變化。可以看出,隨著β值的改變,MCDMAfp 模型的聚類效果波動幅度不大,這說明β值對MCDMAfp 模型的影響較小。

圖5 β 值對MCDMAfp 模型聚類效果的影響Fig.5 The influence of the values of β on clustering effect of MCDMAfp model

4.4.4 超參數(shù)λ

本文研究了λ值對MCDMAfp模型性能的影響,將迭代次數(shù)、N、β、ω和α分別設(shè)為160、30、4.0、0.9 和1.0,通過改變λ值,觀察MCDMAfp 模型的性能變化,其中λ的取值分別為0.7、0.8、0.9、1.0 和1.2。圖6 給出了當(dāng)λ取不同值時,由NMI 評估的MCDMAfp 模型的文檔聚類性能變化。可以看出,當(dāng)λ初始值在一定范圍內(nèi)變化時,對MCDMAfp 模型的聚類效果沒有較大影響。這是因為MCDMAfp 模型會對λ值進(jìn)行更新,最大程度地減少λ初始值對模型的干擾,從而證明MCDMAfp 模型具有較強的魯棒性。

圖6 λ 值對MCDMAfp 模型聚類效果的影響Fig.6 The influence of the values of λ on clustering effect of MCDMAfp model

4.4.5 主題數(shù)量N

本文為證明MCDMAfp 模型能夠較好地估計每個數(shù)據(jù)源的主題數(shù)量,研究N值對MCDMAfp 模型性能的影響,將迭代次數(shù)、β、ω、α和λ分別設(shè)為160、4.0、0.9、1.0 和0.9,通過改變N值,觀察MCDMAfp 模型的性能變化,其中N的取值分別為10、15、20、25 和30。圖7 給出了當(dāng)N取不同值時,由NMI 評估的MCDMAfp 模型的文檔聚類性能的變化。可以看出,MCDMAfp 模型在不同N值下保持了一定的穩(wěn)定性,這證明了提前設(shè)定的N值對MCDMAfp 模型的影響較小,但隨著N值的增加,MCDMAfp 模型的運行時間有所增加。

圖7 N 值對MCDMAfp 模型聚類效果的影響Fig.7 The influence of the values of N on clustering effect of MCDMAfp model

5 結(jié)束語

本文提出一種基于DMA與特征劃分的多源文本主題模型MCDMAfp。MCDMAfp 模型采用Gibbs采樣算法自動估計每個數(shù)據(jù)源的主題數(shù)量,并為每個數(shù)據(jù)源提供單獨的主題分布、噪音詞分布以及主題-詞分布參數(shù)學(xué)習(xí)每個數(shù)據(jù)源的主題特點,同時利用特征劃分方法識別每個數(shù)據(jù)源內(nèi)的特征詞和噪聲詞,防止混合后的結(jié)果影響主題發(fā)現(xiàn)效果。在兩個真實數(shù)據(jù)集上的實驗結(jié)果表明,MCDMAfp 模型能夠保留多源數(shù)據(jù)集中每個數(shù)據(jù)源的獨特性,并具有較好的主題發(fā)現(xiàn)效果。下一步考慮將文字嵌入與多源文本主題模型相結(jié)合,進(jìn)行基于語義的多源文本主題發(fā)現(xiàn)研究。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 青青草原国产| 午夜激情福利视频| 91蝌蚪视频在线观看| 国产人人乐人人爱| 国产特级毛片aaaaaaa高清| 青青草原国产免费av观看| 91欧美亚洲国产五月天| 69精品在线观看| 91在线视频福利| 国产香蕉在线视频| 国内精品自在自线视频香蕉| 潮喷在线无码白浆| 欧美三级视频在线播放| 国产91丝袜在线观看| 免费一级毛片完整版在线看| 国产91精品调教在线播放| 99re在线观看视频| 国产理论精品| 四虎影视无码永久免费观看| 国产成人欧美| 国产成人精品一区二区不卡| 成人午夜精品一级毛片| 亚洲欧美另类中文字幕| 欧美成a人片在线观看| 伊人五月丁香综合AⅤ| 国产超碰在线观看| 国产成人精品一区二区| 国产亚洲美日韩AV中文字幕无码成人| 久久国产拍爱| 国产成人喷潮在线观看| 欧美一区二区精品久久久| 999精品视频在线| 亚洲激情99| 国产美女91视频| 精品国产香蕉伊思人在线| 青青草原国产精品啪啪视频| 亚洲日本精品一区二区| AV网站中文| 久久青草精品一区二区三区| 成人一级免费视频| 久久伊人操| 国产精品片在线观看手机版| 久久综合结合久久狠狠狠97色| 亚洲日韩AV无码一区二区三区人| 国产超薄肉色丝袜网站| 国产成人欧美| 美女被狂躁www在线观看| 一级毛片中文字幕| 欧美在线综合视频| 日韩成人高清无码| 波多野结衣中文字幕久久| 亚洲成人免费看| 国产精品一线天| 国产主播在线一区| 国产永久在线视频| 亚洲精品动漫| 精品国产91爱| 国产成人久久777777| 一本色道久久88| 欧美成人精品高清在线下载| 国内精品小视频福利网址| 一本一本大道香蕉久在线播放| 十八禁美女裸体网站| 国产乱人伦AV在线A| аⅴ资源中文在线天堂| 国产麻豆精品久久一二三| 72种姿势欧美久久久大黄蕉| 高潮毛片免费观看| 中美日韩在线网免费毛片视频| 99re热精品视频国产免费| 日韩精品成人在线| 免费在线色| 日韩123欧美字幕| 久久伊人操| 91亚洲影院| 激情乱人伦| 久久青草免费91线频观看不卡| 国产精品永久免费嫩草研究院| 国产三级成人| 国产欧美在线视频免费| 国产欧美日韩综合一区在线播放| 在线观看av永久|