999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向短文本分析的分布式表示模型

2018-08-06 03:35:36梁吉業(yè)曹付元劉曉琳
關(guān)鍵詞:語義文本信息

梁吉業(yè) 喬 潔 曹付元 劉曉琳

(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 太原 030006) (計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(山西大學(xué)) 太原 030006) (ljy@sxu.edu.cn)

隨著Web 2.0的普及,大眾的角色逐漸由信息的接收者轉(zhuǎn)變?yōu)樾畔⒌膫鬟f者和創(chuàng)造者.特別是隨著微博、微信等自媒體的興起,短文本廣泛出現(xiàn)在網(wǎng)絡(luò)上并且增長(zhǎng)速度極快.短文本表示對(duì)于短文本分析任務(wù),如信息檢索、輿情分析、推薦系統(tǒng)等都是至關(guān)重要的.但是,不同于傳統(tǒng)的長(zhǎng)文本,短文本由于缺乏豐富的上下文語義信息,使得基于短文本的表示面臨極大的挑戰(zhàn).

短文本的向量化表示,常用以下4種方法:

1) 基于向量空間模型(vector space model, VSM)[1]的文本表示方法.VSM將每個(gè)文本表示為向量空間中的一個(gè)向量,向量空間中的每一維對(duì)應(yīng)語料庫中每一個(gè)不同的詞,每個(gè)維度的值就是對(duì)應(yīng)的詞在文本中的權(quán)重.但由于短文本評(píng)論的語料庫較大,每個(gè)短文本評(píng)論的長(zhǎng)度又較短,所以如果使用該模型,短文本表示將面臨高維災(zāi)難,且VSM僅考慮單個(gè)詞作為特征,忽略了詞與詞之間的語義特征.

2) 基于頻繁詞集的的文本表示方法.Zhang等人提出了MC(maximum capturing)算法[2],該算法將每個(gè)文本表示為以頻繁詞集作為特征項(xiàng)的向量,再利用文本間共有的頻繁詞集個(gè)數(shù)度量向量之間的相似性,進(jìn)而對(duì)文本進(jìn)行聚類.該方法在一定程度上緩解了VSM模型存在的高維問題,但同VSM模型一樣,該模型也屬于詞袋(bag of words, BOW)模型[3],忽略了詞序信息,導(dǎo)致包含相同詞的不同文本可能具有相同的表示.

3) 基于主題模型的的文本表示方法.以上2種方法中詞的語義表示是原始的、面向字符串的,如一意多詞“番茄”和“西紅柿”用這些方法來區(qū)分是困難的,因?yàn)樗鼈冸m然表示同一個(gè)意思,但字符串完全不同.Blei等人于2003年提出了LDA(latent Dirichlet allocation)主題模型[4],該模型被廣泛使用到文本主題建模中,但是該模型更適用于長(zhǎng)文本,在短文本上效果不太理想,且該模型的重點(diǎn)是對(duì)文本中的主題進(jìn)行建模,不能對(duì)文本中的詞進(jìn)行魯棒的表示.Hong等人[5]提出將含有同樣詞語的短消息進(jìn)行聚合,從而將短文本聚合成偽長(zhǎng)文本,然后用傳統(tǒng)的主題模型進(jìn)行訓(xùn)練,但是這種聚合對(duì)文本集有很大的依賴性.Phan等人[6]提出利用外部資源來豐富短文本的表達(dá),從而學(xué)習(xí)其中隱含的主題,但是該方法對(duì)外部資源的有效性要求很高,所以沒有普遍適用性.Yan等人于2013年提出了一種同時(shí)適用于短文本和長(zhǎng)文本的詞對(duì)主題模型 (biterm topic model, BTM)[7],通過對(duì)語料庫中的所有詞對(duì)進(jìn)行建模,得出每個(gè)文本的主題分布和各個(gè)主題下的詞分布.此類基于主題模型的方法,其重點(diǎn)是對(duì)文檔的主題進(jìn)行建模,而不是對(duì)文本中的詞進(jìn)行語義表示[8],進(jìn)而在一些詞義消歧、機(jī)器翻譯、詞性標(biāo)注等需要詞表示的任務(wù)中顯得無力從心.

4) 基于神經(jīng)網(wǎng)絡(luò)模型的分布式表示方法.這類方法使用Hinton在1986年提出的分布式表示[9]的思想,將文本表示為稠密、低維、連續(xù)的向量.Bengio等人在2003年提出神經(jīng)網(wǎng)絡(luò)語言模型(neutral net-work language model, NNLM)[10]模型,將幾個(gè)詞向量的拼接輸入神經(jīng)網(wǎng)絡(luò),并且嘗試?yán)肧oftmax算法去預(yù)測(cè)接下來的詞.當(dāng)模型訓(xùn)練完成后,詞向量被映射到了一個(gè)向量空間,并且在這個(gè)向量空間中,具有相似語義的詞會(huì)有相似的向量表示,但該模型輸出層中的節(jié)點(diǎn)數(shù)等于輸入語料的單詞數(shù),當(dāng)訓(xùn)練大規(guī)模語料時(shí),運(yùn)算復(fù)雜度高,模型訓(xùn)練緩慢.Mikolov等人于2013年提出word2vec模型,包括CBOW(continuous bag of words)和skip-gram模型[11],模型使用Hierarchical Softmax算法加速訓(xùn)練,當(dāng)訓(xùn)練完成后,擁有相似語義的單詞會(huì)被映射到向量空間里相近的位置上,并且發(fā)現(xiàn)詞向量之間的距離差距也包含著一定語義信息.為了把模型從詞層面擴(kuò)展到句子層面,在詞向量的基礎(chǔ)上,Le等人于2014年提出了Paragraph Vector模型[12],可將變長(zhǎng)文本訓(xùn)練成固定維度的段落向量.

在以上4種文本表示方法中,基于神經(jīng)網(wǎng)絡(luò)模型的分布式表示方法近年來得到了人們的廣泛關(guān)注[13],特別是Paragraph Vector模型,該模型克服了傳統(tǒng)詞袋模型的2個(gè)缺點(diǎn),不僅保留了詞向量包含的語義信息,而且考慮了詞序,保留了n-gram模型的信息.但其在訓(xùn)練過程中只用到了文檔級(jí)別的信息,因而在面向短文本分析時(shí),還未能有效改善短文本中語境信息不足的情況.

本文提出了一種面向短文本分析的分布式表示模型——詞對(duì)主題句向量模型(biterm topic para-graph vector, BTPV),該模型將BTM得出的全局主題信息融入Paragraph Vector模型中,使得該模型既能在模型訓(xùn)練過程中利用到整個(gè)語料庫的信息,又能保持Paragraph Vector模型的優(yōu)勢(shì).又由于聚類是文本分析任務(wù)中常用的方法之一[14],本文選取K-Means聚類算法對(duì)模型的表示效果進(jìn)行驗(yàn)證.

1 相關(guān)工作

本節(jié)對(duì)本文中使用的詞對(duì)主題模型BTM和句向量表示模型Paragraph Vector的相關(guān)概念進(jìn)行回顧.

1.1 BTM模型

BTM主題模型是Yan等人于2013年針對(duì)短文本提出的主題模型,該模型通過詞對(duì)共現(xiàn)模式來加強(qiáng)主題模型的學(xué)習(xí),利用整個(gè)語料庫的豐富信息來推斷主題,不僅緩解了LDA處理短文本的數(shù)據(jù)稀疏問題,而且滿足了一條短文本可以包含多個(gè)主題的現(xiàn)實(shí)要求.圖1為BTM的概率圖模型.

Fig. 1 BTM graphical model圖1 BTM圖模型

如圖1所示,α,β為狄利克雷超參數(shù);θ為詞對(duì)-主題概率分布;φ為主題-詞概率分布;K為主題個(gè)數(shù)參數(shù),一般根據(jù)語料庫選取;z為詞對(duì)對(duì)應(yīng)的主題變量;wi,wj為2個(gè)詞語構(gòu)成的詞對(duì);|B|為語料庫中詞對(duì)的總數(shù).BTM生成過程如下:

1) 采樣每一個(gè)主題下的主題-詞分布φk~Dir(β);

2) 采樣整個(gè)語料庫的詞對(duì)-主題分布θ~Dir(α);

3) 對(duì)詞對(duì)集合B里的每一個(gè)詞對(duì)b=(wi,wj);

① 采樣得到主題z~Multi(θ);

② 采樣得到詞對(duì)wi,wj~Multi(φz).

在BTM模型中,隱含變量θ和φ計(jì)算為

(1)

(2)

文檔下的主題分布計(jì)算為

(3)

其中nz表示詞對(duì)被分配到主題z的次數(shù),nw|z表示詞w被分配主題z的次數(shù),V是短文本集中不同詞的詞數(shù),nd(b)是文檔d中詞對(duì)b出現(xiàn)的次數(shù).具體可參考文獻(xiàn)[7].

1.2 Paragraph Vector模型

隨著word2vec模型CBOW和skip-gram的廣泛使用,研究者們?cè)噲D把模型擴(kuò)展至句子級(jí)層面,最簡(jiǎn)單的方法就是使用文本中所有詞向量的加權(quán)平均,但是這種方法屬于BOW模型,丟失了詞序信息.Le等人提出的Paragraph Vector模型在保留原來詞向量語義信息的基礎(chǔ)上又考慮了詞序,同時(shí)也具有很好的泛化能力.

Paragraph Vector模型中的PV-DM(paragraph vector-distributed memory)模型通過上下文和段落向量來預(yù)測(cè)中心詞,如圖2所示,其中每個(gè)文本被映射成一個(gè)指定維度的向量,具體表示為矩陣D中的一列,每一個(gè)詞也被映射成一個(gè)指定維度的向量,具體表示為矩陣W中的一列,然后將段落向量和詞向量進(jìn)行相加或拼接來預(yù)測(cè)上下文的中心詞,可以將段落向量看作是上下文的另一個(gè)詞,用來記憶當(dāng)前上下文中遺忘的文本信息,其中上下文是用一個(gè)固定長(zhǎng)度的滑動(dòng)窗口在一個(gè)文本中不斷采樣得到的.

Fig. 2 The diagram of PV-DM圖2 PV-DM圖示

模型使用隨機(jī)梯度上升方法進(jìn)行訓(xùn)練,在整個(gè)訓(xùn)練過程中,段落向量被該文本中的所有上下文窗口共同擁有,不跨越該文本.訓(xùn)練完成后,段落向量就可以被用來作為文本的特征表示,并且該特征表示可直接用于機(jī)器學(xué)習(xí)算法中,例如邏輯斯蒂回歸、支持向量機(jī)或者K-Means聚類.

Paragraph Vector模型中還包括PV-DBOW(paragraph vector-distributed bags of words)模型,不同于PV-DM通過段落向量和詞向量來預(yù)測(cè)中心詞,PV-DBOW只通過段落向量來預(yù)測(cè)該文本中隨機(jī)采樣的詞.

2 BTPV模型

2.1 基本思想

由于Paragraph Vector模型只運(yùn)用了文檔級(jí)別的信息,無法對(duì)整個(gè)語料庫的信息加以利用,并且Paragraph Vector模型是一種隱性語義表示模型[15],它將一個(gè)短文本表示為一個(gè)隱性語義空間上的向量,該向量每一維度所代表的含義人們無法解釋;在BTM中,由于是對(duì)整個(gè)語料庫中的詞對(duì)進(jìn)行建模,利用了整個(gè)語料庫的信息來訓(xùn)練詞對(duì)的主題,并且BTM是一種半顯性語義表示模型,它將短文本表示為一個(gè)半顯性語義空間上的向量,向量的每一維度是一個(gè)主題,該主題又是一組詞的分布.所以提出一種面向短文本的分布式表示模型BTPV,將BTM主題分布的全局半顯性信息和Paragraph Vector的局部隱性信息相融合來訓(xùn)練句向量,使得在模型訓(xùn)練時(shí)既能利用整個(gè)語料庫的信息,也能用BTM半顯性的語義空間完善Paragraph Vector的隱性語義空間.對(duì)應(yīng)于Paragraph Vector,該模型也有2種實(shí)現(xiàn)方法BTPV-DM和BTPV-DBOW.

2.2 BTPV-DM模型

BTPV-DM模型如圖3所示,該模型在輸入層將每個(gè)文本映射成一個(gè)指定維度的向量,具體表示為矩陣D中的一列,每一個(gè)詞也被映射成一個(gè)指定維度的向量,具體表示為矩陣W中的一列,并由矩陣M和該文本的主題分布θi d相乘得出該文本的主題向量,之后在連接層進(jìn)行上述段落向量、詞向量和主題向量的平均,用以預(yù)測(cè)上下文的中心詞,可以將主題向量看作是上下文的另一個(gè)詞,用來記憶當(dāng)前上下文中遺忘的主題信息,顯然加上主題向量后,模型包含的文本主題信息更加豐富.

Fig. 3 The diagram of BTPV-DM圖3 BTPV-DM圖示

BTPV-DM模型用隨機(jī)梯度上升算法進(jìn)行參數(shù)訓(xùn)練,并在訓(xùn)練模型時(shí)選擇了Hierarchical Softmax的方法來提高模型的訓(xùn)練效率,降低計(jì)算復(fù)雜度.過程中需要的符號(hào)總結(jié)如表1:

Table 1 Notations and Explanations表1 符號(hào)及意義

由最大似然估計(jì),BTPV-DM模型的目標(biāo)函數(shù)為

(4)

(5)

在連接層進(jìn)行詞向量、句向量、主題向量的相加并求均值,可知:

(6)

利用哈夫曼樹對(duì)語料庫中所有的詞語進(jìn)行編碼,由Hierarchical Softmax和式(6)得:

(7)

哈夫曼樹中每一個(gè)非葉節(jié)點(diǎn)處是一個(gè)Softmax分類器,可得:

(8)

(9)

對(duì)各參數(shù)求偏導(dǎo)數(shù)可得:

(10)

(11)

(12)

由以上BTPV-DM模型求解過程可得算法1.

算法1. BTPV-DM算法.

輸入:短文本語料庫DOC={d1,d2,…,dn}、學(xué)習(xí)率ε,窗口大小p、循環(huán)次數(shù)iter;

輸出:語料庫中每個(gè)短文本的句向量.

Step1. 利用BTM主題模型得出語料庫DOC中每個(gè)短文本的主題分布θi,其中i∈[1,n];

Step2. 對(duì)于語料庫DOC中的每一個(gè)短文本di,隨機(jī)初始化句向量η、 詞向量v、主題矩陣M、Hierarchical Softmax參數(shù)集合ω;

Step3. 對(duì)于短文本di中的每一個(gè)詞w,由式(6)計(jì)算出xw,并初始化誤差e=0,eM=0;

Step4. 對(duì)詞w所在哈夫曼樹的每一層j∈[1,hw],由式(10)~(12),計(jì)算向量梯度e更新參數(shù)計(jì)算矩陣梯度

Step6. 更新di的句向量ηη+e;

Step7. 更新主題矩陣MM+eM;

Step8. 返回Step3,訓(xùn)練下一個(gè)詞;

Step9. 返回Step2,訓(xùn)練下一個(gè)短文本;

Step10. 迭代iter次后,輸出每個(gè)短文本的句向量.

2.3 BTPV-DBOW模型

BTPV-DBOW模型如圖4所示,該模型忽略上下文信息,在輸入層將每個(gè)文本映射成一個(gè)指定維度的向量,具體表示為矩陣D中的一列,并由矩陣M和該文本的主題分布θi d相乘得出該文本的主題向量,之后在連接層進(jìn)行上述2個(gè)向量段落向量和主題向量的平均,用以預(yù)測(cè)文本中隨機(jī)采樣的詞,同樣加上主題向量后,該模型記憶的主題信息會(huì)更準(zhǔn)確、更豐富.

Fig. 4 The diagram of BTPV-DBOW圖4 BTPV-DBOW圖示

BTPV-DBOW模型忽略上下文信息,由最大似然估計(jì),模型的目標(biāo)函數(shù)為

(13)

不同于BTPV-DM,在連接層僅將主題向量和句向量相加求均值:

(14)

同樣利用哈夫曼樹對(duì)語料庫中所有的詞語進(jìn)行編碼,由Hierarchical Softmax和式(14)得:

(15)

對(duì)參數(shù)求偏導(dǎo)數(shù)得:

(16)

(17)

(18)

BTPV-DBOW模型同樣采用隨機(jī)梯度上升算法進(jìn)行參數(shù)訓(xùn)練,也在訓(xùn)練模型時(shí)選擇了Hierarchical Softmax的方法來提高模型的訓(xùn)練效率,降低計(jì)算復(fù)雜度,模型求解過程由算法2所示.

算法2. BTPV-DBOW算法.

輸入:短文本語料庫DOC={d1,d2,…,dn}、學(xué)習(xí)率ε、窗口大小p、循環(huán)次數(shù)iter;

輸出:語料庫中每個(gè)短文本的句向量.

Step1. 利用BTM主題模型得出語料庫DOC中每個(gè)短文本的主題分布θi,其中i∈[1,n];

Step2. 對(duì)于語料庫DOC中的每一個(gè)短文本di,隨機(jī)初始化句向量η、主題矩陣M、Hierarchical Softmax參數(shù)集合ω;

Step3. 對(duì)于短文本di中的每一個(gè)詞w,由式(14)計(jì)算出xw,并初始化誤差e=0,eM=0;

Step6. 更新di的句向量ηη+e;

Step7. 更新主題矩陣MM+eM;

Step8. 返回Step3,訓(xùn)練下一個(gè)詞;

Step9. 返回Step2,訓(xùn)練下一個(gè)短文本;

Step10. 迭代iter次后,輸出每個(gè)短文本的句向量.

2.4 模型的計(jì)算復(fù)雜度

在現(xiàn)實(shí)任務(wù)中,由于要處理的數(shù)據(jù)量通常是非常大的,所以模型的計(jì)算復(fù)雜度對(duì)于算法的實(shí)現(xiàn)也很關(guān)鍵.表2列出了常見分布式表示模型的計(jì)算復(fù)雜度以及本文新提出的BTPV模型的計(jì)算復(fù)雜度.其中p表示訓(xùn)練過程中滑動(dòng)窗口的大小,q表示采樣詞語的個(gè)數(shù),T表示詞向量和句向量的維度,V表示整個(gè)語料庫詞表中詞的個(gè)數(shù).

Table 2 Computational Complexity of Each Model表2 各模型的計(jì)算復(fù)雜度

由表2可以看出,上述3種表示模型在2種訓(xùn)練方法下計(jì)算復(fù)雜度本質(zhì)上是相同的.

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)采集

本文通過Python的requests庫抓取數(shù)據(jù),通過指定3個(gè)參數(shù):新聞評(píng)論頁面的URL、評(píng)論的初始id以及評(píng)論的爬取數(shù)目,返回json字符串?dāng)?shù)據(jù),采用Python的json包解析提取到的評(píng)論字符串?dāng)?shù)據(jù)并保存為文本文件.本文實(shí)驗(yàn)所采用的數(shù)據(jù)集均為熱門新聞下的評(píng)論數(shù)據(jù),如表3所示:

Table 3 News Review Dataset

3.2 聚類內(nèi)部評(píng)價(jià)指標(biāo)

由于本文實(shí)驗(yàn)所采用的數(shù)據(jù)集均為熱門新聞下的無標(biāo)簽數(shù)據(jù),所以本文采用類內(nèi)緊密性(compact-ness,CP)、類間間隔性(separation,SP)、分類適確性指標(biāo)(Davies-Bouldin index,DBI)[16]這3種聚類內(nèi)部評(píng)價(jià)指標(biāo)對(duì)BTPV模型處理后的短文本聚類效果進(jìn)行評(píng)價(jià).

(19)

(20)

(21)

其中K為類個(gè)數(shù),CP計(jì)算每一個(gè)樣本點(diǎn)x到聚類中心μi的平均距離,SP計(jì)算各聚類中心兩兩之間平均距離,DBI計(jì)算任意兩類別的CP指標(biāo)之和除以兩聚類中心距離的最大值.

3.3 實(shí)驗(yàn)方案

數(shù)據(jù)采集后,對(duì)每個(gè)新聞數(shù)據(jù)集選用jieba進(jìn)行分詞,然后進(jìn)行去標(biāo)點(diǎn)、去停用詞、去單字詞等預(yù)處理過程.之后將預(yù)處理后的語料庫通過BTM主題模型進(jìn)行主題建模,設(shè)定BTM模型的超參數(shù)α=50/K,β=0.01[7],主觀選取主題個(gè)數(shù)參數(shù)K,最終得到每一個(gè)短文本的主題分布.

將本文提出的BTPV模型與word2vec模型、Paragraph Vector模型進(jìn)行比較,實(shí)驗(yàn)主要對(duì)比在各個(gè)分布式模型表示下聚類結(jié)果的CP,SP,DBI指標(biāo).設(shè)定窗口大小p=5,迭代次數(shù)為iter=20,為方便維度設(shè)定,在連接層進(jìn)行求均值操作,對(duì)向量維度T在主觀范圍內(nèi)進(jìn)行選取.

實(shí)驗(yàn)選用K-Means聚類算法[17]驗(yàn)證模型的有效性,K-Means屬于平面劃分方法,該算法理論可靠且速度快、易實(shí)現(xiàn),對(duì)數(shù)據(jù)依賴度低,而且還適用于文本、圖像特征等多種數(shù)據(jù)的聚類分析,因而在文本聚類中得到廣泛的應(yīng)用.但在K-Means算法里初始聚類中心的選取是隨機(jī)的,每次都會(huì)造成不同的聚類結(jié)果,本文選擇犧牲一些時(shí)間復(fù)雜度,采用K-Means++算法[18]初始化聚類中心,使初始聚類中心之間的距離盡可能地遠(yuǎn),避免上述問題.另外,根據(jù)實(shí)際經(jīng)驗(yàn),假定K-Means聚類簇?cái)?shù)等于BTM主題個(gè)數(shù)參數(shù)K.

CP越小意味著類內(nèi)聚類距離越近,但該指標(biāo)缺乏對(duì)類間效果的考慮.SP越大意味類間聚類距離越遠(yuǎn),但該指標(biāo)缺乏對(duì)類內(nèi)效果的考慮.DBI綜合考慮了類內(nèi)緊密性和類間間隔性,DBI指數(shù)越小,證明聚類劃分的結(jié)果較好,所以在實(shí)驗(yàn)結(jié)果中我們著重分析DBI指標(biāo).

3.4 實(shí)驗(yàn)結(jié)果及分析

根據(jù)3.3節(jié)實(shí)驗(yàn)方案進(jìn)行實(shí)驗(yàn),得到對(duì)比結(jié)果如表4.以第1條新聞“恒大凈利大增負(fù)債率大降探因”的95 826條評(píng)論為例,從表4的DBI指數(shù)可以看出:

Table 4 K-Means Clustering Result Based on Different Short Texts Representation Models表4 基于不同短文本表示模型上的K-Means聚類效果

1) 基于Paragraph Vector和BTPV模型表示的聚類效果明顯優(yōu)于word2vec的聚類效果,這是由于word2vec直接將句子中詞的詞向量相加或求平均作為句子的向量化表示,沒有考慮詞之間的先后順序,丟失了一部分語義信息.

2) 在Paragraph Vector和BTPV模型中,DM方法訓(xùn)練出的結(jié)果比用DBOW方法訓(xùn)練出來的結(jié)果要好.這與文獻(xiàn)[12]的結(jié)果相同.

3) 無論是DM還是DBOW訓(xùn)練方法,基于BTPV模型表示的聚類效果明顯優(yōu)于Paragraph Vector的聚類效果.這是由于BTPV模型中融入了BTM的主題信息,使得在模型訓(xùn)練時(shí)既能利用整個(gè)語料庫的信息,也能用BTM半顯性的語義空間完善Paragraph Vector的隱性語義空間.

可以觀察出基于Paragraph Vector和BTPV模型表示的SP指標(biāo)小于基于word2vec表示的值,因?yàn)镾P指標(biāo)沒有考慮類內(nèi)效果.同理,CP指標(biāo)沒有考慮類間效果,所以我們更加看重同時(shí)考慮類內(nèi)緊密性和類間間隔性的DBI指標(biāo).

3.5 參數(shù)分析

本文對(duì)各數(shù)據(jù)集進(jìn)行了參數(shù)分析實(shí)驗(yàn),以第1個(gè)數(shù)據(jù)集“恒大凈利大增負(fù)債率大降探因”為例,在假定BTM主題個(gè)數(shù)參數(shù)K等于K-Means聚類簇?cái)?shù)的情形下,在[3,7]范圍內(nèi),以1為步長(zhǎng)選取參數(shù)K,在[100,200]范圍內(nèi),以20為步長(zhǎng)選取句向量維度T進(jìn)行實(shí)驗(yàn),聚類結(jié)果如下:

Table 5 The Effect of K and T on CP表5 K和T對(duì)CP的影響

Table 6 The Effect of K and T on SP表6 K和T對(duì)SP的影響

Table 7 The Effect of K and T on DBI表7 K和T對(duì)DBI的影響

由表5~7中的實(shí)驗(yàn)數(shù)據(jù)可以看出,K=3,T=140時(shí)聚類DBI指標(biāo)最小,即同時(shí)滿足類內(nèi)緊密性CP較小且類間間隔性SP較大,因此,可以認(rèn)為第1個(gè)數(shù)據(jù)集“恒大凈利大增負(fù)債率大降探因”在K=3,T=140時(shí)基于BTPV模型表示的聚類效果最好.

3.6 效率分析

我們以新聞“恒大凈利大增負(fù)債率大降探因”的95 826條評(píng)論為例來對(duì)各模型的訓(xùn)練效率進(jìn)行比較.各個(gè)模型的訓(xùn)練次數(shù)均為20次,結(jié)果如表8所示.

由表8可以看出,BTPV模型和Paragraph Vector以及word2vec的耗時(shí)相差不多,BTPV模型耗時(shí)略多,主要是由于模型訓(xùn)練過程中融入了BTM主題信息.但是從聚類結(jié)果來看,BTPV模型的聚類結(jié)果明顯優(yōu)于Paragraph Vector和word2vec,這表明了BTPV模型處理海量文本的有效性.BTPV模型的高效性和有效性,反映出該模型的價(jià)值和應(yīng)用前景.

Table 8 Training Time of Each Model表8 各模型的訓(xùn)練時(shí)間

3.7 可視化展示

以第1個(gè)數(shù)據(jù)集為例,根據(jù)BTPV-DM模型建模時(shí),設(shè)置K=3,向量維度T=140,經(jīng)過K-Means聚類后得到3個(gè)類,用Python的wordcloud庫繪制詞云,用jieba.analyse提取關(guān)鍵字分別顯示這3個(gè)類中的關(guān)鍵字如圖5所示.可以直觀地看出,網(wǎng)民的觀點(diǎn)主要圍繞在宏觀市場(chǎng)、企業(yè)規(guī)模、實(shí)力增長(zhǎng)3個(gè)方面.

Fig. 5 Wordcloud display of clustering results圖5 聚類結(jié)果詞云展示

4 總 結(jié)

本文提出一種面向短文本分析的分布式表示模型BTPV,通過將BTM的主題信息融入Paragraph Vector,使得在模型訓(xùn)練時(shí)既能利用整個(gè)語料庫的信息,也能用BTM半顯性的語義空間完善Paragraph Vector的隱性語義空間,從而比較全面地獲取到短文本中的語義信息.基于該模型表示的聚類效果也明顯優(yōu)于傳統(tǒng)分布式向量化模型的聚類效果.然而,本文僅驗(yàn)證了基于BTPV模型的聚類效果,該模型在其他應(yīng)用方面的優(yōu)勢(shì)將是未來重點(diǎn)研究方向.

LiangJiye, born in 1962. Professor and PhD supervisor. Distinguished member of CCF. His main research interests include granular computing, data mining and machine learning.

QiaoJie, born in 1994. Master candidate. Student member of CCF. Her main research interests include data mining and machine learning.

CaoFuyuan, born in 1974. Professor and PhD supervisor. Member of CCF. His main research interests include data mining and machine learning.

LiuXiaolin, born in 1990. PhD candidate. Student member of CCF. Her main research interests include data mining and machine learning.

猜你喜歡
語義文本信息
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
展會(huì)信息
如何快速走進(jìn)文本
語義分析與漢俄副名組合
主站蜘蛛池模板: 91人妻在线视频| 精品人妻AV区| 婷婷伊人五月| 国产理论最新国产精品视频| 一本久道久综合久久鬼色| 99无码熟妇丰满人妻啪啪| 国产又大又粗又猛又爽的视频| av手机版在线播放| 国产精品成人啪精品视频| 久久香蕉国产线看观看精品蕉| 国产精品理论片| 亚洲欧美激情小说另类| 国产精品自拍合集| 2021国产精品自拍| 亚洲天堂伊人| 亚洲av无码人妻| 日本高清成本人视频一区| 综合色天天| 中文字幕无码av专区久久| 亚洲精品国产综合99| 欧美在线视频不卡第一页| 久热re国产手机在线观看| 国产亚洲精品无码专| 国产靠逼视频| 色吊丝av中文字幕| 色婷婷电影网| 久久精品人人做人人综合试看| 亚洲一区精品视频在线| 91视频精品| 亚洲欧美日韩动漫| 国产自视频| 国产精品三级av及在线观看| 国产小视频网站| 精品国产aⅴ一区二区三区| 极品国产在线| 精品国产aⅴ一区二区三区| 美女无遮挡拍拍拍免费视频| 黄色在线网| 欧美视频免费一区二区三区| 中文字幕佐山爱一区二区免费| 久久综合国产乱子免费| 深爱婷婷激情网| 69av在线| 国产视频一区二区在线观看| 亚洲成人播放| 97超碰精品成人国产| 国产成人啪视频一区二区三区| 免费在线观看av| 一级看片免费视频| 天天综合天天综合| 亚洲AⅤ波多系列中文字幕| V一区无码内射国产| 97综合久久| 国产女人在线视频| 国产欧美日韩在线一区| 亚洲天堂视频在线观看| 色偷偷av男人的天堂不卡| 国产色爱av资源综合区| 全部毛片免费看| 国产大片黄在线观看| 无码一区二区三区视频在线播放| 国产伦精品一区二区三区视频优播| 91偷拍一区| 国产av无码日韩av无码网站| 一本久道久综合久久鬼色| 国产成人无码AV在线播放动漫| 国产经典三级在线| 国产丰满成熟女性性满足视频| 亚洲国产亚洲综合在线尤物| 国产成人福利在线视老湿机| 日韩精品一区二区三区大桥未久| 精品人妻一区二区三区蜜桃AⅤ| 免费a级毛片18以上观看精品| 99热精品久久| 国产亚洲高清在线精品99| 四虎成人在线视频| 国产精品极品美女自在线网站| 国产无码精品在线播放| 精品亚洲国产成人AV| 自偷自拍三级全三级视频 | 亚洲AⅤ波多系列中文字幕| 99无码中文字幕视频|