999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度特征語(yǔ)義學(xué)習(xí)模型的垃圾短信文本聚類研究

2018-04-24 07:54:32張毓陳軍清
現(xiàn)代計(jì)算機(jī) 2018年7期
關(guān)鍵詞:文本實(shí)驗(yàn)模型

張毓,陳軍清

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

0 引言

隨著社交媒體的廣泛流行,短信業(yè)務(wù)得到了迅猛的發(fā)展,但是垃圾短信對(duì)人們的騷擾也越來(lái)越嚴(yán)重,已經(jīng)嚴(yán)重?cái)_亂了我們正常的經(jīng)濟(jì)生活,不利于我們社會(huì)的和諧穩(wěn)定。隨著我們國(guó)家現(xiàn)代化的不斷建設(shè)和發(fā)展,使用信息技術(shù)來(lái)自動(dòng)化的處理垃圾短信文本的需要也越來(lái)越緊迫。但是不同于正常文本聚類研究,垃圾短信文本具有其稀疏性[1],文本中的大部分詞語(yǔ)只出現(xiàn)一次,因此詞頻-逆次序(TF-IDF)算法沒法在短信文本聚類研究中起作用。一些研究人員已經(jīng)通過增加預(yù)料例如Wikipedia[2]或者Ontology[3],來(lái)解決這個(gè)問題。

本文我們提出了一種基于深度特征語(yǔ)義學(xué)習(xí)模型的垃圾短信文本聚類方法。這些模型包括RNN模型,GRU模型,LSTM模型,bidirectional LSTM模型(BILISTM)。我們的貢獻(xiàn)總結(jié)如下:(1)我們系統(tǒng)對(duì)比了上述模型在垃圾短信數(shù)據(jù)集上的聚類效果。(2)我們是第一個(gè)在垃圾短信文本數(shù)據(jù)集上運(yùn)用BI-LISTM模型進(jìn)行聚類研究的。我們的模型由于使用了BI-LSTM神經(jīng)網(wǎng)絡(luò),既可以利用過去的信息,又可以利用將來(lái)的信息。該模型達(dá)到了極其可觀的聚類效果。(3)我們的研究表明,相對(duì)于其他模型而言,BI-LISM模型具有強(qiáng)大的健壯性。其對(duì)于詞向量依賴更小。

1 模型

本節(jié)LSTM、BI-LISTM以及K-means。

1.1 LSTM

在自然語(yǔ)言處理任務(wù)中,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[4]已經(jīng)取得巨大的成功以及廣泛應(yīng)用。RNN引入了循環(huán)單元,能夠使模型對(duì)前面的信息進(jìn)行記憶并應(yīng)用到當(dāng)前輸出的計(jì)算中。

如圖1所示,我們給RNN模型加入了一層池化層(pooling),其包含輸入層x,隱藏層h,輸出層y.在短信文本聚類研究,x代表詞向量,y代表垃圾短信類別。圖1我們展示了一個(gè)垃圾短信聚類的例子,“代開正規(guī)發(fā)票”作為四個(gè)詞向量,被聚類到商業(yè)廣告類別中。輸入層由各個(gè)時(shí)間段的特征構(gòu)成,即詞向量,可以用onehot來(lái)表示,不過容易導(dǎo)致詞維度過大,而且導(dǎo)致“語(yǔ)義鴻溝”。本文使用Word2Vec來(lái)生成詞向量。每個(gè)詞向量擁有相同的維度,80維。輸出層表示每條短信經(jīng)過模型運(yùn)算之后的最可能的類別,其維數(shù)和垃圾短信的類別數(shù)目相同,為5。與前饋網(wǎng)絡(luò)相比,RNN網(wǎng)絡(luò)加強(qiáng)了當(dāng)前隱藏層與之前隱藏層之間的聯(lián)系(RNN隱藏層的權(quán)值共享)。BNN循環(huán)層被設(shè)計(jì),用來(lái)存儲(chǔ)歷史信息。在這篇文章中,我們運(yùn)用了長(zhǎng)短期時(shí)間記憶網(wǎng)絡(luò)(LSTM)[5]來(lái)進(jìn)行垃圾短信聚類研究。LSTM網(wǎng)絡(luò)與RNN網(wǎng)絡(luò)類似,除了引入了cell單元,其可以避免長(zhǎng)期依賴關(guān)系問題。所以,與RNN相比,LSTM網(wǎng)絡(luò)在處理長(zhǎng)期依賴問題上,表現(xiàn)地更好。圖1表示了用于提取短信聚類文本特征的LSTM模型。

圖1 LSTM模型

1.2 Bidirectional-LSTM

在自然語(yǔ)言處理領(lǐng)域,對(duì)于序列標(biāo)注任務(wù),我們可以通過雙向LSTM網(wǎng)絡(luò)模型,來(lái)獲取任意時(shí)刻過去和將來(lái)的輸入特征。基于此,在垃圾短信文本聚類任務(wù)中,我們也可以在任意時(shí)刻,通過雙向LSTM網(wǎng)絡(luò)模型(圖2)[6]充分利用過去的特征(通過前向狀態(tài))以及將來(lái)的特征(通過后向狀態(tài))。我們使用反向傳播算法(BPTT)來(lái)訓(xùn)練雙向LSTM神經(jīng)網(wǎng)絡(luò)。任意時(shí)刻的信息,經(jīng)過展開的網(wǎng)絡(luò)以前向、后向兩種相同的方式傳遞,來(lái)達(dá)到訓(xùn)練網(wǎng)絡(luò)的目的。我們僅僅需要在句子的開頭及結(jié)尾區(qū)別對(duì)待就好。在實(shí)際實(shí)現(xiàn)中,我們?cè)谡麠l垃圾短信文本做前向、后向傳遞,僅僅在每條垃圾短信文本的開頭重置隱藏狀態(tài)為0,我們運(yùn)用批處理技術(shù),使得多個(gè)句子在同一時(shí)刻,可以并行運(yùn)行。

1.3 K means聚類方法

Kmeans聚類方法[7]是一種典型基于劃分的聚類方法。其利用文本對(duì)象之間的距離來(lái)判斷聚類對(duì)象之間的相似性。它的目標(biāo)是使下面的表達(dá)式值最小:

將包含有N個(gè)文檔的文本數(shù)據(jù)集,劃分成文K個(gè)分組,且K<=N,每一個(gè)分組代表的是一個(gè)聚類對(duì)象。一般來(lái)說基于劃分的方式是采用迭代計(jì)算的方式,不斷地計(jì)算每一個(gè)分組的中心類別,同時(shí)不斷地將文本對(duì)象分配給與中心對(duì)象相似度最接近的類別對(duì)象中,直到準(zhǔn)則函數(shù)開始收斂,就不再進(jìn)行迭代過程。

圖2 雙向LSTM模型

其具體操作步驟如下:(1)任意選取K個(gè)對(duì)象作為最初的類別對(duì)象中心。(2)將數(shù)據(jù)集中的對(duì)象根據(jù)最小距離分配到最相近的類別中心。

(3)使用每一個(gè)聚類中的平均值作為新的類別對(duì)象中心。

(4)重復(fù)步驟(2)-(3)直到聚類的中心不再發(fā)生變化。

(5)結(jié)束操作,得到K個(gè)聚類中心。

1.4 BiLSTM-K-means

BiLSTM-K-means模型總體的結(jié)構(gòu)如圖3所示,它由三個(gè)主要部分構(gòu)成:詞向量層,BiLSTM網(wǎng)絡(luò)和K-means(來(lái)聚類提取到的垃圾短信文本特征)。網(wǎng)絡(luò)的輸入是一段垃圾短信文本序列,其經(jīng)過結(jié)巴分詞,再將分詞后的垃圾短信文本,向量化,(文中向量的方法有Word2Vec已經(jīng)隨機(jī)初始化)。再通過模型提取特征之后,運(yùn)行K-means聚類方法,來(lái)達(dá)到垃圾短信文本聚類的目的。

每條垃圾短信文本的詞通過詞向量表達(dá)輸入到Bi-LSTM網(wǎng)絡(luò)中,經(jīng)過前向。后向傳播,其輸出會(huì)包含上下文信息。在得到BILSTM網(wǎng)絡(luò)雙向表達(dá)的詞向量[8]之后,我們運(yùn)用Pooling機(jī)制去融合每條垃圾短信中不同時(shí)刻的詞向量信息,即句向量,也就是我們所要提取的特征向量。常見的Pooling方式有Max Pooling和Mean Pooling等。當(dāng)一個(gè)序列中的關(guān)鍵部分能代表其含義時(shí),Max Pooling能很好地捕捉到這一突出部分并在Pooling表達(dá)中呈現(xiàn)出來(lái);Mean Pooling則考慮序列中全局的信息,當(dāng)要求序列總體反映某種性質(zhì)時(shí),可以通過Mean Pooling匯總序列的信息。在垃圾短信文本聚類任務(wù)上,不能由單一關(guān)鍵信息表達(dá),其目標(biāo)重要性程度并不集中,因此我們選取Mean Pooling的方式.我們也通過實(shí)驗(yàn)比較了兩者的效果,證實(shí)Mean Pooling效果更加明顯。

由詞向量構(gòu)成的垃圾短信文本,經(jīng)過Pooling機(jī)制后,得到句向量,本文中的維度為100維度,也就是我們經(jīng)過網(wǎng)絡(luò)提取得到的特征。再將其當(dāng)做K-means的輸入,就實(shí)現(xiàn)了我們垃圾短信文本聚類的目的。

圖3 BiLSTM-K-means模型

2 實(shí)驗(yàn)介紹

2.1 實(shí)驗(yàn)數(shù)據(jù)

本文中的數(shù)據(jù)來(lái)源于中國(guó)移動(dòng)蘇州研究院提供的20w條垃圾短信數(shù)據(jù),其一共有5個(gè)類型,分別為廣告短信、政治短信、涉黑短信、詐騙短信以及涉黃短信。我們采用了10折交叉驗(yàn)證的方式,來(lái)將20w條垃圾短信文本劃分為如下訓(xùn)練集、測(cè)試集、驗(yàn)證集。

表1 數(shù)據(jù)集分布

C:集合當(dāng)中垃圾短信文本的類別

Number:集合中包含垃圾短信文本的條數(shù)

L(mean/max):每條垃圾短信包含詞的個(gè)數(shù)

|V|:數(shù)據(jù)中包含詞的個(gè)數(shù)

2.2 實(shí)驗(yàn)數(shù)據(jù)處理

本文中所使用的數(shù)據(jù)時(shí)由中國(guó)移動(dòng)蘇州研究院提供的垃圾短信文本數(shù)據(jù),通過觀察,其存在大量難以處理的文本。例如,為了逃過關(guān)鍵詞的審查機(jī)制,垃圾短信文本中含有大量的非法字符,其主要是加在敏感詞匯之間如:普*稅、做*賬、上-葡-京、【農(nóng) -行】等;還有垃圾短信文本中含有大量的變體字,如:“幵”是“開”的變體等。給我們的文本向量化帶來(lái)了很多難度。因此,本文對(duì)垃圾短信文本數(shù)據(jù)首先進(jìn)行了規(guī)范化處理。包括清除干擾字符、轉(zhuǎn)換不了的字符等。

這樣經(jīng)過一系列的處理后,垃圾短信文本數(shù)據(jù)就變成正常的可以用來(lái)向量化的文本數(shù)據(jù)了。我們首先采用結(jié)巴分詞工具來(lái)對(duì)垃圾短信文本數(shù)據(jù)進(jìn)行切分,這樣我們就得到了經(jīng)過分詞之后,最長(zhǎng)由160個(gè)詞組組成的垃圾短信文本數(shù)據(jù)。

為了得到更好的初始詞向量,本文采用Word2Vec(http://code.google.com/p/word2vec)來(lái)初始化詞向量,經(jīng)效果對(duì)比,我們采用skip-gram語(yǔ)言模型,負(fù)采樣來(lái)訓(xùn)練模型,來(lái)生成80維的詞向量,其語(yǔ)料庫(kù)由中文維基百科預(yù)料以及垃圾短信文本數(shù)據(jù)構(gòu)成。

2.3 評(píng)價(jià)指標(biāo)

聚類效果性能可以通過比較垃圾短信的標(biāo)簽以及所聚類結(jié)果的類別來(lái)評(píng)價(jià)。在本文中,我們通過ACC(準(zhǔn)確度)以及SSE(Sum of Squared Error,誤差平方和)這兩種指標(biāo)來(lái)衡量聚類的效果。對(duì)于一條給定的垃圾短信文本,其ACC(準(zhǔn)確度)[9]可以通過如下得出:

其中,yi以及ci分別是其對(duì)應(yīng)的真實(shí)標(biāo)簽類別和經(jīng)過聚類后其所屬的聚類類別標(biāo)簽,n是所有垃圾短信文本的總數(shù),δ(yi,ci)是制式函數(shù),當(dāng)且僅當(dāng)yi與ci相同時(shí),其值為1,其余為0。

2.4 模型參數(shù)設(shè)置

我們所有模型的訓(xùn)練數(shù)據(jù)都是由20w條垃圾短信基于10折交叉驗(yàn)證得到的14w訓(xùn)練集,我們借鑒了常用的訓(xùn)練詞向量方法,限制了詞向量詞表的長(zhǎng)度為5w,我們只訓(xùn)練出現(xiàn)評(píng)論最高的5w個(gè)詞向量,其他的詞向量我們用一個(gè)非常見詞向量<UNK>來(lái)表示。

我們的模型有兩層BI-LSTM,第一層有100個(gè)神經(jīng)元,第二層有20個(gè)神經(jīng)元。模型參數(shù)[-1,1]隨機(jī)初始化,我們的激活函數(shù)采用Sgmoid,droupout值為0.5,對(duì)于學(xué)習(xí)率我們采用這種策略:在前五次迭代過程中,學(xué)習(xí)率設(shè)置為1,五次迭代之后,每經(jīng)過一次迭代,學(xué)習(xí)率減半;訓(xùn)練集的batch-size設(shè)置為64,測(cè)試集的batch-size則為128。

訓(xùn)練過程中,采用了基于隨機(jī)打亂的mini-batches的隨機(jī)梯度下降法的Adadelta更新規(guī)則,而當(dāng)?shù)螖?shù)超過50次,或者驗(yàn)證數(shù)據(jù)集上的F1值連續(xù)下降10次后,我們就終止訓(xùn)練,并選擇在驗(yàn)證集上F1值最高時(shí)的模型參數(shù)。

3 垃圾短信文本聚類實(shí)驗(yàn)及結(jié)果

在本文中,我們訓(xùn)練了RNN,LSTM,BI-lstm,以及GRU等模型來(lái)進(jìn)行垃圾短信文本聚類實(shí)驗(yàn),采用ACC(準(zhǔn)確度)作為評(píng)價(jià)指標(biāo)。同時(shí)為了驗(yàn)證我們模型的健壯性,我們使用了兩種方式Word2Vec以及隨機(jī)初始化來(lái)初始化詞向量,實(shí)驗(yàn)結(jié)果如表2所示。

表2 垃圾短信文本聚類模型性能對(duì)比

如上表所示,RANDOM是詞向量都是隨機(jī)生成的80維向量,而下面的詞向量則是經(jīng)過Word2Vec訓(xùn)練得來(lái)的。從上面可以得知,無(wú)論在哪個(gè)模型當(dāng)中,經(jīng)過訓(xùn)練之后的詞向量,即使直接用K-means來(lái)進(jìn)行聚類研究,也比RANDOM詞向量的效果高10%。通過對(duì)比。兩種詞向量在不同模型中的表現(xiàn),我們不難發(fā)現(xiàn),即使只是用了最簡(jiǎn)單的RNN-K-means模型,其對(duì)詞向量的依賴也沒有K-means模型那么大,其性能提升大概有8個(gè)百分點(diǎn)。在所有的模型中,BI-LSTM-K-means模型,其性能提升大概5.3個(gè)百分點(diǎn),而LSTMK-means提升6.9個(gè)百分點(diǎn),GRU-KMEANS提升7.2個(gè)百分點(diǎn),這表明我們的BI-LSTM模型對(duì)詞向量的質(zhì)量依賴最小。表明其模型健壯性最佳。

在聚類模型中,我們的BI-LSTM模型的性能最佳,無(wú)論在哪種詞向量中,RANDOM詞向量實(shí)驗(yàn)中,其ACC可以達(dá)到90%,而Word2Vec實(shí)驗(yàn)中,ACC達(dá)到了97^,而且我們可以發(fā)現(xiàn),無(wú)論是哪種詞向量,在沒有應(yīng)用神經(jīng)網(wǎng)絡(luò)模型來(lái)提取特征時(shí),其效果都不高,在73%,而引入 RNN(RNN,GRU,LSTM,BI-LIST)模型之后,其效果有了質(zhì)的提升,即使是在RANDOM詞向量實(shí)驗(yàn)中,其ACC都在81%以上,在效果最好的BILSTM-K-means模型中,其ACC在90%;而在Word2-Vec實(shí)驗(yàn)中,其效果更是高達(dá)97%。

4 結(jié)語(yǔ)

本文根據(jù)基于神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)分析方法,設(shè)計(jì)了一種使用回復(fù)式神經(jīng)網(wǎng)絡(luò)BI-LSTM學(xué)習(xí)模型的文本特征提取架構(gòu)。根據(jù)網(wǎng)絡(luò)模型學(xué)習(xí)到的文本向量特征,利用傳統(tǒng)K-means聚類算法進(jìn)行聚類操作,實(shí)驗(yàn)的數(shù)據(jù)來(lái)源于實(shí)際的生產(chǎn)生活中。通過實(shí)驗(yàn)的結(jié)果表明,通過神經(jīng)網(wǎng)絡(luò)模型進(jìn)行文本特征提取后處理的實(shí)驗(yàn)結(jié)果要好于直接使用詞向量文本聚類的實(shí)驗(yàn)結(jié)果。

同時(shí)本文系統(tǒng)的比較了一些基于深度特征語(yǔ)義學(xué)習(xí)模型的垃圾短信文本聚類方法的效果,這些模型包括RNN-K-means模型,GRU-K-means模型,LSTMK-means模型,BI-LSTM-K-means模型,實(shí)驗(yàn)結(jié)果證明BI-LSTM-K-means最優(yōu)。

最后我們使用RANDOM以及Word2Vec兩種模型來(lái)驗(yàn)證模型的健壯性,通過對(duì)比實(shí)驗(yàn)我們發(fā)現(xiàn),相對(duì)于其他模型而言,BI-LISM模型具有強(qiáng)大的健壯性。其對(duì)于詞向量依賴更小。

參考文獻(xiàn):

[1]Charu CAggarwal and Cheng Xiang Zhai.2012.ASurvey of Text Clustering Algorithms.In Mining Text Data,pages77-128.Springer.

[2]Sommath Banerjee,Krishnam Ramanathan,and Ajay Vupta.2007.Clustering Short Texts Using Wikipedia.In SIGIR,pages787-788.ACM.

[3]Samah Fodeh,BillPunch,and Pang-Ning Tan.2011.On Ontology-Driven Document Clustering Using Core Semantic Fieatures.Knowledge and Information Systems,28(2):395-421.

[4]TomasMikolov,Stefan Kombrink,Lukas Burget,Jan H Cernocky,and Sacjeev Khudanpur.2011.Extensions of Recurrent Neural Network Language Model.In ICASSP,pages 5528-5531.IEEE.

[5]Swpp Hochreiterand Jurgen Schmidhuber.1997.Long Short-Term Memory.Neural Computation,9(8):1735-1780.

[6]A.Gravesand J.Schmidhuber.2005.Frame wise Phoneme Classification with Bidirecional LSTM and Other Neural Network Architectures.Neural Networks.

[7]KiriWagstaff,Claire Cardie,Seth Rogers,Stefan Schrodl,etal.2011.Constrained K-means Clustering with Background Knowledge.In ICML,volume1,pages577-584.

[8]Jeffrey Penningtom,Richard Socher,and Christopher D Manning.2014.Gove:Global Vectors for Word Representation.EMNLP,12.

[9]Pehihao Huang,Yan Huang,Wei Wang,and Liang Wang.2014.Deep Embedding Network for Clustering.ICPR,2014.

猜你喜歡
文本實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 无码啪啪精品天堂浪潮av| 国产在线视频二区| 免费看美女自慰的网站| 免费全部高H视频无码无遮掩| 大学生久久香蕉国产线观看| 国产全黄a一级毛片| 国产精品密蕾丝视频| 乱人伦中文视频在线观看免费| 91精品久久久无码中文字幕vr| 三级视频中文字幕| 亚洲中文字幕av无码区| 东京热高清无码精品| 人妻免费无码不卡视频| 国产成人精品视频一区视频二区| 欧美精品伊人久久| 亚洲人视频在线观看| 制服无码网站| 成人另类稀缺在线观看| 亚洲无卡视频| 伊人色在线视频| AV不卡在线永久免费观看| 波多野衣结在线精品二区| av性天堂网| 欧美在线天堂| a亚洲天堂| 欧美日韩中文字幕在线| 美臀人妻中出中文字幕在线| 亚洲欧美成人| 午夜国产在线观看| 97国产精品视频人人做人人爱| 久久无码高潮喷水| 毛片网站免费在线观看| 国产AV毛片| 成人在线不卡| 亚洲国产精品无码久久一线| 成年看免费观看视频拍拍| 91精品人妻一区二区| 乱系列中文字幕在线视频 | 亚洲欧洲日韩综合色天使| 国内自拍久第一页| 久久亚洲黄色视频| 91啪在线| 欧美精品色视频| 97成人在线视频| 午夜少妇精品视频小电影| 亚洲国产成人精品一二区| 午夜日本永久乱码免费播放片| 黄色不卡视频| 亚洲精品桃花岛av在线| 亚洲欧美成aⅴ人在线观看| 成年人国产网站| 日本午夜在线视频| www.91在线播放| 国产麻豆永久视频| 国产福利拍拍拍| 青青青国产视频| 97久久精品人人做人人爽| 精品国产Ⅴ无码大片在线观看81| 欧美成人二区| 91视频精品| 国产在线专区| 一级毛片中文字幕| 欧美第一页在线| 亚洲AV无码久久精品色欲 | 成AV人片一区二区三区久久| 婷婷六月激情综合一区| 亚洲国产中文综合专区在| 色有码无码视频| 日韩视频福利| 高清无码手机在线观看| 国产电话自拍伊人| 91九色最新地址| 国产成人高清精品免费软件| 国产黄色爱视频| 色天天综合| 精品视频免费在线| 日韩 欧美 国产 精品 综合| 在线精品视频成人网| 欧美在线观看不卡| 亚洲高清在线播放| 亚洲妓女综合网995久久| 日韩123欧美字幕|