999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

CNN支持下的領(lǐng)域文本自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法

2018-07-04 10:31:32賈聲聲彭敦陸
小型微型計算機系統(tǒng) 2018年6期
關(guān)鍵詞:特征提取文本模型

賈聲聲,彭敦陸

(上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200093)

1 引 言

文本自動化聚類是文本信息檢索、文本信息挖掘、推薦算法等自然語言處理應(yīng)用的基礎(chǔ),其目的是將大規(guī)模文本數(shù)據(jù)按照某種模型將文本聚集成不同簇,各個簇中的文本滿足簇間文本相似性小而簇內(nèi)文本相似性大的特點.通常,在文本聚類之前,需要對原始數(shù)據(jù)抽取特征詞并進行向量化.隨著文本規(guī)模的增大,為高效地進行文本特征抽取向量化及文本聚類提出了新的挑戰(zhàn).

文本特征抽取及向量化表示是將文本轉(zhuǎn)化為計算機能夠處理的數(shù)學(xué)形式,它是文本聚類的前提.最早出現(xiàn)在自然語言處理領(lǐng)域的是基于BOW(Bag-of-words model)模型向量表示,該模型忽略了原文本的語法和語序,采用一組無順序的詞語來表示文本向量.文獻[2]中,作者利用基于BOW模型的特征抽取方法進行文本特征抽取.然而實際應(yīng)用表明語法和語序都是提高文本特征提取準確度的關(guān)鍵因素,而基于BOW模型向量表示進行特征抽取的方法缺少對二者考慮,從而使直接運用該模型進行特征抽取及向量化難以保證其準確度.近些年,隨著神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)的不斷發(fā)展,在自然語言領(lǐng)域提出了詞嵌入(word embedding)的詞向量模型[3].該模型具有能夠表達詞與詞之間的語義且不存在維數(shù)災(zāi)難問題等優(yōu)點.文獻[4]提出的C-LSTM 神經(jīng)網(wǎng)絡(luò)模型是將RNN(Recurrent Neural Networks)和CNN(Convolutional Neural Network)結(jié)合建立混合模型來實現(xiàn)文本特征提取及向量化表示.C-LSTM能捕獲局部短語來代表全局句子的語義,以此提高文本分類的正確率.文獻[5]通過word2vec獲得詞向量,將靜態(tài)詞向量和動態(tài)詞向量作為CNN模型的兩個通道,從而提高了分類效果.這些研究表明,利用神經(jīng)網(wǎng)絡(luò)的方法對文本特征提取及文本向量化表示,可以在一定程度上提高文本分類的準確度.

本文在對神經(jīng)網(wǎng)絡(luò)文本向量表示模型進行深入研究的基礎(chǔ)上,利用領(lǐng)域文本內(nèi)在的規(guī)范性,對CNN算法進行擴展,提出一種基于動態(tài)詞窗口的CNN文本特征提取新算法.利用提取的文本特征向量,采用一種基于森林結(jié)構(gòu)的自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法實現(xiàn)了文本的聚類分析.通過將所提算法應(yīng)用于海量法律文本聚類分析,驗證其有效性.

2 相關(guān)工作

多年來,文本聚類算法已有眾多專家對其進行了研究,提出了許多與聚類算法有關(guān)的研究成果.與本項研究最為相關(guān)的是基于自組織網(wǎng)絡(luò)SOM(Self-organizing Maps)的文本聚類方法.在文獻[6]中,Kohen提出自組織映射網(wǎng)絡(luò)理論,它是基于無監(jiān)督學(xué)習(xí)方法的自組織神經(jīng)網(wǎng)絡(luò)SOM.SOM模型結(jié)構(gòu)由上層競爭層(輸出層)和下層輸入層兩部分組成.對于每一個樣本的輸入,當前網(wǎng)絡(luò)模型會對輸入的樣本執(zhí)行一次自組織適應(yīng)過程,持續(xù)調(diào)節(jié)輸入層和輸出層之間的權(quán)數(shù)矩陣W,直到網(wǎng)絡(luò)模型穩(wěn)定為止.SOM模型聚類之前,競爭層需要預(yù)先設(shè)定權(quán)數(shù)矩陣和神經(jīng)單元個數(shù),且訓(xùn)練過程中是恒定不變的.因此,需要經(jīng)過若干次仿真訓(xùn)練才能確定競爭層神經(jīng)元的數(shù)目.為了解決上述問題,在文獻[7]中,Alahakoon等人提出了動態(tài)增長自組織映射模型GSOM(Growing Self-Organizing Maps).GSOM模型的競爭層初始是四個神經(jīng)元組成的正方形結(jié)構(gòu),對輸入樣本基于當前網(wǎng)絡(luò)來尋找最佳神經(jīng)元,而調(diào)整最佳神經(jīng)元和相鄰結(jié)點權(quán)值以及累積誤差時,利用與SOM相似的方法進行.當增長閾值小于當前累積誤差時,根據(jù)鄰域是否有空閑結(jié)點決定是生成新的結(jié)點還是將誤差分布給相鄰結(jié)點.文獻[1]中,Damminda Alahakoon等人在GSOM的基礎(chǔ)上,利用語義相關(guān)性策略,提高文本聚類效率.由于GSOM模型生成新的結(jié)點比較有局限性,算法執(zhí)行效率低,文獻[11]提出了一種新的樹形動態(tài)自組織映射神經(jīng)網(wǎng)絡(luò)TGSOM(Tree Growing Self-Organizing Maps).TGSOM算法采用了靈活的樹型結(jié)構(gòu)解決了GSOM模型生成新結(jié)點的局限,競爭層初始有且僅有一個根節(jié)點,對輸入樣本基于當前網(wǎng)絡(luò)尋找最佳匹配結(jié)點,如果誤差大于生長閾值,則生成最佳匹配結(jié)點的孩子結(jié)點即新的神經(jīng)元.TGSOM模型結(jié)構(gòu)雖然靈活,但需要多次聚類才能夠?qū)崿F(xiàn)層次聚類,網(wǎng)絡(luò)訓(xùn)練過程中某些部分使用的計算方法對網(wǎng)絡(luò)聚類速度有很大的影響,例如,獲勝神經(jīng)元的計算策略.

對于特定的大規(guī)模領(lǐng)域文本數(shù)據(jù)集(如法律文書),利用文本集表達的規(guī)范性和專業(yè)性,在基于動態(tài)詞窗口的CNN新的文本特征提取算法的基礎(chǔ)上,本文從聚類數(shù)目的自增長、獲勝神經(jīng)元的計算策略對SOM聚類算法進行了改進,提出了基于森林結(jié)構(gòu)的FGSOM模型.在FGSOM模型中,每一棵樹代表大類別,樹中的結(jié)點代表所屬類別的子類別,一次計算實現(xiàn)文本的層次聚類.根據(jù)最佳匹配結(jié)點的誤差與生長閾值的關(guān)系,決定是產(chǎn)生大類別的根結(jié)點還是產(chǎn)生已有大類別的子結(jié)點.在計算輸入樣本和神經(jīng)元的誤差時,結(jié)合競爭層森林的特殊分布結(jié)構(gòu),采用局部最優(yōu)策略,提高聚類速度及計算效果.

3 基于動態(tài)詞窗口的CNN的文本特征提取模型

下面討論如何通過動態(tài)詞窗口卷積神經(jīng)網(wǎng)絡(luò)提取文本特征.3.1部分給出下文出現(xiàn)的相關(guān)術(shù)語解釋;3.2部分介紹文本預(yù)處理過程;3.3部分描述文本抽象特征提取算法的詳細過程.

3.1 術(shù)語解釋

文本向量表示:非結(jié)構(gòu)化文本轉(zhuǎn)化為計算機能夠處理的數(shù)值形式,記為d(x1,x2,x3,…,xn):.其中,n代表向量的維數(shù).

文本聚類:文檔數(shù)據(jù)集D(d1,d2,d3…dm)按照某種模式將相似文本聚集到一起,組成不同簇的過程,其中m代表文本的總數(shù)量.

停用詞:文檔中出現(xiàn)頻率極高但沒有具體含義(不能代表文檔所表達的語義)、類別區(qū)分度較低的詞語(比如“的”,“了”等).

特征模式:分析案件文本,構(gòu)建符合特定句法結(jié)構(gòu)的文本片段,即特征模式.譬如,交通肇事案件文本中,可以建立“醉酒[*]駕駛”、“未讓[*]先行”等正則表達式特征模式.

詞性模板:對案件文本進行分詞、詞性標注處理,得到詞性片段,挖掘頻繁出現(xiàn)的n-gram詞性,被稱為詞性模板.以句子“盜竊/v一/m部/q蘋果/n手機/n”為例,應(yīng)用詞性模板/m/q/n/n就可以挖掘出短語“一部蘋果手機”.

3.2 數(shù)據(jù)預(yù)處理

詞語作為能夠單獨成義的最小語言成分,在不同的語言中有著不同的區(qū)分方法.例如,英文單詞以空格作為自然分界符,而中文則是以字作為基本的書寫單位,詞語之間沒有明顯的區(qū)分標記.因此,中文分詞是解決文本向量表示、文本聚類等問題的基礎(chǔ).對中文分詞的研究已取得了一些研究成果,如中國科研院研發(fā)的NLPIR漢語分詞系統(tǒng)可以完成文本的分詞任務(wù).分詞準確度在很大程度上受分詞器所使用的詞庫影響,為了提高分詞的準確度,本文在分詞過程中不使用分詞器自帶的分詞庫,而是采用領(lǐng)域(如法律領(lǐng)域)分詞庫.分詞還進行了過濾停用詞等操作,以提高抽取詞的代表性.抽取詞語后,利用 Mikolov[8,9]提出word2vec計算模型來求得詞庫中每一個詞語的向量表示.在文本特征抽取過程中,本文提出基于動態(tài)詞窗口的卷積神經(jīng)網(wǎng)絡(luò)模型進行詞向量訓(xùn)練,實現(xiàn)文本片段的向量表示,并降低了向量的維數(shù),以此提高后續(xù)計算效率.

3.3 基于動態(tài)詞窗口的 CNN文本特征抽取模型

CNN是一種前饋神經(jīng)網(wǎng)絡(luò),它包括卷積層、池化層、全連接層,模型結(jié)構(gòu)主要特點是:局部感受野(local receptive fields)、共享權(quán)值(share weights,權(quán)重矩陣和偏置)、池化(pooling).其利用了圖像中局部像素點聯(lián)系比較緊密,而距離較遠的全局像素點聯(lián)系比較疏遠的特征.在文本數(shù)據(jù)中,詞語類似于圖像中的像素點,其相互間的關(guān)系與像素點相類似.因此,在計算過程中,每個神經(jīng)元先對局部進行感知,而在下一層將信息進行綜合得到全局信息.在神經(jīng)元局部進行感知過程中,權(quán)重和偏置是共享的.池化層對卷積層輸出的特征圖進行抽取,一方面簡化卷積層輸出的信息,一方面提取最具有代表性的特征,通常有最大池化和平均池化兩種,即選取區(qū)域中特征的最大值或者平均值.

這里提出一種基于動態(tài)詞窗口的CNN文本特征提取模型(如圖1所示),該模型在Yoon Kim提出的基于英文句子級別分類模型的基礎(chǔ)上而來.Yoon Kim利用word2vec訓(xùn)練好的詞向量作為輸入,通過CNN來實現(xiàn)短文本的分類,這一模型的缺陷是沒有利用與領(lǐng)域相關(guān)的文本特征.例如,在處理法律文書時,法律文本具有規(guī)范性以及專業(yè)術(shù)語表達的規(guī)律性.本文利用基于詞語的屬性(包括詞性模板、特定模式)進行動態(tài)詞窗口卷積,可以確保窗口內(nèi)的文本更具有連貫性、語義性(比如,“一臺筆記本電腦”,如果基于大小為3的固定窗口卷積,“一臺筆”“記本電”“腦”出現(xiàn)在同一個窗口中沒有實際意義.而基于動態(tài)詞窗口卷積,利用詞性模板,“一臺筆記本電腦”將出現(xiàn)在同一個窗口中,卷積結(jié)果會更有語義性).卷積層每次滑動窗口的大小通過當前詞語屬性進行動態(tài)計算來確定.池化層采用最大化和平均值相結(jié)合的方法來提高文本特征提取的質(zhì)量.

圖1 基于CNN的SOM聚類結(jié)構(gòu)Fig.1 Som Clustering Structure Base on

在對文本進行特征抽取的時候,傳統(tǒng)的CNN根據(jù)n-gram依次提取固定詞窗口的卷積特征.詞窗口n值的大小直接決定最終的卷積特征的有效性.但n值大小難以準確確定,不恰當?shù)膎值對文本特征提取準確度影響較大.一個卷積核通過固定窗口對文本特征提取只能獲得一個特征項,在實際計算中,通常使用多個卷積核來獲取不同特征.為了解決這一問題,在建立詞性模板集合和特征模式詞庫的基礎(chǔ)上,提出CNN在進行卷積操作時,根據(jù)當前詞語的屬性采用DDW-CNN(DDW,Dynamic dictionary window)算法(算法描述見圖2)動態(tài)地獲取詞窗口的大小.新特征映射過程中,詞窗口大小n取不同值,但其共享矩陣是唯一的.一個詞窗口中的單詞Xi,i+n對應(yīng)產(chǎn)生一個新的映射特征cl:

ci=f(w+xi,i+h-1+b)

b是偏置項,f是非線性的函數(shù)如雙曲正切函數(shù).當過濾器滑動所有位置后,得到特征圖c:

c=[c1,c2,c3…cn]

采用動態(tài)詞窗口,在卷積的過程中能夠獲取更多隱含在文本中的特征.在池化層采用最大值(Max-Pooling)和平均值(Mean-Pooling)混合池化模型,這一模型的優(yōu)點是不僅表達最有價值的特征,而且還可以捕捉隱含的特征,很好地解決了文本長度及特征圖大小不一致的問題.如公式所示:

基于詞語屬性的動態(tài)詞窗口獲取算法DDW-CNN

輸入:索引Index,文本序列Ts,文本詞性序列Tpos,詞性模板集合Stc,特征模式詞庫集合Fplc,文本的長度len;

輸出:動態(tài)詞窗口n

圖2 DDW-CNN算法Fig.2 Algorithm of DDW-CNN

如圖2所示,在DDW-CNN算法中subTs函數(shù)用來獲取連續(xù)i個詞(第2行),而subTpos是獲取連續(xù)i個詞的詞性(第3行).算法采用最長序列優(yōu)先策略來確定詞窗口的大小,即如果特征模式滿足subTs函數(shù)獲得的短語,則返回當前短語的長度作為詞窗口的大小(第5-9行).相似地,如果詞性模板集合中包含subTpos獲得的詞性短語,則返回當前詞性短語的長度作為詞窗口的大小(第10-14行).考慮到中文詞特點,算法默認返回的詞窗口大小為2(第15行).

4 FGSOM層次模型聚類

FGSOM是基于森林結(jié)構(gòu)的自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法,為提高計算效率,本研究還通過局部最優(yōu)策略對FGSOM模型的計算過程進行優(yōu)化.前文給出了基于動態(tài)詞窗口的CNN文本特征提取模型,通過該模型可以獲得文本向量表示,并將其作為FGSOM模型的輸入層.

4.1 基本概念

為了描述方便,在FGSOM模型建模之前,先給出基本定義和算法中用到的定義和規(guī)則.

定義1.文本相似度(記作),衡量文本間相似度的重要指標是文本向量間的余弦距離.當前狀態(tài)競爭層所有神經(jīng)元與輸入文本向量d相似度最小的神經(jīng)元結(jié)點為的最佳匹配結(jié)點,記作bmn(best matching node),bmn所屬于的樹稱為bmt(best matching tree).

定義2.決定是否生成新的神經(jīng)元的臨界值稱為生長閾值,記作GT(growth threshold).生長閾值分為大類根結(jié)點生長閾值(BGT,big growth threshold)和子類結(jié)點生長閾值(CGT,child growth threshold).

規(guī)則1.新結(jié)點生成策略

(a)最佳匹配結(jié)點的相似度大于BGT,則產(chǎn)生新類別的root根;否則跳轉(zhuǎn)(b)

(b)最佳匹配結(jié)點的相似度大于CGT,則產(chǎn)生bmn的孩子節(jié)點.否則跳轉(zhuǎn)(c)

(c)不生成任何節(jié)點,進行權(quán)值矩陣更新

4.2 FGSOM 算法

FGSOM 處理過程如下:

4.2.1 網(wǎng)絡(luò)初始化

網(wǎng)絡(luò)正式計算前需要進行一些必要的準備,如進行各種參數(shù)設(shè)置等,包括以下內(nèi)容:

(a)初始網(wǎng)絡(luò)有且僅有1個神經(jīng)單元,即根節(jié)點(隨機選擇文檔向量進行初始化) .

(b)設(shè)置最大迭代次數(shù)、終止迭代誤差、初始學(xué)習(xí)速率.

(c)設(shè)置生長閾值.

4.2.2 網(wǎng)絡(luò)訓(xùn)練

網(wǎng)絡(luò)訓(xùn)練是用來獲取穩(wěn)定的FGSOM網(wǎng)絡(luò)拓撲結(jié)構(gòu),本文所提網(wǎng)絡(luò)的訓(xùn)練階段完成以下任務(wù):

(a)文本數(shù)據(jù)集中隨機選取文檔向量,利用局部最優(yōu)算法(下文給出)尋找的.

(b)結(jié)合規(guī)則1結(jié)點生成策略,判斷是否生成相應(yīng)的結(jié)點.若生成操作,則轉(zhuǎn)(d),否則轉(zhuǎn)(c),對權(quán)值進行調(diào)整.

(c)利用式(1)對最佳神經(jīng)元所屬樹的權(quán)值進行調(diào)整.

(1)

其中LR(k)為學(xué)習(xí)率,當k趨于無窮時,LR趨于0.wj(k+1),wj(k)分別為結(jié)點j在調(diào)整前后的權(quán)值;bmt為最佳匹配結(jié)點所在的樹,如果神經(jīng)元屬于bmt,則對權(quán)值進行更新,否則不更新.

(d)LR(t+1)=LR(t)*α,其中α為LR的調(diào)節(jié)因子,0<α<1.

(e)重復(fù)(a)-(d),直到中全部樣本訓(xùn)練完畢.

4.2.3 循環(huán)學(xué)習(xí)

重復(fù)(2)進入下一個訓(xùn)練周期,直到網(wǎng)絡(luò)穩(wěn)定.如果達到最大迭代次數(shù)或者達到最小迭代誤差則終止網(wǎng)絡(luò)的訓(xùn)練.

4.3 網(wǎng)絡(luò)結(jié)構(gòu)

FGSOM網(wǎng)絡(luò)結(jié)構(gòu)與SOM一樣由輸入層和競爭層兩部分組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1中聚類全連接層所示,其中d1…dn是訓(xùn)練的文本向量.圖1中聚類全連接層左邊部分為FGSOM模型網(wǎng)絡(luò)的初始狀態(tài),此時競爭層只包含一個根結(jié)點root1;右邊部分為網(wǎng)絡(luò)生長至7個結(jié)點時的狀態(tài).兩棵樹代表兩個父類別(root1,root2).root1樹中有三個子類別,root2中有四個子類別.例如,在進行法律文本處理時,root1可代表刑法,三個子類別代表盜竊罪、搶劫罪、故意傷害罪.FGSOM模型通過生長閾值的控制,通過一次仿真訓(xùn)練就可以達到層次聚類.模型中的一棵樹屬于一個父類別,樹的內(nèi)部結(jié)點表示父類的子類別.

4.4 選擇bmn的局部最優(yōu)算法

傳統(tǒng)bmn的計算方法首先依次計算所有神經(jīng)元與輸入文本之間的相似度,然后對相似度進行排序來選擇bmn.這種計算方法的缺陷是需要計算神經(jīng)元與輸入向量的每一維作差和遍歷求解,這是一個比較耗時的動作.為了克服這一缺陷,在計算神經(jīng)元和輸入向量相似度時,采用累加求和的策略求解最優(yōu)bmn,減少維數(shù)計算,提出SDUA算法(見圖3).

最短距離更新算法 SDUA

輸入:最短距離dmin,兩個文本向量d1,d2

輸出:當前的最短距離dmin

圖3 SDUA算法Fig.3 Algorithm of SDUA

算法先行遍歷每一維向量(第1行),再利用Distance函數(shù)用來求解當前維數(shù)的距離(第2行),如果當前維數(shù)的距離已經(jīng)大于dmin,則不再計算后邊維數(shù)的向量(第3-5行);如果所有維數(shù)計算完畢,則更新dmin的值.

在森林結(jié)構(gòu)的基礎(chǔ)上,采用局部最優(yōu)策略,盡早拋棄不可能成為bmn的節(jié)點,提出LO-BMN算法(如圖4).LO-BMN算法,遍歷當前神經(jīng)元的根集合R,求解最佳bmt(第1-9行),然后求解bmt中的bmn(第10-19行).在兩個過程中,都使用了SDUA算法來提高計算效率.針對圖3給出的網(wǎng)絡(luò)模型,輸入向量d首先和root1、root2節(jié)點計算最佳根節(jié)點.若root1>root2,則root1樹中的所有神經(jīng)元不可能成為bmn,那么,在這一階段拋棄root1樹中的所有結(jié)點.然后遍歷root2中所有的結(jié)點,最終求出bmn.在集合中選擇最佳結(jié)點時,采用維數(shù)累加求和SDUA算法,來提高計算速度.

局部最優(yōu)求解最佳神經(jīng)元算法:LO-BMN

輸入:輸入文本d,神經(jīng)元根集合R,樹結(jié)點Map結(jié)構(gòu)集合T

輸出:最佳神經(jīng)元節(jié)點bmn,最短距離dmin

圖4 LO-BMN算法Fig.4 Algorithm of LO-BMN

5 實驗與分析

5.1 數(shù)據(jù)集

實驗所用數(shù)據(jù)集是從Web(浙江法院公開網(wǎng)網(wǎng)址鏈接:http://www.zjsfgkw.cn/Document/JudgmentBook)下載的某省高級人民法院公開的法律文書(判決書),為真實數(shù)據(jù)集.數(shù)據(jù)集涵蓋了刑事、民事、商事、行政共計10000篇案件文本.為保證計算的有效性和規(guī)范性,在進行特征提取和聚類計算之前,先對原始數(shù)據(jù)進行了處理,剔除掉亂碼等無效的文本片段,最后獲得有8126個有效文本段.

5.2 實驗結(jié)果分析

實驗1.考察基于動態(tài)詞窗口的CNN 特征提取性能

為了驗證動態(tài)詞窗口的CNN模型特征提取性能,實驗先利用NLPIR對數(shù)據(jù)集進行分詞,獲得以詞為單位的數(shù)據(jù)集,再利用word2vec構(gòu)建對應(yīng)的詞向量.一個文本片段集的大小為N*300(N指文本片段選取詞的數(shù)量,大小固定為50).實驗中,CNN模型采用一層動態(tài)詞窗口的卷積層,一層為池化層,最后獲得文本的向量表示,作為標準SOM模型的輸入層.模型參數(shù)具體設(shè)置如下:詞向量維數(shù)300,dropout率(神經(jīng)元被丟棄的概率)為0.5,迭代次數(shù)為30.實驗評價采用聚類問題中常用的輪廓系數(shù)(silhouette coefficient)作為測試指標,它結(jié)合了內(nèi)聚度和分離度兩種因素,如公式所示:

(2)

(3)

其中a(i)代表第i個樣本到它所屬于簇中其它樣本的平均距離.b(i)代表第i樣本到所有非本身所在簇的樣本平均距離的最小值.公式(3)是聚類結(jié)果總的輪廓系數(shù).由公式(2)可見輪廓系數(shù)的值介于[-1,1],越趨近于1代表分離度和內(nèi)聚度都相對較優(yōu).

圖5 不同模型的輪廓系數(shù)Fig.5 Value of silhouette coefficient

為進行比較,實驗選取三種類型的CNN模型進行測試,這三種CNN模型為:基本的CNN[5]、加入dropout的CNN[10]、及本文提出的基于動態(tài)詞窗口的CNN.采用這些網(wǎng)絡(luò)模型獲取文本向量表示,然后對文本進行聚類,根據(jù)輪廓系數(shù)對模型的計算效果進行評價.圖5描述了實驗結(jié)果,從圖中可以看出,使用在基于動態(tài)詞窗口的CNN模型基礎(chǔ)上得到的詞向量進行聚類得到的輪廓系數(shù)明顯優(yōu)于另外兩種模型.基于動態(tài)詞窗口的CNN聚類輪廓系數(shù)在0.8左右,這是因為有的案件文本片段同時屬于兩個類別,無法準確確定,對聚類結(jié)果產(chǎn)生一定的影響.在實際應(yīng)用中,可以對這類案件文本進行預(yù)先過濾,然后對過濾后得到的案件文本進行聚類,可以明顯提高聚類效果.

圖6 生長閾值對比Fig.6 Comparison of growth threshold

實驗2.考察生長閾值(BGT/CGT)對聚類結(jié)構(gòu)的影響

選擇合適的生長閾值(BGT/CGT),對提高FGSOM算法的計算效果至關(guān)重要.FGSOM模型參數(shù)具體設(shè)置如下:最大迭代次數(shù)設(shè)置為1000,終止迭代誤差設(shè)置為0.01,初始學(xué)習(xí)速率為0.7,學(xué)習(xí)速率的調(diào)節(jié)因子α設(shè)置為0.3.實驗考查了不同的生長閾值對聚類結(jié)構(gòu)的影響,由圖6顯示的實驗結(jié)果可見,BGT/CGT值的大小對最后最終的聚類結(jié)構(gòu)圖有較大影響.對于BGT在0.5到1.0之間進行變化可知,當BGT=0.65時,大類別聚類效果最好;當CGT在0到0.5之間變化,CGT=0.3、BGT=0.65時,小類別聚類效果最好.基于此,在對法律案件文本片段聚類時,本文將BGT設(shè)置為0.65,CGT設(shè)置為0.3.

實驗3.考察FGSOM 聚類模型效率

為了驗證本文提出的FGSOM層次聚類模型聚類效果和計算效率,選取現(xiàn)有的GSOM算法[7]、TGSOM算法[11]作為對比來進行本組實驗.模型參數(shù)具體設(shè)置如下:BGT設(shè)置為0.65,CGT設(shè)置為0.3,其他參數(shù)和實驗二保持一致.

圖7 輪廓系數(shù)對比Fig.7 Comparison of silhouette coefficien圖8 運行時間對比Fig.8 Comparison of runtime

圖7描述了不同聚類模型的輪廓系數(shù),從圖中可以看出,F(xiàn)GSOM聚類的輪廓系數(shù)明顯高于另外兩種算法.圖8給出了在相同數(shù)據(jù)集上,不同聚類方法進行聚類運算所需時間的對比.GSOM 算法所消耗的時間大于TGSOM、FGSOM 算法,原因在于GSOM 算法在產(chǎn)生新的結(jié)點的策略沒有其他算法靈活,進而消耗了較多的計算時間.當數(shù)據(jù)量較小的時候,三種聚類方法差距不明顯,無法體現(xiàn)出FGSOM 算法具有優(yōu)越性,但隨著數(shù)據(jù)集的增大(例如大于3000時),F(xiàn)GSOM算法表現(xiàn)出較好的計算優(yōu)勢.

6 結(jié) 論

在分析現(xiàn)有文本處理聚類算法的基礎(chǔ)上,文本向量表示及SOM聚類算法存在的缺陷,提出基于動態(tài)詞窗口的改進型CNN算法進行文本特征提取,以此為輸入提出基于森林結(jié)構(gòu)的自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法——FGSOM,對大規(guī)模文本數(shù)據(jù)的進行層次聚類.實驗結(jié)果表明,采用本文提出計算模型可以獲得較好的文本聚類效果.通過與現(xiàn)有的基于SOM聚類算法(如GSOM、TGSOM)進行比較可知,F(xiàn)GSOM算法在處理大規(guī)模領(lǐng)域文本時,在計算效率和計算效果上表現(xiàn)出一定優(yōu)勢.

[1] Nathawitharana N,Alahakoon D,Silva D D.Using semantic relatedness measures with dynamic self-organizing maps for improved text clustering[C].International Joint Conference on Neural Networks,2016:2662-2671.

[2] Hingmire S,Chougule S,Palshikar G K,et al.Document classification by topic labeling[C].International Conference on Information Retrieval,2013:877-880.

[3] Bengio Y,Schwenk H,Senécal J S,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.

[4] Zhou C,Sun C,Liu Z,et al.A C-LSTM neural network for text classification[J].Computer Science,2015,1(4):39-44.

[5] Kim Y.Convolutional neural networks for sentence classification[C].Proc of Conference on Empirical Methods in Natural Language Processing,2014:1746-1751.

[6] Kohonen T.Self-organization and associate memory[J].Spinger-Verlag,1984,8(1):3406-3409.

[7] Alahakoon D,Halgamuge S K,Srinivasan B.Dynamic self-organizing maps with controlled growth for knowledge discovery[J].IEEE Transactionson Neural Networks,2000,11(3):601-614.

[8] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].Computer Science,2013.

[9] Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013,26:3111-3119.

[10] Hinton G E,Srivastava N,Krizhevsky A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.

[11] Wang Li,Wang Zheng-ou.Tgsom:a new dynamic self-organizing maps for data clustering[J].Journal of Electronics & Information Technology,2003,25(3):313-319.

附中文參考文獻:

[11] 王 莉,王正歐.TGSOM:一種用于數(shù)據(jù)聚類的動態(tài)自組織映射神經(jīng)網(wǎng)絡(luò)[J].電子與信息學(xué)報,2003,25(3):313-319.

猜你喜歡
特征提取文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
一種基于LBP 特征提取和稀疏表示的肝病識別算法
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 亚洲国产日韩在线观看| 欧美激情网址| 国产一级在线观看www色| 中文字幕在线观| 午夜福利免费视频| 伊人色天堂| 嫩草国产在线| 欧美高清三区| 91日本在线观看亚洲精品| 国产精品视频猛进猛出| 朝桐光一区二区| 国产欧美日韩视频怡春院| 99热线精品大全在线观看| 亚洲精品欧美重口| 亚洲AV无码乱码在线观看代蜜桃 | 丁香五月亚洲综合在线| 国产91小视频在线观看| 中日无码在线观看| 最新亚洲人成无码网站欣赏网| 国产人碰人摸人爱免费视频| 久久香蕉欧美精品| 美女国产在线| 中文字幕永久视频| 伊伊人成亚洲综合人网7777| 五月婷婷综合网| 女人18毛片久久| 成人福利免费在线观看| 国内精品九九久久久精品| 亚卅精品无码久久毛片乌克兰| 国产视频自拍一区| 国产成人精彩在线视频50| 色综合天天娱乐综合网| 久久毛片基地| 波多野结衣一级毛片| 久久精品人人做人人| 欧美亚洲国产视频| 2021天堂在线亚洲精品专区| 911亚洲精品| 免费国产黄线在线观看| 国产一级特黄aa级特黄裸毛片| 欧美成人精品高清在线下载| 欧美特黄一级大黄录像| 久久综合色播五月男人的天堂| 69av在线| 亚洲视频欧美不卡| 国产91蝌蚪窝| 欧美在线黄| 国产精品无码久久久久久| 毛片免费在线视频| 国产免费一级精品视频| 一级毛片基地| 天天视频在线91频| 99视频免费观看| 99免费视频观看| 久久久久久国产精品mv| 伊伊人成亚洲综合人网7777 | 国产精品一区二区国产主播| 亚洲无码日韩一区| 亚洲国产第一区二区香蕉| 亚洲日韩精品伊甸| 国产精品熟女亚洲AV麻豆| 99久久国产精品无码| 国产欧美日韩91| 天天躁日日躁狠狠躁中文字幕| 97影院午夜在线观看视频| 久久精品中文无码资源站| 丁香婷婷激情综合激情| 国产成年无码AⅤ片在线| 国产精品大白天新婚身材| 日韩久草视频| 黄色网站在线观看无码| 国产成人亚洲综合a∨婷婷| 国产精品七七在线播放| 在线观看无码a∨| 免费人成又黄又爽的视频网站| 欧美日韩国产在线播放| 国内精自视频品线一二区| 久草中文网| 亚洲欧美在线看片AI| 99视频只有精品| www.99精品视频在线播放| 免费久久一级欧美特大黄|