CNN支持下的領(lǐng)域文本自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法

2018-07-04 10:31:32賈聲聲彭敦陸

小型微型計算機系統(tǒng) 2018年6期

賈聲聲，彭敦陸

(上海理工大學(xué) 光電信息與計算機工程學(xué)院，上海 200093)

1 引言

文本自動化聚類是文本信息檢索、文本信息挖掘、推薦算法等自然語言處理應(yīng)用的基礎(chǔ)，其目的是將大規(guī)模文本數(shù)據(jù)按照某種模型將文本聚集成不同簇，各個簇中的文本滿足簇間文本相似性小而簇內(nèi)文本相似性大的特點.通常，在文本聚類之前，需要對原始數(shù)據(jù)抽取特征詞并進行向量化.隨著文本規(guī)模的增大，為高效地進行文本特征抽取向量化及文本聚類提出了新的挑戰(zhàn).

文本特征抽取及向量化表示是將文本轉(zhuǎn)化為計算機能夠處理的數(shù)學(xué)形式，它是文本聚類的前提.最早出現(xiàn)在自然語言處理領(lǐng)域的是基于BOW(Bag-of-words model)模型向量表示，該模型忽略了原文本的語法和語序，采用一組無順序的詞語來表示文本向量.文獻[2]中，作者利用基于BOW模型的特征抽取方法進行文本特征抽取.然而實際應(yīng)用表明語法和語序都是提高文本特征提取準確度的關(guān)鍵因素，而基于BOW模型向量表示進行特征抽取的方法缺少對二者考慮，從而使直接運用該模型進行特征抽取及向量化難以保證其準確度.近些年，隨著神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)的不斷發(fā)展，在自然語言領(lǐng)域提出了詞嵌入(word embedding)的詞向量模型[3].該模型具有能夠表達詞與詞之間的語義且不存在維數(shù)災(zāi)難問題等優(yōu)點.文獻[4]提出的C-LSTM 神經(jīng)網(wǎng)絡(luò)模型是將RNN(Recurrent Neural Networks)和CNN(Convolutional Neural Network)結(jié)合建立混合模型來實現(xiàn)文本特征提取及向量化表示.C-LSTM能捕獲局部短語來代表全局句子的語義，以此提高文本分類的正確率.文獻[5]通過word2vec獲得詞向量，將靜態(tài)詞向量和動態(tài)詞向量作為CNN模型的兩個通道，從而提高了分類效果.這些研究表明，利用神經(jīng)網(wǎng)絡(luò)的方法對文本特征提取及文本向量化表示，可以在一定程度上提高文本分類的準確度.

本文在對神經(jīng)網(wǎng)絡(luò)文本向量表示模型進行深入研究的基礎(chǔ)上，利用領(lǐng)域文本內(nèi)在的規(guī)范性，對CNN算法進行擴展，提出一種基于動態(tài)詞窗口的CNN文本特征提取新算法.利用提取的文本特征向量，采用一種基于森林結(jié)構(gòu)的自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法實現(xiàn)了文本的聚類分析.通過將所提算法應(yīng)用于海量法律文本聚類分析，驗證其有效性.

2 相關(guān)工作

多年來，文本聚類算法已有眾多專家對其進行了研究，提出了許多與聚類算法有關(guān)的研究成果.與本項研究最為相關(guān)的是基于自組織網(wǎng)絡(luò)SOM(Self-organizing Maps)的文本聚類方法.在文獻[6]中，Kohen提出自組織映射網(wǎng)絡(luò)理論，它是基于無監(jiān)督學(xué)習(xí)方法的自組織神經(jīng)網(wǎng)絡(luò)SOM.SOM模型結(jié)構(gòu)由上層競爭層(輸出層)和下層輸入層兩部分組成.對于每一個樣本的輸入，當前網(wǎng)絡(luò)模型會對輸入的樣本執(zhí)行一次自組織適應(yīng)過程，持續(xù)調(diào)節(jié)輸入層和輸出層之間的權(quán)數(shù)矩陣W，直到網(wǎng)絡(luò)模型穩(wěn)定為止.SOM模型聚類之前，競爭層需要預(yù)先設(shè)定權(quán)數(shù)矩陣和神經(jīng)單元個數(shù)，且訓(xùn)練過程中是恒定不變的.因此，需要經(jīng)過若干次仿真訓(xùn)練才能確定競爭層神經(jīng)元的數(shù)目.為了解決上述問題，在文獻[7]中，Alahakoon等人提出了動態(tài)增長自組織映射模型GSOM(Growing Self-Organizing Maps).GSOM模型的競爭層初始是四個神經(jīng)元組成的正方形結(jié)構(gòu)，對輸入樣本基于當前網(wǎng)絡(luò)來尋找最佳神經(jīng)元，而調(diào)整最佳神經(jīng)元和相鄰結(jié)點權(quán)值以及累積誤差時，利用與SOM相似的方法進行.當增長閾值小于當前累積誤差時，根據(jù)鄰域是否有空閑結(jié)點決定是生成新的結(jié)點還是將誤差分布給相鄰結(jié)點.文獻[1]中，Damminda Alahakoon等人在GSOM的基礎(chǔ)上，利用語義相關(guān)性策略，提高文本聚類效率.由于GSOM模型生成新的結(jié)點比較有局限性，算法執(zhí)行效率低，文獻[11]提出了一種新的樹形動態(tài)自組織映射神經(jīng)網(wǎng)絡(luò)TGSOM(Tree Growing Self-Organizing Maps).TGSOM算法采用了靈活的樹型結(jié)構(gòu)解決了GSOM模型生成新結(jié)點的局限，競爭層初始有且僅有一個根節(jié)點，對輸入樣本基于當前網(wǎng)絡(luò)尋找最佳匹配結(jié)點，如果誤差大于生長閾值，則生成最佳匹配結(jié)點的孩子結(jié)點即新的神經(jīng)元.TGSOM模型結(jié)構(gòu)雖然靈活，但需要多次聚類才能夠?qū)崿F(xiàn)層次聚類，網(wǎng)絡(luò)訓(xùn)練過程中某些部分使用的計算方法對網(wǎng)絡(luò)聚類速度有很大的影響，例如，獲勝神經(jīng)元的計算策略.

對于特定的大規(guī)模領(lǐng)域文本數(shù)據(jù)集(如法律文書)，利用文本集表達的規(guī)范性和專業(yè)性，在基于動態(tài)詞窗口的CNN新的文本特征提取算法的基礎(chǔ)上，本文從聚類數(shù)目的自增長、獲勝神經(jīng)元的計算策略對SOM聚類算法進行了改進，提出了基于森林結(jié)構(gòu)的FGSOM模型.在FGSOM模型中，每一棵樹代表大類別，樹中的結(jié)點代表所屬類別的子類別，一次計算實現(xiàn)文本的層次聚類.根據(jù)最佳匹配結(jié)點的誤差與生長閾值的關(guān)系，決定是產(chǎn)生大類別的根結(jié)點還是產(chǎn)生已有大類別的子結(jié)點.在計算輸入樣本和神經(jīng)元的誤差時，結(jié)合競爭層森林的特殊分布結(jié)構(gòu)，采用局部最優(yōu)策略，提高聚類速度及計算效果.

3 基于動態(tài)詞窗口的CNN的文本特征提取模型

下面討論如何通過動態(tài)詞窗口卷積神經(jīng)網(wǎng)絡(luò)提取文本特征.3.1部分給出下文出現(xiàn)的相關(guān)術(shù)語解釋；3.2部分介紹文本預(yù)處理過程；3.3部分描述文本抽象特征提取算法的詳細過程.

3.1 術(shù)語解釋

文本向量表示：非結(jié)構(gòu)化文本轉(zhuǎn)化為計算機能夠處理的數(shù)值形式，記為d(x1，x2，x3，…，xn)：.其中，n代表向量的維數(shù).

文本聚類：文檔數(shù)據(jù)集D(d1，d2，d3…dm)按照某種模式將相似文本聚集到一起，組成不同簇的過程，其中m代表文本的總數(shù)量.

停用詞：文檔中出現(xiàn)頻率極高但沒有具體含義(不能代表文檔所表達的語義)、類別區(qū)分度較低的詞語(比如“的”，“了”等).

特征模式：分析案件文本，構(gòu)建符合特定句法結(jié)構(gòu)的文本片段，即特征模式.譬如，交通肇事案件文本中，可以建立“醉酒[*]駕駛”、“未讓[*]先行”等正則表達式特征模式.

詞性模板：對案件文本進行分詞、詞性標注處理，得到詞性片段，挖掘頻繁出現(xiàn)的n-gram詞性，被稱為詞性模板.以句子“盜竊/v一/m部/q蘋果/n手機/n”為例，應(yīng)用詞性模板/m/q/n/n就可以挖掘出短語“一部蘋果手機”.

3.2 數(shù)據(jù)預(yù)處理

詞語作為能夠單獨成義的最小語言成分，在不同的語言中有著不同的區(qū)分方法.例如，英文單詞以空格作為自然分界符，而中文則是以字作為基本的書寫單位，詞語之間沒有明顯的區(qū)分標記.因此，中文分詞是解決文本向量表示、文本聚類等問題的基礎(chǔ).對中文分詞的研究已取得了一些研究成果，如中國科研院研發(fā)的NLPIR漢語分詞系統(tǒng)可以完成文本的分詞任務(wù).分詞準確度在很大程度上受分詞器所使用的詞庫影響，為了提高分詞的準確度，本文在分詞過程中不使用分詞器自帶的分詞庫，而是采用領(lǐng)域(如法律領(lǐng)域)分詞庫.分詞還進行了過濾停用詞等操作，以提高抽取詞的代表性.抽取詞語后，利用 Mikolov[8，9]提出word2vec計算模型來求得詞庫中每一個詞語的向量表示.在文本特征抽取過程中，本文提出基于動態(tài)詞窗口的卷積神經(jīng)網(wǎng)絡(luò)模型進行詞向量訓(xùn)練，實現(xiàn)文本片段的向量表示，并降低了向量的維數(shù)，以此提高后續(xù)計算效率.

3.3 基于動態(tài)詞窗口的 CNN文本特征抽取模型

CNN是一種前饋神經(jīng)網(wǎng)絡(luò)，它包括卷積層、池化層、全連接層，模型結(jié)構(gòu)主要特點是：局部感受野(local receptive fields)、共享權(quán)值(share weights，權(quán)重矩陣和偏置)、池化(pooling).其利用了圖像中局部像素點聯(lián)系比較緊密，而距離較遠的全局像素點聯(lián)系比較疏遠的特征.在文本數(shù)據(jù)中，詞語類似于圖像中的像素點，其相互間的關(guān)系與像素點相類似.因此，在計算過程中，每個神經(jīng)元先對局部進行感知，而在下一層將信息進行綜合得到全局信息.在神經(jīng)元局部進行感知過程中，權(quán)重和偏置是共享的.池化層對卷積層輸出的特征圖進行抽取，一方面簡化卷積層輸出的信息，一方面提取最具有代表性的特征，通常有最大池化和平均池化兩種，即選取區(qū)域中特征的最大值或者平均值.

這里提出一種基于動態(tài)詞窗口的CNN文本特征提取模型(如圖1所示)，該模型在Yoon Kim提出的基于英文句子級別分類模型的基礎(chǔ)上而來.Yoon Kim利用word2vec訓(xùn)練好的詞向量作為輸入，通過CNN來實現(xiàn)短文本的分類，這一模型的缺陷是沒有利用與領(lǐng)域相關(guān)的文本特征.例如，在處理法律文書時，法律文本具有規(guī)范性以及專業(yè)術(shù)語表達的規(guī)律性.本文利用基于詞語的屬性(包括詞性模板、特定模式)進行動態(tài)詞窗口卷積，可以確保窗口內(nèi)的文本更具有連貫性、語義性(比如，“一臺筆記本電腦”，如果基于大小為3的固定窗口卷積，“一臺筆”“記本電”“腦”出現(xiàn)在同一個窗口中沒有實際意義.而基于動態(tài)詞窗口卷積，利用詞性模板，“一臺筆記本電腦”將出現(xiàn)在同一個窗口中，卷積結(jié)果會更有語義性).卷積層每次滑動窗口的大小通過當前詞語屬性進行動態(tài)計算來確定.池化層采用最大化和平均值相結(jié)合的方法來提高文本特征提取的質(zhì)量.

圖1 基于CNN的SOM聚類結(jié)構(gòu)Fig.1 Som Clustering Structure Base on

在對文本進行特征抽取的時候，傳統(tǒng)的CNN根據(jù)n-gram依次提取固定詞窗口的卷積特征.詞窗口n值的大小直接決定最終的卷積特征的有效性.但n值大小難以準確確定，不恰當?shù)膎值對文本特征提取準確度影響較大.一個卷積核通過固定窗口對文本特征提取只能獲得一個特征項，在實際計算中，通常使用多個卷積核來獲取不同特征.為了解決這一問題，在建立詞性模板集合和特征模式詞庫的基礎(chǔ)上，提出CNN在進行卷積操作時，根據(jù)當前詞語的屬性采用DDW-CNN(DDW，Dynamic dictionary window)算法(算法描述見圖2)動態(tài)地獲取詞窗口的大小.新特征映射過程中，詞窗口大小n取不同值，但其共享矩陣是唯一的.一個詞窗口中的單詞Xi，i+n對應(yīng)產(chǎn)生一個新的映射特征cl：

ci=f(w+xi，i+h-1+b)

b是偏置項，f是非線性的函數(shù)如雙曲正切函數(shù).當過濾器滑動所有位置后，得到特征圖c：

c=[c1，c2，c3…cn]

采用動態(tài)詞窗口，在卷積的過程中能夠獲取更多隱含在文本中的特征.在池化層采用最大值(Max-Pooling)和平均值(Mean-Pooling)混合池化模型，這一模型的優(yōu)點是不僅表達最有價值的特征，而且還可以捕捉隱含的特征，很好地解決了文本長度及特征圖大小不一致的問題.如公式所示：

基于詞語屬性的動態(tài)詞窗口獲取算法DDW-CNN

輸入：索引Index，文本序列Ts，文本詞性序列Tpos，詞性模板集合Stc，特征模式詞庫集合Fplc，文本的長度len;

輸出：動態(tài)詞窗口n

圖2 DDW-CNN算法Fig.2 Algorithm of DDW-CNN

如圖2所示，在DDW-CNN算法中subTs函數(shù)用來獲取連續(xù)i個詞(第2行)，而subTpos是獲取連續(xù)i個詞的詞性(第3行).算法采用最長序列優(yōu)先策略來確定詞窗口的大小，即如果特征模式滿足subTs函數(shù)獲得的短語，則返回當前短語的長度作為詞窗口的大小(第5-9行).相似地，如果詞性模板集合中包含subTpos獲得的詞性短語，則返回當前詞性短語的長度作為詞窗口的大小(第10-14行).考慮到中文詞特點，算法默認返回的詞窗口大小為2(第15行).

4 FGSOM層次模型聚類

FGSOM是基于森林結(jié)構(gòu)的自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法，為提高計算效率，本研究還通過局部最優(yōu)策略對FGSOM模型的計算過程進行優(yōu)化.前文給出了基于動態(tài)詞窗口的CNN文本特征提取模型，通過該模型可以獲得文本向量表示，并將其作為FGSOM模型的輸入層.

4.1 基本概念

為了描述方便，在FGSOM模型建模之前，先給出基本定義和算法中用到的定義和規(guī)則.

定義1.文本相似度(記作)，衡量文本間相似度的重要指標是文本向量間的余弦距離.當前狀態(tài)競爭層所有神經(jīng)元與輸入文本向量d相似度最小的神經(jīng)元結(jié)點為的最佳匹配結(jié)點，記作bmn(best matching node)，bmn所屬于的樹稱為bmt(best matching tree).

定義2.決定是否生成新的神經(jīng)元的臨界值稱為生長閾值，記作GT(growth threshold).生長閾值分為大類根結(jié)點生長閾值(BGT，big growth threshold)和子類結(jié)點生長閾值(CGT，child growth threshold).

規(guī)則1.新結(jié)點生成策略

(a)最佳匹配結(jié)點的相似度大于BGT，則產(chǎn)生新類別的root根；否則跳轉(zhuǎn)(b)

(b)最佳匹配結(jié)點的相似度大于CGT，則產(chǎn)生bmn的孩子節(jié)點.否則跳轉(zhuǎn)(c)

(c)不生成任何節(jié)點，進行權(quán)值矩陣更新

4.2 FGSOM 算法

FGSOM 處理過程如下：

4.2.1 網(wǎng)絡(luò)初始化

網(wǎng)絡(luò)正式計算前需要進行一些必要的準備，如進行各種參數(shù)設(shè)置等，包括以下內(nèi)容：

(a)初始網(wǎng)絡(luò)有且僅有1個神經(jīng)單元，即根節(jié)點(隨機選擇文檔向量進行初始化) .

(b)設(shè)置最大迭代次數(shù)、終止迭代誤差、初始學(xué)習(xí)速率.

(c)設(shè)置生長閾值.

4.2.2 網(wǎng)絡(luò)訓(xùn)練

網(wǎng)絡(luò)訓(xùn)練是用來獲取穩(wěn)定的FGSOM網(wǎng)絡(luò)拓撲結(jié)構(gòu)，本文所提網(wǎng)絡(luò)的訓(xùn)練階段完成以下任務(wù)：

(a)文本數(shù)據(jù)集中隨機選取文檔向量，利用局部最優(yōu)算法(下文給出)尋找的.

(b)結(jié)合規(guī)則1結(jié)點生成策略，判斷是否生成相應(yīng)的結(jié)點.若生成操作，則轉(zhuǎn)(d)，否則轉(zhuǎn)(c)，對權(quán)值進行調(diào)整.

(c)利用式(1)對最佳神經(jīng)元所屬樹的權(quán)值進行調(diào)整.

(1)

其中LR(k)為學(xué)習(xí)率，當k趨于無窮時，LR趨于0.wj(k+1)，wj(k)分別為結(jié)點j在調(diào)整前后的權(quán)值；bmt為最佳匹配結(jié)點所在的樹，如果神經(jīng)元屬于bmt，則對權(quán)值進行更新，否則不更新.

(d)LR(t+1)=LR(t)*α，其中α為LR的調(diào)節(jié)因子，0<α<1.

(e)重復(fù)(a)-(d)，直到中全部樣本訓(xùn)練完畢.

4.2.3 循環(huán)學(xué)習(xí)

重復(fù)(2)進入下一個訓(xùn)練周期，直到網(wǎng)絡(luò)穩(wěn)定.如果達到最大迭代次數(shù)或者達到最小迭代誤差則終止網(wǎng)絡(luò)的訓(xùn)練.

4.3 網(wǎng)絡(luò)結(jié)構(gòu)

FGSOM網(wǎng)絡(luò)結(jié)構(gòu)與SOM一樣由輸入層和競爭層兩部分組成，其網(wǎng)絡(luò)結(jié)構(gòu)如圖1中聚類全連接層所示，其中d1…dn是訓(xùn)練的文本向量.圖1中聚類全連接層左邊部分為FGSOM模型網(wǎng)絡(luò)的初始狀態(tài)，此時競爭層只包含一個根結(jié)點root1；右邊部分為網(wǎng)絡(luò)生長至7個結(jié)點時的狀態(tài).兩棵樹代表兩個父類別(root1，root2).root1樹中有三個子類別，root2中有四個子類別.例如，在進行法律文本處理時，root1可代表刑法，三個子類別代表盜竊罪、搶劫罪、故意傷害罪.FGSOM模型通過生長閾值的控制，通過一次仿真訓(xùn)練就可以達到層次聚類.模型中的一棵樹屬于一個父類別，樹的內(nèi)部結(jié)點表示父類的子類別.

4.4 選擇bmn的局部最優(yōu)算法

傳統(tǒng)bmn的計算方法首先依次計算所有神經(jīng)元與輸入文本之間的相似度，然后對相似度進行排序來選擇bmn.這種計算方法的缺陷是需要計算神經(jīng)元與輸入向量的每一維作差和遍歷求解，這是一個比較耗時的動作.為了克服這一缺陷，在計算神經(jīng)元和輸入向量相似度時，采用累加求和的策略求解最優(yōu)bmn，減少維數(shù)計算，提出SDUA算法(見圖3).

最短距離更新算法 SDUA

輸入：最短距離dmin，兩個文本向量d1，d2

輸出：當前的最短距離dmin

圖3 SDUA算法Fig.3 Algorithm of SDUA

算法先行遍歷每一維向量(第1行)，再利用Distance函數(shù)用來求解當前維數(shù)的距離(第2行)，如果當前維數(shù)的距離已經(jīng)大于dmin，則不再計算后邊維數(shù)的向量(第3-5行)；如果所有維數(shù)計算完畢，則更新dmin的值.

在森林結(jié)構(gòu)的基礎(chǔ)上，采用局部最優(yōu)策略，盡早拋棄不可能成為bmn的節(jié)點，提出LO-BMN算法(如圖4).LO-BMN算法，遍歷當前神經(jīng)元的根集合R，求解最佳bmt(第1-9行)，然后求解bmt中的bmn(第10-19行).在兩個過程中，都使用了SDUA算法來提高計算效率.針對圖3給出的網(wǎng)絡(luò)模型，輸入向量d首先和root1、root2節(jié)點計算最佳根節(jié)點.若root1>root2，則root1樹中的所有神經(jīng)元不可能成為bmn，那么，在這一階段拋棄root1樹中的所有結(jié)點.然后遍歷root2中所有的結(jié)點，最終求出bmn.在集合中選擇最佳結(jié)點時，采用維數(shù)累加求和SDUA算法，來提高計算速度.

局部最優(yōu)求解最佳神經(jīng)元算法：LO-BMN

輸入：輸入文本d，神經(jīng)元根集合R，樹結(jié)點Map結(jié)構(gòu)集合T，

輸出：最佳神經(jīng)元節(jié)點bmn，最短距離dmin

圖4 LO-BMN算法Fig.4 Algorithm of LO-BMN

5 實驗與分析

5.1 數(shù)據(jù)集

實驗所用數(shù)據(jù)集是從Web(浙江法院公開網(wǎng)網(wǎng)址鏈接：http：//www.zjsfgkw.cn/Document/JudgmentBook)下載的某省高級人民法院公開的法律文書(判決書)，為真實數(shù)據(jù)集.數(shù)據(jù)集涵蓋了刑事、民事、商事、行政共計10000篇案件文本.為保證計算的有效性和規(guī)范性，在進行特征提取和聚類計算之前，先對原始數(shù)據(jù)進行了處理，剔除掉亂碼等無效的文本片段，最后獲得有8126個有效文本段.

5.2 實驗結(jié)果分析

實驗1.考察基于動態(tài)詞窗口的CNN 特征提取性能

為了驗證動態(tài)詞窗口的CNN模型特征提取性能，實驗先利用NLPIR對數(shù)據(jù)集進行分詞，獲得以詞為單位的數(shù)據(jù)集，再利用word2vec構(gòu)建對應(yīng)的詞向量.一個文本片段集的大小為N*300(N指文本片段選取詞的數(shù)量，大小固定為50).實驗中，CNN模型采用一層動態(tài)詞窗口的卷積層，一層為池化層，最后獲得文本的向量表示，作為標準SOM模型的輸入層.模型參數(shù)具體設(shè)置如下：詞向量維數(shù)300，dropout率(神經(jīng)元被丟棄的概率)為0.5，迭代次數(shù)為30.實驗評價采用聚類問題中常用的輪廓系數(shù)(silhouette coefficient)作為測試指標，它結(jié)合了內(nèi)聚度和分離度兩種因素，如公式所示：

(2)

(3)

其中a(i)代表第i個樣本到它所屬于簇中其它樣本的平均距離.b(i)代表第i樣本到所有非本身所在簇的樣本平均距離的最小值.公式(3)是聚類結(jié)果總的輪廓系數(shù).由公式(2)可見輪廓系數(shù)的值介于[-1，1]，越趨近于1代表分離度和內(nèi)聚度都相對較優(yōu).

圖5 不同模型的輪廓系數(shù)Fig.5 Value of silhouette coefficient

為進行比較，實驗選取三種類型的CNN模型進行測試，這三種CNN模型為：基本的CNN[5]、加入dropout的CNN[10]、及本文提出的基于動態(tài)詞窗口的CNN.采用這些網(wǎng)絡(luò)模型獲取文本向量表示，然后對文本進行聚類，根據(jù)輪廓系數(shù)對模型的計算效果進行評價.圖5描述了實驗結(jié)果，從圖中可以看出，使用在基于動態(tài)詞窗口的CNN模型基礎(chǔ)上得到的詞向量進行聚類得到的輪廓系數(shù)明顯優(yōu)于另外兩種模型.基于動態(tài)詞窗口的CNN聚類輪廓系數(shù)在0.8左右，這是因為有的案件文本片段同時屬于兩個類別，無法準確確定，對聚類結(jié)果產(chǎn)生一定的影響.在實際應(yīng)用中，可以對這類案件文本進行預(yù)先過濾，然后對過濾后得到的案件文本進行聚類，可以明顯提高聚類效果.

圖6 生長閾值對比Fig.6 Comparison of growth threshold

實驗2.考察生長閾值(BGT/CGT)對聚類結(jié)構(gòu)的影響

選擇合適的生長閾值(BGT/CGT)，對提高FGSOM算法的計算效果至關(guān)重要.FGSOM模型參數(shù)具體設(shè)置如下：最大迭代次數(shù)設(shè)置為1000，終止迭代誤差設(shè)置為0.01，初始學(xué)習(xí)速率為0.7，學(xué)習(xí)速率的調(diào)節(jié)因子α設(shè)置為0.3.實驗考查了不同的生長閾值對聚類結(jié)構(gòu)的影響，由圖6顯示的實驗結(jié)果可見，BGT/CGT值的大小對最后最終的聚類結(jié)構(gòu)圖有較大影響.對于BGT在0.5到1.0之間進行變化可知，當BGT=0.65時，大類別聚類效果最好；當CGT在0到0.5之間變化，CGT=0.3、BGT=0.65時，小類別聚類效果最好.基于此，在對法律案件文本片段聚類時，本文將BGT設(shè)置為0.65，CGT設(shè)置為0.3.

實驗3.考察FGSOM 聚類模型效率

為了驗證本文提出的FGSOM層次聚類模型聚類效果和計算效率，選取現(xiàn)有的GSOM算法[7]、TGSOM算法[11]作為對比來進行本組實驗.模型參數(shù)具體設(shè)置如下：BGT設(shè)置為0.65，CGT設(shè)置為0.3，其他參數(shù)和實驗二保持一致.

圖7 輪廓系數(shù)對比Fig.7 Comparison of silhouette coefficien圖8 運行時間對比Fig.8 Comparison of runtime

圖7描述了不同聚類模型的輪廓系數(shù)，從圖中可以看出，F(xiàn)GSOM聚類的輪廓系數(shù)明顯高于另外兩種算法.圖8給出了在相同數(shù)據(jù)集上，不同聚類方法進行聚類運算所需時間的對比.GSOM 算法所消耗的時間大于TGSOM、FGSOM 算法，原因在于GSOM 算法在產(chǎn)生新的結(jié)點的策略沒有其他算法靈活，進而消耗了較多的計算時間.當數(shù)據(jù)量較小的時候，三種聚類方法差距不明顯，無法體現(xiàn)出FGSOM 算法具有優(yōu)越性，但隨著數(shù)據(jù)集的增大(例如大于3000時)，F(xiàn)GSOM算法表現(xiàn)出較好的計算優(yōu)勢.

6 結(jié) 論

在分析現(xiàn)有文本處理聚類算法的基礎(chǔ)上，文本向量表示及SOM聚類算法存在的缺陷，提出基于動態(tài)詞窗口的改進型CNN算法進行文本特征提取，以此為輸入提出基于森林結(jié)構(gòu)的自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法——FGSOM，對大規(guī)模文本數(shù)據(jù)的進行層次聚類.實驗結(jié)果表明，采用本文提出計算模型可以獲得較好的文本聚類效果.通過與現(xiàn)有的基于SOM聚類算法(如GSOM、TGSOM)進行比較可知，F(xiàn)GSOM算法在處理大規(guī)模領(lǐng)域文本時，在計算效率和計算效果上表現(xiàn)出一定優(yōu)勢.

：

[1] Nathawitharana N，Alahakoon D，Silva D D.Using semantic relatedness measures with dynamic self-organizing maps for improved text clustering[C].International Joint Conference on Neural Networks，2016：2662-2671.

[2] Hingmire S，Chougule S，Palshikar G K，et al.Document classification by topic labeling[C].International Conference on Information Retrieval，2013：877-880.

[3] Bengio Y，Schwenk H，Senécal J S，et al.A neural probabilistic language model[J].Journal of Machine Learning Research，2003，3(6)：1137-1155.

[4] Zhou C，Sun C，Liu Z，et al.A C-LSTM neural network for text classification[J].Computer Science，2015，1(4)：39-44.

[5] Kim Y.Convolutional neural networks for sentence classification[C].Proc of Conference on Empirical Methods in Natural Language Processing，2014：1746-1751.

[6] Kohonen T.Self-organization and associate memory[J].Spinger-Verlag，1984，8(1)：3406-3409.

[7] Alahakoon D，Halgamuge S K，Srinivasan B.Dynamic self-organizing maps with controlled growth for knowledge discovery[J].IEEE Transactionson Neural Networks，2000，11(3)：601-614.

[8] Mikolov T，Chen K，Corrado G，et al.Efficient estimation of word representations in vector space[J].Computer Science，2013.

[9] Mikolov T，Sutskever I，Chen K，et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems，2013，26：3111-3119.

[10] Hinton G E，Srivastava N，Krizhevsky A，et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science，2012，3(4)：212-223.

[11] Wang Li，Wang Zheng-ou.Tgsom：a new dynamic self-organizing maps for data clustering[J].Journal of Electronics & Information Technology，2003，25(3)：313-319.

附中文參考文獻：

[11] 王莉，王正歐.TGSOM：一種用于數(shù)據(jù)聚類的動態(tài)自組織映射神經(jīng)網(wǎng)絡(luò)[J].電子與信息學(xué)報，2003，25(3)：313-319.