賈聲聲,彭敦陸
(上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200093)
文本自動化聚類是文本信息檢索、文本信息挖掘、推薦算法等自然語言處理應(yīng)用的基礎(chǔ),其目的是將大規(guī)模文本數(shù)據(jù)按照某種模型將文本聚集成不同簇,各個簇中的文本滿足簇間文本相似性小而簇內(nèi)文本相似性大的特點.通常,在文本聚類之前,需要對原始數(shù)據(jù)抽取特征詞并進行向量化.隨著文本規(guī)模的增大,為高效地進行文本特征抽取向量化及文本聚類提出了新的挑戰(zhàn).
文本特征抽取及向量化表示是將文本轉(zhuǎn)化為計算機能夠處理的數(shù)學(xué)形式,它是文本聚類的前提.最早出現(xiàn)在自然語言處理領(lǐng)域的是基于BOW(Bag-of-words model)模型向量表示,該模型忽略了原文本的語法和語序,采用一組無順序的詞語來表示文本向量.文獻[2]中,作者利用基于BOW模型的特征抽取方法進行文本特征抽取.然而實際應(yīng)用表明語法和語序都是提高文本特征提取準確度的關(guān)鍵因素,而基于BOW模型向量表示進行特征抽取的方法缺少對二者考慮,從而使直接運用該模型進行特征抽取及向量化難以保證其準確度.近些年,隨著神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)的不斷發(fā)展,在自然語言領(lǐng)域提出了詞嵌入(word embedding)的詞向量模型[3].該模型具有能夠表達詞與詞之間的語義且不存在維數(shù)災(zāi)難問題等優(yōu)點.文獻[4]提出的C-LSTM 神經(jīng)網(wǎng)絡(luò)模型是將RNN(Recurrent Neural Networks)和CNN(Convolutional Neural Network)結(jié)合建立混合模型來實現(xiàn)文本特征提取及向量化表示.C-LSTM能捕獲局部短語來代表全局句子的語義,以此提高文本分類的正確率.文獻[5]通過word2vec獲得詞向量,將靜態(tài)詞向量和動態(tài)詞向量作為CNN模型的兩個通道,從而提高了分類效果.這些研究表明,利用神經(jīng)網(wǎng)絡(luò)的方法對文本特征提取及文本向量化表示,可以在一定程度上提高文本分類的準確度.
本文在對神經(jīng)網(wǎng)絡(luò)文本向量表示模型進行深入研究的基礎(chǔ)上,利用領(lǐng)域文本內(nèi)在的規(guī)范性,對CNN算法進行擴展,提出一種基于動態(tài)詞窗口的CNN文本特征提取新算法.利用提取的文本特征向量,采用一種基于森林結(jié)構(gòu)的自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法實現(xiàn)了文本的聚類分析.通過將所提算法應(yīng)用于海量法律文本聚類分析,驗證其有效性.
多年來,文本聚類算法已有眾多專家對其進行了研究,提出了許多與聚類算法有關(guān)的研究成果.與本項研究最為相關(guān)的是基于自組織網(wǎng)絡(luò)SOM(Self-organizing Maps)的文本聚類方法.在文獻[6]中,Kohen提出自組織映射網(wǎng)絡(luò)理論,它是基于無監(jiān)督學(xué)習(xí)方法的自組織神經(jīng)網(wǎng)絡(luò)SOM.SOM模型結(jié)構(gòu)由上層競爭層(輸出層)和下層輸入層兩部分組成.對于每一個樣本的輸入,當前網(wǎng)絡(luò)模型會對輸入的樣本執(zhí)行一次自組織適應(yīng)過程,持續(xù)調(diào)節(jié)輸入層和輸出層之間的權(quán)數(shù)矩陣W,直到網(wǎng)絡(luò)模型穩(wěn)定為止.SOM模型聚類之前,競爭層需要預(yù)先設(shè)定權(quán)數(shù)矩陣和神經(jīng)單元個數(shù),且訓(xùn)練過程中是恒定不變的.因此,需要經(jīng)過若干次仿真訓(xùn)練才能確定競爭層神經(jīng)元的數(shù)目.為了解決上述問題,在文獻[7]中,Alahakoon等人提出了動態(tài)增長自組織映射模型GSOM(Growing Self-Organizing Maps).GSOM模型的競爭層初始是四個神經(jīng)元組成的正方形結(jié)構(gòu),對輸入樣本基于當前網(wǎng)絡(luò)來尋找最佳神經(jīng)元,而調(diào)整最佳神經(jīng)元和相鄰結(jié)點權(quán)值以及累積誤差時,利用與SOM相似的方法進行.當增長閾值小于當前累積誤差時,根據(jù)鄰域是否有空閑結(jié)點決定是生成新的結(jié)點還是將誤差分布給相鄰結(jié)點.文獻[1]中,Damminda Alahakoon等人在GSOM的基礎(chǔ)上,利用語義相關(guān)性策略,提高文本聚類效率.由于GSOM模型生成新的結(jié)點比較有局限性,算法執(zhí)行效率低,文獻[11]提出了一種新的樹形動態(tài)自組織映射神經(jīng)網(wǎng)絡(luò)TGSOM(Tree Growing Self-Organizing Maps).TGSOM算法采用了靈活的樹型結(jié)構(gòu)解決了GSOM模型生成新結(jié)點的局限,競爭層初始有且僅有一個根節(jié)點,對輸入樣本基于當前網(wǎng)絡(luò)尋找最佳匹配結(jié)點,如果誤差大于生長閾值,則生成最佳匹配結(jié)點的孩子結(jié)點即新的神經(jīng)元.TGSOM模型結(jié)構(gòu)雖然靈活,但需要多次聚類才能夠?qū)崿F(xiàn)層次聚類,網(wǎng)絡(luò)訓(xùn)練過程中某些部分使用的計算方法對網(wǎng)絡(luò)聚類速度有很大的影響,例如,獲勝神經(jīng)元的計算策略.
對于特定的大規(guī)模領(lǐng)域文本數(shù)據(jù)集(如法律文書),利用文本集表達的規(guī)范性和專業(yè)性,在基于動態(tài)詞窗口的CNN新的文本特征提取算法的基礎(chǔ)上,本文從聚類數(shù)目的自增長、獲勝神經(jīng)元的計算策略對SOM聚類算法進行了改進,提出了基于森林結(jié)構(gòu)的FGSOM模型.在FGSOM模型中,每一棵樹代表大類別,樹中的結(jié)點代表所屬類別的子類別,一次計算實現(xiàn)文本的層次聚類.根據(jù)最佳匹配結(jié)點的誤差與生長閾值的關(guān)系,決定是產(chǎn)生大類別的根結(jié)點還是產(chǎn)生已有大類別的子結(jié)點.在計算輸入樣本和神經(jīng)元的誤差時,結(jié)合競爭層森林的特殊分布結(jié)構(gòu),采用局部最優(yōu)策略,提高聚類速度及計算效果.
下面討論如何通過動態(tài)詞窗口卷積神經(jīng)網(wǎng)絡(luò)提取文本特征.3.1部分給出下文出現(xiàn)的相關(guān)術(shù)語解釋;3.2部分介紹文本預(yù)處理過程;3.3部分描述文本抽象特征提取算法的詳細過程.
文本向量表示:非結(jié)構(gòu)化文本轉(zhuǎn)化為計算機能夠處理的數(shù)值形式,記為d(x1,x2,x3,…,xn):.其中,n代表向量的維數(shù).
文本聚類:文檔數(shù)據(jù)集D(d1,d2,d3…dm)按照某種模式將相似文本聚集到一起,組成不同簇的過程,其中m代表文本的總數(shù)量.
停用詞:文檔中出現(xiàn)頻率極高但沒有具體含義(不能代表文檔所表達的語義)、類別區(qū)分度較低的詞語(比如“的”,“了”等).
特征模式:分析案件文本,構(gòu)建符合特定句法結(jié)構(gòu)的文本片段,即特征模式.譬如,交通肇事案件文本中,可以建立“醉酒[*]駕駛”、“未讓[*]先行”等正則表達式特征模式.
詞性模板:對案件文本進行分詞、詞性標注處理,得到詞性片段,挖掘頻繁出現(xiàn)的n-gram詞性,被稱為詞性模板.以句子“盜竊/v一/m部/q蘋果/n手機/n”為例,應(yīng)用詞性模板/m/q/n/n就可以挖掘出短語“一部蘋果手機”.
詞語作為能夠單獨成義的最小語言成分,在不同的語言中有著不同的區(qū)分方法.例如,英文單詞以空格作為自然分界符,而中文則是以字作為基本的書寫單位,詞語之間沒有明顯的區(qū)分標記.因此,中文分詞是解決文本向量表示、文本聚類等問題的基礎(chǔ).對中文分詞的研究已取得了一些研究成果,如中國科研院研發(fā)的NLPIR漢語分詞系統(tǒng)可以完成文本的分詞任務(wù).分詞準確度在很大程度上受分詞器所使用的詞庫影響,為了提高分詞的準確度,本文在分詞過程中不使用分詞器自帶的分詞庫,而是采用領(lǐng)域(如法律領(lǐng)域)分詞庫.分詞還進行了過濾停用詞等操作,以提高抽取詞的代表性.抽取詞語后,利用 Mikolov[8,9]提出word2vec計算模型來求得詞庫中每一個詞語的向量表示.在文本特征抽取過程中,本文提出基于動態(tài)詞窗口的卷積神經(jīng)網(wǎng)絡(luò)模型進行詞向量訓(xùn)練,實現(xiàn)文本片段的向量表示,并降低了向量的維數(shù),以此提高后續(xù)計算效率.
CNN是一種前饋神經(jīng)網(wǎng)絡(luò),它包括卷積層、池化層、全連接層,模型結(jié)構(gòu)主要特點是:局部感受野(local receptive fields)、共享權(quán)值(share weights,權(quán)重矩陣和偏置)、池化(pooling).其利用了圖像中局部像素點聯(lián)系比較緊密,而距離較遠的全局像素點聯(lián)系比較疏遠的特征.在文本數(shù)據(jù)中,詞語類似于圖像中的像素點,其相互間的關(guān)系與像素點相類似.因此,在計算過程中,每個神經(jīng)元先對局部進行感知,而在下一層將信息進行綜合得到全局信息.在神經(jīng)元局部進行感知過程中,權(quán)重和偏置是共享的.池化層對卷積層輸出的特征圖進行抽取,一方面簡化卷積層輸出的信息,一方面提取最具有代表性的特征,通常有最大池化和平均池化兩種,即選取區(qū)域中特征的最大值或者平均值.
這里提出一種基于動態(tài)詞窗口的CNN文本特征提取模型(如圖1所示),該模型在Yoon Kim提出的基于英文句子級別分類模型的基礎(chǔ)上而來.Yoon Kim利用word2vec訓(xùn)練好的詞向量作為輸入,通過CNN來實現(xiàn)短文本的分類,這一模型的缺陷是沒有利用與領(lǐng)域相關(guān)的文本特征.例如,在處理法律文書時,法律文本具有規(guī)范性以及專業(yè)術(shù)語表達的規(guī)律性.本文利用基于詞語的屬性(包括詞性模板、特定模式)進行動態(tài)詞窗口卷積,可以確保窗口內(nèi)的文本更具有連貫性、語義性(比如,“一臺筆記本電腦”,如果基于大小為3的固定窗口卷積,“一臺筆”“記本電”“腦”出現(xiàn)在同一個窗口中沒有實際意義.而基于動態(tài)詞窗口卷積,利用詞性模板,“一臺筆記本電腦”將出現(xiàn)在同一個窗口中,卷積結(jié)果會更有語義性).卷積層每次滑動窗口的大小通過當前詞語屬性進行動態(tài)計算來確定.池化層采用最大化和平均值相結(jié)合的方法來提高文本特征提取的質(zhì)量.

圖1 基于CNN的SOM聚類結(jié)構(gòu)Fig.1 Som Clustering Structure Base on
在對文本進行特征抽取的時候,傳統(tǒng)的CNN根據(jù)n-gram依次提取固定詞窗口的卷積特征.詞窗口n值的大小直接決定最終的卷積特征的有效性.但n值大小難以準確確定,不恰當?shù)膎值對文本特征提取準確度影響較大.一個卷積核通過固定窗口對文本特征提取只能獲得一個特征項,在實際計算中,通常使用多個卷積核來獲取不同特征.為了解決這一問題,在建立詞性模板集合和特征模式詞庫的基礎(chǔ)上,提出CNN在進行卷積操作時,根據(jù)當前詞語的屬性采用DDW-CNN(DDW,Dynamic dictionary window)算法(算法描述見圖2)動態(tài)地獲取詞窗口的大小.新特征映射過程中,詞窗口大小n取不同值,但其共享矩陣是唯一的.一個詞窗口中的單詞Xi,i+n對應(yīng)產(chǎn)生一個新的映射特征cl:
ci=f(w+xi,i+h-1+b)
b是偏置項,f是非線性的函數(shù)如雙曲正切函數(shù).當過濾器滑動所有位置后,得到特征圖c:
c=[c1,c2,c3…cn]
采用動態(tài)詞窗口,在卷積的過程中能夠獲取更多隱含在文本中的特征.在池化層采用最大值(Max-Pooling)和平均值(Mean-Pooling)混合池化模型,這一模型的優(yōu)點是不僅表達最有價值的特征,而且還可以捕捉隱含的特征,很好地解決了文本長度及特征圖大小不一致的問題.如公式所示:
基于詞語屬性的動態(tài)詞窗口獲取算法DDW-CNN
輸入:索引Index,文本序列Ts,文本詞性序列Tpos,詞性模板集合Stc,特征模式詞庫集合Fplc,文本的長度len;
輸出:動態(tài)詞窗口n

圖2 DDW-CNN算法Fig.2 Algorithm of DDW-CNN
如圖2所示,在DDW-CNN算法中subTs函數(shù)用來獲取連續(xù)i個詞(第2行),而subTpos是獲取連續(xù)i個詞的詞性(第3行).算法采用最長序列優(yōu)先策略來確定詞窗口的大小,即如果特征模式滿足subTs函數(shù)獲得的短語,則返回當前短語的長度作為詞窗口的大小(第5-9行).相似地,如果詞性模板集合中包含subTpos獲得的詞性短語,則返回當前詞性短語的長度作為詞窗口的大小(第10-14行).考慮到中文詞特點,算法默認返回的詞窗口大小為2(第15行).
FGSOM是基于森林結(jié)構(gòu)的自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法,為提高計算效率,本研究還通過局部最優(yōu)策略對FGSOM模型的計算過程進行優(yōu)化.前文給出了基于動態(tài)詞窗口的CNN文本特征提取模型,通過該模型可以獲得文本向量表示,并將其作為FGSOM模型的輸入層.
為了描述方便,在FGSOM模型建模之前,先給出基本定義和算法中用到的定義和規(guī)則.
定義1.文本相似度(記作),衡量文本間相似度的重要指標是文本向量間的余弦距離.當前狀態(tài)競爭層所有神經(jīng)元與輸入文本向量d相似度最小的神經(jīng)元結(jié)點為的最佳匹配結(jié)點,記作bmn(best matching node),bmn所屬于的樹稱為bmt(best matching tree).
定義2.決定是否生成新的神經(jīng)元的臨界值稱為生長閾值,記作GT(growth threshold).生長閾值分為大類根結(jié)點生長閾值(BGT,big growth threshold)和子類結(jié)點生長閾值(CGT,child growth threshold).
規(guī)則1.新結(jié)點生成策略
(a)最佳匹配結(jié)點的相似度大于BGT,則產(chǎn)生新類別的root根;否則跳轉(zhuǎn)(b)
(b)最佳匹配結(jié)點的相似度大于CGT,則產(chǎn)生bmn的孩子節(jié)點.否則跳轉(zhuǎn)(c)
(c)不生成任何節(jié)點,進行權(quán)值矩陣更新
FGSOM 處理過程如下:
4.2.1 網(wǎng)絡(luò)初始化
網(wǎng)絡(luò)正式計算前需要進行一些必要的準備,如進行各種參數(shù)設(shè)置等,包括以下內(nèi)容:
(a)初始網(wǎng)絡(luò)有且僅有1個神經(jīng)單元,即根節(jié)點(隨機選擇文檔向量進行初始化) .
(b)設(shè)置最大迭代次數(shù)、終止迭代誤差、初始學(xué)習(xí)速率.
(c)設(shè)置生長閾值.
4.2.2 網(wǎng)絡(luò)訓(xùn)練
網(wǎng)絡(luò)訓(xùn)練是用來獲取穩(wěn)定的FGSOM網(wǎng)絡(luò)拓撲結(jié)構(gòu),本文所提網(wǎng)絡(luò)的訓(xùn)練階段完成以下任務(wù):
(a)文本數(shù)據(jù)集中隨機選取文檔向量,利用局部最優(yōu)算法(下文給出)尋找的.
(b)結(jié)合規(guī)則1結(jié)點生成策略,判斷是否生成相應(yīng)的結(jié)點.若生成操作,則轉(zhuǎn)(d),否則轉(zhuǎn)(c),對權(quán)值進行調(diào)整.
(c)利用式(1)對最佳神經(jīng)元所屬樹的權(quán)值進行調(diào)整.
(1)
其中LR(k)為學(xué)習(xí)率,當k趨于無窮時,LR趨于0.wj(k+1),wj(k)分別為結(jié)點j在調(diào)整前后的權(quán)值;bmt為最佳匹配結(jié)點所在的樹,如果神經(jīng)元屬于bmt,則對權(quán)值進行更新,否則不更新.
(d)LR(t+1)=LR(t)*α,其中α為LR的調(diào)節(jié)因子,0<α<1.
(e)重復(fù)(a)-(d),直到中全部樣本訓(xùn)練完畢.
4.2.3 循環(huán)學(xué)習(xí)
重復(fù)(2)進入下一個訓(xùn)練周期,直到網(wǎng)絡(luò)穩(wěn)定.如果達到最大迭代次數(shù)或者達到最小迭代誤差則終止網(wǎng)絡(luò)的訓(xùn)練.
FGSOM網(wǎng)絡(luò)結(jié)構(gòu)與SOM一樣由輸入層和競爭層兩部分組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1中聚類全連接層所示,其中d1…dn是訓(xùn)練的文本向量.圖1中聚類全連接層左邊部分為FGSOM模型網(wǎng)絡(luò)的初始狀態(tài),此時競爭層只包含一個根結(jié)點root1;右邊部分為網(wǎng)絡(luò)生長至7個結(jié)點時的狀態(tài).兩棵樹代表兩個父類別(root1,root2).root1樹中有三個子類別,root2中有四個子類別.例如,在進行法律文本處理時,root1可代表刑法,三個子類別代表盜竊罪、搶劫罪、故意傷害罪.FGSOM模型通過生長閾值的控制,通過一次仿真訓(xùn)練就可以達到層次聚類.模型中的一棵樹屬于一個父類別,樹的內(nèi)部結(jié)點表示父類的子類別.
傳統(tǒng)bmn的計算方法首先依次計算所有神經(jīng)元與輸入文本之間的相似度,然后對相似度進行排序來選擇bmn.這種計算方法的缺陷是需要計算神經(jīng)元與輸入向量的每一維作差和遍歷求解,這是一個比較耗時的動作.為了克服這一缺陷,在計算神經(jīng)元和輸入向量相似度時,采用累加求和的策略求解最優(yōu)bmn,減少維數(shù)計算,提出SDUA算法(見圖3).
最短距離更新算法 SDUA
輸入:最短距離dmin,兩個文本向量d1,d2
輸出:當前的最短距離dmin


圖3 SDUA算法Fig.3 Algorithm of SDUA
算法先行遍歷每一維向量(第1行),再利用Distance函數(shù)用來求解當前維數(shù)的距離(第2行),如果當前維數(shù)的距離已經(jīng)大于dmin,則不再計算后邊維數(shù)的向量(第3-5行);如果所有維數(shù)計算完畢,則更新dmin的值.
在森林結(jié)構(gòu)的基礎(chǔ)上,采用局部最優(yōu)策略,盡早拋棄不可能成為bmn的節(jié)點,提出LO-BMN算法(如圖4).LO-BMN算法,遍歷當前神經(jīng)元的根集合R,求解最佳bmt(第1-9行),然后求解bmt中的bmn(第10-19行).在兩個過程中,都使用了SDUA算法來提高計算效率.針對圖3給出的網(wǎng)絡(luò)模型,輸入向量d首先和root1、root2節(jié)點計算最佳根節(jié)點.若root1>root2,則root1樹中的所有神經(jīng)元不可能成為bmn,那么,在這一階段拋棄root1樹中的所有結(jié)點.然后遍歷root2中所有的結(jié)點,最終求出bmn.在集合中選擇最佳結(jié)點時,采用維數(shù)累加求和SDUA算法,來提高計算速度.
局部最優(yōu)求解最佳神經(jīng)元算法:LO-BMN
輸入:輸入文本d,神經(jīng)元根集合R,樹結(jié)點Map結(jié)構(gòu)集合T
輸出:最佳神經(jīng)元節(jié)點bmn,最短距離dmin

圖4 LO-BMN算法Fig.4 Algorithm of LO-BMN
實驗所用數(shù)據(jù)集是從Web(浙江法院公開網(wǎng)網(wǎng)址鏈接:http://www.zjsfgkw.cn/Document/JudgmentBook)下載的某省高級人民法院公開的法律文書(判決書),為真實數(shù)據(jù)集.數(shù)據(jù)集涵蓋了刑事、民事、商事、行政共計10000篇案件文本.為保證計算的有效性和規(guī)范性,在進行特征提取和聚類計算之前,先對原始數(shù)據(jù)進行了處理,剔除掉亂碼等無效的文本片段,最后獲得有8126個有效文本段.
實驗1.考察基于動態(tài)詞窗口的CNN 特征提取性能
為了驗證動態(tài)詞窗口的CNN模型特征提取性能,實驗先利用NLPIR對數(shù)據(jù)集進行分詞,獲得以詞為單位的數(shù)據(jù)集,再利用word2vec構(gòu)建對應(yīng)的詞向量.一個文本片段集的大小為N*300(N指文本片段選取詞的數(shù)量,大小固定為50).實驗中,CNN模型采用一層動態(tài)詞窗口的卷積層,一層為池化層,最后獲得文本的向量表示,作為標準SOM模型的輸入層.模型參數(shù)具體設(shè)置如下:詞向量維數(shù)300,dropout率(神經(jīng)元被丟棄的概率)為0.5,迭代次數(shù)為30.實驗評價采用聚類問題中常用的輪廓系數(shù)(silhouette coefficient)作為測試指標,它結(jié)合了內(nèi)聚度和分離度兩種因素,如公式所示:
(2)
(3)
其中a(i)代表第i個樣本到它所屬于簇中其它樣本的平均距離.b(i)代表第i樣本到所有非本身所在簇的樣本平均距離的最小值.公式(3)是聚類結(jié)果總的輪廓系數(shù).由公式(2)可見輪廓系數(shù)的值介于[-1,1],越趨近于1代表分離度和內(nèi)聚度都相對較優(yōu).

圖5 不同模型的輪廓系數(shù)Fig.5 Value of silhouette coefficient
為進行比較,實驗選取三種類型的CNN模型進行測試,這三種CNN模型為:基本的CNN[5]、加入dropout的CNN[10]、及本文提出的基于動態(tài)詞窗口的CNN.采用這些網(wǎng)絡(luò)模型獲取文本向量表示,然后對文本進行聚類,根據(jù)輪廓系數(shù)對模型的計算效果進行評價.圖5描述了實驗結(jié)果,從圖中可以看出,使用在基于動態(tài)詞窗口的CNN模型基礎(chǔ)上得到的詞向量進行聚類得到的輪廓系數(shù)明顯優(yōu)于另外兩種模型.基于動態(tài)詞窗口的CNN聚類輪廓系數(shù)在0.8左右,這是因為有的案件文本片段同時屬于兩個類別,無法準確確定,對聚類結(jié)果產(chǎn)生一定的影響.在實際應(yīng)用中,可以對這類案件文本進行預(yù)先過濾,然后對過濾后得到的案件文本進行聚類,可以明顯提高聚類效果.

圖6 生長閾值對比Fig.6 Comparison of growth threshold
實驗2.考察生長閾值(BGT/CGT)對聚類結(jié)構(gòu)的影響
選擇合適的生長閾值(BGT/CGT),對提高FGSOM算法的計算效果至關(guān)重要.FGSOM模型參數(shù)具體設(shè)置如下:最大迭代次數(shù)設(shè)置為1000,終止迭代誤差設(shè)置為0.01,初始學(xué)習(xí)速率為0.7,學(xué)習(xí)速率的調(diào)節(jié)因子α設(shè)置為0.3.實驗考查了不同的生長閾值對聚類結(jié)構(gòu)的影響,由圖6顯示的實驗結(jié)果可見,BGT/CGT值的大小對最后最終的聚類結(jié)構(gòu)圖有較大影響.對于BGT在0.5到1.0之間進行變化可知,當BGT=0.65時,大類別聚類效果最好;當CGT在0到0.5之間變化,CGT=0.3、BGT=0.65時,小類別聚類效果最好.基于此,在對法律案件文本片段聚類時,本文將BGT設(shè)置為0.65,CGT設(shè)置為0.3.
實驗3.考察FGSOM 聚類模型效率
為了驗證本文提出的FGSOM層次聚類模型聚類效果和計算效率,選取現(xiàn)有的GSOM算法[7]、TGSOM算法[11]作為對比來進行本組實驗.模型參數(shù)具體設(shè)置如下:BGT設(shè)置為0.65,CGT設(shè)置為0.3,其他參數(shù)和實驗二保持一致.

圖7 輪廓系數(shù)對比Fig.7 Comparison of silhouette coefficien圖8 運行時間對比Fig.8 Comparison of runtime
圖7描述了不同聚類模型的輪廓系數(shù),從圖中可以看出,F(xiàn)GSOM聚類的輪廓系數(shù)明顯高于另外兩種算法.圖8給出了在相同數(shù)據(jù)集上,不同聚類方法進行聚類運算所需時間的對比.GSOM 算法所消耗的時間大于TGSOM、FGSOM 算法,原因在于GSOM 算法在產(chǎn)生新的結(jié)點的策略沒有其他算法靈活,進而消耗了較多的計算時間.當數(shù)據(jù)量較小的時候,三種聚類方法差距不明顯,無法體現(xiàn)出FGSOM 算法具有優(yōu)越性,但隨著數(shù)據(jù)集的增大(例如大于3000時),F(xiàn)GSOM算法表現(xiàn)出較好的計算優(yōu)勢.
在分析現(xiàn)有文本處理聚類算法的基礎(chǔ)上,文本向量表示及SOM聚類算法存在的缺陷,提出基于動態(tài)詞窗口的改進型CNN算法進行文本特征提取,以此為輸入提出基于森林結(jié)構(gòu)的自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法——FGSOM,對大規(guī)模文本數(shù)據(jù)的進行層次聚類.實驗結(jié)果表明,采用本文提出計算模型可以獲得較好的文本聚類效果.通過與現(xiàn)有的基于SOM聚類算法(如GSOM、TGSOM)進行比較可知,F(xiàn)GSOM算法在處理大規(guī)模領(lǐng)域文本時,在計算效率和計算效果上表現(xiàn)出一定優(yōu)勢.
:
[1] Nathawitharana N,Alahakoon D,Silva D D.Using semantic relatedness measures with dynamic self-organizing maps for improved text clustering[C].International Joint Conference on Neural Networks,2016:2662-2671.
[2] Hingmire S,Chougule S,Palshikar G K,et al.Document classification by topic labeling[C].International Conference on Information Retrieval,2013:877-880.
[3] Bengio Y,Schwenk H,Senécal J S,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.
[4] Zhou C,Sun C,Liu Z,et al.A C-LSTM neural network for text classification[J].Computer Science,2015,1(4):39-44.
[5] Kim Y.Convolutional neural networks for sentence classification[C].Proc of Conference on Empirical Methods in Natural Language Processing,2014:1746-1751.
[6] Kohonen T.Self-organization and associate memory[J].Spinger-Verlag,1984,8(1):3406-3409.
[7] Alahakoon D,Halgamuge S K,Srinivasan B.Dynamic self-organizing maps with controlled growth for knowledge discovery[J].IEEE Transactionson Neural Networks,2000,11(3):601-614.
[8] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].Computer Science,2013.
[9] Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013,26:3111-3119.
[10] Hinton G E,Srivastava N,Krizhevsky A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
[11] Wang Li,Wang Zheng-ou.Tgsom:a new dynamic self-organizing maps for data clustering[J].Journal of Electronics & Information Technology,2003,25(3):313-319.
附中文參考文獻:
[11] 王 莉,王正歐.TGSOM:一種用于數(shù)據(jù)聚類的動態(tài)自組織映射神經(jīng)網(wǎng)絡(luò)[J].電子與信息學(xué)報,2003,25(3):313-319.