999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

全卷積神經網絡的字符級文本分類方法

2020-03-11 13:55:00夏戰國
計算機工程與應用 2020年5期
關鍵詞:規范化分類文本

張 曼,夏戰國,劉 兵,2,周 勇

1.中國礦業大學 計算機科學與技術學院,江蘇 徐州221116

2.中國科學院 電子研究所,北京100190

1 引言

文本分類是自然語言處理(NLP)領域最經典的問題之一,實質是根據文本特征將文本分成兩個或更多的類別。以是否使用深度學習技術作為分類標準,文本分類方法可以分為兩類,即基于傳統機器學習的文本分類方法和基于深度學習的文本分類方法。傳統的方法經歷了專家規則和統計分類方法的發展過程,逐漸形成了一套大規模文本分類問題的經典方法。該方法可以分為兩大部分:特征工程和分類器。缺點是文本表示基于高維度和高稀疏度的向量空間,表達能力較弱。相比之下,20 世紀80 年代時形成的一些深度學習的概念迄今仍在文本分類中發揮著重要作用。其中,Hinton等人于1986年提出的分布式表征是表達式學習最重要的工具之一,這意味著許多因素的組合可以彼此分開。Rumelhart、LeCun 等人提出的反向傳播算法則用于訓練深度模型。現有的文本研究包括句子級別、詞級別和字符級別。考慮到現今微博、動態等短文本的流行,選擇使用字符級別的處理方式,從而充分獲取文本知識,實現正確分類。

早期詞向量概念提出后,Emami 等人在2005 年提出了神經網絡語言模型(NNLM),采用文本分布式表示將每個詞表示為稠密的實數向量[1]。2013 年Google Mikolov 提出word2vec[2-3]并發表了相應的工具包,極大地推進了文本分析的研究進程,使得詞向量大步走進人們的視野。目前為止,已經有許多深度模型實現了文本分類的最新性能。例如,用于處理序列數據的遞歸神經網絡RNN。Arevian G 和Panchev C 使用2 層的RNN進行文本分類[4]。Du Changshun 和Huang L 提出了一種獨立于人工設計特征的循環卷積神經網絡用于文本分類任務[5]。1997 年Hochreiter 和Schmidhuber 提出的長期短期記憶網絡LSTM 被廣泛用于許多序列建模任務,包括許多自然語言處理任務。Zhou Chunting 等人使用組合的LSTM 模型進行文本分類[6]。近年來,使用CNN進行文本分類的研究獲得了很高的關注度。Kim Y創造性地將CNN 用于句子分類任務[7]。但是,設計的CNN 模型中只有一層卷積層,而且處理的文本對象是一個信息量較少的短句子。因此需要優化CNN模型使其能夠處理更長的文本,從而更好地滿足實際需要。

對CNN 模型的優化方法層出不窮。例如,Ma Mingbo等人通過在分類器前增加一個額外的學習層來獲得組稀疏CNN[8]。Wei Xiaocong等人將CNN和LSTM結合對論壇的帖子進行分類[9]。Zhang Xiang 等人從字符級別重新訓練神經網絡,避免了高維度的詞語知識帶來的復雜性,能更充分地獲取文本知識[10-11]。但該模型的性能仍有提升空間,而且實驗的評估不夠全面,不能充分說明模型的性能良好。在復現實驗的過程中該字符卷積網絡表現不夠穩定,有時會出現過擬合現象。以上提到的這些方法大都局限于全連接層,因而無法避免全連接層參數冗余導致過擬合以及計算速度慢等問題。

受到圖像語義分割中全卷積思想的啟發[12],本文使用卷積層替代全連接層,使得模型能夠快速收斂。在實驗環節增加評估指標。規范化字符全卷積神經網絡(LRN-CharFCN)中使用相同形狀的卷積層替代全連接層,大大減少了參數量、提高了計算速度也加快了收斂速度。規范化層的添加不僅避免了過擬合現象,而且提高了模型性能。通過P 、R、F1 評估指標驗證模型和算法有效性,結果表明在不同的數據集上,本文模型成功實現了避免過擬合的發生、加快收斂和提升指標。對于中文數據集,首先將短文轉換成拼音[10-11],舉例來說,“蘋果”轉換成p-i-n-g-g-u-o,然后進入LRN-CharFCN模型進行文本分類。也可以改變自定義的字符字母表,實現多語言的推廣。最后,將訓練、測試步驟交叉進行,調整訓練、測試步數,批次數和輪數等參數,使得模型表現良好。

2 相關工作

至今為止,主要有三種表現良好的深度學習文本分類方法:FastText,RNN 和CNN。FastText 是2016 年由Facebook AI Research 開源的文本分類器。其輸入是一系列單詞、一個句子或一段文本。其輸出是輸入文本屬于不同類別的概率。FastText 的模型體系結構與Word2Vec 中的CBOW 模型[2]類似,除了fastText 預測標簽,而CBOW 模型預測中間詞。FastWord 有利于大規模數據的高速訓練并支持多種語言表達。但它的局限性在于只能預測多個類別中的一個類別。代令令等人[13]將FastText 模型應用到中文文本分類任務中,縮短了分類時間。王藝杰[14]把視頻監控系統的目標分類問題轉化為短文本分類問題,并應用FastText模型實現北京市區范圍內的視頻監控系統防控目標的詳細分類。

Zhang Yong等人在2016年提出一種綜合注意力機制的RNN 進行情感分類,提高了模型準確性[15]。長期短期記憶(LSTM)是一種門控RNN,在實際應用中非常有效。Zhou Peng等人[16]在2016年提出使用BLSTM來獲取單詞上下文信息,與單詞共同形成一個輸出,然后通過二維卷積層和二維最大池層來組合實現文本分類。除此之外,LSTM可以更多地與其他模型結合實現文本分類任務。Rao A和Spasojevic N設計了一個由詞嵌入層、LSTM 層和全連接層組成的模型[17]。Karim F等人設計了一個名為LSTM-FCN的模型[18]。其中,完全卷積塊的時序卷積和全局平均池化用于特征提取。最后,經過這兩個模塊處理后的輸出進入softmax 層進行分類。RNN 在文本分類任務中雖然表現好,但是從它的工作原理可以看出它的計算復雜度較高。

CNN最重要的部分是卷積模塊。常用的標準CNN結構包括文本表示層、卷積層、池化層和完全連接層。Kim Y 較早使用CNN 模型進行分類,任務內容包括問題分類和情感分類[7]。在這個模型中,單詞向量由在1 000 億字的Google 新聞中訓練,并且k 維向量中的每個維度對應于句子中的一個單詞[3]。值得一提的是,作者使用了簡單的CNN 模型進行訓練,只含一層卷積、一層池化和一層全連接,仍然取得了不錯的表現。Moriya S 等人[19]采用殘差網絡結構的字符級CNN,并通過執行兩個特定的數據集之間的轉移學習,提高分類精度。Hairula A 等人[20]利用由Skip-Gram 模型訓練好的句型特征和語義特征,選擇每個單詞中帶有特征向量組合的文本作為卷積神經網絡輸入,嵌入迭代訓練獲得情緒參數,進行文本情感分類。但這些研究都以卷積池化全連接層的卷積神經網絡的基本結構為基礎,進行文本分類任務。

本文設計了一種全卷積的字符級神經網絡,并在文本分類任務中取得良好表現。在本研究中,為了進一步提高模型性能,在卷積池化層后額外添加LRN 規范化層。并第一次將全卷積的思想用在文本分類任務中,目的是利用全卷積參數數目少、收斂快、穩定且計算速度快等優點。考慮到文獻[10]僅使用準確性作為評估指標,對比實驗結果不充分。添加精確度、召回率和F1 值來對比證明模型性能的提升。

圖1 LRN-CharFCN模型圖

3 全卷積字符級文本分類方法

在這一章將從總模型、字符表示方法和LRN 規范化三部分進行解釋說明。在總模型部分展示LRNCharFCN的工作流程,進而在字符表示方法一節中解釋如何實現字符級神經網絡。最后闡釋LRN規范化的工作原理。

3.1 總模型

設計的模型LRN-CharFCN 如圖1 所示。處理原始數據的字符表示方法將在下面介紹,圖中特征值長度69,文本固定長度為1 014,使用固定長度是因為一定長度的文本足夠用于特征提取與分類,文本過長是一種負擔。處理后的張量作為輸入進入卷積層、池化層和規范化層。經特征提取并規范化約束處理后的張量作為輸入繼續進行兩層卷積計算。最終由輸出層輸出分類結果。此外,輸出層中不使用softmax 方法,softmax 分類器將多分類的輸出值轉化為相對概率,工作方式是全連接的。而本模型的設計理念是無全連接,因此,得到所有類別的得分后使用argmax分類器,選出得分最高項,也就是輸出類別號。最后一層輸出層的長度是由具體類別數目決定的。

3.2 全卷積

全卷積網絡的實現,是使用卷積層替代全連接層。卷積運算公式如公式(1)所示,其中?是卷積運算符。在卷積神經網絡的第一個參數x 表示輸入,第二個參數w 表示函數。單個卷積層的時間復雜度如公式(2)所示,其中M 表示輸出特征圖的尺寸,K 表示卷積核尺寸,Cin 表示輸入通道數,Cout 表示輸出通道數。模型的空間復雜度如公式(3)所示,從公式中可以看出,模型的空間復雜度只與卷積核尺寸K 和通道數Cin、Cout有關,與輸入尺寸無關。卷積層與全連接層的不同之處在于卷積神經元與輸入數據局部連接且共享參數,而全連接層的每一個結點都與上一層的所有結點相連,因而參數量巨大。區別于全連接層,卷積層使用之前CNN已經訓練好的權值和偏置。

針對本文模型,原7、8 層是長度為1 024 的一維向量,LRN-CharFCN將這兩層表示為卷積層。此時,網絡中的所有層都是卷積層,因而稱之為全卷積神經網絡。

3.3 字符表示

在嵌入層中,使用一系列的編碼字符作為輸入。首先創建一個長度為d 的字符字母表,然后使用one-hot編碼創建一個嵌入字典。然后根據字符字母表創建一個嵌入矩陣。空字符或不存在于字母表中的字符用零向量替代。在處理文本時,如果文本存在于嵌入字典中,則每個字母的索引將被添加到文本的向量表示中,否則將由UNK 表示。最后,數據通過嵌入層成為門控卷積層的輸入。

LRN-CharFCN 模型使用長度為70 的字符字典,由單行字符、10位數字、26個英文字母和33個其他字符組成。字符字典表示如下:

abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:'"/\|_@#$%^&*~`+-=<>()[]{}

3.4 LRN規范化

LRN 的全稱是局部響應歸一化,Hinton 在2012 年的Alexnet網絡中首次給出這個概念[21]。局部歸一化借鑒了神經生物學中側抑制的概念——被激活的神經元抑制相鄰神經元。尤其在使用了ReLU的情況下,這種抑制很有效。LRN 層模仿這種機制對局部神經元的活動創建競爭機制,提高模型泛化能力。響應較大的值會相對更大,反之,響應較小的神經元受到抑制。核函數的公式如下:

其中,i 代表要計算的元素的下標,從0 開始,j 表示平方累加索引。a 是卷積、池化操作后的輸出結果,也是下一層的輸入。a 的結構是一個四維數組[batchnum,height,width,channel],其中,batchnum 是批次數,height是圖高度,width是圖寬度,channel是通道數。aix,y 則表示這個輸出結構中的一個位置[a,b,c,d]。 N 是通道數,而n/2,k,α,β 都是自定義的參數。需要特別注意的是,∑疊加的方向是沿通道方向。

3.5 算法實現

算法實現步驟如下所示:

1.每行數據長度固定為l1,batchsize的大小根據數據集調整。對讀入的數據進行One-hot編碼形成張量并賦值。

2.對one-hot編碼后的張量進行卷積運算,s=x(t)?w(t)。其中?為卷積運算符。

3.最大池化處理,y=f(p),其中f 為最大池化函數。

4.池化后進行LRN標準化處理:

5.繼續進行卷積、池化和標準化操作5次。

6.將步驟5的輸出作為輸入,進行卷積池化運算。

7.將步驟6的輸出作為輸入,進行卷積池化運算。

8.最后一層為輸出層,長度由分類數目決定。

4 實驗

4.1 參數設置

在LRN-CharFCN 網絡中,輸入是one-hot 編碼后的向量。取句子長度為1 014個字符,即卷積長度為1 014。

字母表長度為69,即卷積寬度為69。批處理量為128。設置了6層卷積、池化、標準化層,2層替代全連接層的卷積層,1 層輸出層。前6 層卷積結構如表1(a)所示。第7、8 層卷積層卷積核形狀如表1(b)所示。標準化層中bias,alpha,beta 的取值分別為1.0,0.001/9.0,0.75。輸出層的大小取決于具體問題的分類數目。

4.2 性能指標

學習器的泛化性能評估不僅需要有效的實驗評估方法,還需要測量模型泛化能力的評估標準。也就是性能指標。模型的質量更多地取決于任務需求而不是算法本身。分類任務中常用的一些性能指標如表2所示。其中,TP,FN ,FP,TN 如表3所示。

4.3 數據集介紹

本實驗收集了包括英文和中文的數據集共5種,且所有數據集都經過打亂處理,隨機排序,以保證實驗的真實性。除了訓練和測試精確度,還設計得到P 、R、F1 值。使用下列數據集進行豐富全面的對比實驗。

AG的新聞主題分類數據集:AG新聞數據集收集了超過100萬篇新聞文章。該數據集由學術團體提供,用于研究數據挖掘(聚類、分類等)、信息檢索(排名、搜索等)、xml、數據壓縮、數據流和任何其他非商業活動。該數據集從原始語料庫中選擇4個最大的類別,每個類別包含30 000個訓練樣本和1 900個測試樣本。訓練樣本總數為120 000,而測試樣本總數為7 600。樣本包含3列,由逗號分隔,每列對應著類別索引(1,2,3,4)、新聞標題和文章內容。

DBPedia 本體分類數據集:DBpedia 是從維基百科提取的大規模多語言知識庫。DBpedia 本體分類數據集是通過從DBpedia 2014中選擇14個非重疊類來構建的,從14 個本體類的每一個中隨機選擇40 000 個訓練樣本和5 000 個測試樣本。因此,訓練數據集的總大小為560 000,測試數據集總大小為70 000。樣本分為三列,分別對應類索引(1到14)、標題和內容。

表1(a) 前6層卷積結構

表1(b) 7、8層卷積核結構

表2 性能評價指標

表3 性能指標

Yelp評論極性數據集:本數據集是從Yelp數據集挑戰賽2015數據中提取的。1星和2星為負數,3星和4星為正數。對于每種極性,隨機抽取280 000 個訓練樣本和19 000 個測試樣本。 總共有560 000 個訓練樣本和38 000個測試樣本。負極性是類1,正極性是類2。有2列,對應于類別索引(1和2)和評論。

搜狗新聞數據集:該數據集包括SogouCA 和SoGouCS 新聞語料庫,其中包含各種主題頻道的總計2 909 551篇新聞文章。在這些文章中約有2 644 110包含一個標題和一些內容。選擇“體育”“金融”“娛樂”“汽車”和“技術”五大類。每類有90 000 條訓練數據和12 000 條測試數據,也就是說共有450 000 條訓練數據和60 000條測試數據。

雅虎答案主題分類數據集:該數據集是Yahoo!截至2007 年10 月25 日的答案語料庫。它包括所有的問題和相應的答案。語料庫包含4 483 032個問題及其答案。雅虎答案主題分類數據集使用最大的10 個主要類別。每個類別包含140 000 篇個訓練樣本和6 000 個測試樣本。因此,訓練樣本總數為1 400 000,測試樣本總數為60 000。從所有答案和其他元信息中,只使用最佳答案內容和主要類別信息。樣本有4 列,分別對應類別索引(1 到10),問題標題,問題內容和最佳答案。從中隨機抽取120 000 條測試數據和7 600 條測試數據。

表4 LRN層對模型性能的影響(a)模型的訓練Acc結果對比%

(b)模型的測試Acc結果對比%

表5 Char-CNN模型與LRN-CharFCN模型的其他性能對比(a)AG的新聞主題分類數據集結果對比%

(b)DBPedia本體分類數據集結果對比%

(c)雅虎答案主題分類數據集結果對比%

(d)Yelp評論極性數據集結果對比%

(e)搜狗新聞分類數據集結果對比%

4.4 實驗結果與分析

本次實驗在五個數據集上將本文設計的LRNCharFCN 模型與文獻[10]中使用全連接層的字符卷積模型CharCNN進行對比。為體現LRN層與全卷積層對模型性能的提升有不同的作用,在表4中列出原始模型CharCNN、添 加LRN 層 的LRN-CharCNN 模 型 以 及LRN-CharFCN 模型在Acc 指標上的對比結果。從表中可以看出,原始模型添加了LRN 層后性能有了明顯的提升。使用了全卷積模型后模型性能保持穩定。這也驗證了前文所述,模型的準確性等性能的提升主要是由LRN 層實現,而使用全卷積的目的是加快模型收斂速度。考慮到文獻[10]中僅使用了精確性Acc 作為唯一評價指標,這里也增加展示了在本實驗的標準下CharCNN 在P 、R、F1 值上的結果。兩個模型訓練、測試結果如表5所示。

總的來看,添加規范化層的模型在不同數據集上的大部分指標中獲得了性能的提升。逐一分析各數據集,對于AGNews數據集,模型添加規范化層后訓練準確性提升了1.3%左右,訓練精確率、召回率和F1 值都有所提升,其中召回率的提升較為明顯。值得一提的是,在文獻[10]中AGNews 數據集的測試準確性只有87.5%,調整交叉測試、訓練的次數后使得不添加規范化層的模型準確性上升至92.921%。而添加了規范化層的模型在測試準確性、精確度和召回率上有微弱的提升。由于DBPedia本身是一個非常標準的數據集,添加標準化層后各指標值提升幅度稍小。在訓練、測試階段,各指標值均有提升。在雅虎答案主題分類數據集上可以看到雖然各項結果不是很優秀,但也正是在這一數據集中,添加規范化層對模型性能的提升最為明顯。Yelp 評論極性數據集的測試和訓練結果差距較大。添加規范化層后測試階段的精確率、召回率、F1 值和準確性都有所提高,其中F1 值的提升最明顯。相比之下,測試結果的提升幅度較小,但仍可看出規范化層對模型性能提升起到了促進作用。最后,進行了語言上的推廣實驗,使用中文數據集(搜狗新聞數據集)進行訓練和測試。對比結果可以看出添加規范化層后雖然P 、R、F1 值上的提高不大,但無論是訓練還是測試,準確性的提升都相對明顯。

在表6 中將提出的模型與近幾年的文本分類模進行比較,表中給出了在相同數據集上的錯誤率對比果。從表中可以看出LRN-CharFCN 模型表現良好,在AG與DBPedia數據集上錯誤率明顯下降。

表6 LRN-CharFCN模型與其他模型的錯誤率對比

最后展示分析LRN-CharFCN 在各數據集上的損失函數與使用全連接的CharCNN 的對比結果,如圖2所示。其中藍色的線是使用全連接的神經網絡模型下的收斂情況,紅色的線是使用全卷積訓練的收斂結果。在雅虎答案數據集上可以明顯地看出,使用全卷積比使用全連接層損失明顯減小,且收斂速度明顯加快。甚至在測試集上這種優勢也有所表現。在DBPedia數據集和AG 新聞數據集上的對比表現雖然不像雅虎數據集這么明顯,但仍可以看出使用全卷積時,前期收斂速度加快且能平滑穩定地收斂。至此,可以得出以下兩點結論:第一,LRN-CharFCN 模型可以加快收斂,提高運算速度。第二,雖然極個別指標值沒有提高,但在各數據集的絕大部分訓練、測試結果上可以看出添加規范化層能夠使結果得到優化。由此可以得出結論,LRN-CharFCN模型在文本分類任務上表現良好,且相比以往模型性能有所提升。

5 結束語

本文首次將全卷積神經網絡應用在文本分類任務當中,并結合LRN 規范化處理,成功提升了模型性能。并且通過大量的實驗證明了這種性能上的提升。但從實驗結果可以看出,本文模型在標準數據集上(如新聞類數據集)的表現更加完美,優于模型在其他數據集(如評論類數據集)上的表現。因此,在之后的工作中希望進一步優化此模型,使其更加穩定,適應性更強。

圖2 各數據集上損失情況隨訓練步數的變化對比

猜你喜歡
規范化分類文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
價格認定的規范化之路
商周刊(2017年23期)2017-11-24 03:24:09
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
狂犬病Ⅲ級暴露規范化預防處置實踐
高血壓病中醫規范化管理模式思考
主站蜘蛛池模板: 999精品在线视频| 被公侵犯人妻少妇一区二区三区| 久久性视频| 亚洲精品桃花岛av在线| 国产精品综合色区在线观看| 国产精品成人AⅤ在线一二三四 | 色综合天天视频在线观看| 无码AV高清毛片中国一级毛片| 亚洲欧美成人在线视频| 色综合狠狠操| 韩国v欧美v亚洲v日本v| 国产午夜无码专区喷水| 午夜爽爽视频| 欧美视频在线观看第一页| 日韩精品资源| 91久久国产热精品免费| 97se亚洲综合在线韩国专区福利| 欧美日韩国产精品va| 午夜无码一区二区三区| 国产一级α片| 伊在人亞洲香蕉精品區| 欧美国产综合色视频| 蜜桃视频一区二区| 日本不卡视频在线| 欧美另类图片视频无弹跳第一页| 国产一在线| 国产永久无码观看在线| 国产网站免费观看| 激情无码视频在线看| 国产剧情国内精品原创| 免费国产小视频在线观看| 欧美一级色视频| 伊人丁香五月天久久综合 | 三级国产在线观看| 另类专区亚洲| 国产一级毛片yw| 欧美成人区| 久久精品国产亚洲AV忘忧草18| 国产制服丝袜91在线| 亚洲欧洲自拍拍偷午夜色无码| 青青热久免费精品视频6| 一级毛片在线免费看| 久久久91人妻无码精品蜜桃HD| 日本成人精品视频| 在线欧美日韩| 国产国产人成免费视频77777| 亚洲大尺度在线| 99视频在线精品免费观看6| 91青青草视频| 国产主播一区二区三区| 美女视频黄频a免费高清不卡| 午夜日本永久乱码免费播放片| 精品久久综合1区2区3区激情| 国产精品自拍露脸视频| 国产成人高清亚洲一区久久| 亚洲国模精品一区| 国产成人精品视频一区视频二区| 色婷婷电影网| 一边摸一边做爽的视频17国产| 免费毛片a| 热这里只有精品国产热门精品| 国产探花在线视频| 国产欧美日韩精品第二区| 最新国产成人剧情在线播放| 91黄色在线观看| 国产三级国产精品国产普男人| 欧美综合区自拍亚洲综合绿色| 蜜桃臀无码内射一区二区三区| 日本少妇又色又爽又高潮| 国产日韩av在线播放| 在线欧美日韩| 伊人婷婷色香五月综合缴缴情| 亚洲成人手机在线| 国产迷奸在线看| 中文字幕人妻无码系列第三区| 亚洲经典在线中文字幕 | 国产精品视频久| 国产欧美精品一区aⅴ影院| 免费看的一级毛片| 亚洲天堂视频在线观看免费| 99ri精品视频在线观看播放| 亚洲国产清纯|