999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義強化和特征融合的文本分類

2020-03-02 11:36:35王子牛王宏杰高建瓴
軟件 2020年1期

王子牛 王宏杰 高建瓴

摘 ?要: 文本分類是信息檢索、機器問答的基礎性任務,是自然語言理解的一項重要語義任務。本文提出了一種基于語義強化和特征融合的(LAC)分類模型。該模型首先將Word2vec嵌入的詞向量輸入LSTM進行句子語義的提取,然后將提取的語義特征輸入Attention層進行特征的強化,同時用卷積層提取文本的局部特征,其次把強化的語義特征和利用卷積層提取的局部特征進行融合,最后經池化層對特征進行降維,并將經池化后的特征向量輸入到全連接層,引入Dropout防止過擬合,得到最終的分類結果。由于CNN提取特征時存在忽略上下文信息的弊端,所以提出用LATM提取上下文信息,然后進行特征的融合的方法;另外,由于LSTM在捕獲句子信息時會因為距離過長而出現的信息遺漏現象,所以提出將Attention作用于LSTM。通過實驗表明,本文提出的模型比單獨的CNN模型、以及先用LSTM提取語義信息,在進行局部特征提取的LSTM-CNN模型的效果更好。

關鍵詞: 特征融合;神經網絡;LSTM;Attention;自然語言處理

中圖分類號: TP391 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.01.046

本文著錄格式:王子牛,王宏杰,高建瓴. 基于語義強化和特征融合的文本分類[J]. 軟件,2020,41(01):211215

【Abstract】: Text classification is a basic task of information retrieval and machine question answering and an important semantic task of natural language understanding. This paper proposes a classification model based on semantic reinforcement and feature fusion (LAC). The model will first word sentence semantic vector input LSTM are extracted, and then extract the semantic characteristics of the input characteristics of the strengthening of the Attention layer at the same time the local characteristics of convolution layer was used to extract text, secondly to reinforce the semantic characteristics and utilization of the local characteristics of convolution layer of fusion, finally the pooling layer for feature dimension reduction, and after pooling feature vector input to full connection layer, introducing the Dropout prevent fitting, get the final classification result.Due to the disadvantage of ignoring context information when CNN extracts features, a method of extracting context information by Lstm and then fusing features is proposed. In addition, since LSTM may miss information due to the long distance when capturing sentence information, it is proposed to apply attention to LSTM.Experiments show that the model proposed in this paper is better than the CNN model alone and the LSTM model used to extract semantic information first, and the lstm-cnn model used to extract local features is better.

【Key words】: Feature fusion; The neural network; LSTM; Attention; Natural language processing

0 ?引言

隨著互聯網技術和科學技術的不斷發展,人們的交流溝通方式發生了翻天覆地的變化。聊天的媒介由最原始的紙質媒介轉變為現在的電子媒介,一些新型的電子工具,例如:微博、微信、QQ等時時刻刻在影響并且改變著人們的生活。隨著海量數據的不斷產生,國家對人工智能[1]、大數據等新興技術的宣傳和投入,人們如何有效合理的利用這些信息漸漸成為了科研工作者的研究重點。因此,文本分類進行理論的研究以及具體的實踐,對于解決上述的問題,有著十分重要的現實意義。中文文本分類是自然語言處理(NLP)領域的一個重要分支,是信息檢索[2]、數字圖書館[3]等領域的基礎技術。傳統的文本表示方法存在著維數高,數據稀疏等問題,隨著深度學習在文本方面的運用,這些問題漸漸被解決。目前自然語言處理任務的兩大主流模型是卷積神經網絡(CNN)和循環神經網絡(RNN)以及他們的變體[4]。這些模型都取得了良好的效果。

文本分類技術,在它的漫長的發展過程中,可以被概括為以下三個階段:基于知識工程(KE)、基于機器學習(ML)和基于神經網絡(NN)。第一,探索階段(1960-1963):1960年,Maron發表了第一篇關于文本分類的論文,并對文本自動分類進行了初步研究[5];1963年,Gerald Salton提出了矢量空間模型(VSM)用于文本的表示[6]。第二,理論研究階段(1963-1989):侯漢清教授對中文文本分類的發展方向進行了理論性的指導同時介紹了國外計算機在自動分類系統、分類檢索等方面的運用。在此之后,國內才正式開始了對中文文本分類技術的研究。1987年,王繼成等人研究出了中文文本分類系統。第三,應用實踐階段(1990年至今):機器學習方法與知識工程方法相比具有精度高、易于實現的優點。基于知識工程的文本分類,因其可移植性差、不可跨領域操作、規則制定過程繁雜等缺點,90年代末期被機器學習的分類方法[7]所取代。

深度學習最初運用于圖像識別和語音識別領域,近些年在自然語言處理領域也取得了很大的成功[8]。特別是在2014年Kim.Y提出CNN用于句子分類之后,深度學習技術逐漸取代了傳統的機器學習方法已成為主流文本分類技術。2015年,Lai等人提出了一種無人工特征的循環卷積神經網絡分類方法RCNN[9],大大提高了文本分類的正確性;2016年,Bahdanau等將注意力機制應用到自然語言處理(NLP)領域的機器翻譯[10],在翻譯準確率上較傳統神經網絡模型有較大提高;2016年,Yang等人提出了一種用于文檔分類的層次注意力機制網絡,在構建文檔時對文檔內容賦予不同的權重,簡稱HAN[11];2017年,Joulin等人提出了一種高效的文本分類模型fastText[12],Johnson和Zhang提出了一種基于單詞粒度級別的深層CNN模型,簡稱DPCNN[13],通過增加網絡的深度提取更加優質的特征,進而提高分類的性能;2018年,黃民烈教授團隊提出了一種具有自適應注意力機制的密集型連接的卷積神經網絡,簡稱DCCNN[14],由于獲得的特征尺度比較豐富,注意力機制又能夠自行的選擇合適的特征用于文本分類,預測精度都有所提高;2019年,Shen和Yi kang等人提出ON-LSTM[15],這篇論文的想法是將樹結構集成在遞歸神經網絡中,在語言建模方面取得良好的性能。

深度學習在文本處理領域實現了重大突破,獲得比較好的成績。這跟文本向量的表示和文本特征的提取有密切的關系。文本向量空間模型表示方法與神經網絡的組合使得提取到的文本特征向量越來越精簡而具有代表性。深度學習雖然提供了一種有效的方法來減少人工提取特征的數量,但是這些方法仍然是需要詞匯資源,都依賴于獲得高級別的特征。

本文中提出一種基于語義強化和特征融合的模型。該模型利用長短時記憶網絡(LSTM)提取句子中重要的語義信息,利用自注意機制(Attention)對句子中的單詞的關聯性做進一步的強化,然后與利用CNN提取的特征進行融合。這些都沒有使用先檢的知識或者自然語言處理系統,沒有利用任何的外部的語法信息。本文基于THUCNews新聞文本分類數據集的子集,分別對CNN、LSTM-CNN、LSTM-ATT-CNN進行了相關的實驗,結果表明本文提出模型更加具有競爭性,取得了更好的效果。

1 ?LAC模型

1.1 ?模型結構圖

本文提出的LAC模型結構如圖1所示。

該模型由8部分組成:

(1)輸入層:輸入句子。

(2)嵌入層:將句子中單詞利用Word2vec映射到低維度。

(3)LSTM層:利用LSTM層獲取文本語義 ? 特征。

(4)Attention層:進一步強化LSTM提取的語義特征。

(5)卷積層:提取文本的局部特征。

(6)特征融合:利用TensorFlow框架將(4)和(5)的特征融合,獲得更加科學的表達。

(7)池化層:特征降維,減少過擬合。

(8)SoftMax層:對文本進行分類。

1.2 ?文本向量化

為了機器能夠理解自然語言,首先需要將自然語言符號數學化,即文本向量化[16]。文本向量化直觀理解為將一篇文章表示為0、1向量。

文檔用Z表示,一篇文檔用Y個句子表示,句子用向量S表示。句子S由N個單詞組成, 表示一個單詞向量。S中的每一個單詞 進一步被表示為 , 是一個需要學習的參數,v是指詞匯表的大小, 是指詞向量的嵌入維度。 是大小為 的向量,在索引為 的位置值為1,其他位置值為0。

1.3 ?LSTM網絡模型

循環神經網絡(RNN)在學習模型參數時,隨著網絡層數的增加,會出現只有靠近輸出端的參數更新而遠離輸出端的參數難以學習和更新的情況,為了解決這個問題提出了RNN的變體長短時記憶網絡(LSTM)[17]。它被用于機器翻譯[18]、圖像分析[19]、語音識別[20]等許多的領域,漸漸成為解決自然語言處理問題的主流方向。LSTM模型如圖2所示。

2 ?實驗結果分析

2.1 ?數據集

基于THUCNews新聞文本分類數據集的子集,選取金融、房地產、體育、家居、教育、科技、時尚、政治、游戲、時尚等十大類作為實驗數據,每個類別6500條數據。數據集語料庫分配:訓練集5000*10,驗證集500*10,測試集1000*10。

2.2 ?實驗參數

2.3 ?實驗結果對比

本文的實驗涉及到的開發工具跟實驗環境如下:

硬件環境:CPU:Inter(R) Core(TM) i5-7500 CPU@3.4 GHz 3.41 GHz,

主站蜘蛛池模板: 特级精品毛片免费观看| 五月婷婷丁香综合| 岛国精品一区免费视频在线观看| 亚洲狼网站狼狼鲁亚洲下载| 精品超清无码视频在线观看| 久久五月视频| 国产流白浆视频| 国产原创第一页在线观看| 五月六月伊人狠狠丁香网| 丁香五月亚洲综合在线 | 尤物精品视频一区二区三区| 91在线精品麻豆欧美在线| 亚洲—日韩aV在线| 国产1区2区在线观看| 亚洲日韩AV无码一区二区三区人| 国产丝袜第一页| 在线视频97| 青青青伊人色综合久久| 亚洲日本韩在线观看| 免费一级成人毛片| 国产99在线观看| 91无码人妻精品一区| 久久99这里精品8国产| 国产一区免费在线观看| 精品国产免费观看一区| 国产视频久久久久| 亚洲欧美不卡中文字幕| 国产AV毛片| 欧美成人精品在线| 国产一区二区网站| 在线播放国产99re| 精品在线免费播放| 国产全黄a一级毛片| 国产区福利小视频在线观看尤物| 精品夜恋影院亚洲欧洲| 无码乱人伦一区二区亚洲一| 日韩av资源在线| 国产成人做受免费视频| 91po国产在线精品免费观看| 综合色婷婷| 手机成人午夜在线视频| 91av国产在线| 91成人在线观看| aa级毛片毛片免费观看久| 秋霞一区二区三区| 在线无码九区| 午夜一级做a爰片久久毛片| 激情爆乳一区二区| 婷婷色一区二区三区| 园内精品自拍视频在线播放| 一本久道久久综合多人| 日韩无码一二三区| 米奇精品一区二区三区| 日本a级免费| 蜜桃臀无码内射一区二区三区 | 亚洲av无码专区久久蜜芽| 67194在线午夜亚洲| 97青青青国产在线播放| 国产嫩草在线观看| 成人国产免费| 91无码人妻精品一区二区蜜桃| 91美女视频在线| 刘亦菲一区二区在线观看| 免费毛片在线| 国产精欧美一区二区三区| 国产一区二区福利| 九色综合视频网| 久久久久国色AV免费观看性色| 六月婷婷激情综合| 国内视频精品| 久久77777| 国产精品不卡永久免费| 亚洲精品在线影院| 日韩麻豆小视频| 青草免费在线观看| 国产伦精品一区二区三区视频优播| 免费AV在线播放观看18禁强制| 欧美精品一区在线看| 国产成人综合日韩精品无码首页| 欧美在线国产| 色综合天天操| 成人伊人色一区二区三区|