王新艷
(江蘇聯合職業技術學院徐州醫藥分院基礎教學部, 江蘇 徐州 221116)
隨著網絡大數據時代的到來,促使網絡用戶數量不斷增多,包括短信息、新聞等在內的文本數據信息數量也隨之迅速增加,如何快速高效獲取所需信息成為研究熱點,同時對如何實現及時有效的處理用戶產生的文本信息提出了更高的要求。目前高效的文本挖掘技術已成為解決上述問題的重要手段,作為文本挖掘技術的研究基礎,提取文章與主題的關鍵短語技術對文本挖掘的應用質量產生直接影響。
近年來在對文本特征進行提取時,使用深度學習技術成為越來越多的研究者的研究重點,例如對高光譜圖像的特征,通過使用多個卷積網絡(包含卷積層與池化層)完成提取過程,再將其應用到圖像分類及目標檢測中,取得了良好應用的效果(Chen 等)[1]。關于文本特征提取,Liang等在相關文獻已詳細介紹了常用的文本特征提取方法(包括自編碼神經網絡、受限波茲曼機、循環神經網絡等特征提取方法)[2]。針對文本分類特征,包括向量空間模型、卷積神經網絡、模糊神經網絡、深度信念網絡在內的提取方法應用方面的討論(從詞袋模型方法到神經網絡方法)[3]。目前在文本特征提取的研究領域,基于深度學習技術的提取方法稱為研究重點,該類特征提取方法在圖像領域應用較為廣泛,但關于文本特征提取尤其是對中文文本的特征提取方面的研究成果較少,傳統的手工提取方法得到的特征維度一般較大,降低模型訓練效率的同時增加了資源消耗量。而對于中文長文本數據集,通過運用深度學習方法進行特征提取可有效簡化文本特征提取過程,并使文本語義信息得到準確地表示,使模型訓練效率得到進一步提高。
數據量快速增加的文本信息增加了獲取有價值信息的難度,對文本信息進行高效的分類是提升獲取信息質量和效率的重要手段。特征提取在處理機器學習任務、數據挖掘、信息檢索等中均發揮著重要作用。特征提取對機器學習任務結果的好壞產生直接影響,常用的分類任務所提取特征的質量決定著分類結果的質量。傳統以人工提取為主的特征提取方法的特征提取結果中普遍存在冗余和同分類任務不相干的問題,同時較大特征的維度導致模型訓練過程的資源消耗量較大,存在模型過擬合問題,在降低訓練效率的同時會降低分類的準確率,為了解決這些問題通常需降維處理傳統方法提取的特征,并從中挑選出部分最優的特征子集(可有效表示文本信息),進而提高分類效果,但此種方法極大的增加了分類任務的工作量。為此本文在現有提取文本特征研究成果的基礎上設計了一種卷積循環神經網絡結構,并在此基礎上結合運用卷積神經網絡結構(用于句子分類)構建了一種特征提取方法,將知網中文學術論文數據集中的文本特征采用傳統的特征提取方法(TF-IDF和Word2vec)進行表示,再經分類處理,實現了對原生的神經網絡的分類效果的進一步優化,使用本文深度學習神經網絡結構對高層文本特征進行提取時,能夠有效提升文本信息表示的準確率及特征提取質量[4]。
對于文本分類通過使用卷積神經網絡(CNN)已實現較好的分類效果的獲取。本文以中文學術論文數據集作為處理對象,運用在分類中應用較為成熟的卷積神經網絡建立特征提取模型,據此完成文本分類和文本語義信息的表示(即提取網絡中的高層特征),提取文本特征時使用到的卷積神經網絡結構,如表1所示。
本文基于該網絡結構中第8層的輸出完成特征提取模型的建立,文本的特征向量則使用該網絡中最高層的特征,通過使用128維的向量表示各樣本可使特征的維度得到顯著降低,進而使分類器的訓練速度以及分類的準確率得到有效提升[5]。
基于統計學的TF-IDF方法(即詞頻-逆文檔頻率,)可用于完成對詞權重的計算,常用于特征向量化處理中,在對語料庫中的某一文檔同其他文檔進行區分時,可先通過該方法評估一個詞的重要程度,判斷某個單詞區分本文檔和其他文檔的能力強弱的依據為:該詞在本文檔中某個單詞頻繁出現,在其他文檔中出現的較少,此時該詞對應的權重值越大,即某篇文檔的某個詞頻繁出現在其他文檔中時,其區分能力較弱。為獲取具體詞匯描述文檔內容的能力的計算結果,假設,某一詞匯在文檔中和第j篇文檔中出現的頻率和次數分別由TF和ni,j表示,對第j篇出現的次數求和由∑knk,j表示[6]。具體計算,如式(1)。
(1)
采用IDF度量某一詞語的普遍重要性,計算某一詞語的IDF由Ii表示時,假設,D表示語料庫中的文檔總數,jt1表示語料庫中包含詞語ti的文檔數,則Ii的計算表達式,如式(2)。
(2)
式中,為保證不存在該詞語時分母不為0,通常使用jt1+1作為分母。
高頻率詞語對應的TF-IDF權重值較高,假設,所計算文本的TF-IDF權重由Wi,j表示。具體計算表達式,如式(3)。
Wi,j=Ti,j×Ii
(3)
在自然語言處理領域,作為一種詞嵌入工具的Word2vec(由谷歌開源出)應用較為廣泛,為有效簡化特征間的關系及相似性的計算過程,Word2vec詞嵌入方式在向量空間中映射各特征詞后通過一個向量進行表示,使文本的語義信息得到一定程度的刻畫和表達,主要包括跳字模型(以中心詞為依據對其上下文的背景詞進行預測并調整中心詞的詞向量)和連續詞袋模型(根據上下文背景詞預測中心詞,在此基礎上對上下文背景詞的詞向量進行)兩種。實際訓練模型時,可通過負采樣或分層 softmax兩種訓練方式的使用實現計算復雜程度的顯著降低[7]。
本文結合運用卷積神經網絡和長短期記憶網絡(LSTM)在提取局部特征和高質量捕獲上下文信息的優勢,提出了一種新的特征提取模型及文本分類方法,該模型基于卷積循環神經網絡(CRNN),能夠提取出高層特征。該網絡模型結構,如表2所示。

表2 卷積循環神經網絡結構
本文的特征提取模型的輸出采用其中的第10層的輸出,可用高層特征向量(60維)表示各樣本,該模型主要由輸入層、詞嵌入層、卷積層、池化層、LSTM網絡層和全連接層構成,輸入文本信息后先通過卷積網絡的使用完成多組特征的提取以及相應的池化操作,在此基礎上完成文本中重要特征的提取與融合向LSTM神經網絡傳送,最終的分類結果由全連接層輸出,能準確地表示文本的語義信息,通過使用該特征提取模型可使分類效率及質量得到有效提升[8]。
(1) 文本分類實驗
本文選用知網上的包含10個文獻類別的學術論文數據集作為實驗數據集(包括化學、輕工業手工業、農業經濟、鐵路運輸、體育、藥學、新聞與傳媒等,數據集為非公開數據集),各類別均包含40 000條實驗數據(每條數據均包含類別、標題、摘要、關鍵詞4列),數據集的80% 為訓練數據,剩余作為測試數據,合并類別以外的其他三列得到一條長文本,采用該長文本信息進行實驗。具體實驗參數設置,如表3所示。

表3 CNN與CRNN文本分類實驗配置
設計實驗對使用CNN和本文CRNN的直接分類結果進行對比,最終結果取平均值。并使用本文的特征提取模型完成高層的文本特征的提取,接下來在SVM(采用高斯核函數作為核函數)和隨機森林分類器(estimator參數設為 100)中分類所提取的特征,據此對比得到的分類結果[9]。
基于TF-IDF特征提取方法的文本分類實驗,最大特征個數和最小文檔頻率分別設置為30 000和2,使用該方法提取出數據集的特征后,通過SVM和隨機森林分類器完成分類操作。基于已預先訓練好的詞向量模型Word2vec的文本分類實驗,將中文數據集中的各特征通過Word2vec進行表示后,將整個文本的特征向量使用各樣本中的特征詞向量連乘來計算,假設,對于i個文本,其特征向量由ti表示,其第n個特征的詞向量由xin表示,如式(4)[10]。
實驗過程中,對各個特征詞無需通過迭代方式轉換詞向量,一次性完成文本數據集中的全部文本特征(通過神經網絡中的詞嵌入層完成)到Word2vec詞向量(預訓練好)的轉化,再將通過對其生成的文本特征向量進行分類,顯著提高實驗的效率。
(2) 結果分析
具體的分類結果,如表4所示。

表4 學術論文數據分類結果
相比于TF-IDF和Word2vec方法,在分類器中通過本文方法提取的文本特征所獲得的分類結果的質量更佳,說明文本的語義信息通過該方法提取的文本特征向量可準確高效地表示出來,因為使用TF-IDF(打亂了詞的順序)和Word2vec方法表示文本時分別存在忽略了詞的上下文關系及易丟失詞的語義信息(尤其是在文本相對較長時)的問題和不足。通過實驗采用論文數據集文本驗證本文提取方法,相比于CNN ,得到了更好的特征提取分類效果,提取質量及效率得到有效提升,證明了該特征提取方法以及提取算法的有效性。
本文針對自然語言處理過程,在分析了文本分類及特征提取方面的研究現狀的基礎上,基于深度學習設計了一種文本特征提取方法,該方法基于卷積循環神經網絡(CRNN,繼承了卷積神經網絡的優勢),提升了局部特征提取能力,具有循環神經網絡LSTM的記憶能力 ,在此基礎上通過前后關聯提取的特征實現對文本含義更高質量地表達。接下來將以中文的文本語義理解作為研究重點,探索如何實現大規模長文本的分類應用。