方曉東,劉昌輝,王麗亞,殷 興
武漢工程大學計算機科學與工程學院,湖北 武漢430205
文本分類[1]是自然語言處理(natural language process,NLP)任務的基礎工作也是其研究領域的熱點之一,主要目的是針對文本進行歸類,便于對文本進行高效管理配置與檢索并解決信息過載的問題。由于網絡上產生的媒體新聞、科技、報告、電子郵件、網頁、書籍、微博等文本內容呈現指數增長,需要對這些文本進行歸類加以組織管理,也可根據用戶的偏好,進行信息過濾或精確優先推薦,增強用戶黏性,因此具有一定的應用研究價值。
transformers的 雙 向 編 碼 器(bidirectional encoder representations from transformer,BERT)在文本分類上的成功應用,有效地促進了文本分類的研究與發展[2]。但基于BERT的文本主題分類大多數都是以英文數據集為對象,針對中文網絡新聞文本的研究多數都是在詞語級詞向量的基礎上提出網絡模型結構。本文通過學習BERT模型、雙向門控循環神經網絡(bi-directional gated recur?rent unit,BiGRU)模型,為提高文本主題分類的準確率,提出基于BERT的復合網絡模型(BiGRU+BERT混合模型,bG-BERT)的文本主題分類方法,在實驗所用中文新聞數據集上使用NLP的綜合評價指標Accuracy值、F1值,證明了bG-BERT模型在文本分類方面的有效性。
文本主題分類方法主要有詞匹配法、統計學習方法和基于深度學習的方法[3]。詞匹配法是根據查詢文檔中的詞語是否出現在需要分類的文檔內容中,這種方法沒有考慮上下文聯系,方法過于簡單機械。統計和機器學習的方法[4-5],是通過特征工程然后再結合機器學習的方法,首先將標注的訓練集的內容部分轉換為特征,再使用特征提取分類特征,最后使用樸素貝葉斯、回歸模型、支持向量機等文本分類器進行分類。……