基于FastText的藏文新聞文本分類的研究

2024-12-31 00:00:00明瑪卓瑪高定國胡心龍旦增

電腦知識與技術 2024年33期

關鍵詞：深度學習；藏文新聞；文本分類；FastText；性能比較

0 引言

隨著信息技術的快速發展，新聞信息呈現出爆炸式增長的趨勢，特別是在多語言環境下，文本分類技術的應用顯得尤為重要。藏文新聞文本數量眾多，其文本分類不僅關乎藏族地區信息的有效傳播，還對促進藏族文化的傳承與發展具有重要意義。藏文新聞文本分類旨在將海量的藏文新聞文本按照不同的主題或類別進行劃分，以便用戶快速瀏覽和篩選感興趣的內容。在新聞推薦和輿情分析等領域，藏文文本分類發揮著至關重要的作用。

目前，藏文文本分類方法主要包括傳統機器學習方法和深度學習方法。采用傳統機器學習方法解決藏文文本分類問題已有不少研究。賈會強[1]在深入研究藏文語言特性及其語法結構后，系統探索了藏文文本的向量空間表示模型，并成功運用KNN算法進行了藏文文本分類研究。王勇[2]以樸素貝葉斯算法為核心，設計并實現了一個高效的藏文文本分類器。王莉莉[3]提出了一種基于集成多個分類器的藏文文本分類模型，融合了卷積神經網絡、循環神經網絡、長短時記憶網絡以及雙向長短時記憶網絡等深度學習模型。蘇慧婧[4]等的工作以詞特征為基礎，運用信息增益算法優化特征向量維度，并結合KNN模型實現了穩定的分類性能。

早期研究[1-4]在藏文文本分類上雖有所成效，但受限于無法深入捕捉文本語義，分類精度受限。隨著深度學習技術的興起，研究者們開始探索其在藏文文本分類中的應用，以期提升分類的精度和效率。近年來，隨著深度學習在自然語言處理領域的深入發展，越來越多的研究聚焦于如何利用深度學習技術提升藏文文本分類的性能。Qun等人[5]顯著推動了藏文文本分類領域的研究，首先構建了TNCC數據集，并應用CNN和LSTM模型，證明了神經網絡在藏文文本分類上的優勢。他們發現LSTM在短文本分類上優于CNN 和N-gram，而神經詞袋模型在長文本上表現更佳。Li 等人[6]通過自建數據集測試多種深度學習模型，發現藏文詞組在分類效果上優于音節。李艾琳[7]采用樸素貝葉斯分類器對Web輿情中的藏文文本進行了分類研究。此外，為了捕捉文本的上下文信息，研究者們還廣泛采用了基于N-gram的藏文詞和音節的文本分類方法。這些方法在邏輯回歸、AdaBoost等常用分類模型中也得到了應用，進一步豐富了藏文文本分類的研究領域。Yan等人[8]在藏文新聞語料處理上進行了創新，他們首先進行了預處理，并基于藏文的詞匯和語法結構特性，構建了一個藏文音節表。通過將音節嵌入每個藏文文本中，實現了每個音節到固定數值向量的轉換。這種方法為整個藏文語料生成了向量化表示，這些表示被用作循環神經網絡模型的輸入。實驗結果充分展示了循環神經網絡模型在藏文文本分類任務中相較于傳統機器學習方法的優勢。

盡管已有研究在藏文文本分類領域取得了顯著成果，但模型性能依然具有提升空間。針對當前方法中模型泛化能力不強、對特定類別文本分類效果不佳等問題，本研究采用公開數據集，通過對比研究不同深度學習模型在藏文文本分類任務中的性能，探索提升分類準確率的方法。

1 文本分類方法研究

1.1 文本分類模型的選擇

文本分類作為自然語言處理（NLP）領域中的一項基礎任務，其重要性不言而喻。然而，藏文文本分類面臨獨特挑戰，如復雜的語法、詞匯含義和表達方式，以及文本數據的稀缺性和質量問題。具體來說，藏文與其他語言在表達習慣上的差異增加了文本分類的難度，而缺乏大規模、高質量的標注數據集則限制了深度學習等先進技術的應用。此外，藏文文本中可能存在的噪聲和冗余信息也對分類性能構成了挑戰。

在藏文新聞文本分類中，采用了基于n-gram[9]的特征表示方法。這種方法將文本視為由詞和n-gram 組成的序列，并使用隨機初始化的詞向量來表示這些元素，從而將文本數據轉換為模型可以理解的數值形式。FastText模型在處理這種表示時具有顯著優勢，因為它能夠同時考慮詞級和n-gram級別的特征，從而更全面地捕捉文本的語義信息。通過結合n-gram特征表示方法和FastText模型，為藏文文本分類提供了一種有效的解決方案。

1.2 FastText 模型的介紹

FastText在進行文本分類或情感分析時會生成詞的嵌入（embedding），即embedding 是FastText 類別的產物。因此，在項目的運行入口文件run.py中，當選擇的深度神經網絡是FastText時，embedding會再次初始化為隨機值。FastText和Word2Vec的CBOW模型框架非常相似，FastText也只有三層：輸入層、隱藏層、輸出層。輸入層接收多個詞向量表示的單詞，輸出層則是一個特定的標簽，隱藏層對多個詞向量進行疊加平均。FastText模型的主要三個層次包括：

1）輸入層。FastText的輸入是多個單詞及其ngram特征，這些特征用于表示單個文檔并進行embed?ding。

2）隱藏層。對輸入的n-gram特征進行處理。

3）輸出層。輸出層是文檔對應的類標，主要思想是將整篇文檔的詞及n-gram向量疊加平均得到文檔向量，然后使用文檔向量進行SoftMax[10]多分類。Fast?Text在輸入時將單詞的字符級別的n-gram向量作為額外的特征；在輸出時采用分層的SoftMax。如圖1所示，以“??????????????????????????”（西藏大學）句子為例，其包含了3 個embedding層（為了區分詞嵌入、2-gram嵌入和3-gram嵌入，示例中標注了3個嵌入層，實際上可以合并為一個），嵌入層后面是一個隱藏層即全連接層，輸入為嵌入向量的均值，最后是輸出層，也是一個全連接層進行類別分類。

2 實驗

2.1 實驗的數據集

為了驗證所選模型的有效性，本文使用了李果等人[12]提供的公開數據集TNEWS。該數據集包含12種不同類別的藏文新聞文本標題，是藏文文本分類研究的重要資源。將TNEWS數據集按8∶1∶1的比例劃分為訓練集、驗證集和測試集，以用于模型的訓練和評估。

2.2 實驗的環境配置

本文實驗平臺的相關配置如表1所示。

2.3 實驗的設計

1） DPCNN：深度卷積神經網絡模型，通過堆疊多個卷積層來提取文本的特征。

2） TextCNN：基于卷積神經網絡的文本分類模型，通過卷積操作來捕捉文本的局部信息。

3） TextRCNN：遞歸卷積神經網絡模型，結合了卷積神經網絡和循環神經網絡的優點。

4） TextRNN：基于循環神經網絡的文本分類模型，能夠捕捉文本的序列信息。

5） TextRNN_Att：在TextRNN 基礎上引入注意力機制，使模型能夠關注文本中的關鍵部分。

這些模型在文本分類任務中表現出色，并且具有不同的網絡結構和特點。選擇這些模型的原因是它們能夠代表不同類型的文本分類方法，并且可以與FastText模型進行比較，以評估FastText模型在藏文新聞文本分類任務中的性能。

2.4 實驗參數設置

本文實驗平臺的相關參數設置如表2所示。

2.5 實驗結果分析

在相同的實驗條件下，本文利用TNEWS數據集對所選模型進行了訓練和測試。實驗結果表明，Fast?Text模型在關鍵指標上均優于基準模型，具體結果如表3所示。

表3展示了各模型在準確率、精確率、召回率和F1分數上的性能對比。通過對比可以看出，FastText 模型在各項指標上均取得了較優的表現。特別是與DPCNN 模型相比，FastText 模型在準確率上提高了2.9%，在F1 分數上提高了2.8%，這進一步驗證了FastText模型在藏文新聞文本分類任務中的有效性。

在本文的藏文文本分類任務中，我們評估了Tex?tRNN_Att、TextRNN、TextRCNN、TextCNN、FastText 和DPCNN六種模型的性能。實驗結果顯示，FastText和TextCNN在準確率上表現較好，其中FastText在精確率和F1分數上略占優勢，顯示出其在處理藏文文本時的有效性。TextRCNN也取得了接近的性能，表明其結合RNN 和CNN 的特性在文本分類任務中的潛力。相比之下，TextRNN和TextRNN_Att的性能略低，而DPCNN在本任務中表現最差。

為了更直觀地展示這些模型在訓練過程中的性能變化，本文繪制了曲線圖來反映準確率、精確率、召回率和F1分數隨迭代次數的變化趨勢，如圖2所示。

如圖2所示，這些曲線圖不僅清晰地呈現了各模型在不同迭代次數下的性能差異，還提供了關于模型收斂速度和穩定性的重要信息。通過這些曲線圖，可以更深入地理解各模型在藏文文本分類任務中的表現。

3 結論

藏文新聞文本分類非常重要。為了更好地進行藏文文本的分類，本文探討了FastText模型的結構及其在藏文新聞文本分類中的應用方法，并通過實驗與幾種模型進行了比較。實驗結果顯示，FastText模型在藏文新聞文本分類任務中取得了優異的性能，在準確率、召回率和F1值等指標上均優于其他基準模型。這表明FastText模型能夠有效地捕捉文本的語義信息，并且具有較好的泛化能力，適用于藏文新聞文本的分類。

電腦知識與技術2024年33期

電腦知識與技術的其它文章: 雙高專業群背景下計算機專業教育資源整合與共享研究; 逆向教學設計在高職計算機實踐課程中的應用研究; 基于Python程序設計課程的知識圖譜構建研究; 高職計算機基礎課程線上線下混合式教學實踐與評價研究; 依托虛擬仿真實訓基地構建一體化教學實踐平臺的應用研究; 基于OBE-CDIO理念的Java課程體系的構建與實施