麻之潤,費 凡,黎 芬,董慧潔,彭 琳
(1.云南農業大學大數據學院,昆明 650000;2.綠色農產品大數據智能信息處理工程研究中心,昆明 650000)
隨著信息技術的發展,互聯網沉淀了大量的文本數據。在農業領域如農業氣象、農資商品等,這些文本多以短文本的形式出現。如何對這類文本信息進行有效分類,既方便網絡維護運營者的管理以及發掘其信息價值,又能夠讓大眾方便快捷地選擇自己感興趣的內容,這是文本分類方向研究的熱點問題。
文本分類任務是自然語言處理領域的一項基礎且十分重要的工作,是當前該領域的研究熱點之一。該任務主要指根據已經定義好的類別標簽對現有的一段文本進行標注。分類的文本又分為長文本和短文本;和長文本相比,短文本的時效性更強,具有明顯的數據稀疏性,同時也存在著高噪聲、高度依賴上下文語境等問題[1],這是現階段短文本分類面臨的難點問題。
1960—2010 年,研究人員主要基于統計模型來研究文本的分類,如樸素貝葉斯(NB)模型、K 近鄰(KNN)方法、支持向量機(SVM)方法等。Maron[2]研究了一種根據文檔內容自動分類的方法;李靜梅等[3]在假設特征獨立性的基礎上,就樸素貝葉斯的原理和應用等問題進行討論,并通過期望值最大法提高了其分類精度。余芳[4]基于web 文本的特征利用樸素貝葉斯算法實現了一個文本分類系統,并獲得了很好的分類效果。Cover 等[5]提出了一種最近鄰決策規則用于文本分類。龐劍鋒[6]提出了一個能夠有效將文本分類算法和反饋方法相結合的方法,并建立了可行的系統。……