王杰 李旭健



摘 要:TFIDF算法作為一種加權算法,在信息檢索和數據挖掘等自然語言處理領域發揮了巨大的作用。它的計算模型相對簡單,適合大數據并行計算,適用領域廣泛,且擁有很好的解釋性?;谝陨线@些特點,本文在TFIDF算法基礎之上,利用監督的學習,并通過引入加權因子和詞貢獻度,來修正TFIDF算法結果權值。利用這個算法可以在自然語言處理中有效地提取特征標簽,并且改進后的算法在這一細分領域具有極高準確度。
關鍵詞:自然語言處理;TFIDF;詞加權算法;標簽提取;監督學習
中圖分類號:TP391 文獻標識碼:A
Abstract:As a word weighting algorithm,TFIDF plays an important role in natural language processing such as information retrieval and data mining.TFIDF has relatively simple computational model,suitable for large data parallel computation,applied widely in many fields,and with good explanatory characteristics.Based on the above-mentioned characteristics,this paper proposes to amend the weighted results of TFIDF by means of supervised learning based on TFIDF algorithm as well as by introducing weighting factors and word contribution.This algorithm can effectively extract feature labels in natural language processing,and improve the degree of accuracy in this segmentation field.
Keywords:natural language processing;TFIDF;word weighting algorithm;label extraction;supervised learning
1 引言(Introduction)
互聯網每分鐘都會產生PB級別的信息。如何從這些信息大數據中提取到有用的信息,并結合快速發展并日益成熟的人工智能技術來改善產品是一個迫切需要解決的問題。移動互聯網時代,信息所呈現的特征更加個性化、主體化、終端化。數據中存在無限的價值,誰能從海量的信息數據中撅取價值,誰就可以立足于這個數據時代。
20世紀90年代興起的人工智能科學,成為信息處理相關從業者手中的一把利器。在人工智能技術中,特征提取一直是一個難點,也是一個痛點。有這么一句話在業界廣泛流傳:數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。那么特征工程到底是什么呢?顧名思義,其本質是一項工程活動,目的是最大限度地從原始數據中提取特征,以供算法和模型使用。這足以說明在人工智能尤其是機器學習中,特征提取是多么重要?!?br>