王衛紅,金凌劍
(浙江工業大學 計算機科學與技術學院,浙江 杭州 310023)
情感分析是指在給定的評論中確定評論者的情緒傾向,一般分為正面情緒和負面情緒。廣泛使用的情感分析方法有以情感詞典為基礎的方法、以傳統機器學習為基礎的方法和以深度學習為基礎的方法。情感分析是從一句簡單的評論中得出評論者的情緒,是近年來自然語言處理的一個熱門。Spark是一個優秀的大數據處理框架,相比較于Hadoop在速度、通用性、易用性、兼容性等方面都有更好的表現,同時Spark提供了各種機器學習算法,可以更好地進行數據分析[1]。隨著社會的發展,傳統的情感分析方法已經不能滿足不斷增大的信息量和人們對于準確性的要求。針對這兩點,國內外學者進行了大量的研究[2]。Mogha等[3]基于Spark,比較了樸素貝葉斯、決策樹、隨機森林等算法的分類準確性,結果顯示決策樹算法的結果最好。Baltas等[4]在Spark平臺下對Twitter數據進行情感分析,得出樸素貝葉斯的分類效果最佳。Hai等[5]在Spark集群中研究樸素貝葉斯和隨機森林兩種算法的分類結果,發現兩種算法的準確率都不錯。上面的文章都是在Spark平臺上對不同算法進行的比較,并沒有對算法的創新,更多的是在尋找最佳資源和最佳參數配置。Govindarajan等[6]基于樸素貝葉斯和遺傳算法提出了混合的分類算法,此方法在精度上要比單獨的樸素貝葉斯和遺傳算法更好。雖然對于單獨的樸素貝葉斯和遺傳算法來說,測試時間由于數據維度的減少而減少了,但對于集成算法來說效率還有待提升。……