林秀嬌,魏晶晶,劉 月,廖祥文
(1.福州大學數學與計算機科學學院,福建福州 350116;2.福建省網絡計算與智能信息處理重點實驗室,福建福州 350116;3.福建江夏學院電子信息科學學院,福建福州 350116)
隨著電子商務的高速發展,越來越多的用戶會在購買產品后發表自己對產品、商店服務等評論信息.這些信息對潛在用戶和商店是一個很重要的資源.但是有一些用戶為了提升或者詆毀某一產品或某一類產品的聲譽,發表不真實的、有欺騙性質的垃圾評論,這些評論可能會誤導潛在消費者;同時還可能干擾評論意見挖掘和情感分析系統的分析[1].因此,對產品垃圾評論的識別很有必要.
目前,國內外針對產品垃圾評論識別展開了很多的研究,并且取得了一定的成果.但是大部分工作集中在文本相似[1-3]、語言特征[4]、評論者行為[5-6]和評分模式[5-7]等方面,這些方法只能識別重復的垃圾評論或是寫重復評論的垃圾評論者,對于其他類型則無法檢測.為此,本研究提出構造評論者、評論和商店以及回復者的評論關系圖,利用四者的關系計算評論者可信度來檢測產品垃圾評論者.
2007年Jindal等[1-3]首次提出垃圾評論這個概念,把它分為三種類型:untruthful opinion,reviews on brands only,non-reviews,然后采用logistic回歸建立機器學習模型來識別三種類型的垃圾評論.Lai等[4]提出一種基于unigram模型的識別方法,利用句法分析和英文格式上的特征作為分類特征.Ott等[8]將垃圾評論的識別看成一個二元分類……