999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

垃圾評論識別的數學建模

2015-04-29 00:00:00汪俊趙坤坤計一凡
科技創新與應用 2015年26期

摘 要:如今網絡產品的評論中存在較多垃圾評論,提高垃圾評論的識別效率有非常重要的意義。為此我們將評論以段的形式分為相關評論和不相關評論,將評論向量化,并結合KNN分類器進行垃圾評論識別,進而推廣對一般化產品考慮,提出一種基于層次分析法的垃圾評論識別研究方法。

關鍵詞:垃圾評論識別;KNN;特征提取;層次分析法

引言

近年來,互聯網逐漸發展成為“以用戶為中心,用戶參與”的開放式架構[1],用戶對購買的商品進行評論,消費者和生產商通過產品的評價,也可以了解產品的優勢與不足,把握用戶需求,改善服務。然而,由于網絡評論不受任何約束,使得評論中充斥著大量垃圾評論,故提高垃圾評論的識別效率有非常重要的意義。

1 數據來源與處理

研究以2015年MathorCup數學建模競賽C題垃圾評論識別的評價數據為基礎。文章通過對評論文本進行分析,總結出其在中文評論領域的特點主要表現在以下幾個方面[3]:評論文本格式自由多樣、評論對象的多樣化、評論內容具有近似重復性、不真實評論和廣告和不帶有感色彩的隨機文本。

首先,我們對從京東網站中獲得的iPhone 6 Plus的200條評論分析整理,并對評論屬性提取并進行向量化處理,將處理后的向量作為訓練集。

表1 訓練集向量化處理(部分結果)

iPhone 6 Plus手感很好,上手容易。是正品,快遞師傅服務也很好!商品封條完整。(3,2,0,0,1)

2 垃圾評論識別

2.1 KNN 最近鄰分類算法算法步驟

(1)根據特征項集合重新描述訓練文本向量;

(2)在新文本到達后,根據特征詞分詞新文本,確定新文本的向量表示;

(3)在訓練文本集中選出與新文本最相似的K個文本,計算公式為:

(1)

(4)在新文本的 K個鄰居中,依次計算每類的權重,計算公式如下:

(2)

其中,x為新文本的特征向量,Sim(x,di)為相似度計算公式,y(di,Cj)為類別屬性函數,即如果di屬于類Cj,那么函數值為1,否則為0。

2.2 評論測試集的建立

對附件中的36條評論同樣進行向量化處理,作為測試集,結果如圖2所示。

圖2 訓練集和測試集評論數目

2.3 模型求解

根據上節建立的KNN分類器垃圾識別方法,利用訓練樣本對測試樣本進行識別,識別結果如表2所示。

表2 KNN分類算法垃圾識別結果

3 基于層次分析的垃圾評論分類模型

3.1 相關概念定義

在產品垃圾評價識別模型研究中,為了方便問題的研究,我們定義了量化評論、評論者、商家的變量分別為評論句的價值度、評論者的可信度和商家的可靠度。

(1)評論的價值度:表示為P(x),P(x)代表該評論x具有評論特征的程度。(2)評論者的可信度:表示為B(y),B(y)代表我們相信該評論者y的程度。(3)商家的可靠度:表示為R(z),R(z)代表該商家產品可靠性的程度。

3.2 層次分析法

所謂層次分析法就是將一個復雜的多目標的問題作為一個決策系統,該目標問題又可分為多個準則或目標,進而分成具有多準則、多約束的若干層,然后依據求解判斷矩陣特征向量的方法得到每一層次的各個元素對上一層次元素的權重,最后使用加權和的方法進行歸并,得到對總目標的最終權重,層次分析法的主要的步驟為[4]:

圖3 層次分析法流程圖

3.3 評價指標的確定

3.3.1 評論的價值度檢測

(1)評價句的特征。評價句指構成產品評論文本每個短句中,包含產品特征或評論觀點的句子。產品評論質量的高低很大程度取決于評論文本中評價句數量的多少。因此,如何識別評論中的評價句,經分析,若評論句子中存在產品特征詞,則該句子具有評價句特征的概率很大。為此,我們參考詞性路徑模板并用于評價句的檢測,同時為了提高分詞系統對評價詞的識別率,在分詞系統中加人自定義評價詞順,最終使用表 所示的詞性路徑匹配模板集按優先級順序提取評價句。

圖4 詞性路徑模板集P

圖5 羅杰斯特公式圖像

對于評論中的每個短句,文章認為如果和表中的任一模板匹配,該短句就有評價句特征。

(2)評論的價值度計算。若一句評論里面的評價句比例大,則該評論為正常評論的可能性也就較大。若一個評論的評價句比例過小,則該評論為垃圾評論的可能性也就較大。所以通過比較該評論的評價句數量和整體評論字符數量,就可以可以得到該評論的價值度。

P(x)=■ (3)

其中P(x)表示的是評論價值度, ■xi是整體評論字符數量,gi是評價句的數量。

3.3.2 評論者的可信度檢測

根據評論者可信度和評論價值度的關系以及其變化趨勢的研究,我們可以很容易的得到可信度檢測計算函數圖形為“S”型增長的曲線,如圖5所示。為此我們構造如下的得分函數:

(4)

其中B(y)表示的是評論者可信度,y是評論者信息輸入集元素。

3.3.3 商家的可靠度檢測

若一個商家擁有的來自可信評論者的正面評論越多,它的可靠度值越高,故類似于評論者的分析,我們得到店家的可靠度值變化曲線也是羅杰斯特曲線。所以商家R的可信度關系計算公式如下:

(5)

其中R(r)表示的是商家可靠度度,r是商家信息輸入集元素。

3.3.4 評價指標體系的建立

設模型的評價指標體系S為P、B、R加權之和,所以整體評價指標體系R模型如下:

(6)

3.3.5 指標權重的確定

下面借助層次分析法[4]來確定

綜合評價指標體系的層次結構見如圖6所示 。

圖6 層級分析結構

假設對此評論體系,有專家給出成對比較矩陣

求得:一致性指標:?姿max=0.0193一致性比率:?姿max=0.0370,這樣就可以確定

通過層次分析法確定了所有權重,因此評價指標體系模型W可表示為:

R=0.1047P+0.2583B+0.6370R(7)

4 結果分析及結論

對一般的產品評價集合,如果我們仍然從評論樣本本身單方面考慮會有以下兩個難點。

第一,工作量大,時間冗余度長。從評論本身出發,提取該產品主題的關鍵詞和特征進行樣本訓練,但是這樣處理時,當你換另一個產品是有需要對關鍵詞和樣本特征提取,人工的工作量很復雜。不能討論并建立更一般的模型,并談談你的該類識別問題的看法;第二,一個評論者對某件產品的評論肯定與評論者的可信度和商家的可靠度有關系,所以我們從三者綜合出發,利用層次分析結構分析三者之間復雜的關系,得到三者占評論誠信度的權向量,最后代入得到的指標取值,得到該評論的最后得分,從而判斷改評論的極性(是否是垃圾評論)。

文章給出了一般化產品的研究思路和模型,具有一定的創新性和高效性。

參考文獻

[1]聶卉.產品評論垃圾識別研究綜述[J].情報分析與研究,2014,243(2):63-71.

[2]徐勝國.基于加速近端梯度法和文本語義的垃圾評論信息分類方法[D].江蘇:南京郵電大學,2014.

[3]N. Jindal,B. Liu. Opinion spam and analysis. Proceedings of the first ACM international conference on Web search anddata mining 2008:219-229.

[4]司守奎,孫璽菁.數學建模算法與應用[M].國防工業出版社,2011.

[5]游貴榮,吳為,錢 濤.電子商務中垃圾評論檢測的特征提取方法[J].現代圖書情報技術,2014,10.

主站蜘蛛池模板: 国产精品一区二区不卡的视频| 亚洲成人黄色在线观看| 国产18在线播放| 国产正在播放| 午夜国产精品视频黄| 久久精品这里只有国产中文精品| 影音先锋亚洲无码| 色网站在线免费观看| 亚洲中文字幕日产无码2021| 狼友av永久网站免费观看| 国产99在线观看| 国产导航在线| 激情在线网| 亚洲欧洲免费视频| 欧美日韩国产精品综合| 亚洲一欧洲中文字幕在线| 日本少妇又色又爽又高潮| 国产精品自在在线午夜区app| 欧美亚洲激情| 99re视频在线| 又黄又湿又爽的视频| 国产欧美精品专区一区二区| 国产最爽的乱婬视频国语对白| 欧美自慰一级看片免费| 亚洲欧美日本国产综合在线| 国产乱子伦无码精品小说 | 91娇喘视频| 激情综合网址| 自拍偷拍欧美日韩| 亚洲视频在线网| 在线99视频| 亚洲精品国产首次亮相| 永久免费av网站可以直接看的| 九色在线观看视频| 国产91麻豆免费观看| 国产欧美日韩精品第二区| 国产不卡网| 色偷偷一区二区三区| 欧美色亚洲| 97人妻精品专区久久久久| 亚洲国语自产一区第二页| 五月婷婷导航| 亚洲最大情网站在线观看 | 欧美日韩国产成人高清视频| 青青草原偷拍视频| 亚洲精品第一页不卡| 精品無碼一區在線觀看 | 五月激情婷婷综合| 亚洲天堂视频在线免费观看| 亚洲第一成年网| 国产97公开成人免费视频| 大学生久久香蕉国产线观看| 欧美性天天| 91精品专区| 亚洲高清在线天堂精品| 日本三级精品| 亚洲色精品国产一区二区三区| 精品视频一区在线观看| 亚洲综合激情另类专区| 高潮毛片无遮挡高清视频播放| 国产99精品久久| 亚洲美女视频一区| 国产精品一区二区不卡的视频| 国产精品成人一区二区不卡| 97综合久久| 久久美女精品国产精品亚洲| 污网站在线观看视频| 日本影院一区| 97久久超碰极品视觉盛宴| 99re66精品视频在线观看| 中文国产成人久久精品小说| 四虎影院国产| 中国丰满人妻无码束缚啪啪| 黄色三级网站免费| 色成人亚洲| 久久99精品久久久久久不卡| 无码国内精品人妻少妇蜜桃视频| 国产精品入口麻豆| 欧美a在线| 欧美精品亚洲精品日韩专区| 无码aaa视频| 欧美国产日产一区二区|