999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中文微博的產品評價分類算法

2016-04-12 00:00:00張燕
現代電子技術 2016年14期

摘 要: 在中文微博產品評價分類算法中,由于常規SVM分類器在對少量標記數據的樣本進行訓練時,泛化能力無法滿足要求,無法直接應用于微博文本的數據挖掘中,而傳統的半監督TSVM算法的改造是通過對未標記數據增加懲罰函數完成的,這樣會產生非凸函數優化問題。因此該文研究一種半監督高斯混合模型核的支持向量機分類算法。使用高斯混合模型對已標記和未標記數據進行訓練,求取概率分布。最后通過一個對于iPhone手機的評價實例進行分析,驗證了該文研究方法的優勢。

關鍵詞: 微博; 產品評價; 數據挖掘; 支持向量機; 半監督學習

中圖分類號: TN911?34; TP393 文獻標識碼: A 文章編號: 1004?373X(2016)14?0077?03

Product evaluation and classification algorithm based on Chinese micro blog

ZHANG Yan

(College of Educational Science, Xinjiang Normal University, Urumqi 830017, China)

Abstract: The evaluation and classification algorithm of Chinese microblog products is studied in this paper. Because the conventional support vector machine (SVM) classifier cannot satisfy the requirement of the generalization ability when the samples are trained with a small amount of labeled data, it cannot be directly applied to the data mining of the micro blog text. And the improvement of the traditional semi supervised TSVM algorithm is accomplished by increasing the penalty function to the unlabeled data, but this will produce a non convex function optimization problem. Therefore, a semi?supervised kernel SVM classification algorithm based on Gauss mixture model is studied in this paper. The Gauss mixture model is used to train labeled and unlabeled data to obtain the probability distribution. SVM classification algorithm can make use of the clustering information with unlabeled data as far as possible. Finally, the advantages of this research method are verified by analyzing an example of evaluation for iPhone mobile phone.

Keywords: microblog; product evaluation; data mining; support vector machine; semi?supervised learning

0 引 言

隨著計算機和互聯網的普及,人們越來越多的在網絡中分享、交流、獲取信息。互聯網社交平臺的出現豐富了人們分析、獲取信息的途徑。人們可以在互聯網社交平臺上真實地表達自己對于某種產品的觀點、評價和立場等,這些觀點評價等信息涵蓋了大量的情感信息;因此對于這些情感信息進行挖掘,能夠幫助企業商家分析人們對于產品的評價,了解產品動態,及時做出有效整改,幫助監管部門進行監督和民意調查等[1?3]。

微博是近幾年快速興起的互聯網社交平臺,其特點是信息傳播速度快,范圍廣,用戶量大等。人們越來越依賴微博,越來越愿意在微博中發布自己對于購買商品的評價,因此通過微博對于產品情感評價信息的數據挖掘,能夠獲取大量有意義的產品評價信息[4?6]。

1 基于中文微博的產品評價方法

在對產品評價和情感分析的數據挖掘領域中,使用比較廣泛的方法之一是機器學習方法。機器學習方法主要包括神經網絡、支持向量機等監督學習方法,對于已標記數據能夠達到極高的分類準確率,但是數據的標記過程是限制其應用的主要因素。非監督學習方法不需要大量的標記數據進行分類,但是技術不夠成熟,因此本文使用一種半監督型機器學習方法:半督導SGSVM算法,進行微博中對產品評價信息的挖掘和分類[7?9]。

對于微博中對產品評價信息的挖掘和分類流程如圖1所示。

首先,需要對微博、評論及轉發的文本進行分詞、標注詞性等預處理。然后以特征向量形式表示文本,將數據分為訓練樣本集和測試樣本集,使用訓練樣本對分類模型進行訓練。之后使用訓練后得到的分類器對測試樣本集進行測試。最后對分類結果進行評價[10?11]。

2 基于半監督高斯混合模型核的支持向量機分

類算法

SVM分類器是一種性能優良的分類模型,但是僅限于訓練樣本為已標記數據樣本,對于未標記或部分標記的訓練樣本集,SVM分類性能仍有待提高。使用高斯函數生產樣本中心分別在(1,1)和(-1,-1)的兩類測試樣本,對其中10個樣本進行標記,剩余190個樣本未進行標記,使用SVM分類器進行分類得到分類界面如圖2所示。

可以看出,由于標記數據樣本過少,使用這樣訓練樣本訓練后得到的SVM分類器的泛化能力很弱,因此無法使用這類督導機器學習算法直接應用于微博文本的數據挖掘中[12]。督導學習算法優化問題如下:

式中:[C]是懲罰函數;[fH]是H范數,能夠表示f在再生核希爾伯特空間H上的光滑程度;[Ω]是正則化函數,主要對待求函數進行假設空間約束;

為了同時對已標記和未標記數據進行訓練,將優化問題轉變為:

式中:[H]是同時涵蓋已標記和未標記數據的再生核希爾伯特空間。

傳統的半監督TSVM算法的改造是通過對未標記數據增加懲罰函數完成的。這樣會產生非凸函數優化問題,因此本文研究一種半監督高斯混合模型核的支持向量機分類算法。

定義可見變量[x,x′]的核[Kx,x′]:

式中:[v∈V]表示隱含變量,[V]表示隱含變量集合;[Kzz,z′]為核函數;[Pvx],[Pv′x′]為后驗概率。

高斯混合模型能夠較好在概率空間上對樣本矢量分布特征進行描述,因此使用高斯混合模型對已標記和未標記數據進行訓練,求取概率分布。空間結構概率模型表示為:

式中:[qxv,μv,Av]表示[μv]為第[v]個中心,[A-1v]為協方差矩陣的高斯分布,有:

可將聯合核重新表示為:

式中:[I·]表示標記函數。

可以得到半監督高斯混合模型核為:

定義式(8)表示半監督高斯混合模型的再生核希爾伯特空間距離為:

[Dx,x′=Kx,x+Kx′,x′-2Kx,x′] (8)

通過上述改進,可以使SVM分類算法盡可能使用未標示數據的聚類信息[13]。

定義核函數負荷Mercer核條件,那么會有一個再生希爾伯特核空間和[x→Φx]映射函數,滿足:

為了減小樣本中噪聲樣本的干擾,使用下面的懲罰因子對各個已標記樣本的懲罰因子進行計算:

式中:[C]是懲罰因子值;[Ex]是后驗概率熵。

本文研究的半督導SGSVM算法的流程[14]:

Step1:對高斯混合模型中成分數進行確定,建立高斯混合模型,選取模型初始參數。

Step2:對于輸入樣本,求出其后驗概率[pvx]及核函數。

Step3:將Step1中得到初始模型的核函數以及由標記數據得到的懲罰因子共同輸入SVM模型中訓練,最終得出SVM模型的決策函數。

Step4:對于新輸入的樣本,首先求出核函數值,之后使用決策函數進行分類。

3 實例分析

本文使用200條對于iPhone 6手機的相關感情評價的微博、轉發以及評論的文本構建評價單元7 235條,通過特征項提取,人工標記為強積極、積極、弱積極、弱消極、消極以及強消極6類。隨機抽取其中140條微博,共計5 162個評價單元用于對分類模型的訓練,剩余60條微博,共計2 073條評價單元用于對分類模型的測試。本文使用常規SVM算法和半督導TSVM算法與本文研究的半督導SGSVM算法進行比較研究。

3.1 實驗1:比較不同標記數量對分類的影響

首先通過第一個實驗來比較對不同數量數據標記的情況下,不同算法的分類正確率。分別將訓練數據中20%,40%,60%,80%,100%的數據作為已標記數據,使用三種算法進行訓練,得到三種算法在不同標記數據個數下的分類正確率如圖3所示。

從圖3可以看出,三種算法在具有較少的標記數據量時分類正確率均較低,隨著標記數據量的增多,分類正確率逐漸升高,并且SVM算法的分類正確率要低于另外兩種半監督SVM算法,當達到100%的標記數據量時,三種算法的分類正確率達到一致。說明半監督SVM算法在有較少標記數量情況下,具有相對較好的分類性能。

3.2 實驗2:使用測試數據對不同算法進行測試

隨后通過第二個實驗驗證三種不同測試數據的分類效果。使用測試數據對以訓練的常規SVM算法和半督導TSVM算法與本文研究的半督導SGSVM算法模型進行分類實例分析,其中用于訓練的數據中已有60%為已標記數據。使用綜合評價指標F1作為評價標準,表示為:

式中:[Pj]表示查準率;[Rj]表示查全率。

使用三種算法得到的F1比較見表1。可以看出SVM算法的分類效果最弱,而兩種半監督SVM算法對于不同分類各具優勢,但總的來說,本文研究的半督導SGSVM算法的分類效果最好。

4 結 論

本文研究一種半監督高斯混合模型核的支持向量機分類算法對微博中產品評價信息進行挖掘和分類。使用常規SVM算法和半監督TSVM算法與本文研究的半督導SGSVM算法進行比較研究。研究結果表明:本文研究的半監督方法算法能夠較好地進行信息分類,有效降低對標記數據樣本的要求,提高了算法效率。

參考文獻

[1] 張學超.基于中文微博的產品評價分類及推薦算法研究[D].大連:大連理工大學,2014.

[2] 萬丹琳.基于中文微博的用戶傾向挖掘與分析[D].北京:北京郵電大學,2015.

[3] 田耕.基于關系和內容的推薦算法研究[D].北京:北京交通大學,2015.

[4] 楊東輝.基于情感相似度的社會化推薦系統研究[D].哈爾濱:哈爾濱工業大學,2014.

[5] 紀雪梅.特定事件情境下中文微博用戶情感挖掘與傳播研究[D].天津:南開大學,2014.

[6] 杜愛玲.基于混合推薦算法的微博網絡廣告推薦研究[D].青島:中國海洋大學,2014.

[7] 劉楠.面向微博短文本的情感分析研究[D].武漢:武漢大學,2013.

[8] 溫源.互聯網文本信息挖掘與個性化推薦的研究[D].北京:北京交通大學,2014.

[9] 劉紅玉.網絡輿情情感分析系統的設計與實現[D].成都:電子科技大學,2013.

[10] 康浩.微博文本情感分類方法與應用研究[D].長沙:國防科學技術大學,2012.

[11] 彭蔚喆.面向中文微博文本的情感識別與分類技術研究[D].武漢:華中師范大學,2014.

[12] 陶新民,曹盼東,宋少宇,等.基于半監督高斯混合模型核的支持向量機分類算法[J].信息與控制,2013,42(1):18?26.

[13] 曹盼東.基于圖模型的半監督SVM分類算法研究與應用[D].哈爾濱:哈爾濱工程大學,2012.

[14] 周文剛,趙宇,朱海.基于混合高斯模型和空間模糊度的支持向量機算法研究[J].計算機應用研究,2015(5):1319?1321.

主站蜘蛛池模板: 色欲综合久久中文字幕网| 中文字幕在线欧美| 香蕉国产精品视频| 男女男免费视频网站国产| 色天天综合| 日韩小视频网站hq| 欧美高清国产| 日本欧美午夜| 刘亦菲一区二区在线观看| 毛片在线区| 91麻豆精品视频| 亚洲无线观看| 久久国产毛片| 久久一色本道亚洲| a色毛片免费视频| 亚洲一区二区三区在线视频| 好久久免费视频高清| 99人妻碰碰碰久久久久禁片| 中文一级毛片| 2021国产精品自产拍在线| 国产偷国产偷在线高清| 丁香婷婷激情综合激情| 国产精品无码AⅤ在线观看播放| 日本精品视频一区二区 | 亚洲天堂精品在线观看| 凹凸国产分类在线观看| 国产中文在线亚洲精品官网| 在线观看91精品国产剧情免费| 国产视频一二三区| 国产网友愉拍精品| 亚洲第一页在线观看| 在线日韩日本国产亚洲| 秋霞午夜国产精品成人片| 国产成人亚洲毛片| 精品无码日韩国产不卡av| 欧美一级在线播放| 午夜免费小视频| 国产精品xxx| 亚洲最大综合网| 久久semm亚洲国产| 亚洲日本精品一区二区| 亚洲天堂网2014| 青青草国产免费国产| 亚洲男人的天堂在线观看| 不卡午夜视频| 亚洲天堂777| 97视频精品全国免费观看 | 欧洲极品无码一区二区三区| 久久婷婷综合色一区二区| 国产免费黄| 国产一级裸网站| 国产精品高清国产三级囯产AV| 亚洲三级视频在线观看| 国产亚洲欧美在线专区| 青青草欧美| 国产黄色视频综合| 亚洲VA中文字幕| 成人午夜久久| 激情六月丁香婷婷四房播| 日韩欧美综合在线制服| 在线日韩日本国产亚洲| 日韩无码黄色| 亚洲天堂久久| 中国毛片网| 国产日韩精品欧美一区灰| 蜜芽国产尤物av尤物在线看| 日韩第九页| 婷婷色狠狠干| 成年人国产网站| 2021国产v亚洲v天堂无码| jizz国产在线| 国产特一级毛片| 最新国产网站| 国产一级在线观看www色| 谁有在线观看日韩亚洲最新视频| 99在线观看国产| 欧美亚洲综合免费精品高清在线观看| 中文字幕久久波多野结衣 | 精品一区二区三区四区五区| 精品伊人久久久大香线蕉欧美| 亚洲三级网站| 国产午夜一级淫片|