999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進的LSSVM算法在垃圾標(biāo)簽檢測上的應(yīng)用

2015-07-27 02:11:11楊曉雷楊清琳杜英俊廣西財經(jīng)學(xué)院現(xiàn)代教育技術(shù)部南寧530003
山東工業(yè)技術(shù) 2015年8期
關(guān)鍵詞:檢測

楊曉雷,楊清琳,杜英俊(廣西財經(jīng)學(xué)院現(xiàn)代教育技術(shù)部,南寧 530003)

改進的LSSVM算法在垃圾標(biāo)簽檢測上的應(yīng)用

楊曉雷,楊清琳,杜英俊
(廣西財經(jīng)學(xué)院現(xiàn)代教育技術(shù)部,南寧 530003)

為了解決 Folksonomy 存在垃圾標(biāo)簽的問題,提出垃圾標(biāo)簽檢測模型。利用向量空間模型表征用戶特征,再用支持向量機將Folksonomy 用戶二分類。通過檢測出隱藏在正常用戶群體中的垃圾投放人,以此減少垃圾標(biāo)簽數(shù)量。垃圾標(biāo)簽數(shù)據(jù)集具有數(shù)量大,緯度高的特點。面對傳統(tǒng)svm算法處理高維大規(guī)模數(shù)據(jù)集上過于復(fù)雜,存在速度和精度的瓶頸的問題,筆者曾經(jīng)提出用lssvm算法進行垃圾標(biāo)簽檢測處理,取得一定的效果。但是,lssvm算法本身也存在稀疏性以及處理重要數(shù)據(jù)點不敏感的問題,所以針對這點,提出了用剪切法進行解決,通過實驗表明,改進的LSSVM提高了建模的精度,而稀疏化的處理雖然對精度有一定影響,但大大減少了訓(xùn)練數(shù)據(jù)量,從而有效減輕了計算負擔(dān),使快速性得到了保障。

垃圾標(biāo)簽;Folksonomy lssvm;剪切法

1 引言

隨著 Web 2.0 技術(shù)架構(gòu)的推廣,社會網(wǎng)絡(luò)( SN) 的應(yīng)用逐漸擴大。社會化標(biāo)簽系統(tǒng)廣受大眾的歡迎。國內(nèi)外知名的社會化標(biāo)簽系統(tǒng)有Delicious、Flickr、Last. fm、豆瓣網(wǎng)等。由于采用 Folksonomy 的框架,社會化標(biāo)簽系統(tǒng)特別強調(diào)用戶參與其創(chuàng)建和維護過程。在 Folksonomy中,用戶行為十分自由,這為垃圾信息的投放提供了新的途徑。這些投放在社會化標(biāo)簽系統(tǒng)中的垃圾信息,稱為社會垃圾( social spam) 或垃圾標(biāo)簽。目前檢測垃圾標(biāo)簽的主流方法是從用戶中檢測出垃圾投放人,通過控制垃圾投放人的行為,達到減少垃圾標(biāo)簽的效果[1]。筆者曾經(jīng)采用lssvm算法進行垃圾標(biāo)簽檢測的應(yīng)用,雖然比起傳統(tǒng)的svm方法有一定的改進,但是lssvm算法本身也存在一定問題。

2 算法的改進

在LSSVM中,由于Lagrange乘子均不為零,因此所有的數(shù)據(jù)向量都是支持向量。那如何區(qū)分這些支持向量的重要程度呢?本章引入了“支持向量度”的概念,為每個訓(xùn)練數(shù)據(jù)定義了一個支持向量度。訓(xùn)練數(shù)據(jù)(xi,yi)對應(yīng)的支持向量度為0<si<1,代表了該數(shù)據(jù)隸屬于支持向量的程度。0<si<1值越大,則對應(yīng)的訓(xùn)練點隸屬于支持向量的程度越高。

給定訓(xùn)練數(shù)據(jù)集{xi,yi,si}Ni=1。在標(biāo)準(zhǔn)LSSVM優(yōu)化問題(2.2)的第二項中引入支持向量度構(gòu)成了改進的LSSVM的優(yōu)化問題

顯然,當(dāng)所有的支持向量度 定義為1時,改進的LSSVM就是標(biāo)準(zhǔn)LSSVM.從這個意義上說,標(biāo)準(zhǔn)LSSVM可以看成是改進的LSSVM的一種特殊情況。

構(gòu)建Lagrange函數(shù)

根據(jù)最優(yōu)性條件,得到

整理上面的方程組,消去變量。得到矩陣形式為

其中,向量S=diag{S1,S2…Sn}是一個由所有支持向量度{Si}Ni=1絲構(gòu)成的N×N對角陣。其它參數(shù)的意義同前。

假定矩陣

可逆,則參數(shù)。和b的解析解可通過下式得到

最終得到的改進的LSSVM模型表達式為

改進的LSSVM建模算法的實施。要實施改進的LSSVM,還存在一個問題:既然支持向量度是由Lagrange乘子所決定的,而Lagrange乘子是由LSSVM學(xué)習(xí)后產(chǎn)生的,那么在算法沒有實施之前,如何得到Lagrange乘子來計算支持向量度呢?我們解決這個問題的辦法是,首先假定所有的支持向量度{s*}均為1,訓(xùn)練得到Lagrange乘子,然后根據(jù)Lagrange乘子的值來確定支持向量度,然后再進行改進的LSSVM的訓(xùn)練。

針對自回歸對象模型,改進的LSSVM回歸的一般流程可歸納如下:

(1)由得到的數(shù)據(jù)集{xi,yi}Ni=1進行訓(xùn)練,得到Lagrange乘子{αi}Ni=1;

(2)根據(jù)公式(8),選擇合適的數(shù)0≤δ≤1,利用上次訓(xùn)練得到的Lagrange乘子確定支持向量度;

(3)構(gòu)建新的訓(xùn)練數(shù)據(jù)集{xi,yi,si}Ni=1進行改進的LSSVM訓(xùn)練,得到模型參數(shù){αi}Ni=11和b;(4)根據(jù)|αi|Ni=1升序排列訓(xùn)練集{xi,yi,si}N

i=1中的數(shù)據(jù),剪除一小部分(如5%)具有最小αi值的數(shù)據(jù)點;

(5)由剩余的Lagrange乘子重新計算8、,由剩余的數(shù)據(jù)重新構(gòu)建訓(xùn)練集{xi,yi,si}Ni=1再次進行改進的LSSVM訓(xùn)練,得到新的Lagrange乘子。如果擬合性能下降,則結(jié)束訓(xùn)練,得到對象模型;否則,轉(zhuǎn)至(3)。

3 實驗與分析

用改進的LSSVM方法辨識上述模型,采用徑向基函數(shù)作為核函數(shù)。

特此說明的是,因為改進的LSSVM采用迭代方式訓(xùn)練得到Lagrange乘子,然后根據(jù)Lagrange乘子的值來確定支持向量度,因此訓(xùn)練時間方面會變長,采用訓(xùn)練時間衡量算法性能是沒有意義的,因此我們只用訓(xùn)練精度做為衡量標(biāo)準(zhǔn)。

實驗的程序使用MATLAB2009a實現(xiàn),實驗硬件環(huán)境:CPU為P4,3.0GHz,1GB內(nèi)存。所有實驗運行15次取平均值。本文采用的數(shù)據(jù)集來自二元分類測試數(shù)據(jù)集synth、bc本文采取的源數(shù)據(jù)包含2個數(shù)據(jù)文件(tas,bookmark),其中tas文件包含用戶、tas_id、標(biāo)簽和對應(yīng)bookmark_id的關(guān)系記錄,bookmark文件包含資源、資源描述、bookmark_id和對應(yīng)tas_id的關(guān)系記錄。為兩個數(shù)據(jù)文件接由tas_id和bookmark_id來接。

第一組:

表1 bc數(shù)據(jù)集樣本及維度

第二組:

表2 bc數(shù)據(jù)集樣本及維度

實驗方案設(shè)計分為兩組,第一組是訓(xùn)練集樣本維度為10的時候,分別采用LSSVM和改進的LSSVM算法進行分類,而第二組是當(dāng)訓(xùn)練集維度為2的時候分別采用兩種算法進行分類。

首先采用標(biāo)準(zhǔn)LSSVM方法分別對bc數(shù)據(jù)集和synth 數(shù)據(jù)集取300,150,60,30組采樣數(shù)據(jù)進行訓(xùn)練,然后用200組測試數(shù)據(jù)進行測試,其中參數(shù)由libSVM工具箱自動尋優(yōu)函數(shù)給出,改進的LSSVM中,最小的支持向量度使用上一步標(biāo)準(zhǔn)LSSVM所得出的參數(shù),每迭代一次剪切5%的數(shù)據(jù),用200組測試數(shù)據(jù)得到的測試結(jié)果。測試得到的結(jié)果如下所示:

第一組:

表3 bc 數(shù)據(jù)集LSSVM測試結(jié)果

表4 bc 數(shù)據(jù)集 改進的LSSVM測試結(jié)果

第二組:

表5 synth 數(shù)據(jù)集LSSVM測試結(jié)果

表6 改進的LSSVM測試結(jié)果

由表3和4可以看出可以看出,當(dāng)我們采用較小數(shù)據(jù)集做測試時候,比如50,在改進的LSSVM的精度為61.7,而標(biāo)準(zhǔn) LSSVM為60.5,精度只有微量的提升,而我們增大訓(xùn)練數(shù)據(jù)集,,采用數(shù)據(jù)集個數(shù)為100和150的時候,精度開始有明顯的提高,提高了接近10的百分點。當(dāng)我們數(shù)據(jù)量增到到300的時候,提升更是明顯,提升了18個百分點。因此,通過實驗我們可以發(fā)現(xiàn),采用剪切算法在數(shù)據(jù)集數(shù)量增大的時候,對精度的提高就越明顯。同樣第二組實驗中改進的lssvm算法在低維數(shù)據(jù)集中,通過表5 和6觀察也能得出相同的結(jié)論。因此,通過支持向量度的引入采用剪切數(shù)據(jù)的改進的LSSVM方法,精度要好于LSSVM。因此,通過剪切數(shù)據(jù)的方法來實現(xiàn)改進的LSSVM算法是可行的。

[1] KIM C J,HWANG K B.Naive Bayes classier.learning with featureselection for spam detection in social bookmarking[C]//Lecture Notes in Computer Science. Berlin: Springer-Verlag,2008.

[2]覃希,夏寧霞,蘇一丹.基于支持向量機的垃圾標(biāo)簽檢測模型.[J].計算機應(yīng)用研究,2010,27(10):40-46.

[3]GRAMME P,CHEVALIER J F. Rank for spam dsetection[C]/ /Lecture Notes in Computer Science. Berlin: Springer-Verlag,2008.

[4]Van Gestel, T. Suykens, J.A.K., Baesens, B., Viaene, S., Vanthienen, J., Dedene, G., De Moor, B., Vandewalle, J., Benchmarking least squares support vector machine classifiers", Mach. Learning, vol 54, pp.5-32, 2003.

[5]ADKOUR A,HEFNI T,HEFNY A,et al. Using semantic featuresto detect spamming in social bookmarking systems [C]// LectureNotes in Computer Science. Berlin: Springer-Verlag,2008.

[6]HOTHO A,JASCHKE R,SCHMITZ C,et al.Emergent semantics in BibSonomy[M]. Liskowsky: GI Jahrestagung,2006:305-312.

[7]SALTON G,McGILL M J. Introduction to modern information retrieval[M].New York: McGraw-Hill,1983: 1-12.

[8]http://www.csie.ntu.edu.tw/-cjlin/libsvmtools/datasets/.

[9] BROADLY. Social spam definition[EB/OL].(2008-7-21) .http://www. bryanchen. com /2008 /07 /21 / social-spam /.

[10]Kuh, A., De Wilde, P. "Comments on pruning error minimization in least squares support vector machines". IEEE Trans. Neural Networks, vol 18 (2). 2007.

[11]Lazar, A. Income prediction via support vector machine[C]. New York:Machine Learning and Applications, IEEE 2004' Proceedings,2004.

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數(shù)的乘除法”檢測題
“有理數(shù)”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 色婷婷电影网| 在线观看亚洲天堂| 亚洲欧洲日韩综合| 亚洲精品男人天堂| 一区二区三区精品视频在线观看| 国产微拍精品| 蜜臀AV在线播放| 欧美一区福利| 国产亚洲欧美在线中文bt天堂| 国产丝袜第一页| 精品伊人久久久香线蕉| 精品国产成人a在线观看| 亚洲一区二区视频在线观看| 国产精品成人久久| 欧美亚洲香蕉| 一本色道久久88亚洲综合| 人人看人人鲁狠狠高清| 中文字幕亚洲精品2页| 久久香蕉国产线看精品| 国产成人禁片在线观看| 五月婷婷丁香色| 美女被躁出白浆视频播放| 久久久91人妻无码精品蜜桃HD| 欧美成人aⅴ| 国产成人亚洲日韩欧美电影| 色妞永久免费视频| 亚洲国产中文在线二区三区免| 国产精品中文免费福利| 国产精品亚洲五月天高清| 88av在线| 亚洲综合久久一本伊一区| 日韩成人高清无码| 国产午夜无码片在线观看网站| 啊嗯不日本网站| 国产内射在线观看| a免费毛片在线播放| 青青青草国产| 波多野结衣中文字幕一区二区| 久久9966精品国产免费| 欧美日韩理论| 无码一区18禁| 日韩 欧美 小说 综合网 另类| 久久中文字幕2021精品| 91久久精品国产| 日本午夜三级| 喷潮白浆直流在线播放| 在线播放国产一区| 91外围女在线观看| 国产精品99久久久久久董美香| 伊人欧美在线| 99伊人精品| 青草精品视频| 免费看美女自慰的网站| 亚洲永久免费网站| 欧美人与牲动交a欧美精品| 久久国产V一级毛多内射| 高潮毛片免费观看| 国产精品免费电影| 亚洲欧美不卡视频| 欧美一级视频免费| 国产毛片高清一级国语| 色婷婷久久| 免费黄色国产视频| 久久99国产综合精品女同| 国产成人精品在线1区| 国产精品jizz在线观看软件| 亚洲美女操| 国产91丝袜在线播放动漫 | 中文字幕有乳无码| 99热这里只有精品国产99| 国产乱子精品一区二区在线观看| 国产视频自拍一区| 国产超薄肉色丝袜网站| 操操操综合网| 伊人色在线视频| 国产XXXX做受性欧美88| 2021最新国产精品网站| 久久综合色视频| 四虎成人精品在永久免费| 国产激情无码一区二区APP| 国产伦片中文免费观看| 91精品国产一区自在线拍|