999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類算法的內(nèi)容識(shí)別研究

2016-02-06 05:44:48徐勇
電腦與電信 2016年11期
關(guān)鍵詞:特征內(nèi)容方法

徐勇

(吉林建筑大學(xué),吉林 長(zhǎng)春 130118)

基于聚類算法的內(nèi)容識(shí)別研究

徐勇

(吉林建筑大學(xué),吉林 長(zhǎng)春 130118)

隨著互聯(lián)網(wǎng)內(nèi)容的快速增長(zhǎng),對(duì)于網(wǎng)絡(luò)內(nèi)容的快速識(shí)別壓力越來越大。本文進(jìn)行基于聚類算法的內(nèi)容識(shí)別研究,為維護(hù)網(wǎng)絡(luò)安全、網(wǎng)絡(luò)內(nèi)容健康,具有非常重要的意義。目前的互聯(lián)網(wǎng)內(nèi)容識(shí)別方式主要以關(guān)鍵字檢索方法進(jìn)行識(shí)別,但是面對(duì)日益豐富的網(wǎng)絡(luò)內(nèi)容和不同方式存儲(chǔ)在服務(wù)器的內(nèi)容,這種方式已經(jīng)無法滿足實(shí)際的需求。從實(shí)際問題出發(fā)針對(duì)互聯(lián)網(wǎng)內(nèi)容中以圖形、圖像、音頻等非結(jié)構(gòu)化數(shù)據(jù)形式存儲(chǔ)在服務(wù)器中的內(nèi)容進(jìn)行識(shí)別,依據(jù)互聯(lián)網(wǎng)內(nèi)容的發(fā)展規(guī)律對(duì)現(xiàn)有的聚類算法進(jìn)行改進(jìn),以求能夠最大程度地對(duì)互聯(lián)網(wǎng)內(nèi)容進(jìn)行篩選和甄別,維護(hù)互聯(lián)網(wǎng)安全。

數(shù)據(jù)挖掘;內(nèi)容識(shí)別;聚類分析;K-MEANS聚類算法改進(jìn)

1 前言

面向?qū)ο髢?nèi)容識(shí)別過程中以單詞為單位的常規(guī)檢索方式,缺乏內(nèi)容時(shí)間序列上的關(guān)聯(lián),檢索效果大打折扣,尤其是對(duì)音視頻、圖片等非結(jié)構(gòu)數(shù)據(jù)的內(nèi)容識(shí)別,效果非常差。而由于K-MEANS聚類算法在處理大數(shù)據(jù)環(huán)境下內(nèi)容中的數(shù)據(jù)流方面存在著算法敏感,以及內(nèi)容識(shí)別效率和速度上的缺陷,因此,從網(wǎng)絡(luò)內(nèi)容格式類型的序列關(guān)系進(jìn)行K-MEANS聚類算法的改進(jìn),使其能夠保持可接受的檢索速度和識(shí)別能力是本文重點(diǎn)研究方向。

2 非結(jié)構(gòu)化內(nèi)容識(shí)別方法

隨著寬帶流量的提高,互聯(lián)網(wǎng)內(nèi)容日益豐富,非結(jié)構(gòu)化內(nèi)容如:音視頻、圖形圖像的文件越來越多。對(duì)于非結(jié)構(gòu)化內(nèi)容的識(shí)別方法主要包括以下幾個(gè)步驟:

2.1 分割

分割是是實(shí)現(xiàn)非結(jié)構(gòu)化內(nèi)容識(shí)別的第一步,根據(jù)內(nèi)容的轉(zhuǎn)換邊界進(jìn)行分割,分割方法包括模板匹配法、直方圖法、邊緣檢測(cè)法、模型法、顏色柱狀圖法、運(yùn)動(dòng)矢量法以及基于多維空間仿生信息學(xué)理論的方法等。鏡頭邊界檢測(cè)作為視頻檢索的第一步具有重要意義,其結(jié)果將對(duì)整個(gè)視頻檢索結(jié)果產(chǎn)生直接的影響。

2.2 特征提取

提取非結(jié)構(gòu)化對(duì)象基本信息及動(dòng)態(tài)信息,得到一個(gè)盡可能充分反映內(nèi)容的特征空間,這個(gè)特征空間將作為內(nèi)容識(shí)別依據(jù),內(nèi)容特征分為靜態(tài)特征和動(dòng)態(tài)特征。靜態(tài)特征的提取主通常采用圖像特征提取方法,如提取顏色特征、紋理特征、形狀和邊緣特征等。動(dòng)態(tài)特征是獲取動(dòng)態(tài)特征的方法是運(yùn)動(dòng)估計(jì),通過匹配算法估計(jì)出每個(gè)像素或區(qū)域的運(yùn)動(dòng)矢量,作為非結(jié)構(gòu)化數(shù)據(jù)的運(yùn)動(dòng)特征。

2.3 聚類

高效的索引技術(shù)是基于內(nèi)容的檢索在大型數(shù)據(jù)庫(kù)中發(fā)揮優(yōu)勢(shì)的保證。索引技術(shù)隨著數(shù)據(jù)庫(kù)的發(fā)展而發(fā)展,提高索引效率有縮減特征向量的維度和聚類索引算法兩種方法,針對(duì)非結(jié)構(gòu)化內(nèi)容檢索需要3個(gè)步驟:(1)進(jìn)行維度縮減;(2)對(duì)存在的索引方法進(jìn)行評(píng)價(jià);(3)根據(jù)評(píng)價(jià)定制自己的索引方式。為了保證內(nèi)容識(shí)別的效率和準(zhǔn)確性,內(nèi)容識(shí)別的聚類算法尤為重要。

3 基于K均值聚類的內(nèi)容識(shí)別均值算法

基于K均值聚類的內(nèi)容識(shí)別算法模型如下:

(1)選取K個(gè)聚類中心作為服務(wù)器內(nèi)容樣本的K均值聚類算法迭代的聚類中心

(3)計(jì)算服務(wù)器內(nèi)容樣本各聚類中心的新向量值:

式中nj為Sj所包含的樣本數(shù)。

K均值偽代碼如下:

設(shè)定聚類數(shù)目K,最大執(zhí)行步驟tmax,一個(gè)很小的容忍誤差ε>0

決定聚類中心起始位置Cj(0),0<j≤K

輸入:總數(shù)K,尺度tmax,誤差ε>0,起始位置Cj(0),0<j≤K

輸出:K均值聚類結(jié)果

for t=1,......,tmax

for(j=1,......,N){服務(wù)器內(nèi)容樣本重新分類,重新迭代計(jì)算;如果//計(jì)算各數(shù)據(jù)點(diǎn)到聚類中心的距離

return();//循環(huán)終止

}//endif

}//endfor

4 基于K-MEANS聚類算法改進(jìn)的內(nèi)容識(shí)別

4.1 K-MEANS聚類改進(jìn)算法的數(shù)據(jù)處理

現(xiàn)有的網(wǎng)絡(luò)內(nèi)容檢索方式逐漸從關(guān)鍵詞檢索轉(zhuǎn)向?qū)ο髾z索,也就是以內(nèi)容片段為輸入,從大量數(shù)據(jù)中找出接近的內(nèi)容。現(xiàn)行的互聯(lián)網(wǎng)基于關(guān)鍵詞的敏感內(nèi)容規(guī)避業(yè)務(wù)的選擇結(jié)果模式主要是采用雙向選擇模式,因此基于關(guān)鍵詞的敏感內(nèi)容規(guī)避業(yè)務(wù)挖掘也要遵循這樣的模式原則,選取服務(wù)器中基于關(guān)鍵詞的敏感內(nèi)容進(jìn)行規(guī)避,選擇結(jié)果意向數(shù)據(jù)作為主要數(shù)據(jù)挖掘內(nèi)容。網(wǎng)站敏感內(nèi)容選擇內(nèi)容處理的數(shù)據(jù)類型包括:文本、圖像、音頻、視頻等。處理方法首先要采用絕對(duì)偏差法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化;其次采用簡(jiǎn)單匹配系數(shù)方式對(duì)互聯(lián)網(wǎng)內(nèi)容進(jìn)行檢測(cè),通過為0,不通過為1;最后采用對(duì)數(shù)變換將數(shù)據(jù)轉(zhuǎn)換為[0,1]區(qū)間內(nèi)數(shù)據(jù),再進(jìn)行區(qū)間標(biāo)度變量相同的標(biāo)準(zhǔn)化。數(shù)學(xué)公式表示:

首先,計(jì)算平均的絕對(duì)偏差sf

x變量代表度量值,m代表平均值。

其次,計(jì)算m:

最后,計(jì)算標(biāo)準(zhǔn)化量度值:

4.2 基于K-MEANS聚類算法改進(jìn)的設(shè)計(jì)

針對(duì)現(xiàn)有的K-MEANS算法在內(nèi)容識(shí)別中的聚類結(jié)果往往趨于孤立點(diǎn)的問題以及時(shí)間復(fù)雜度為O(n2)不利于對(duì)互聯(lián)網(wǎng)中大數(shù)據(jù)量的挖掘問題,本文采用的是基于排列組合思想的K-MEANS剪枝改進(jìn)算法。算法描述如下:

if(e∈E){//如果待測(cè)元素e屬于極大聚類集合

}else(e?E){

for j=0;j<n;j++

End for

}else{

Printf(“結(jié)果有誤”);

}//endif

End For

4.3 內(nèi)容識(shí)別

互聯(lián)網(wǎng)內(nèi)容檢索方法不僅僅局限于全文檢索,在很大程度上也不同于關(guān)鍵字檢索。非結(jié)構(gòu)化內(nèi)容本身的層次化結(jié)構(gòu)則要求內(nèi)容檢索必須層次化進(jìn)行。因此,內(nèi)容的特征決定了內(nèi)容檢索必須是層次化的,且用戶接口是多表現(xiàn)模式的,下面提出幾種常用的檢索方法:

(1)基于框架的方法:該方法通過知識(shí)輔助對(duì)內(nèi)容建立框架,并進(jìn)行層次化檢索。

(2)基于瀏覽的方法:基于瀏覽的方法始終是內(nèi)容檢索中一個(gè)不可缺少的方法。如果用戶沒有明確的查詢主題或用戶的主題在框架中沒有被定義等,用戶可以通過瀏覽來確定其大概目的。

(3)基于描述特征的檢索:該檢索針對(duì)內(nèi)容的局部特征檢索,描述特征包括說明性特征和手繪特征。

(4)內(nèi)容的檢索反饋在檢索的實(shí)現(xiàn)中除利用內(nèi)容特征進(jìn)行檢索外,還應(yīng)根據(jù)用戶的反饋信息不斷學(xué)習(xí)改變閾值重新檢索,實(shí)現(xiàn)人機(jī)交互,直到達(dá)到用戶的檢索要求。

5 結(jié)語(yǔ)

論文提出了一種基于排列組合的K-MEANS聚類算法,該算法在互聯(lián)網(wǎng)海量數(shù)據(jù)挖掘過程中,可以滿足內(nèi)容識(shí)別的檢索速度和識(shí)別能力,尤其是對(duì)非結(jié)構(gòu)化數(shù)據(jù),如:圖形、圖像、視頻等,具有很好的識(shí)別能力,在面向?qū)ο蟮膬?nèi)容識(shí)別趨勢(shì)下,該算法具有較好的先進(jìn)性和實(shí)用性。

[1]侯澤民,巨筱.一種改進(jìn)的基于潛在語(yǔ)義索引的文本聚類算法[J].計(jì)算機(jī)與現(xiàn)代化,2 0 14(7):2 4-2 7.

[2]王友衛(wèi),劉元寧,鳳麗洲,等.基于用戶興趣度的垃圾郵件在線識(shí)別新方法[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2 0 14(7):2 1-2 7.

[3]江雪,孫樂.用戶查詢意圖切分的研究[J].計(jì)算機(jī)學(xué)報(bào),2 0 13,3 6(3):6 6 4-6 7 0.

[4]楊陟卓,黃河燕.基于詞語(yǔ)距離的網(wǎng)絡(luò)圖詞義消歧[J].軟件學(xué)報(bào),2 0 12,2 3(4):7 76-7 8 5.

[5]皋軍,孫長(zhǎng)銀,王士同.具有模糊聚類功能的雙向二維無監(jiān)督特征提取方法[J].自動(dòng)化學(xué)報(bào),2 0 12,3 8(4):549-56 2.

[6]黃學(xué)沛,張燕,項(xiàng)炬,等.基于云架構(gòu)的自適應(yīng)聚類圖像識(shí)別技術(shù)的研究與實(shí)現(xiàn)[J].電腦與電信,2 0 16(5):3 0-3 2.

Research on Content Recognition Based on ClusteringAlgorithm

Xu Yong
(Jilin Jianzhu University,Changchun 130118,Jilin)

With the rapid growth of Internet content,the pressure for rapid identification of the network content is becoming higher and higher.This paper researches on the content recognition based on clustering algorithm,which is very important to maintain the security of network and the health of the network.The Internet content recognition at present mainly uses the keywords,but it is unable to meet the actual demand of the network contents and server contents stored in different ways.In view of the practical problems,the recognition of unstructured data stored in the forms of graphics,images and audio is researched.The existing clustering algorithm is improved based on the law of the development of Internet content,in order to filter and discriminate the Internet content in the greatest degree,to maintenance the Internet security.

data mining;content recognition;clustering analysis;K-MEANS clustering algorithm improvement

TP393.06

A

1008-6609(2016)11-0039-03

徐勇(19 73-),男,吉林長(zhǎng)春人,博士,副教授,研究方向?yàn)閿?shù)據(jù)挖掘、人工智能、網(wǎng)絡(luò)安全。

猜你喜歡
特征內(nèi)容方法
內(nèi)容回顧溫故知新
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
主要內(nèi)容
臺(tái)聲(2016年2期)2016-09-16 01:06:53
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 日韩精品无码免费一区二区三区| 国产在线啪| 毛片视频网址| 91探花国产综合在线精品| 中文字幕日韩欧美| 午夜限制老子影院888| 色婷婷色丁香| 无码区日韩专区免费系列 | 久久综合干| 婷婷成人综合| 亚洲欧美日本国产专区一区| 国内毛片视频| 国产91九色在线播放| 亚洲视频免| 亚洲三级影院| 欧美天堂在线| 日韩精品亚洲一区中文字幕| 免费人成在线观看视频色| 中国国产一级毛片| 五月激情综合网| 97se亚洲综合在线| 国产精品久久久久久久久| 永久免费av网站可以直接看的 | 婷婷亚洲天堂| 日本a∨在线观看| 精品国产一二三区| 国产香蕉国产精品偷在线观看| 91外围女在线观看| 97se综合| 欧美午夜理伦三级在线观看| 欧美a在线视频| 欧美精品不卡| 高清视频一区| 亚洲视屏在线观看| 台湾AV国片精品女同性| 精品91在线| 亚洲综合中文字幕国产精品欧美| 国产麻豆va精品视频| 99视频有精品视频免费观看| 国产国产人成免费视频77777 | 欧美午夜在线视频| 国产成+人+综合+亚洲欧美| 波多野结衣一区二区三区四区| 欧美午夜视频在线| 亚洲一区二区三区在线视频| 亚洲中文久久精品无玛| 国产毛片基地| 精品视频在线观看你懂的一区| 亚洲成人网在线观看| 免费国产福利| 国产91麻豆视频| 欧美中文字幕在线播放| 成人国产精品一级毛片天堂 | 欧美亚洲国产视频| 日韩美毛片| 欧美日韩免费在线视频| 国产在线观看第二页| 黄色免费在线网址| 青青热久免费精品视频6| 免费一级毛片| 免费人成黄页在线观看国产| 欧美影院久久| 91无码视频在线观看| 免费激情网址| 久久www视频| 亚洲人成网站色7799在线播放| 国产美女在线观看| 色婷婷综合激情视频免费看| 久久一本日韩精品中文字幕屁孩| 九九热精品在线视频| 久久这里只有精品23| 国产成人亚洲无吗淙合青草| 高潮毛片免费观看| 午夜视频在线观看区二区| 欧美高清国产| 色哟哟国产精品一区二区| 国产一区二区三区日韩精品| 青青操国产| 亚州AV秘 一区二区三区| 国产无人区一区二区三区| 久久精品电影| 国产日本欧美在线观看|