999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類方法的計算機網格技術探析

2012-12-31 00:00:00王子銘
科技致富向導 2012年24期

【摘要】網格技術和應用將成為具有高性能處理、海量數據存儲和大量儀器設備終端等特征的信息處理基礎設施。通過它可以匯聚Internet中分散異構、動態變化的計算和信息資源,將其中不同組織和機構的資源數據空間化。網格技術的數據分析方法將多維空間數據劃分為由(超)矩形網格單元組成的網格,然后在網格單元上進行聚類,以提取挖掘隱含的、未知但有應用價值的信息。本文以聚類算法為代表,對現有基于網格技術的進行了概述探析。

【關鍵詞】數據挖掘;網格;聚類

0.引言

隨著現代商業計算越來越復雜,技術上迫切需要低廉而數據處理能力超強的計算模式以進行從大型數據庫或數據倉庫中提取隱含的、未知的有應用價值的信息或模式,隨之數據挖掘的概念應運而生。數據挖掘是數據庫研究中的一個很有應用價值的領域,融合了數據庫、機器學習、統計學等多個領域的理論和技術。

數據挖掘中,聚類分析方法是廣為研究的課題之一,是從數據中尋找數據間的相似性,并依此對數據進行分類,從而發現數據中隱含的有用信息或知識。

網格方法是空間數據處理中常用的將空間數據離散化的方法?;诰W格,聚類算法由于易于增量實現和進行高維數據處理而被廣泛應用于網格技術中。本文對聚類算法、網格方法進行了概述分析。

1.網格的定義與劃分

網格的基本概念,設N1, N2,…,Nr是數據集D={D1,D2,…,Dn}中數據對象的r 個屬性的有界定義域,那W=N1×N2×…×Nr 就是一個r 維空間, 將N1,N2,…,Nr看成是W的維( 屬性、字段),則對于一個包含n 個數據點的r 維空間中的數據集D={D1,D2,…,Dn},其中Di={Di1,Di2,…,Dir}(i=1, 2,…,n),Di 的第j 個分量Dij∈Nj。將W的每一維M等分,即把W分割成個網格單元。

聚類算法第一步是劃分網格結構,按搜索子空間的策略不同, 主要有兩種算法,一是由底向上網格劃分方法的算法,另外一個是自頂向下網格劃分方法的算法。

1.1由底向上的劃分方法

由底向上的網格劃分方法按照用戶輸入的劃分參數(即每維段數ki,1≤i≤d),將數據空間均勻劃分為相等大小的網格單元,假設落入同一網格單元內的所有數據點都屬于同一個簇,每個網格單元保存落入其內數據的統計信息,比如數據點個數,數據點之和。包含數據點數據較多的網格單元被稱為高密度網格單元。

采用由底向上的網格劃分方法的優點在于,它能通過對數據的一遍掃描,將數據壓縮到一個網格數據結構內,并基于這個網格數據結構,發現任意形狀的簇。其缺點,如果網格單元的粒度較小(即體積較小),那么得到的聚簇的精度較高,但是算法的計算復雜度較大。此外,由底向上的網格方法存在不適合處理高維數據的問題。在高維空間,數據的分布是非常稀疏的,網格方法失去其壓縮作用,而且屬于同一個簇的高密度網格單元也可能不相連,這使聚類算法不能發現合理數目的簇。

1.2自頂向下的劃分方法

自頂向下的網格劃分方法采取分治的策略,對數據空間進行遞歸劃分,使問題的規模不斷減小。首先將原數據空間劃分為幾個較大的區域。對于每個得到的區域,劃分過程反復執行,直到每個區域包含屬于同一個簇的數據點,那么這些區域就是最終的網格單元。該算法直接將高密度網格單元識別為一個簇,或是將相連的高密度網格單元識別為簇。

自頂向下劃分方法的主要優點在于不需要用戶指定劃分參數,而是根據數據的分布對空間進行劃分,因此這種劃分更為合理。數據空間維度對自頂向下網格方法的影響較小,可以快速將大型高維數據集中的簇分隔開。這一類方法的計算復雜度與數據集大小和維度都呈線性關系適合于處理高維數據。其缺點,由于劃分是基于數據分布的,而通常認為噪音是在整個空間均勻分布的,所以自頂向下劃分方法對噪音不敏感。但是,由于這種方法得到的網格單元的體積遠大于由底向上網格方法中的網格單元體積,因此該方法產生的簇的描述精度比由底向上的網格方法得到的簇的描述精度要低。而且在自頂向下的劃分過程中,同一個簇可能被劃分到不同的區域中,最終得到的同一區域也可能包含不同的簇,這樣就進一步降低了算法的正確度。這類劃分方法的另一個缺點是它在劃分過程中,需要對數據集進行多次掃描。

而由底向上劃分方法在于只需對數據集進行一次線性掃描以及較高的簇的描述精度。因此,兩類方法適用于不同的問題。前者適于處理高維數據集,后者能有效處理存取代價較大的超大型數據集與動態數據。

2.網格聚類過程

聚類算法的基本過程是,首先將數據空間W劃分為網格單元,將對象指派到合適的單元,并計算每個單元的密度。以用戶輸入的密度闕值,刪除低于密度闕值的稀疏網格單元,把鄰近的高于密度闕值的稠密網格單元集中起來形成簇。

相對于稠密網格單元來說,大多數的網格單元包含非常少甚至空的的數據,這一類網格單元被稱為稀疏網格單元。大量的稀疏網格單元的存在會極大的降低聚類的速度,需要在聚類之前對稀疏網格單元進行處理。

由稠密網格單元形成簇:

在該聚類算法中,根據以上分析,由鄰接的稠密單元形成簇是相對直截了當的,這也是以網格方法為基礎的優點之一。但是需要首先定義鄰接單元的含義。設n維空問中的存在任意兩個網格單元U1和U2,當這兩個網格單元在—個維上有交集或是具有一個公共面時,稱它們為鄰接網格單元。

在二維空間中,比較常使用的是4-connection相鄰定義(如圖1-a)和8-connection相鄰定義(如圖1-b),4-connection更適合在聚類算法中使用。因為當尋找某個網格單元的鄰居時,在4-connection定義下,一個網格單元只有2d個鄰居,而在8-connection定義下,有3d-1個鄰居,當數據維度d較大時,這個數目非常大。使用4-connection不僅參與計算的單元數目大為減少,而且單元增加與維數的關系由指數增長變為線性增長,具有較低的計算復雜度和較高的計算效率。

3.結論及展望

基于聚類方法的網格技術優點是它的處理速度快,由于該技術的速度與數據對象個數無直接相關,而是只依賴于數據空間中每個維上單元的個數,發現任意形狀、任意大小的簇、計算結果與數據輸入順序無關、計算時間與數據量無關,同時不要求像k均值一樣預先指定簇個數等。,基于聚類算法的網格技術也有其缺點,其輸入參數對聚類結果影響比較大,且這些參數設置繁瑣困難。當數據中有噪音時,需要加入特殊的處理,算法,才能保證聚類質量,而且,加入的算法對于數據維度的可伸縮性有較大影響。

本文對基于聚類方法的網格技術進行了分析和總結,包括網格的定義與劃分方法、網格單元密度的確定、由鄰接網格單元形成聚簇的聚類過程;最后對網格聚類方法優缺點進行了總結。 [科]

【參考文獻】

[1]曹洪其,余嵐,孫志揮.基于網格聚類技術的離群點挖掘算法[J].計算機工程,2006(6).

[2]孫玉芬.基于網格方法的聚類算法研究[J].華中科技大學,2006.

主站蜘蛛池模板: 综合久久五月天| 免费国产福利| 亚洲综合专区| 中文字幕色站| 亚洲欧洲日韩久久狠狠爱| 91人妻日韩人妻无码专区精品| 欧美日韩国产成人高清视频| 91年精品国产福利线观看久久| 中文字幕佐山爱一区二区免费| 国产精品久久久久久久久kt| 亚洲国产精品成人久久综合影院| 欧洲亚洲一区| 在线观看热码亚洲av每日更新| 综合色亚洲| 在线播放国产99re| 国产高清在线丝袜精品一区| 亚洲日产2021三区在线| 久久婷婷六月| 综合色天天| 日本www色视频| 欧美a级在线| 久久久久国产精品免费免费不卡| 国产高清色视频免费看的网址| 亚洲一区二区三区国产精品 | 国产欧美视频一区二区三区| 亚洲精品午夜天堂网页| 日韩av手机在线| 乱色熟女综合一区二区| 91成人免费观看| 99精品欧美一区| 国产在线观看一区精品| 无码人中文字幕| 精品综合久久久久久97超人| 在线观看视频一区二区| 伊人精品视频免费在线| 欧美亚洲综合免费精品高清在线观看| 免费无码又爽又黄又刺激网站| 亚洲欧美不卡| 免费看a级毛片| 国产精女同一区二区三区久| 久久精品视频亚洲| 亚洲欧洲日产国产无码AV| 日韩无码一二三区| 国产后式a一视频| 国产美女精品一区二区| 午夜小视频在线| 国产精品午夜福利麻豆| 丰满人妻中出白浆| 亚洲一级无毛片无码在线免费视频 | 精品国产一区二区三区在线观看 | 欧美日本激情| 乱人伦99久久| 日韩欧美在线观看| 成人夜夜嗨| 亚洲欧洲日产国产无码AV| 国产精品香蕉在线观看不卡| 国产在线视频二区| 亚洲天堂首页| 国产嫖妓91东北老熟女久久一| 国产91在线免费视频| 久久福利网| 五月激情婷婷综合| 久草青青在线视频| 青青久久91| 午夜毛片福利| 亚洲一级毛片在线播放| 啪啪免费视频一区二区| 东京热av无码电影一区二区| 久久久久国产精品熟女影院| 欧美不卡视频在线| 精品久久久无码专区中文字幕| 国产成人乱无码视频| 97一区二区在线播放| 999国内精品视频免费| 狠狠综合久久久久综| 亚洲精品自拍区在线观看| 色综合天天综合| 国产成人精品亚洲77美色| 国产色偷丝袜婷婷无码麻豆制服| 亚洲精品国偷自产在线91正片| 亚洲国产清纯| 欧美在线导航|