999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據集合中冗余特征排除的聚類算法設計

2018-07-27 06:50:48侯莉莎
現代電子技術 2018年14期

侯莉莎

摘 要: 傳統microRNA聚類算法對數據的新特征要求較高,未全面分析大數據集內的冗余特征,使得聚類結果均衡性差。因此,提出大數據集合中冗余特征排除的聚類算法,其采用聚類集成算法,在組構造時期通過使用一致的聚類算法抽取各種子集樣本,實現大數據冗余特征的排除,獲取排除冗余特征的大數據集聚類結果。對得到的大數據聚類特征分類能力以及特征關聯性實施度量,采用基于特征聚類以及隨機子空間的miRNA識別算法,實現大數據集合冗余特征的聚類。實驗結果表明,所提算法具有較高的冗余數據排除性能,該算法下的大數據聚類效果優,具有較高的均衡性。

關鍵詞: 大數據集; 冗余特征排除; 聚類算法; 特征關聯性; 隨機子空間; miRNA識別算法

中圖分類號: TN911?34; TP311 文獻標識碼: A 文章編號: 1004?373X(2018)14?0048?03

Design of clustering algorithm for redundancy feature removal in big data sets

HOU Lisha1,2

(1. Tianjin University, Tianjin 300072, China; 2. Beijing Professional Business Institute, Beijing 102488, China)

Abstract: The traditional microRNA clustering algorithm has relatively high requirements for new features of data, and the redundancy feature in big data sets are not fully analyzed, resulting in poor equilibrium of clustering results. Therefore, a clustering algorithm for redundancy feature removal in big data sets is proposed, in which the integrated clustering algorithm is adopted, and samples of various subsets are extracted by using the consistent clustering algorithm during the group construction period, so as to realize the redundancy feature removal of big data, and obtain the clustering results of big data for redundancy feature removal. The classification capability and correlation of the obtained big data clustering features are measured. The miRNA recognition algorithm based on feature clustering and stochastic subspace is adopted to realize clustering of big data sets and redundancy features. The experimental results show that the proposed algorithm has high redundancy data removal performance, and the big data clustering effect under the algorithm is superior with high equilibrium.

Keywords: big data set; redundancy feature removal; clustering algorithm; feature correlation; stochastic subspace;

miRNA recognition algorithm0 引 言

隨著社會經濟的飛速發展,帶動信息技術和數據存儲技術的迅猛發展,促使數據量規模也逐漸增大,大量的高維度數據在金融領域、生物醫藥領域以及數據傳感領域應用較廣,高維度和海量的數據中可能存在大量的冗余信息,在實際應用中需要對冗余數據進行剔除,對大數據集合中冗余數據特征的聚類算法設計是提高海量高維度數據利用率的有效手段[1]。傳統microRNA聚類算法,對數據的新特征要求較高,未全面分析大數據集內的冗余特征,使得聚類結果均衡性差。本文設計大數據集合中冗余特征排除的聚類算法,提高算法的聚類效果,增強大數據聚類的均衡性。

1 大數據集合中冗余特征排除的聚類算法

1.1 聚類集成算法

通過聚類集成手段來構成組特征進而完成組構造。若歷史數據集是[D],其中含有[n]個訓練標本,[D=X,Y=xi,yini=1],第[i]個分子是[d]維向量在此數據集內。

本文選取的聚類集成方法,以聚類分析為基準包含多種優勢,具有良好的平均性,廣泛使用的辦法如下:

1) 在數據集合聚類算法完全一致的情況下,可以通過對算法參數的特殊設定進而生成多種聚類結果[2];

2) 當數據集一致時可通過其他聚類算法進行計算,獲取多種聚類結果;

3) 在初始數據集中獲取多種子集,通過一致的聚類算法針對子集實施聚類進而得到各種聚類結果;

4) 通過初始數據集獲得一定數量的特征子集,針對特征子集實施同種聚類算法,也可獲得多個聚類結果。

本文提出的聚類算法是指在組構造時期,通過使用一致的聚類算法抽取各種子集樣本,實現大數據冗余特征的排除,獲取排除冗余特征的大數據集聚類結果。詳細程序如下,選取bigging思想作為訓練集分類器的基礎,根據有反應的抽樣樣本來實現樣本子集的收集過程。若利用bigging思想獲取到多種樣本子集,此間某一個聚類器選取K?means方法。此方法在保證子集特點接近性的基礎上完成收集[3],實現了針對大數據集中冗余特征的聚類。

此間特征中的接近性度量手段采取關聯數據。隨機變量分別由[u],[v]代替,它們和關聯系數[ρ]的關系如下:

[ρu,v=covu,vvar(u)var(v)] (1)

式中:[var]代表變量的方差;[cov]表示兩個變量的協方差。若[u]以及[v]具有關聯性,則二者確定為非動態關聯,[ρu,v]為1或-1;若[u]與[v]不具備關聯性,[ρu,v]為0。所以,變量[u]以及變量[v]的接近性可以借助[1-ρ(u,v)]來進行檢驗[4]。

針對[m]個樣本子集實施K?means聚類,可獲得[m]個聚類結果,單一聚類結構都具有不同特征,為[C11,…,C1l1,…,Cm1,…,Cmlm]。此間第[h]次聚類形成的第[j]個特點類型用[Chj]代表,第[m]次聚類形成的全部特征數據用[lm]表示。

根據以上在特征接近性K?means方法中獲得的各種聚類結果結合為聚類集體以后,接下來應選取相符的集成方法進行聚類結果總結。本文以互聯矩陣為基礎,針對[m]個聚類結果將同組中的每一種特征實施劃分計算,再用聚類次數[m]予以平均計算[5],得出用矩陣[Wq,r]代表特征[q]以及特征[r]的接近程度。最后根據凝聚型分層聚類,針對全部特征實施合并,以特征組中的接近性不小于[θ,θ]的特定數據為合并基礎,通過類平均措施統計特征組中的接近性,使其不受異常值變化的干預。

1.2 結果表征以及評價

1.2.1 特征分類能力度量

一般情況下特征分類能力由信息增益率來進行檢驗[6]。將訓練數據集設為D,客觀pre?miRNA以及偽發夾組成序列由[Ci(i=1,-1)]來依次代表。正例標本集合以及反例標本集合分別由[Dp],[Dn]表示。由此得出數據集D的信息熵計算公式:

[H(D)=-iP(Ci)lb P(Ci)] (2)

式中,[P(Ci)]表示隨機樣本歸屬類別[Ci]的可能率,設[i=1],那么[P(Ci)=DpD],相反[P(Ci)=DnD]。

1.2.2 特征關聯性度量

特征相關性度量由兩部分構成:第一部分是由Pearson積矩關聯數據、線性關聯數據組成的線性關聯;另外一部分是熵,包括信息增益性和未知性等。本文利用熵的對稱未知性對特征中的動態相關性進行分析[7]。特征[X]取第[i]個值的幾率由[P(xi)]表示,特征[Y]取值是[yi]時特征[X]取值是[xi]的幾率由[P(xiyi)]表示,[X]的數據熵計算方法如下:

[SUX,Y=2IGXYHX+HY] (3)

定義對稱未知性[SUX,Y]來評價特征[X]和特征[Y]的關聯性,過程見式(3)。借此獲得特征關聯性度量[SUX,Y∈ [0,1]],若取值是0,那么特征[X]以及特征[Y]都處于獨立狀態,若取值是1,則表示特征[X]與特征[Y]具有極強的相關性[8]。

1.3 基于特征聚類以及隨機子空間的miRNA識別算法

本文基于1.1小節聚類集成算法排除大數據冗余特征后,得到的大數據集聚類特征和隨機子空間的基礎上,采用miRNA識別算法,根據特征取得備用特征集,按照特征關聯性對備用數據集進行歸類[9],在各個簇中任意抽取等量特征構建出特征集用以形成基分類器,最終根據投票辦法對位置序列是否歸屬miRNA實施辨別。

為了使隨機兩簇中特征閾值低于最小距離,可通過凝聚最短距離層次聚類算法對備用特征集實施計算,將原始化的單獨特征進行單獨分類,最后使用[Dist]完成合并替換矩陣[10]。根據特征集[S]從初始信息中獲得數據集訓練分類器,通過分類器集成手段判斷抽取標本所屬類型。

2 實驗分析

為了驗證本文算法在解決大數據集合中冗余特征排除結果的有效性,以模糊信息粒化算法、粗糙集近似算法、多維數據去重算法為對比算法,這些聚類算法本身可以針對不同類型的數據進行冗余特征排除。

實驗選取的大數據為某高校教學用的測試數據集,選取的樣本大數據集有Tony,R15,Flame以及Aggregation大數據集。檢測結果如圖1所示。從圖1實驗檢測結果可以看出,本文算法在樣本4個具有不同特征大數據集上均能夠得到聚類結果且用時也較短,并且本文算法聚類結果具有較高的均衡性。

為了分析本文算法的計算性能,將本文算法用于不同的大數據集上對本文算法的聚類性能以及用時情況進行測試,實驗數據集來自UCI數據庫。

實驗采用十字交叉驗證法對Isolet大數據集中的數據集評分成10分,其中訓練用數據集占[15],其余為實驗測試用。表1為采用不同分類器下,本文算法和基于聚類的在線特征選擇算法聚類結果的準確率;表2為本文算法和基于聚類的在線特征選擇算法對不同大數據集的聚類用時。

從表1分類結果的準確率結果可以看出,本文算法無論采用哪一種分類器分類結果的準確率都要優于基于聚類的在線特征選擇算法。在數據維度較高的Urban數據集上,基于聚類的在線特征選擇算法不能對其數據操作,可以得出本文算法能夠提高大數據的分類正確率,以及對高維度的大數據也能進行正確分類。從表2算法的計算用時可以看出,本文算法和基于聚類的在線特征選擇算法在對相同的大數據進行冗余特征排除法聚類中,本文算法的運算用時均低于基于聚類的在線特征選擇算法,說明本文算法的時間效率較好,可以節省時間成本。

3 結 論

本文提出新的用于解決大數據集合中冗余特征排除的聚類算法,其通過基于特征聚類以及隨機子空間的miRNA識別算法,實現大數據的高效率、準確聚類,并且增強了大數據聚類的均衡性。

參考文獻

[1] 古凌嵐.面向大數據集的有效聚類算法[J].計算機工程與設計,2014,35(6):2183?2187.

GU linglan. Efficient clustering algorithm for large data sets [J]. Computer engineering and design, 2014, 35(6): 2183?2187.

[2] 羅恩韜,王國軍.大數據中一種基于語義特征閾值的層次聚類方法[J].電子與信息學報,2015,37(12):2795?2801.

LUO Entao, WANG Guojun. A hierarchical clustering method based on the threshold of semantic feature in big data [J]. Journal of electronics & information technology, 2015, 37(12): 2795?2801.

[3] 張順龍,庫濤,周浩.針對多聚類中心大數據集的加速K?means聚類算法[J].計算機應用研究,2016,33(2):413?416.

ZHANG Shunlong, KU Tao, ZHOU Hao. Accelerate K?means for multi?center clustering of big datasets [J]. Application research of computers, 2016, 33(2): 413?416.

[4] 向堯,袁景凌,鐘珞,等.一種面向大數據集的粗粒度并行聚類算法研究[J].小型微型計算機系統,2014,35(10):2370?2374.

XIANG Yao, YUAN Jingling, ZHONG Luo, et al. A coarse?grained clustering unit based parallel algorithm for big data set [J]. Journal of Chinese computer systems, 2014, 35(10): 2370?2374.

[5] 謝川.基于混沌關聯維特征提取的大數據聚類算法[J].計算機科學,2016,43(6):229?232.

XIE Chuan. Big data clustering algorithm based on chaotic correlation dimensions feature extraction [J]. Computer science, 2016, 43(6): 229?232.

[6] 張曉,王紅.一種改進的基于大數據集的混合聚類算法[J].計算機工程與科學,2015,37(9):1621?1626.

ZHANG Xiao, WANG Hong. An improved hybrid clustering algorithm based on large data sets [J]. Computer engineering and science, 2015, 37(9): 1621?1626.

[7] 朱琪,張會福,楊宇波,等.基于減法聚類的合并最優路徑層次聚類算法[J].計算機工程,2015,41(6):178?182.

ZHU Qi, ZHANG Huifu, YANG Yubo, et al. Combined optimal path hierarchical clustering algorithm based on subtractive clustering [J]. Computer engineering, 2015, 41(6): 178?182.

[8] 周潤物,李智勇,陳少淼,等.面向大數據處理的并行優化抽樣聚類K?means算法[J].計算機應用,2016,36(2):311?315.

ZHOU Runwu, LI Zhiyong, CHEN Shaomiao, et al. Parallel optimization sampling clustering K?means algorithm for big data processing [J]. Journal of computer applications, 2016, 36(2): 311?315.

[9] 盧志茂,馮進玫,范冬梅,等.面向大數據處理的劃分聚類新方法[J].系統工程與電子技術,2014,36(5):1010?1015.

LU Zhimao, FENG Jinmei, FAN Dongmei, et al. Novel partitional clustering algorithm for large data processing [J]. Systems engineering and electronics, 2014, 36(5): 1010?1015.

[10] 鞏樹鳳,張巖峰.EDDPC:一種高效的分布式密度中心聚類算法[J].計算機研究與發展,2016,53(6):1400?1409.

GONG Shufeng, ZHANG Yanfeng. EDDPC: an efficient distributed density peaks clustering algorithm [J]. Journal of computer research and development, 2016, 53(6): 1400?1409.

主站蜘蛛池模板: 99精品国产电影| 综合亚洲网| 国产JIZzJIzz视频全部免费| 高清无码一本到东京热| 国产男女免费视频| 国产精鲁鲁网在线视频| 在线观看欧美精品二区| 97久久人人超碰国产精品| 麻豆国产在线观看一区二区| 久久人人97超碰人人澡爱香蕉| 亚洲天堂精品在线| 亚洲区欧美区| 精品国产91爱| 久久一本精品久久久ー99| 亚洲国产精品无码久久一线| 久久福利网| 欧美曰批视频免费播放免费| 亚洲视频三级| 无码福利日韩神码福利片| 日韩av无码DVD| 国产99热| 中文字幕无码av专区久久| 亚洲色图综合在线| 久久女人网| 久久精品aⅴ无码中文字幕 | 欧美成人一级| 综合亚洲网| 欧美国产三级| 亚洲毛片在线看| 日本精品视频一区二区| 日本欧美一二三区色视频| 午夜精品久久久久久久无码软件| 国模在线视频一区二区三区| 国产麻豆精品在线观看| 免费国产黄线在线观看| 久久综合亚洲鲁鲁九月天| 91探花在线观看国产最新| 永久免费av网站可以直接看的 | 国产chinese男男gay视频网| 亚洲AV无码精品无码久久蜜桃| 久久香蕉国产线看精品| 国产成人高清精品免费5388| 国产91丝袜在线播放动漫| 亚洲swag精品自拍一区| 久久无码av三级| 日韩无码真实干出血视频| 天天激情综合| 久久精品国产亚洲麻豆| 国产亚洲高清在线精品99| 国产真实乱人视频| 四虎成人精品| 欧美中文字幕无线码视频| 中文字幕在线日本| 国产无码网站在线观看| 久久人妻系列无码一区| 亚洲国产天堂久久综合| 最新日本中文字幕| 成年人午夜免费视频| 99久久国产综合精品2023| 亚洲中字无码AV电影在线观看| 久操中文在线| 色婷婷电影网| 中国一级特黄视频| 国产理论一区| 在线国产你懂的| 97视频精品全国免费观看| 午夜啪啪网| 日本亚洲成高清一区二区三区| 国产a网站| 久久婷婷五月综合97色| 精品国产成人a在线观看| 久久夜色精品国产嚕嚕亚洲av| 91福利免费| 国产精品妖精视频| 26uuu国产精品视频| 国产精品香蕉在线观看不卡| 91在线中文| 日韩精品专区免费无码aⅴ| 91精品人妻一区二区| 国产亚洲欧美另类一区二区| 日韩欧美中文| 欧美精品一区二区三区中文字幕|