999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進人工蜂群算法的大數據特征選擇方法

2021-03-10 19:38:27李瑋瑤
河南科技 2021年19期
關鍵詞:大數據

李瑋瑤

摘 要:數據特征選擇就是從初始的數據特征中選擇指定數據進行子集篩選。目前,通常使用人工蜂群算法進行特征選擇,但由于收斂慢、尋優差,無法滿足人們的需求。因此,本文提出一種改進人工蜂群算法,通過特征選擇繪制大數據特征選擇框架圖,建立多項搜索渠道;利用改進的人工蜂群算法提取并行特征,使用MapReduce模型降低編程難度,獲取并行特征最優解;設計特征選擇復雜粗糙集模型,并構建特征學習模型來實現大數據特征選擇。試驗結果表明,設計的特征選擇方法性能優于傳統方法。

關鍵詞:改進人工蜂群算法;大數據;特征選擇

中圖分類號:TP18 文獻標識碼:A 文章編號:1003-5168(2021)19-0027-03

Abstract: Data feature selection is to select specified data from the initial data features for subset filtering. Currently, artificial bee colony algorithms are usually used for feature selection, but due to slow convergence and poor optimization, it cannot meet people's needs. Therefore, this paper proposes an improved artificial bee colony algorithm, which draws the framework of big data feature selection through feature selection, and establishes multiple search channels; uses an improved artificial bee colony algorithm to extract parallel features, uses the MapReduce model to reduce programming difficulty, and obtains the optimal solution for parallel features; designs a complex rough set model for feature selection, and builds a feature learning model to realize big data feature selection. The test results show that the performance of the feature selection method designed in this paper is better than the traditional method.

Keywords: improve artificial bee colony algorithm;big data;feature selection

數據特征選擇的過程就是屬性約簡,主要是針對數據的重組優化而產生的,屬于查找類型的問題,目前是一個計算難題,需要使用全局搜索、啟發式搜索和隨機函數來解決。特征選擇過濾方法的評價基準與分類器無關,旨在通過構建與分類器無關的評估指標來評估特征[1]。由于人工蜂群算法目前存在收斂慢、尋優差的問題,不足以進行數據特征選擇,因此需要改進該算法[2]。

1 大數據特征選擇方法設計

1.1 繪制大數據特征選擇框架圖

繪制大數據特征選擇框架圖首先要明確其制約指標,即子集范圍。特征選擇的子集是特征選擇中最優解的一部分,因此與特征選擇最優解的屬性相同就可用于框架繪制[3]。

在數據并行層面,基于并行模型MapReduce實現數據的并行運算。在模型并行層面,特征選擇算法在每次迭代時都可從一組候選集中選擇最佳特征,然后根據最佳特征,使用多線程方法同時評估多個候選特征,而后進行匯總。為得到最好的選擇效果,在方法層面,基于改進人工蜂群算法的大數據特征選擇方法利用分割計算理論中的細分割原理,可在不同的信息分割表示之間快速漸進地切換。對于并行評估,需要構建分段表達框架來計算候選特征,最后將這3個方面有機結合起來,繪制出如圖1所示的框架[4]。

1.2 基于改進人工蜂群算法提取并行特征

在特征選擇模型中,每次迭代首先產生一個特征子集,必須使用評估函數對所有特征子集的優缺點進行評估。這些特征子集(也稱為評估值)的重要性可根據模型本身的特性進行確定[5-8]。它的計算公式如式(1)所示。

式中:[Q]代表特征子集;[D]、[L]、[E]為數據特征點。

傳統的小數據集可以實現很好的性能加速,但不能滿足當前不斷增長的數據量需求。GB級或TB級的數據規模使計算單個特征子集的速度變得非常緩慢,甚至會由于內存限制和其他問題導致其計算失敗。此類問題最流行的解決方法之一是使用MapReduce模型,模型的求解式[MP]如式(2)所示。

式中:[Q]代表特征子集;[D]、[L]為數據特征點。

MapReduce模型降低了并行編程的難度,成為云計算平臺的主流并行編程模型,可靠性和容錯性高。輸入數據被自動分區并發送到其他計算節點后在Map端進行計算。映射接收輸入鍵值時,需要生成中間鍵值。MapReduce模型收集中間所有具有相同鍵值的值,并將它們傳遞給Reduce函數。Reduce函數接收數據輸入,然后將這些值組合起來形成一組新的數值,最后計算出結果并輸出。Hadoop平臺是工業界和學術界廣泛使用的MapReduce模型的重要實現平臺之一,主要由Hadoop內核、MapReduce和Hadoop分布式文件系統組成。

匹配追蹤算法MapReduce(MP)和動態規劃算法Dynamic Programming(DP)在幾個步驟中可以并行化進行特征選擇。MP用于并行化模型層,缺點是不能處理大量數據。DP用于并行化數據層,但忽略了模型本身的并行化。本文將兩種方法有機結合,提出一種模型數據并行化方法(簡稱MDP法)來改進人工蜂群算法。簡而言之,改進算法可以為每次迭代創建一個搜索策略。多線程候選特征子集可以啟動所有特征子集的重要性計算模塊,其中每個特征子集的重要性計算模塊都可以使用MapReduce模型來計算。實際上,MDP法采用一種兩相并聯模式,在計算出所有特征子集的重要性后,再進行特征篩選。利用改進人工蜂群算法提取變量,可以采取式(3)進行計算。

式中:[A]代表提取的變量;[C]代表初始值;[Y]代表變化矢量;[X]代表實際曲線變化。將提取的變量與最優解融合,利用式(4)即可提取并行特征。

式中:[P]代表最優解;[K]代表函數變量。代入相關參數,進行并行特征提取,此時提取出的數值即為最優解。

1.3 設計特征選擇復雜粗糙集模型

實際應用中,通常有多種類型的數據,如符號、數字、設置值、缺失數據等。作為數據建模和規則提取的重要方法之一,粗糙集取得了較大進步。特征選擇復雜粗糙集模型的優勢在于可以在不使用先驗知識的情況下發現數據特征。當復雜數據像其他建模方法一樣高維、大容量時,數據融合法存在耗時過長甚至無法處理的缺點。因此,本方法提出有效執行復雜數據融合的關系,設計相應的復雜粗糙集模型。基于粗糙集設計各種特征選擇算法,關鍵步驟是計算近似二元關系的計算式[CV],如式(5)所示。

式中:[CV]代表流量系數;[A]代表提取的變量;[K]代表函數變量;[P]代表相關參數。根據式(5)構建特征選擇復雜粗糙集模型。

本方法引入了復雜關系并提出了復雜的粗糙集模型。非符號數據在實際應用中非常普遍,為了解決這個問題,需要引入不同的二元關系來處理不同的數據類型,因此提出了各種擴展的粗糙集模型。

1.4 實現大數據特征選擇

為改進人工蜂群算法,本方法還需構建一個特征學習模型。假設有[n]個訓練樣本,它們都采用無監督學習法來學習高級表達式,需要建立學習主要目標,即在分類和回歸問題中估計條件分布。

所有的預訓練方法都基于這樣的假設,即各個輸入數據的邊際分布包含有關條件分布的重要信息。當有大量標記數據時,采用監督學習方法通常非常有效。但是,如果只想要輕松地獲取少量未標記數據,則需要將現有的標記數據與大量未標記數據相結合,以提高邊緣分布估計的準確性。舉一個線性特征空間的例子,潛在表示可只從未標記的數據中學習,或可只從標記的數據中學習,也可同時從兩者中學習。不難發現,無監督學習方法能更好地分布數據,而監督學習方法可很好地進行分類,但不能保證與所需數據分布呈現一致性狀態。協作培訓有助于產生良好的表達能力。

2 試驗分析

在多個數據集上應用多個分類算法往往不能更直接地比較各個方法的性能,所以需要通過假設檢驗來進行驗證。本文采用顯著性檢驗方法比較兩種方法的差異性,且該方法不受條件和假設的限制。Friedman檢驗要求多個樣本間無顯著差異。

2.1 試驗準備

首先提出一種特征選擇和特征構造方法,通過GP先構造多特征,然后再用GP做特征選擇,最后用K最鄰近(K-Nearest Neighbor ,KNN)分類器測試分類性能。在數據集上比較兩種方法的分類效果和特征維數。使用mini-batch SGD方法,即每次使用80個訓練樣本,權重衰減因子一般設為0.000 5,Momentum因子初始為0.5,在迭代過程中線性增加到0.9,通過均勻分布進行初始化。

2.2 試驗結果與討論

對改進前后數據特征選擇方法進行檢測,試驗結果如圖2所示。

從圖2可知,改進算法的大數據特征選擇方法性能優于未改進算法,其特征選取數目少,選取精度高。

3 結語

數據特征選擇在數據篩選與傳輸中占有重要地位,提高數據特征選擇精度對整個數據特征選擇流程優化具有重要影響。本文對人工蜂群算法進行改進,優化其精度和尋優度,并通過對比試驗證明改進算法后大數據特征選擇方法性能優于改進前。改進后特征選擇方法的特征選取數目少,選取精度高,有一定的應用價值,且具有高效性。

參考文獻:

[1]王俊,馮軍,張戈,等.基于改進灰狼優化算法的醫學數據特征選擇應用研究[J].河南大學學報(自然科學版),2020(5):570-578.

[2]曾海亮,林耀進,王晨曦,等.利用一致性分析的高維類別不平衡數據特征選擇[J].小型微型計算機系統,2020(9):1946-1951.

[3]李帥位,張棟良,黃昕宇,等.數據特征選擇與分類在機械故障診斷中的應用[J].振動與沖擊,2020(2):218-222.

[4]劉輝,曾鵬飛,巫喬順,等.基于改進遺傳算法的轉爐煉鋼過程數據特征選擇[J].儀器儀表學報,2019(12):185-195.

[5]劉芳.基于大數據特征選擇的深度學習算法[J].赤峰學院學報(自然科學版),2019(5):46-48.

[6]高薇,解輝.基于粗糙集與人工蜂群算法的動態特征選擇[J].計算機工程與設計,2019(9):2697-2703.

[7]吳穎,李曉玲,唐晶磊.Hadoop平臺下粒子濾波結合改進ABC算法的IoT大數據特征選擇方法[J].計算機應用研究,2019(11):3297-3301.

[8]孫倩,陳昊,李超.基于改進人工蜂群算法與MapReduce的大數據聚類算法[J].計算機應用研究,2020(6):113-116.

3246500338203

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 波多野衣结在线精品二区| 思思99热精品在线| 久久五月天综合| 午夜精品区| 亚洲午夜久久久精品电影院| 国产三级国产精品国产普男人| 波多野结衣久久精品| 波多野吉衣一区二区三区av| 日韩欧美91| 熟妇人妻无乱码中文字幕真矢织江| 日韩乱码免费一区二区三区| 2022国产91精品久久久久久| 91丨九色丨首页在线播放| 91精品免费高清在线| 99热最新网址| 国产打屁股免费区网站| 日韩在线视频网| 成人a免费α片在线视频网站| 人妻无码中文字幕第一区| 久青草国产高清在线视频| 四虎精品国产AV二区| 国产精品制服| 免费国产一级 片内射老| 国产精品大白天新婚身材| 成人免费黄色小视频| 高清精品美女在线播放| 亚洲欧洲自拍拍偷午夜色无码| 亚洲日韩在线满18点击进入| 91毛片网| 成人午夜免费视频| 91蝌蚪视频在线观看| 成人午夜免费视频| 国产日韩欧美成人| 欧美日韩资源| 欧美精品成人一区二区视频一| 国产精品亚洲天堂| 91免费国产在线观看尤物| 99热亚洲精品6码| 欧美日韩福利| 国产主播喷水| 久久精品无码专区免费| 国产精品网曝门免费视频| www亚洲精品| 亚洲欧美在线精品一区二区| 在线看片国产| 在线播放真实国产乱子伦| 91丝袜美腿高跟国产极品老师| 成人a免费α片在线视频网站| 人妻夜夜爽天天爽| 亚洲日本韩在线观看| 国产黄色片在线看| 男人天堂亚洲天堂| 91福利免费| 看国产一级毛片| 国产女同自拍视频| 亚洲天堂自拍| …亚洲 欧洲 另类 春色| 狼友视频一区二区三区| 国产精品嫩草影院视频| 国产无码精品在线播放| 九九热精品视频在线| 久久网欧美| 国产精品99r8在线观看| 夜夜操狠狠操| 亚洲精品无码av中文字幕| 色综合激情网| 欧美日韩中文国产| 亚洲国模精品一区| 国产成人精品视频一区视频二区| 国产一级精品毛片基地| 亚洲中久无码永久在线观看软件| 波多野结衣视频一区二区 | 伊人久久精品无码麻豆精品| 中国黄色一级视频| 欧美午夜网| 精品国产网| 国产麻豆91网在线看| 国产三级国产精品国产普男人| 久久国产精品国产自线拍| 国产精品久久精品| 久久香蕉国产线看精品| 最新亚洲av女人的天堂|