999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

并行計算視域下大數據挖掘技術的實現

2021-04-04 10:22:42汪澤宇
信息記錄材料 2021年6期
關鍵詞:數據挖掘分類特征

汪澤宇

(三亞學院 海南 三亞 572022)

1 引言

隨著大數據等新興技術的出現,人們生活的各個方面都受到了影響。通過大數據技術可以輕松實現數據的特征分析,為個性化推薦服務提供技術支持。在目前的導航領域、人工智能領域、交通管理領域等多個不同領域中,大數據技術都發揮著出色的作用。比如通過大數據對比技術,交通管理部門就可以根據車主的駕駛行為分辨出哪些車主屬于飲酒駕駛,這種精準化的分辨方式可以很大程度上提高執行的有效率,減少因酒駕、醉駕而引發的交通意外情況,從而保護了人民的財產、人身安全。

隨著數據量的增長,大數據時代正式來臨,在大數據時代中最重要的資源就是數據,它已經由簡單的處理對象演化為了一種基礎性資源,而大數據計算就是對這種資源的有效利用。并行計算在大數據中技術優勢在于計算的并發性,高并發性使得數據處理更加快速,可同時處理的數據量也得到提高。

2 大數據的基本概念

2.1 大數據的定義

大數據其實包含很多概念,可以將達到一定數量級的數據體稱為大數據,也可以將數據處理方式稱為大數據,總之大數據在業界沒有形成統一的定義,人們日常所接觸到的大數據也是比較模糊的,是多類技術的組合。

大數據的特征十分明顯,首先,數據體量大,大數據是在數據爆炸時代提出的新理論,本身“大數據”三個字就說明了這一特點。其次,數據類型復雜、數據價值密度低,大數據的計算就是在許多類型復雜的數據中尋找有特征、有價值的數據,所以以上兩點也是大數據的基本特點。面對如此龐大的數據量,大數據必須有一個快速處理數據的解決方案,否則處理時的時間成本過高,數據便失去了原有的價值。大數據技術想要獲得更加準確的數據特征就必須要處理足夠多的數據量。數據類型復雜和價值密度低也是大數據的基本特征之一,由于大數據本身的數量級十分龐大,其中所包含的數據類型十分復雜,很多數據都是無理化的無用數據或者重復數據,想要在大量的數據中找到有用的信息,就需要進行數據處理和數據挖掘。

2.2 大數據挖掘

大數據挖掘有非常重要的應用價值,最常見的是在電商領域的應用。通過數據挖掘可以獲得商品的評價特征,從而確定商品的使用人群和目標客戶。另一方面,通過數據挖掘也可以實現商品廣告的精準化推送,實現定向廣告和智能推薦的宣傳模式[1]。在互聯網中,每一個網民都有獨特的用網特征,大數據挖掘就是發現這種特征數據并進行分析,使其變成一種可用資源。大數據處理的一般流程分為用戶使用、數據解釋、數據分析、數據抽取集成和數據準備五個步驟。

大數據挖掘的應用十分廣泛,可以為很多商業決策提供參考,但是在某個產品的市場分析領域,大數據挖掘技術可以比較準確地找出商品的潛在客戶,同時也可以分析商品宣傳的實際效果,相對于看廣告轉化率這一固定方法,大數據挖掘技術有更高的容錯率,可以發現更多的意向客戶和潛在客戶。

3 并行數據挖掘

3.1 并行計算技術

通過并行計算來實現并行數據處理,通常使用Hadoop平臺MapReduce工具。并行計算與普通計算最大的區別是允許一組數據同時執行計算,在非并行計算方式中,一組數據計算的執行是順序式的,而并行計算可以將一個計算任務拆分成多個子任務同時進行,并行計算適用于大型且復雜的計算問題。表面看起來并行計算和多線程差不多,但是兩者之間又存在區別,并行計算還與分布式計算有關聯,分布式計算可以在一臺計算機上進行也可以在多臺計算機上同步進行,這些計算機只需要通過一定的網絡協議進行連接即可[2]。

3.2 利用MapReduce進行并行數據挖掘

MapReduce是Hadoop計算平臺的核心部分,通過MapReduce可以方便地實現并行數據挖掘。MapReduce模型屬于一種簡化的分布式程序設計,在處理大量數據的時候非常有優勢,其基本的工作原理就是將要計算的數據集拆分之后自動分布到一個計算機集群中去進行并發運算,這些由普通計算機組成的計算機集群同時進行演算工作,最后將結果進行整理,并行計算模型可以節省大量的時間。MapReduce在執行操作時,會按照創建挖掘任務、設置數據頭文件和算法參數、啟動任務、結果展示這幾個步驟依次完成,其中設置數據頭文件和算法參數這一步驟中,Map操作將數據一對一的映射為另外的一組數據,Reduce則是對數據進行規約,通過函數完成規則的指定。

4 并行數據挖掘算法設計

通過并行計算來完成挖掘算法,最主要的目的是利用并行計算的特性來減少數據挖掘執行所花費的時間,當通過平臺下發一個數據挖掘任務時,平臺會分配給這個任務一些執行ID,得到ID的任務會進入到任務執行隊列中,在檢查了任務信息、計算作業的輸入分片、分局集群感知后,將任務交由JobTracker去執行。TaskTracker在接收到分配的任務之后,會采用對應的分類算法對任務進行特征分析,得出分類分析的模型之后就代表整個任務已經執行完畢,分類模型是由計算得出的,這一過程使用的是并行計算模式??蛻舳嗽谑盏饺蝿找呀泩绦型戤叺男畔⒅?,就會將接收到的分類模型以可視化數據的形式展示給用戶。

4.1 并行分類算法

并行分類算法最常使用的解決方案是決策樹,決策樹是一個分類器,可以對數據進行劃分。決策樹實現所有的算法有很多種,這些算法各有各自的優勢,所以適用的場景也存在差異,實際的算法選擇要根據數據挖掘任務的特征來靈活選用。以SLIO算法為例,SLIO分類器是可以處理連續和離散特征決策樹,其主要特點是通過預排序技術來有效減少計算連續屬性所帶來的代價,這一過程發生在樹的構建環節[3]。

4.2 并行聚類算法

聚類算法具有自我學習功能,相當于一個無監督的環境中仍然可以實現自我學習。聚類自救的基本原理是尋找一個數據集中的特征,并根據特征將擁有相同特征的數據聚集在一起,通過聚類算法將數據庫中數據進行劃分,得到子數據集都是具有一定意義的,并且去除了無理化數據。子類的數據一般都有一種或多種共同特征,甚至是子類的數據都是相同、相近的,較為典型的聚類算法有并行K-均值算法和K-最近鄰算法。

4.3 K-均值算法

K-均值算法被認為是非常簡單而有效地統計算法,其基本實現步驟是選擇一個K值,用以確定簇的總數,總數確定好之后在中間任一位置選定K個樣本為中心點,所有的數據計算都是圍繞這些中心點進行,除去K個樣本中心點之外,其他樣本數據都使用簡單的歐式距離進行樣本賦予,直到新的平均值等于上次迭代的平均值時被終止。

4.4 K-最近鄰算法

K-最近鄰算法是基于類比學習的分類算法,在理論上這種方法比較成熟,且執行起來的可靠性也比較高,被看作是最簡單的機器學習算法。在數據特征空間中,當樣本附近的K個樣本滿足某個分類的歸屬關系,這個樣本就會被認為是屬于此分類的。在K-最近鄰算法中,K值的選擇是非常重要的,K值的選擇會直接影響到整個算法的結果,K值過小和過大都不可以,比如當K值過小的時候,就意味著只有非常相鄰的幾個樣本會被納入到結果計算之中,如果這幾個樣本恰好都不具備某一分類的特征,那么這個樣本就無法被認為是屬于這一分類,這顯然會導致計算結果的不確定性。但是如果當K值過大時,整個樣本區間也會被放大,所以通常會用交叉算法得出一個最優解作為K值[4]。

5 結語

在民用領域中,數據挖掘的實踐意義越來越被看重,不管是在科學研究領域還是在商業決策方面,數據挖掘技術都有著不可替代的價值。并行計算與數據挖掘結合而實現的并行數據挖掘技術,不僅能節約大量的計算時間成本,還能讓數據挖掘所能處理的數據量級得到提升,具有深遠的社會意義和經濟意義,本文正是基于數據挖掘和并行計算理論的研究,提出了并行分類算法和并行聚類算法,希望能為并行數據挖掘技術提供一定的參考價值。

猜你喜歡
數據挖掘分類特征
分類算一算
探討人工智能與數據挖掘發展趨勢
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产一级妓女av网站| 色妞www精品视频一级下载| 三级视频中文字幕| 亚洲三级成人| 欧美日本不卡| 乱人伦中文视频在线观看免费| 九九九精品视频| 欧美亚洲第一页| 99视频国产精品| 久久成人国产精品免费软件| 亚洲性一区| 亚洲成人网在线观看| 国产在线麻豆波多野结衣| 天天躁日日躁狠狠躁中文字幕| 亚洲水蜜桃久久综合网站| 全部免费毛片免费播放 | 无码人中文字幕| 看看一级毛片| 日韩精品久久久久久久电影蜜臀| 中文字幕在线日韩91| 国产人成在线视频| 国产精品视频猛进猛出| 国产在线欧美| 在线毛片网站| 波多野一区| 欧美在线伊人| 亚洲色图欧美在线| 国产精品免费福利久久播放| 亚洲日韩精品无码专区| 国产亚洲精品在天天在线麻豆| 欧美不卡在线视频| 日韩久久精品无码aV| 在线观看无码av免费不卡网站| 天天激情综合| 日本免费新一区视频| 97青草最新免费精品视频| 老司机午夜精品网站在线观看| 免费在线色| 美女视频黄又黄又免费高清| 五月天婷婷网亚洲综合在线| 国产精品天干天干在线观看| 91丨九色丨首页在线播放| 亚洲国产系列| 国产欧美视频一区二区三区| 999国产精品| 国产精品一区二区不卡的视频| 自拍偷拍欧美日韩| 久久久久无码精品| 女高中生自慰污污网站| AV在线天堂进入| 亚洲无码日韩一区| 亚洲精品黄| 国产97色在线| 亚洲最新在线| 国产精品精品视频| 国产极品粉嫩小泬免费看| 国产日本一线在线观看免费| 福利小视频在线播放| 久久五月天综合| 韩国自拍偷自拍亚洲精品| 久久精品国产精品青草app| 色综合婷婷| 欧美另类精品一区二区三区| 极品性荡少妇一区二区色欲| 91av成人日本不卡三区| 99热这里只有精品免费国产| 婷婷亚洲综合五月天在线| 国产在线无码一区二区三区| 亚洲区视频在线观看| 91网址在线播放| 欧美影院久久| 久久精品日日躁夜夜躁欧美| 国产精品视频第一专区| 精品一区二区久久久久网站| 久久99热这里只有精品免费看| 国产成人精品2021欧美日韩| 国产又爽又黄无遮挡免费观看| 日韩欧美国产三级| аⅴ资源中文在线天堂| 国产精品欧美在线观看| 91亚洲精选| 无遮挡国产高潮视频免费观看|