999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

云計算技術下海量數據挖掘的實現機制

2019-04-26 08:26:48崔辰
微型電腦應用 2019年4期
關鍵詞:數據挖掘用戶信息

崔辰

(川慶鉆探工程有限公司 長慶鉆井總公司, 西安 710018)

0 引言

在現代云計算、社交網絡、移動通信互聯網及數據自動收集技術不斷發展的過程中,人類社會也出現了一定的變化,其中的數據量也呈爆發式的增長。美國互聯網數據中心通過研究表示,目前世界中所產生的數據大概呈著50%左右的速度增長,每隔兩年翻一倍,并且大部分數據都是最近幾年所產生的,大數據時代已經到來。數據屬于現代社會中尤為重要的資產,擁有的信息量已經成為制約并且決定社會發展的主要因素,人們急需要從數據中將具有價值并且寶貴的信息進行有效的挖掘,從而促進企業實現正確決策。云計算數據挖掘平臺能夠滿足海量數據挖掘需求,此平臺能夠實現資源的動態分配及調度,并且具有較高的可靠性及虛擬化特點。

1 云計算和數據挖掘分析

1.1 云計算

目前對于并沒有統一定義,客戶端利用網絡自助將運算任務為服務端發送,服務器運算之后將運算結果對客戶端進行發送,此過程就是云計算。云計算的主要形式包括:

其一,軟件即服務(SaaS)。軟件即服務包括客戶和服務供應商,應用軟件在服務供應商服務器端統一部署,在客戶對軟件具有使用需求的時候,就可以對供應商購買應用軟件,并且利用瀏覽器實現接收。此種模式的優勢為:客戶在具備軟件使用需求的時候,不需要投入大量資金在軟件、硬件及相應維護中;服務供應商能夠實現應用額元件實現統一管理及維護[1]。

其二,平臺即服務(PaaS)。在此種模式中,服務供應商提供服務屬于平臺,也就是對客戶提供多種服務器資源、硬件資源及開發環境。用戶在供應商所提供的平臺中實現滿足自身需求應用程序的開發,并且通過互聯網和相關服務器對客戶進行傳遞。根據此模式,用戶能夠實現相應數據庫管理軟件、應用程序的開發。

其三,基礎設備服務(IaaS)。此服務模式主要是以托管型為基礎的硬件方式,用戶在支付費用之后,就能夠使用服務供應商中的虛擬服務器及資源等[2]。

1.2 數據挖掘

數據挖掘指的是從大量數據中實現關聯、變化、有意義及異常結構抽取的過程,此數據大部分都具有噪音,并且不完全,而且隨機、模糊。以此表示,數據挖掘技術涉及了人工智能、統計學、模式識別、機器學習等。目前,數據技術已經被廣泛應用到金融、典型、科學研究及互聯網等多領域中,比如實現商品銷售量預測、銀行分析客戶分銷使用渠道等。傳統數據挖掘技術是以數據倉庫及關系數據庫為基礎實現數據計算、統計及分析,尋找其中的關系,從而使挖掘理論價值得到提高,此過程會消耗大量存儲及計算資源。

在移動互聯網不斷發展的過程中,數據規模從傳統TB級發展為ZB級,并且還在持續增加, 從而使傳統數據挖掘系統無法滿足此需求,主要為:挖掘效率較低;軟件及硬件的成本較高,以此消耗大量資源及空間;體系架構較為薄弱,傳統數據挖掘技術都是通過單一算法作為主體,沒有適應普遍性[3]。數據挖掘的邏輯結構,在實現數據挖掘過程中,首先要對數據進行前處理,之后實現數據挖掘,通過相應算法得到結果評價及表達,之后將其中有價值的信息進行提取,如圖1所示。

2 數據挖掘中云計算的優勢

在數據挖掘中使用云計算,是因為云計算自身具備海量存儲能力及分布式的并行處理能力。具體來說,云計算在數據挖掘中使用的主要優勢為:

其一,云計算具備高效且實時的分布式并行數據挖掘能力。在面對海量數據實現挖掘的過程中,能夠更加展現出其優越性。另外,云計算服務業能夠為不同規模組織提供優質服務,并且使計算成本降低,實現大型數據快速處理,提高企業效益,還能夠避免企業過于依賴大型高端機。

其二,對大部分用戶來說,不需要重視使用云計算技術實現數據挖掘過程中地層實現的過程。在數據塊劃分、計算任務調度及加載節點的時候,都是通過系統實現自動分配[4]。

其三,云計算技術數據的挖掘門檻比較低,大眾用戶利用云計算服務平臺就能夠根據自身需求服務,為需求量較大的網絡用戶提供一定的個性化信息服務。

其四,基于并行化,云計算具備結點動態增刪的能力,充分使用原本的設備添加結點,使海量數據處理速度及能力得到有效提高,并且使設備生命力和使用率得到有效提高[5]。

3 云計算海量數據挖掘的實現

3.1 云計算下的海量數據挖掘模型

在海量數據挖掘中使用云計算技術,能夠充分展現云計算中的大容量存儲及并行處理的能力,并且還能夠有效解決目前海量數據挖掘過程中的難點內容。云計算下海量數據挖掘的模型。如圖2所示。

通過圖2可以看出來,基于云計算技術的海量數據挖掘模型主要包括三層,分別為云服務層、數據運算層及用戶層。其中云服務層屬于最基層,其主要目的就是實現海量數據的存儲,并且具備分布并行數據的處理。云計算環境不僅要保證數據實用性,還要保證數據安全性及可靠性。在數據存儲過程中,云計算技術使用分布存儲方式,具備數據副本冗余存儲功能,保證如果數據丟失,用戶還能夠正常的運轉。目前,普遍使用功能的云計算數據存儲技術包括開源HDFS與非開源GFS兩種。另外,云計算數據充分實現數據并行處理的挖掘,能夠基于多用戶指令,對用戶進行及時回復,還能夠提供數據挖掘服務[6]。

圖2 云計算下海量數據挖掘的模型

數據挖掘運算層屬于第二層,其主要目的就是實現數據預處理及挖掘算法并行處理。數據預處理指的是對大量沒有規則數據實現預先處理,以云計算并行運算模式開展的數據挖掘,一般實現數據預處理過程中主要使用數據分類、轉化、約束及抽調等。實現數據預處理,能夠提高數據挖掘質量,并且提高海量數據挖掘的快速性及實時性。

用戶層屬于最頂層,其是直接面向用戶的,主要目的就是對用戶請求進行有效接收,并且使數據對下一層進行傳遞,使數據挖掘運算結果對用戶進行反饋。另外,用戶還能夠利用可視化界面對任務的進度進行控制和監督,并且對任務執行結果進行實時的查看[7]。

云計算中海量數據挖掘實現的流程為:用戶在輸入模塊中發送數據挖掘指令,并且對系統服務器進行傳遞,服務器就能夠自動根據用戶挖掘指令通過數據庫實現數據的調出,并且在算法庫中實現最優挖掘算法的調出,在實現數據預處理以后,到運算模塊中傳遞,實現數據的深入挖掘,最后將挖掘結果對可視化界面進行反饋,從而便于用戶的查看及了解[8]。

3.2 海量數據挖掘實現算法

3.2.1 SPRINT算法

SPRINT算法主要包括數創建及剪枝過程,因為在實現決策樹創建過程中要實現多次數據遍歷,但是剪枝不需要此過程。那么,對于樹剪枝時間只是創建數的百分之一。所以,重點就是創建樹。SPRINT算法能夠將數據特征充分的展現出來,使用直方圖及屬性表兩種數據結構。直方圖是以屬性表為基礎,屬性表在節點劃分過程中分裂。其會根據不同屬性性質展現出針對性的展現形式。屬性表屬于屬性值,記錄索引和類標記創建三元組,其能夠在除了內存以外介質中停留。直方圖能夠將節點屬性類分布的情況進行充分的展現,在屬性術連續數值型的時候,節點就與兩個直方圖相關,其中Cbelow指的是已經處理樣本的類型分布,Cabove指的是沒有處理的樣本,其能夠利用不間斷刷新尋找最佳分裂點。在屬性屬于離散型的時候,要只是需要直方圖,其中具有此屬性值的類分布信息,只需要對計數矩陣統計圖進行維護[9]。

3.2.2 算法并行設計

算法并行與傳統算法多加入了哈希表,從而對每次節點分裂以后子節點數據信息進行存儲,利用此子節點信息記錄,將其作為節點并行分割的基礎。其中的哈希表主要包括兩種信息,第一種為決策時候節點號碼,使用TreeNodeID表示;第二種為目前樹節點子節點號,使用ChildNodeID表示。

在算法移植的過程中,只要是實現算法MapReduce化,利用Map及Reduce函數開展。函數的N-S圖,如圖3與圖4所示。

圖3 Map函數的N-S圖

圖4 Reduce函數的N-S圖

在以上處理結束之后,屬性表就已經到相應葉子節點中發送,這個時候決策樹的創建已經全部結束,目前節點相關文件都已經到分布式文件系統中存儲,表1為節點信息的保存格式。不管是葉子節點,或者是非葉子節點,都通過N進行表示。其中fleaf表示非葉子節點,tleaf表示葉子節點。使用此種方法,能夠有效提取決策樹結果,如表1所示。

表1 節點信息的保存格式

3.3 實驗結果

本文實驗是使用駕車風險高低預測公用數據及作為本文的訓練集,其能夠將參保車險車主的信息進行記錄,決策樹創建中的節點信息,如圖5所示。

圖5 決策樹創建中的節點信息

為了能夠對算法挖掘模式的正確性進行判斷,所以在實際操作過程中要將所有樣本集分割成為5個沒有交集的組,從而對精準性進行測試,(此方面預測的正確數量較多,表示預測正確率較高,算法精準。)如表2所示。

表2 算法測試結果

通過測算結果表示,算法的精準率為89.25%。以此可以看出來,本文所設計的挖掘算法具有較高的精準性,實驗成功,能夠實現有效分類挖掘[10]。

4 總結

目前云存儲平臺中的數據量在不斷的增加,傳統數據挖掘模式已經無法和現代社會相互匹配,并且也無法實現數據中內在信息的有效挖掘。所以,其對于數據挖掘工作提出了更加全面的需求,在實現云計算和處理系統過程中,要求具備對海量信息存儲及變化的能力,從而實現資源的內在有效挖掘,并且對大量數據進行有效的處理。本文所設計的數據挖掘算法挖掘進度較高,其中的用戶數據性及安全性需要進一步的加強。

猜你喜歡
數據挖掘用戶信息
探討人工智能與數據挖掘發展趨勢
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 国产av一码二码三码无码 | 亚洲精品国产综合99| 亚洲妓女综合网995久久| 亚洲欧洲天堂色AV| 国产小视频a在线观看| 日本高清有码人妻| 亚洲美女一级毛片| 日韩人妻精品一区| 欧美日韩成人在线观看| 操操操综合网| 国产午夜一级毛片| 国产麻豆精品在线观看| 丝袜亚洲综合| 亚洲精品综合一二三区在线| 最新无码专区超级碰碰碰| 亚洲中文字幕久久精品无码一区| 在线观看免费国产| 国产区精品高清在线观看| 成人自拍视频在线观看| 国国产a国产片免费麻豆| 亚洲,国产,日韩,综合一区 | 国产一区二区三区在线观看免费| 国产男人天堂| 亚洲综合婷婷激情| 久久久久久久蜜桃| 18禁影院亚洲专区| 亚洲精品无码抽插日韩| 亚洲无码免费黄色网址| 国产理论精品| 999国内精品久久免费视频| 欧美人与动牲交a欧美精品| 日本在线免费网站| 亚洲天堂成人在线观看| 欧洲免费精品视频在线| 日本国产精品一区久久久| 伊人色天堂| 看你懂的巨臀中文字幕一区二区| 免费jjzz在在线播放国产| 亚洲中文字幕日产无码2021| 国产超碰在线观看| 欧美黄色a| 免费一级毛片| 欧美精品v欧洲精品| 中文字幕自拍偷拍| 国产美女在线观看| 72种姿势欧美久久久久大黄蕉| 日韩在线影院| 国产福利微拍精品一区二区| 国产精品亚洲一区二区在线观看| 国产95在线 | 国产精品视频a| 精品国产女同疯狂摩擦2| 国产男人的天堂| 欧美精品另类| 成人日韩精品| 欧美丝袜高跟鞋一区二区| 亚洲性一区| 国产视频自拍一区| 亚洲妓女综合网995久久| 国产免费羞羞视频| 九色免费视频| AV在线天堂进入| 成人一级黄色毛片| 亚洲V日韩V无码一区二区| 精品久久久久久中文字幕女 | 91成人在线免费观看| 在线毛片免费| 国产成人一区二区| 三上悠亚精品二区在线观看| 首页亚洲国产丝袜长腿综合| 欧美中文字幕在线二区| 伊人成人在线| 国产91色在线| 免费a级毛片18以上观看精品| 亚洲va精品中文字幕| 99伊人精品| 99精品视频播放| 五月六月伊人狠狠丁香网| 日韩高清在线观看不卡一区二区| 大陆精大陆国产国语精品1024| aⅴ免费在线观看| 国产高清色视频免费看的网址|