999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark平臺的大數據挖掘技術分析

2021-11-21 23:26:44
無線互聯科技 2021年2期
關鍵詞:數據挖掘用戶

(深圳博十強志科技有限公司,廣東 深圳 518000)

0 引言

信息時代背景下,云計算、物聯網技術的快速發展,各類數據信息急劇增長,怎樣才能夠將海量的數據信息轉變為有效的資源,是大數據技術研究的要點。通過大數據技術來挖掘海量數據存在的內在規律,確定有價值的信息數據并予以利用,可以打開全新的思維與認知角度,這對于社會經濟的發展意義重大。Spark平臺作為針對大數據集合的低延遲集群分布式計算系統,可以為大數據挖掘效率的提升提供更多支持。

1 大數據挖掘技術分析

數據挖掘技術現在已經得到了廣泛應用,可以利用算法來挖掘出海量數據內存在的有價值的信息以及有趣模式。可以分為3個階段:(1)數據的預處理。轉化采集到的所有原始數據,確保其在經過處理后可以符合項目需求,轉變成有效數。該步驟可以彌補原始數據存在的缺陷,提高數據的完整性與可靠性[1]。數據抽取操作比較簡單,可通過較快的速度從大量的數據信息內獲得有價值的數據。(2)數據的挖掘。首先要確定數據倉庫內各類數據的普遍特征,并根據此確定對應的算法工具,實現對目標數據的進一步處理。該階段為數據挖掘技術的核心,為達到最終目的,關鍵是要保證所選挖掘算法的適用性。(3)知識表示與模式評估。模式主要是完成數據挖掘成果的有效表達,最終構建出有識別能力的完整表達模式。

2 基于Spark平臺的大數據挖掘技術

2.1 基于Spark平臺的大數據生態系統

2.1.1 Spark Runtime

對Spark Runtime分析時,首先要確定其功能性,例如任務調度與內存管理等。在利用RDD結構來進行Spark內部的數據傳輸時,前提是要確定Spark核心邏輯數據信息,在部分條件下其會與對象概念有著一定的相似性。第一步想要對全部數據進行多個子集的劃分,同時要求每個子集全部能夠傳輸到集群內任意的節點做進一步的處理。第二步是對計算中間結果提供可靠保護,通過此來獲取與計算結果相同,同時在子集節點進行備份存放的文件內容[2]。第三步則是在任意數據子集計算錯誤的情況下,其余子集全部要做再一次的整理,滿足容錯機制。

2.1.2 Graph X

Graph X為Spark的關鍵子項目,在Spark基礎上進行構建,基于大規模圖計算,通過Graph X衍生特征支持,可實現Spark生態系統對于大圖數據處理時的豐富計算。以及在于其他相關組件進行系統融合時,在強大數據處理能力的支持下,便能夠確保所有應用全可通過多項場景來獲取。對Graph X功能性進行分析,可確定其能夠提供豐富的圖數據操作符,例如核心與優化操作符等[3]。并且,Graph X還可以滿足多個分布集群的圖運算,以及具備充足的API接口,尤其是在達到一定圖規模的情況下,可進行精益化算法,推動分布式圖集的大規模處理。作為Spark的重要部分,Graph X的關鍵就是可進一步提高數據吸收與規模。

2.1.3 Spark Streaming

SPark系統除了具有良好的擴展Spark數據能力,還可以做到嚴格按照時間方式進行Spark Streaming數據流的分割,最終構成RDD,利用比較小的時間間隔來處理流式數據,會在一定程度上受到處理延時影響,所以可以將其看做是準時處理系統[4]。并且,Spark Streaming具有非常強的容錯性,包括錯誤處理以及恢復等方面均具備較大的優勢。以及Spark Streaming還可無縫對接相關Spark生態模塊,除了共同完成流數據以外,對于部分復雜現象也可以做到有效處理。

2.2 基于Spark平臺的開發環境與分布式集群構建

2.2.1 硬件系統

為達到優良的兼容性與運行性效果,就需要采用Linux操作系統來構建Spark分布式集群。安排1臺主機的3臺虛擬機進行環境測試,并完成Spark分布式集群的構建,其中分為2個Worker節點與1個Master節點,各節點分別負責不同的功能。例如Master節點對應功能是見單機編寫,同時調節Spark分布式應用程序,因此需要較高的配置。一般來講Master節點對應的是4G內存與四核處理器,而Worker節點對應的配置則多為2G內存與二核處理器。另外,為保證各個節點功能的有效體現,全部使用的是以PCIE為基礎的SSD固態硬盤,在保證讀寫效率達標的情況下,還能夠進一步做到高效率、高質量運行。通過對集群構建的管理,能夠以更少的運行成本,來達到較高的運行速度與工作質量,并且還能夠根據實際需求來靈活的調整節點數量。

2.2.2 分布式Spark集群

先完成Scala語言的安裝,對每臺虛擬機的slaves文件內容進行修改,修改后要全部為見集群中Worker節點主機名,然后要進一步完成節點Spark安裝目錄Spark-env.sh文件的修改。配置系統的jdk環境變量,對系統Scala安裝路徑進行修改,確定為Scala-Home[5]。另外,要注意集群內各節點對應的Spark-env.sh文件必須要核對確認其與Slaves文件內容相同,并且在完成所有配置后,可直接運行jps命令查看集群啟動情況。

2.2.3 Spaek的IDE開發環境

Scala語言所應用的開發環境是IDEA,這樣便可以選擇IDEA為Spark應用程序編程與開發環境。其中,需要注意IDEA使用過程中所產生的大量緩存文件,可以通過應用SSD固態硬盤實現文件存儲,因此來減少對空間的占用量,同時降低I/O資源的消耗量,為系統的穩定運行提供有利條件。待IDEA配置完成后,便可對Spark程序做下一步的測試。

3 基于Spark平臺的Apriori算法分布式實現

Apriori算法是以挖掘關聯規則為基礎的一種頻繁項集算法,能夠反復掃描交易數據庫信息,然后基于候選頻繁集生成最終的頻繁集。其中定義最小支持度為算法的核心流程,對所有的頻繁項集進行選擇,然后按照置信度實現關聯規則的生成。基于Spark平臺Apriori算法分布式實現,可以分為兩個步驟來實現:第一步,產生頻繁項集,所有事務集全部根據RDD的形式在各機器上分布,積累項目數量,以及保留支持度較高的項集。第二步,通過頻繁項集衍生頻繁項集,項集自連接生成Ck+1,掃描數據庫內容,最后根據Ck+1生成頻繁項集。

4 基于Spark平臺的分布協同過濾推薦實現

4.1 MLlib算法庫

對計算算法流程進行分析,可確定其具有較高的復雜性,在進行迭代計算時,全部計算均需要放入磁盤中等待任務的啟動與處理,整個過程需要消耗大量CPU。基于Spark平臺可在內存內直接完成部分的工作處理,相應的迭代部分計算任務會直接轉存在內存中,以此便可以進一步提高迭代計算的計算效率,并且在部分必要的條件下,還能夠實現磁盤與網絡的運作。總結來講,在迭代計算中Spark具有更加明顯的優勢,其能夠作為分布式機器學習平臺存在。

4.2 協同過濾算法

協同過濾算法的應用,先是要選擇確定一個靠譜的想法,隨后便可向用戶提供該想法。算法的步驟可分為以下流程:(1)系統過濾。篩選存在共同興趣的用戶,然后以喜好對物品進行選擇和分類,并將其構成新的集合或序列。在此過程中可定義用戶為鄰居,同時要對相應用戶進行針對性組織與利用,確定最有效的執行方法。(2)協同過濾。依次完成用戶喜好收集、用戶使用物品相似性分析以及基于計算結果推薦各步驟,其中用戶喜好整合是影響最終推薦針對性的核心要素。首先要選擇一種用戶系統,然后根據用戶行為來進行分組,對數據行為進行可靠收集,然后做進一步的數據預處理,通過用戶喜好向其推薦可能會喜歡的物品。

5 結語

基于Spark平臺的分布式Apriori算法有效的彌補了其他算法的缺陷,在大數據關聯分析中應用優勢明顯,并且有機結合Spark與MLlib制定分布式協同過濾推薦在分布式集群中的運行方案,在大量推薦系統的應用中效果顯著,值得進一步的研究分析。

猜你喜歡
數據挖掘用戶
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
數據挖掘技術在中醫診療數據分析中的應用
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 麻豆精品国产自产在线| 18禁不卡免费网站| 国产精品免费p区| 亚洲码在线中文在线观看| 欧美一级大片在线观看| 丁香婷婷综合激情| 超级碰免费视频91| 免费人成网站在线观看欧美| 2021天堂在线亚洲精品专区 | www.youjizz.com久久| 在线观看无码av免费不卡网站| 亚洲日本中文字幕乱码中文| 久久亚洲国产一区二区| 国产亚洲视频播放9000| 婷婷开心中文字幕| 亚洲欧美日韩高清综合678| 欧美成在线视频| 久久久久免费看成人影片| 国产综合日韩另类一区二区| 中美日韩在线网免费毛片视频| 日韩第九页| 日韩在线播放欧美字幕| 亚洲精品成人福利在线电影| 亚洲—日韩aV在线| 精品久久香蕉国产线看观看gif| 亚洲欧洲日韩综合| 伊人蕉久影院| 日本一区二区三区精品国产| www.国产福利| 国产精品女人呻吟在线观看| 午夜人性色福利无码视频在线观看| 98超碰在线观看| 日韩天堂视频| 在线视频精品一区| 天天综合网亚洲网站| 在线视频亚洲色图| 精品天海翼一区二区| 青青青国产免费线在| 中文字幕调教一区二区视频| 亚洲欧美综合在线观看| 国产成人精品在线| 亚洲AⅤ综合在线欧美一区| 毛片基地美国正在播放亚洲 | 欧美国产日韩在线| 91九色最新地址| 久久黄色一级视频| 四虎精品黑人视频| 欧美福利在线观看| 无码高潮喷水在线观看| 91青青在线视频| 毛片网站在线看| 九九热精品免费视频| 日本道中文字幕久久一区| 亚洲欧美一区二区三区图片| 欧美成人影院亚洲综合图| 国产精品亚洲精品爽爽| 亚洲欧美日韩中文字幕在线一区| 国产真实自在自线免费精品| 99精品福利视频| www亚洲精品| 97色婷婷成人综合在线观看| 女人18毛片久久| 在线免费不卡视频| 国产乱人伦精品一区二区| 亚洲毛片在线看| 亚洲国产天堂久久综合226114 | 国产精品无码作爱| 国产伦精品一区二区三区视频优播| 性网站在线观看| 国产极品粉嫩小泬免费看| 97se亚洲综合在线| 这里只有精品在线| 欧美日韩国产成人高清视频| 亚洲精品爱草草视频在线| 亚洲久悠悠色悠在线播放| 国产在线一区二区视频| 国产成人亚洲综合A∨在线播放| 波多野结衣中文字幕一区| 欧美色图第一页| 中文字幕第4页| 91在线中文| 久久毛片网|