999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據平臺聚類分析系統的設計與實現

2024-04-29 00:00:00孫雪峰
數字通信世界 2024年2期
關鍵詞:大數據

摘要:互聯網領域蘊含著海量的數據信息,且這些信息呈現出多樣性以及復雜性,總體而言,可以大致將這些數據劃分成用戶行為數據和內容數據,科學精細地分析處理這些數據,是強化用戶分群治理效率、內容分類研究以及實現精細化運營的重要手段。但現階段尚無一站式的大數據聚類分析系統可供人們使用,因此,文章詳細分析和闡述了基于大數據平臺的聚類分析系統設計與實現,以此為相關工作人員提供參考。

關鍵詞:大數據;聚類分析;系統設計;系統實現

Design and Implementation of Cluster Analysis System for Big Data Platform

SUN Xuefeng

(Capital University of Economics and Trade, Miyun Branch, Beijing 101500, China)

Abstract: The internet field contains a vast amount of data information, which presents diversity and complexity. Overall, this data can be roughly divided into user behavior data and content data, and scientifically and meticulously analyzed and processed. It is an important means to strengthen the efficiency of user group governance, research on content classification, and achieve refined operations. However, at present, there is no one-stop big data clustering analysis system available for the public to use. Therefore, this article conducts research on this topic, analyzes and elaborates in detail on the design and implementation of clustering analysis systems based on big data platforms, in order to provide reference for relevant staff.

Key words: big data; cluster analysis; system design; system implementation

1" "大數據平臺聚類分析系統架構設計

1.1 功能架構設計

用戶聚類分析系統功能架構設計首先是創建聚類任務,根據相對應的核心條件(比如圈人條件以及調度頻率等),待聚類任務運行完畢后創建cluster level數據便能夠予以可視化呈現。之后在可視化呈現的基礎上通過人工予以再次標注,并予以再次聚合計算,如此便可生成tribe level指標數據并用于用戶分析。如圖1所示[1]。

1.2 技術架構設計

(1)前端展示:具備與用戶進行交互的功能。用戶通過該頁面登錄進入該聚類分析系統,之后用戶進行的創建聚類任務、查看聚類結果等相關操作行為均在該模塊范圍內[2]。

(2)后端調度:該模塊的核心職責是響應前端傳輸至此的全部請求,同時和數據庫、HDFS、Hive等系統協同合作,將全部信息內容予以歸類整合以及權限校驗等,最后利用JSON格式傳輸回前端,再通過前端的渲染之后呈現至用戶的顯示設備上。

(3)算法聚類:該模塊在獲取到后端圈選完成的人群樣本之后會予以K-Means聚類分析,把接收的樣本全部根據用戶設置的K值予以聚類,再把存在一致或類似行為特點的人聚合至相同的cluster內,最后便會獲得一份極具應用價值的離線數據信息,該信息內容涵蓋關鍵的cluster以及user對應關系,全部cluster分布,接著后端模塊便可通過該信息成果實施離線模式的計算,以此獲得全部cluster指標。

(4)離線計算:該模塊在聚類結束后,會對聚類保存的內容予以附加指標計算,以此獲取全部cluster指標。cluster指標的獲取主要源于維度建模的數據庫機制,屬于極具代表性的大數據離線計算方法,其運行原理為工作流的編排方法,各個聚類任務間均能夠非間接性地配備單向依賴關系,其在觸發工作流任務計算期間還能夠根據提前設定完成的層級予以運算,以此獲取最好結果[3]。

2" "大數據平臺聚類分析系統的實現——算法聚類實現

2.1 算法選型

先明確目標,本文中設計的聚類分析系統,其目標是完成對用戶以及其他內容的聚類分析。但需要注意的是,因公司內部的算法部門早已對其予以算法模型性訓練,因此多數用戶均具備64維向量結果。站在總目標的角度分析,不僅要具備允許用戶進行個性化設置聚類顆粒度的性能,還需呈現cluster演變歷程和移動變化信息。因此,根據以上重點內容,能夠明確并篩選出最佳聚類算法時間要素(具體內容如下),之后遵循要素進行算法實驗,以此促成大數據平臺聚類分析系統性能的實現[4]。

2.1.1 要素一:目標64維推薦向量在空間中的分布情況

從聚類系統內目標用戶分析需求最高的樣本群體中任意選擇了5 000位用戶,并對其64維推薦向量予以降維處理,待降至二維之后便可以觀察其分布狀態(見圖3)。各個群體間具有重復部分,這便證明差異性群體間依舊存在相似行為操作,如此就能夠將其歸納成大群體tribe,因此用戶推薦向量于二維空間中的分布狀態呈球狀和凸集的數據。

2.1.2 要素二:算法的復雜性、數據量及其資源的trade-off

因該聚類分析系統的目標為構建基于大數據的一站式聚類分析平臺,且聚類任務均為用戶自主選定,傳輸文件的樣本選定方法控制在最大只允許1 GB的文件予以上傳,因利用以上條件選定的樣本數量難以得到有效控制,所以待用戶精準選定某范圍時,其樣本大約會有幾十萬,若條件控制并非高精度,其樣本的實際數量便會達到千萬及以上。針對此類樣本,應有效地得到其64維推薦向量,如此便會應用到極多機器資源(比如內存以及CPU等)。基于此,選定和應用的算法決不可具備極強的復雜性,否則算法便會耗費大量時間進行擬合,同時聚類系統也要于相同時段對多種差異性任務予以聚類,進而占據過多資源造成浪費[5]。

2.1.3 要素三:可理解性以及算法穩定性

(1)可理解性:此聚類分析系統的目標用戶普遍為產品經理、運營以及管理人員,多數用戶早已對其要觀察監測的對象有一定了解,但也僅限于數據樣本自身,如年齡、地域、操作系統的分布等。在創建聚類任務過程中,與算法強相關的錄入信息不可過多,盡量控制到最少,僅輸入一個聚類顆粒度也允許,如果仍需用戶再次選定相應的數據信息,便不會對用戶快速掌握此系統而提供便利。

(2)算法穩定性:此穩定性具備雙層意義:一是指算法運行的穩定性,即在一致性的輸入和較小差異性的資源條件下,需要在較小差異性的時間內穩定得出一致結果;二是指獨立聚類任務差異性周期調度instance中的cluster需不間斷地維持穩定[6]。

2.2 算法實驗

(1)P y t h o n S k l e a r n :通過P y t h o n具備的Sklearn機器,掌握package內具備的clustering算法邏輯思想以及應用方法,再選擇高契合度的KMeans或MiniBatchKMeans進行聚類。

(2)Spark Scala Mllib:通過Spark Scala內含有的Mlib機器,有效掌握package內具備的clustering算法邏輯思想以及應用方法進行聚類。Spark Yarn分布式執行體系,其制定速度存在較大的波動性,速度值忽高忽低,且極易受到Yarn隊列資源的干擾和束縛,若Yarn隊列資源儲量足夠豐富,可顯著提升其執行速度和穩定性。

(3)大小數據量場景:因顧慮高資源是否充足,Spark Yarn集群資源相對稀缺,極易高干擾聚類算法的實施速度和效果,因此該處進行了大小數據場景拆分處理。

(4)本次實驗涉及的相關數據信息:Python的本地內存容量為276 GB,且還支持數據量的持續增加,其向量維度為64維,聚類算法實現的詳細步驟見圖4所示。

3" "結束語

綜上所述,為有效設計并構建出基于大數據的一站式聚類分析系統,本文從聚類系統的功能以及技術架構入手,詳細分析和闡述了其設計內容,并根據三要素選定聚類分析系統的高匹配度聚類算法,同時還給出了實驗相關數據,為用戶內容以及其他內容提供高效處理的平臺,同時也給該領域的后續研究提供參考。

參考文獻

[1] 龔靜,劉現芳.云計算中基于群體智能算法的大數據聚類挖掘[J].科技創新與生產力,2022(9):87-90.

[2] 江雪姣.基于大數據技術的網絡信息資源分類檢索方法[J].信息與電腦(理論版),2022,34(13):10-12.

[3] 符春.大數據平臺聚類分析系統的設計[J].電子技術與軟件工程,2022(13):202-205.

[4] 肖川.基于Spark的集成電路專利數據聚類分析研究與實現[D].南昌:南昌大學,2022.

[5] 解瑩.基于大數據聚類分析的電網信息化運維系統設計[J].電子技術與軟件工程,2020(15):165-166.

[6] 翁健.基于Hadoop的IPv6網絡安全日志大數據的聚類分析與應用[D].蘭州:蘭州交通大學,2019.

作者簡介:孫雪峰(1980-),男,北京人,講師,博士研究生,研究方向為計算機應用技術專業、計算機網絡與應用技術、新媒體與網絡傳播。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产91蝌蚪窝| 美女毛片在线| 国外欧美一区另类中文字幕| 精品久久蜜桃| 国产免费网址| www中文字幕在线观看| 97在线视频免费观看| 91精品专区| 91福利国产成人精品导航| 欧洲高清无码在线| av大片在线无码免费| 日本高清有码人妻| 亚洲AV无码乱码在线观看裸奔| 99久久婷婷国产综合精| 99激情网| 国产成人精品午夜视频'| 久久精品国产精品一区二区| 伊人查蕉在线观看国产精品| 99精品久久精品| 69综合网| 久久99国产综合精品1| 全部免费特黄特色大片视频| 日韩久草视频| 国产手机在线观看| 手机永久AV在线播放| 日本在线国产| 亚洲精品老司机| 2020极品精品国产| 欧美国产精品不卡在线观看| 欧美天堂久久| 91无码人妻精品一区| 在线五月婷婷| 日本道综合一本久久久88| 日本人又色又爽的视频| 日韩精品专区免费无码aⅴ| 国产97视频在线| 午夜欧美理论2019理论| 国国产a国产片免费麻豆| a级免费视频| 亚洲一区毛片| 成人va亚洲va欧美天堂| 男女精品视频| 在线观看国产网址你懂的| 亚洲成人播放| 久久婷婷国产综合尤物精品| 456亚洲人成高清在线| 全午夜免费一级毛片| 九九精品在线观看| 中文纯内无码H| 免费不卡视频| 国产一级毛片高清完整视频版| 亚洲美女高潮久久久久久久| 国产精品第一区在线观看| 国产一区二区三区日韩精品| 亚洲精品少妇熟女| 久久人搡人人玩人妻精品| 精品少妇三级亚洲| 精品国产福利在线| 无码'专区第一页| 97视频免费在线观看| 五月天久久综合国产一区二区| 中文字幕首页系列人妻| 亚洲第一成年人网站| 91黄色在线观看| 国产粉嫩粉嫩的18在线播放91 | 国产超碰在线观看| 视频一本大道香蕉久在线播放| 日韩欧美中文字幕在线精品| 精品福利国产| 久久国产精品娇妻素人| 日韩视频免费| 91在线中文| 狠狠色综合网| 亚洲国产成人久久精品软件| 欧美成人在线免费| 五月天在线网站| 久久黄色影院| 欧美激情视频一区| 久久一本精品久久久ー99| 超清无码一区二区三区| 女人18毛片一级毛片在线| 亚洲动漫h|