999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的大數據分析和處理

2021-09-26 03:21:04孫開華代余杰封晴
中國新通信 2021年13期
關鍵詞:機器學習大數據技術

孫開華 代余杰 封晴

【摘要】? ? 隨著信息技術的高速發展,如何對海量復雜數據有效分析是當前重要課題。在語音識別、自然語言處理等數據處理領域,深度學習改變傳統機器學習方法。深度學習發展使得各行業使用需求迫切,普通行業使用者需要大量時間成本學習使用。機器學習智能算法可以挖掘頻譜大數據中的有用信息,提高頻譜資源利用率。介紹機器學習技術,探討頻譜大數據分析機器學習方法,對機器學習的應用前景進行展望。

【關鍵詞】? ? 機器學習? ? 大數據技術? ? 分析處理

引言:

隨著通信技術的發展,龐大數據驅動有效決策,成為企業社會高效發展的推動力。如何對海量復雜數據有效分析是當前需要解決的重要課題。傳統分析系統基于結構化數據聯機分析處理系統,深度學習改變以往機器學習方法,在圖像理解等應用領域取得突破性進展。深度學習系工具系統提供較好系統支持,普通行業使用者需要大量時間成本學習相關API,借助分布式計算技術構建深度學習系統可以滿足普通用戶使用深度學習需求。

一、大數據下機器學習算法研究

大數據上指不能載入計算機內存儲器的數據。大數據特征為積累速度快,如何對大數據進行有效挖掘是現代產業發展的重要方向[1]。必須深入研究大數據下機器學習算法問題。機器學習算法包括大數據特征選擇,噪音數據會降低學習算法運行質量。應采取標準遴選代表性樣本。在子集基礎上學習方法構造,Jordan提出分治算法進行大數據統計推理[2]。應用傳統機器學習算法進行大數據處理,必須采取并行化處理,Cheng等以大規模可伸縮數據為處理對象實現數據分析。

采取傳統機器學習方法存在置信區間擬合模型預測未執行等問題。傳統前饋神經網絡采取梯度下降法調整權值參數。Huang提出采取隨機賦值方式。為確保大規模數據并行處理,Papadimitriou通過MapReduce模型滿足大規模數據聚類需求。Apriori算法為關聯分析基礎算法,需通過并行與增量解決大數據關聯問題。Li提出Apriori算法,提高學習效率。

二、大數據機器學習技術面臨問題

當今大數據時代,人們意識到大數據隱藏更多價值,對大數據挖掘能獲得很大的社會經濟效益。機器學習是對海量數據分析重要技術,傳統串行機器學習難以完成大規模數據處理。大規模機器學習旨在構建處理大數據的平臺,CCF將結合機器學習算法大數據分析技術選為研究熱點。大規模機器學習系統需要通過編程抽象降低設計復雜性。

大規模機器學習系統設計要重點研究處理大數據計算性能問題。為提供終端用戶良好易用性,大規模機器學習系統應建立高層易用編程抽象模型。大規模數據使得串行機器學習算法無法完成計算。隨著Hadoop分布式計算平臺出現,需要對機器學習進行并行化設計[3]。目前通常實現基于分布式計算平臺提供接口,提供與傳統機器學習算法相同的編程接口。如Mahout與MLlib提供經典分類聚類等算法基于分布式并行化實現。并行算法庫設計減輕數據分析進行大數據應用分析,但并行算法庫提供數量有限,難以滿足大數據分析應用需求。需要熟悉底層分布平臺編程語言,對機器學習算法進行定制式改進優化。

矩陣運輸是機器學習的重要分析建模方法,目前已有很多關于設計分布式矩陣計算庫的研究。如HAMA是基于MapReduce的分布式矩陣運算實現,Marlin采用RDD表示存儲矩陣。Presto實現基于分布式稀疏矩陣達到負載平衡。PbdR項目與R緊耦合使用戶可實現分布是基于矩陣機器學習算法。

矩陣運算庫未針對應用程序計算路程進行優化。如對多個矩陣相乘操作帶來不同計算量。矩陣庫無法針對計算表達式,只能由用戶決定乘法順序。如對分布式內存計算平臺Spark無法自行決定矩陣數據是否存在內存中。難以由用戶針對矩陣計算流程實現性能優化方案。大數據平臺處理需支持多個底層計算平臺。

三、機器學習的大數據分析技術研究

近年來出現很多構建大規模機器學習系統相關工作,Spark MLlib綁定在底層計算平臺Spark上,滿足分布式存儲于上層應用開發要求。目前MLlib提供機器學習中分聚類等算法,上層用戶難以用MLlib解決大數據應用需求,無法滿足用戶對算法內實現定制化需求。

SystemML進入Apache孵化項目開發大規模數據學習系統,DML構成代碼被SystemML自動轉換為地層Spark作業運行。屏蔽底層分布式實現細節,但DML語言不能兼容標準的R/Python環境。

TensorFlow可運行在多種異構平臺下大規模機器學習系統,將數據流圖節點映射到集群中多臺機器。提供多種語言接口包含Java等,但提供接口主要針對深度神經網絡算法。Presto擴展語言采用矩陣模型實現分布式機器學習,將數據進行分區實現負載均衡,用戶容易對機器學習算法進行定制化實現[4]。但底層采用C++實現框架,與現有大數據環境Hadoop不兼容。目前對數據計算處理有多種設備平臺,近年來出現支持底層多計算設備平臺系統。Glinda在異構平臺下對工作流分區采用預測法加速數據并行應用。研究在GPU上實現矩陣操作,用途模型估計任意硬件平臺下計算執行時間。但基于GPU異構平臺不提供分布式計算平臺調度。Musketeer將前端框架與后端執行引擎解耦,可映射到后端多種計算平臺執行。

四、頻譜大數據

大數據價值更多體現在隱藏待開發的信息資源,大數據受到大量的關注,機器學習是通過創建計算系統不斷學習經驗,更好地執行下次任務。大數據成為機器學習的資源。近年來機器學習理念不斷提出,計算機性能得到很大提高。

機器學習在數據挖掘等領域取得很大進展。無線通信是數據不通過實體線纜傳輸的通信方式。每種無線業務對應無線頻譜特定區域,社會不斷進步使得業頻譜數據廣度擴大[5]。頻譜大數據是分析處理的海量復雜頻譜數據集,包括用戶相關數據等。頻譜狀態數據由不同時空頻率信號表現不同特征數據。頻譜大數據體現大量、多樣化的特點。9-30000GHz頻譜范圍有限,面對有限頻譜資源大數據,如何有效挖掘有價值信息,提高頻譜利用率問題受到關注。頻譜大數據分析是從具有多樣性,針對頻譜大數據特性需用特定機器學習方法。

五、頻譜大數據分析機器學習方法

大量性是頻譜大數據的基本屬性,假設1s內1m?空間可感知0-1kHz頻率內頻譜能量為1字節,1h內1km?可感知0-1GHz頻譜能量值為3.6EB,無線頻譜狀態數據在時空方向得到擴大,考慮用戶相關數據頻譜大數據規模更大。傳統數據處理法是將小數據存儲于工作站,面對大數據難以在要求時間內完成計算。

典型測量是對數據分布式存儲,分布式存儲是空間分布,將頻譜大數據分區為多個小塊。并行化計算隨時在適合計算機上運行適合程序。分布式并行學習方法中云計算最具代表性。綜合多種計算機網絡技術。

數據快速收發要求計算機具有高速處理能力,高速數據處理是頻譜預測的重要前提。數據處理耗時長,預測結果無意義,使得頻譜使用紊亂,導致頻譜資源緊張。高速實時數據處理技術值得關注。使用梯度算法訓練學習網絡,使其速度不能滿足需要。研究提出極速學習機算法是前饋神經網絡學習算法,網絡結構為輸入層與輸出層,可達到快速學習的需求[6]。

ELM算法時間消耗大,研究提出新數據有序添加的在線序列ELM算法提高計算速度。圖形處理器平臺采用分布架構提高計算能力。將ELM算法用于GPU平臺提高數據分析速度。

頻譜大數據分類為數據結構及相關性等。傳統數據處理方法無法處理頻譜多樣性大數據。核學習核函數可以把混雜數據映射到高維空間,完成多樣化數據區分。在非線性頻譜數據融合等問題上表現突出,隨著算法不斷完善,新算法數據分析能力得到加強。面向頻譜大數據分析,分布并行學習,多樣性學習法得到深入研究。

大數據挖掘在于得到隱藏重要信息,由于數據大量性,數據收發存在干擾等現象。頻譜大數據價值密度低為數據挖掘帶來挑戰,要求采用學習算法深入數據挖掘。深度學習是傳統淺層次學習深度化結果,傳統淺層次學習模型不包含隱層單元。

神經網絡中包含隱層單元為數據表征,淺層學習需要輸入專家預選優秀特征,特征選擇好則系統性能好。深度學習強調模型結構深度,著力于構建數據特征自我學習,將原始特征變換成高級特征。

特征學習算法對標記數據分析成熟,對無標記數據特征學習研究受到重視。

六、結束語

本文簡單介紹幾種機器學習方法,頻譜大數據分析處理機器學習方法應用不是所有方法的堆疊。選擇適合的方法解決問題,講究多種方法有機融合,為大數據分析處理智能系統樹立更高目標。隨著科技的進步,微型平臺系統,涉密數據傳輸等問題對機器學習法提出嚴格要求。如移動終端不斷普及,機器學習應用是必然趨勢。需要深入研究高速機器學習方法。

參? 考? 文? 獻

[1]胡航,杜爽,梁佳柔,康忠琳.學習績效預測模型構建:源于學習行為大數據分析[J].中國遠程教育,2021(04):8-20+76.

[2]蔣姮博,張劍,方榮超,歐陽婉卿,羅禹杰,盧曉宇.基于大數據分析的列車輪對故障診斷方法[J].湖南科技大學學報(自然科學版),2021,36(01):91-98.

[3]胡志強,羅榮.基于大數據分析的作戰智能決策支持系統構建[J].指揮信息系統與技術,2021,12(01):27-33.

[4]魏英杰. 利用人工智能和大數據分析實現廢棄物處理設施的自動化運行[N]. 世界金屬導報,2021-02-23(B16).

[5]無錫市經濟學會課題組. 大數據時代的融合發展對策[N]. 無錫日報,2021-01-30(004).

[6]陳麗萍,吳其林,李小榮.“大數據分析”課程案例設計與分析——以網絡新聞分析案例設計為例[J].內蒙古財經大學學報,2021,19(01):26-28.

猜你喜歡
機器學習大數據技術
基于詞典與機器學習的中文微博情感分析
大數據技術在電子商務中的應用
大數據技術對新聞業務的影響研究
論大數據技術在智能電網中的應用
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
高校檔案管理信息服務中大數據技術的應用
大數據技術在電氣工程中的應用探討
大數據技術在商業銀行中的應用分析
基于支持向量機的金融數據分析研究
主站蜘蛛池模板: 国产探花在线视频| 成人在线观看不卡| 久青草国产高清在线视频| 青青青国产精品国产精品美女| 91麻豆国产在线| 中文字幕1区2区| 欧美翘臀一区二区三区| 亚洲人成影视在线观看| 欧美精品v欧洲精品| 综合色亚洲| 国产精品午夜福利麻豆| 国产精品人成在线播放| 香蕉综合在线视频91| 国产精品国产三级国产专业不| 亚洲午夜综合网| 国产国拍精品视频免费看| 亚洲欧美日韩天堂| 亚洲婷婷丁香| 国产精品综合色区在线观看| 为你提供最新久久精品久久综合| 国产福利免费视频| 91丝袜美腿高跟国产极品老师| 91精品国产麻豆国产自产在线 | 国产免费人成视频网| 日韩成人午夜| 无码 在线 在线| 国产三级国产精品国产普男人 | 一级毛片免费的| 中文毛片无遮挡播放免费| 被公侵犯人妻少妇一区二区三区| 欧美福利在线观看| 色综合综合网| 亚洲资源站av无码网址| 久久99精品久久久久纯品| 亚洲一区第一页| 高清色本在线www| 一级香蕉人体视频| 国产99在线| 无码'专区第一页| 视频一区视频二区中文精品| 国产在线专区| 日韩视频精品在线| 99热这里只有精品2| 亚洲精品日产AⅤ| 无码日韩人妻精品久久蜜桃| 日韩国产黄色网站| 99久久国产综合精品2020| 亚洲第一视频网| 中文字幕乱妇无码AV在线| 日韩中文精品亚洲第三区| 国产一二视频| 毛片视频网址| 免费国产高清视频| 国产h视频免费观看| 国产精品亚洲精品爽爽| 91www在线观看| 欧美无专区| 亚洲国产精品国自产拍A| 国产菊爆视频在线观看| 久久精品人人做人人爽| 亚洲无码视频一区二区三区 | 欧美色亚洲| 全色黄大色大片免费久久老太| 57pao国产成视频免费播放| 91九色国产在线| 亚洲区欧美区| 国产一区二区三区在线精品专区| 国产精品网址在线观看你懂的 | 中文字幕人成人乱码亚洲电影| 无码区日韩专区免费系列 | 精品人妻一区无码视频| 国产成人高清亚洲一区久久| 日本免费一区视频| 在线播放真实国产乱子伦| 国产精品熟女亚洲AV麻豆| 精品少妇三级亚洲| 九九九久久国产精品| 成人年鲁鲁在线观看视频| a在线亚洲男人的天堂试看| 国产在线视频欧美亚综合| 97精品伊人久久大香线蕉| 免费av一区二区三区在线|