999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的大數據分析和處理

2021-09-26 03:21:04孫開華代余杰封晴
中國新通信 2021年13期
關鍵詞:機器學習大數據技術

孫開華 代余杰 封晴

【摘要】? ? 隨著信息技術的高速發展,如何對海量復雜數據有效分析是當前重要課題。在語音識別、自然語言處理等數據處理領域,深度學習改變傳統機器學習方法。深度學習發展使得各行業使用需求迫切,普通行業使用者需要大量時間成本學習使用。機器學習智能算法可以挖掘頻譜大數據中的有用信息,提高頻譜資源利用率。介紹機器學習技術,探討頻譜大數據分析機器學習方法,對機器學習的應用前景進行展望。

【關鍵詞】? ? 機器學習? ? 大數據技術? ? 分析處理

引言:

隨著通信技術的發展,龐大數據驅動有效決策,成為企業社會高效發展的推動力。如何對海量復雜數據有效分析是當前需要解決的重要課題。傳統分析系統基于結構化數據聯機分析處理系統,深度學習改變以往機器學習方法,在圖像理解等應用領域取得突破性進展。深度學習系工具系統提供較好系統支持,普通行業使用者需要大量時間成本學習相關API,借助分布式計算技術構建深度學習系統可以滿足普通用戶使用深度學習需求。

一、大數據下機器學習算法研究

大數據上指不能載入計算機內存儲器的數據。大數據特征為積累速度快,如何對大數據進行有效挖掘是現代產業發展的重要方向[1]。必須深入研究大數據下機器學習算法問題。機器學習算法包括大數據特征選擇,噪音數據會降低學習算法運行質量。應采取標準遴選代表性樣本。在子集基礎上學習方法構造,Jordan提出分治算法進行大數據統計推理[2]。應用傳統機器學習算法進行大數據處理,必須采取并行化處理,Cheng等以大規模可伸縮數據為處理對象實現數據分析。

采取傳統機器學習方法存在置信區間擬合模型預測未執行等問題。傳統前饋神經網絡采取梯度下降法調整權值參數。Huang提出采取隨機賦值方式。為確保大規模數據并行處理,Papadimitriou通過MapReduce模型滿足大規模數據聚類需求。Apriori算法為關聯分析基礎算法,需通過并行與增量解決大數據關聯問題。Li提出Apriori算法,提高學習效率。

二、大數據機器學習技術面臨問題

當今大數據時代,人們意識到大數據隱藏更多價值,對大數據挖掘能獲得很大的社會經濟效益。機器學習是對海量數據分析重要技術,傳統串行機器學習難以完成大規模數據處理。大規模機器學習旨在構建處理大數據的平臺,CCF將結合機器學習算法大數據分析技術選為研究熱點。大規模機器學習系統需要通過編程抽象降低設計復雜性。

大規模機器學習系統設計要重點研究處理大數據計算性能問題。為提供終端用戶良好易用性,大規模機器學習系統應建立高層易用編程抽象模型。大規模數據使得串行機器學習算法無法完成計算。隨著Hadoop分布式計算平臺出現,需要對機器學習進行并行化設計[3]。目前通常實現基于分布式計算平臺提供接口,提供與傳統機器學習算法相同的編程接口。如Mahout與MLlib提供經典分類聚類等算法基于分布式并行化實現。并行算法庫設計減輕數據分析進行大數據應用分析,但并行算法庫提供數量有限,難以滿足大數據分析應用需求。需要熟悉底層分布平臺編程語言,對機器學習算法進行定制式改進優化。

矩陣運輸是機器學習的重要分析建模方法,目前已有很多關于設計分布式矩陣計算庫的研究。如HAMA是基于MapReduce的分布式矩陣運算實現,Marlin采用RDD表示存儲矩陣。Presto實現基于分布式稀疏矩陣達到負載平衡。PbdR項目與R緊耦合使用戶可實現分布是基于矩陣機器學習算法。

矩陣運算庫未針對應用程序計算路程進行優化。如對多個矩陣相乘操作帶來不同計算量。矩陣庫無法針對計算表達式,只能由用戶決定乘法順序。如對分布式內存計算平臺Spark無法自行決定矩陣數據是否存在內存中。難以由用戶針對矩陣計算流程實現性能優化方案。大數據平臺處理需支持多個底層計算平臺。

三、機器學習的大數據分析技術研究

近年來出現很多構建大規模機器學習系統相關工作,Spark MLlib綁定在底層計算平臺Spark上,滿足分布式存儲于上層應用開發要求。目前MLlib提供機器學習中分聚類等算法,上層用戶難以用MLlib解決大數據應用需求,無法滿足用戶對算法內實現定制化需求。

SystemML進入Apache孵化項目開發大規模數據學習系統,DML構成代碼被SystemML自動轉換為地層Spark作業運行。屏蔽底層分布式實現細節,但DML語言不能兼容標準的R/Python環境。

TensorFlow可運行在多種異構平臺下大規模機器學習系統,將數據流圖節點映射到集群中多臺機器。提供多種語言接口包含Java等,但提供接口主要針對深度神經網絡算法。Presto擴展語言采用矩陣模型實現分布式機器學習,將數據進行分區實現負載均衡,用戶容易對機器學習算法進行定制化實現[4]。但底層采用C++實現框架,與現有大數據環境Hadoop不兼容。目前對數據計算處理有多種設備平臺,近年來出現支持底層多計算設備平臺系統。Glinda在異構平臺下對工作流分區采用預測法加速數據并行應用。研究在GPU上實現矩陣操作,用途模型估計任意硬件平臺下計算執行時間。但基于GPU異構平臺不提供分布式計算平臺調度。Musketeer將前端框架與后端執行引擎解耦,可映射到后端多種計算平臺執行。

四、頻譜大數據

大數據價值更多體現在隱藏待開發的信息資源,大數據受到大量的關注,機器學習是通過創建計算系統不斷學習經驗,更好地執行下次任務。大數據成為機器學習的資源。近年來機器學習理念不斷提出,計算機性能得到很大提高。

機器學習在數據挖掘等領域取得很大進展。無線通信是數據不通過實體線纜傳輸的通信方式。每種無線業務對應無線頻譜特定區域,社會不斷進步使得業頻譜數據廣度擴大[5]。頻譜大數據是分析處理的海量復雜頻譜數據集,包括用戶相關數據等。頻譜狀態數據由不同時空頻率信號表現不同特征數據。頻譜大數據體現大量、多樣化的特點。9-30000GHz頻譜范圍有限,面對有限頻譜資源大數據,如何有效挖掘有價值信息,提高頻譜利用率問題受到關注。頻譜大數據分析是從具有多樣性,針對頻譜大數據特性需用特定機器學習方法。

五、頻譜大數據分析機器學習方法

大量性是頻譜大數據的基本屬性,假設1s內1m?空間可感知0-1kHz頻率內頻譜能量為1字節,1h內1km?可感知0-1GHz頻譜能量值為3.6EB,無線頻譜狀態數據在時空方向得到擴大,考慮用戶相關數據頻譜大數據規模更大。傳統數據處理法是將小數據存儲于工作站,面對大數據難以在要求時間內完成計算。

典型測量是對數據分布式存儲,分布式存儲是空間分布,將頻譜大數據分區為多個小塊。并行化計算隨時在適合計算機上運行適合程序。分布式并行學習方法中云計算最具代表性。綜合多種計算機網絡技術。

數據快速收發要求計算機具有高速處理能力,高速數據處理是頻譜預測的重要前提。數據處理耗時長,預測結果無意義,使得頻譜使用紊亂,導致頻譜資源緊張。高速實時數據處理技術值得關注。使用梯度算法訓練學習網絡,使其速度不能滿足需要。研究提出極速學習機算法是前饋神經網絡學習算法,網絡結構為輸入層與輸出層,可達到快速學習的需求[6]。

ELM算法時間消耗大,研究提出新數據有序添加的在線序列ELM算法提高計算速度。圖形處理器平臺采用分布架構提高計算能力。將ELM算法用于GPU平臺提高數據分析速度。

頻譜大數據分類為數據結構及相關性等。傳統數據處理方法無法處理頻譜多樣性大數據。核學習核函數可以把混雜數據映射到高維空間,完成多樣化數據區分。在非線性頻譜數據融合等問題上表現突出,隨著算法不斷完善,新算法數據分析能力得到加強。面向頻譜大數據分析,分布并行學習,多樣性學習法得到深入研究。

大數據挖掘在于得到隱藏重要信息,由于數據大量性,數據收發存在干擾等現象。頻譜大數據價值密度低為數據挖掘帶來挑戰,要求采用學習算法深入數據挖掘。深度學習是傳統淺層次學習深度化結果,傳統淺層次學習模型不包含隱層單元。

神經網絡中包含隱層單元為數據表征,淺層學習需要輸入專家預選優秀特征,特征選擇好則系統性能好。深度學習強調模型結構深度,著力于構建數據特征自我學習,將原始特征變換成高級特征。

特征學習算法對標記數據分析成熟,對無標記數據特征學習研究受到重視。

六、結束語

本文簡單介紹幾種機器學習方法,頻譜大數據分析處理機器學習方法應用不是所有方法的堆疊。選擇適合的方法解決問題,講究多種方法有機融合,為大數據分析處理智能系統樹立更高目標。隨著科技的進步,微型平臺系統,涉密數據傳輸等問題對機器學習法提出嚴格要求。如移動終端不斷普及,機器學習應用是必然趨勢。需要深入研究高速機器學習方法。

參? 考? 文? 獻

[1]胡航,杜爽,梁佳柔,康忠琳.學習績效預測模型構建:源于學習行為大數據分析[J].中國遠程教育,2021(04):8-20+76.

[2]蔣姮博,張劍,方榮超,歐陽婉卿,羅禹杰,盧曉宇.基于大數據分析的列車輪對故障診斷方法[J].湖南科技大學學報(自然科學版),2021,36(01):91-98.

[3]胡志強,羅榮.基于大數據分析的作戰智能決策支持系統構建[J].指揮信息系統與技術,2021,12(01):27-33.

[4]魏英杰. 利用人工智能和大數據分析實現廢棄物處理設施的自動化運行[N]. 世界金屬導報,2021-02-23(B16).

[5]無錫市經濟學會課題組. 大數據時代的融合發展對策[N]. 無錫日報,2021-01-30(004).

[6]陳麗萍,吳其林,李小榮.“大數據分析”課程案例設計與分析——以網絡新聞分析案例設計為例[J].內蒙古財經大學學報,2021,19(01):26-28.

猜你喜歡
機器學習大數據技術
基于詞典與機器學習的中文微博情感分析
大數據技術在電子商務中的應用
大數據技術對新聞業務的影響研究
論大數據技術在智能電網中的應用
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
高校檔案管理信息服務中大數據技術的應用
大數據技術在電氣工程中的應用探討
大數據技術在商業銀行中的應用分析
基于支持向量機的金融數據分析研究
主站蜘蛛池模板: 日本影院一区| 亚洲一区二区三区麻豆| 久久青草视频| 久青草国产高清在线视频| 国产伦精品一区二区三区视频优播| 午夜国产理论| 色婷婷成人网| 国产成人欧美| 国产精品久久自在自2021| 免费高清a毛片| 亚洲无码四虎黄色网站| 福利在线不卡一区| 亚洲国产天堂久久九九九| 国产a在视频线精品视频下载| 国产一区免费在线观看| 亚洲第一香蕉视频| 免费激情网址| 最新精品国偷自产在线| 国产无码网站在线观看| 国产视频资源在线观看| 国内嫩模私拍精品视频| 国产香蕉一区二区在线网站| 国产日韩欧美在线视频免费观看 | 日韩经典精品无码一区二区| 日韩无码黄色| 少妇精品久久久一区二区三区| 人妻精品久久久无码区色视| 91原创视频在线| 国产美女在线免费观看| 中文字幕天无码久久精品视频免费| 亚洲第七页| 亚洲精品男人天堂| 五月婷婷欧美| 一级爆乳无码av| 色综合热无码热国产| 精品丝袜美腿国产一区| 伊人福利视频| 青青青亚洲精品国产| 婷婷亚洲视频| 国产麻豆精品手机在线观看| 91久久偷偷做嫩草影院免费看| 久久综合五月婷婷| 成人毛片免费观看| 欧美成人精品一级在线观看| 亚洲国产成人无码AV在线影院L | 国产极品美女在线播放| 国产午夜一级毛片| 欧美激情,国产精品| 中文字幕永久在线观看| 精品無碼一區在線觀看 | 欧美a在线视频| 欧美人与牲动交a欧美精品| 亚洲系列中文字幕一区二区| 92精品国产自产在线观看| 国产剧情一区二区| 福利视频久久| 精品欧美视频| 香蕉eeww99国产精选播放| 国产白浆视频| 亚洲欧美日韩天堂| 欧美另类图片视频无弹跳第一页| 天天综合网色| 日本欧美在线观看| 成人午夜视频在线| 亚洲成网777777国产精品| 国产女人在线| 日韩中文字幕亚洲无线码| 97久久超碰极品视觉盛宴| 国产午夜精品鲁丝片| 国产欧美日韩va另类在线播放| 国内毛片视频| 久久精品亚洲热综合一区二区| 九色视频一区| 精品无码人妻一区二区| 欧美成人第一页| 亚洲av日韩综合一区尤物| 亚洲一区二区在线无码 | 亚洲高清中文字幕在线看不卡| 国产粉嫩粉嫩的18在线播放91 | 一本大道东京热无码av| 操国产美女| 国模沟沟一区二区三区|