999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據分析及處理綜述

2021-06-06 16:12:08董學潤
中國新通信 2021年1期
關鍵詞:大數據

董學潤

【摘要】? ? 如今,數據越來越成為全球科技競爭的制高點,擁有了海量數據就擁有了重要的戰略資源。大數據技術在許多領域都發揮了重要作用,大數據技術一般是以大數據分析及處理為核心,掌握大數據分析及處理技術,能獲取豐富的數據資源,也能夠最大限度的開發數據價值。本文重點介紹大數據分析與處理技術。

【關鍵詞】? ? 大數據? ? 大數據分析處理? ? 大數據發展情況

引言

在當今的大數據時代背景之下,數據發展的腳步會越來越快,數據中包含的信息也會越來越豐富。而要獲取數據中的價值,掌握大數據分析與處理方法是關鍵,本文的目的就是讓人們了解大數據處理的關鍵技術以及大數據未來的發展趨勢。

一、大數據的含義

大數據是當前社會科技當中的一個熱點概念,各行各業中我們都會聽到大數據這個詞,但是大數據到底是什么,大部分人卻不是很了解。我們當前所說的大數據包含兩層含義。一是從表意上來看,人們的各種社會行為會產生相應數據,這些數據匯集在一起,成為表意上的“大”數據,我們也把這樣的數據稱為基礎數據。二是從技術層面來看,大數據是指大數據技術,也就是本文的大數據分析與處理技術。數據資源之所以寶貴,究其原因在于其可以價值化,大數據分析與處理技術正是將數據價值化的途徑。[1]從釋義上來說,大數據,它的英文名字是big data,是信息技術領域當中的一個行業術語,它是一種信息資產,具有量大、增長率高等特點。大數據的采集和處理沒有辦法使用普通的分析軟件和工具,而需要一個與時俱進的模式才能夠挖掘出它的最大價值。

通俗來說,大數據的解釋就是大量的數據,顧名思義,就是數量多、范圍廣的意思,而數據是信息等各方面的數據資料,結合起來就是量多、范圍廣的信息數據資料。

《大數據時代》中提出了大數據的四個特性:volume、velocity、variety、value,簡稱4V,中文意為海量的數據規模、快速的數據流動和動態的數據體系、多樣的數據類型和巨大的數據價值,這正是大數據區別于傳統數據的最大特點。[2]

二、大數據分析及處理過程

在現在這樣一種任何網絡行為都能被記錄,隨時隨地都能產生數據的時代之中,幾乎不存在無意義的數據。大數據分析與處理包括數據的采集、存儲、管理、分析挖掘以及數據可視化幾個階段,通過這幾個環節我們可以發現很多有用的信息以及一些有趣的結論,甚至可能通過數據挖掘出極大的商業價值。

2.1數據采集

大數據開啟了一個全新的時代,在這個新時代下,大規模生產、分享應用數據隨處可見,大數據給技術和商業帶來了一個巨大的變化。據麥肯錫的一份數據顯示,大數據可以使得勞動生產率每年升高0.5-1個百分點,大數據的價值不言而喻。然而,調查顯示,沒有被挖掘、利用的信息比例高達99.4%,這一窘境很大程度上是因為這些含有高價值的數據無法采集。如何對有價值的信息數據進行采集成為了大數據發展的關鍵一步。

1、含義

數據采集的另外一個名字叫做數據獲取,是指從傳感器和其他待測設備等模擬和數字被測單元中自動采集信息的過程。數據采集是進行大數據分析的先決條件,在整個分析與處理過程中占有十分重要的位置。大數據的采集主要有以下三種方式:系統日志采集法、網絡數據采集法以及其他數據采集法。

2、方法

(1)系統日志采集法。系統日志可以記錄下系統中的硬件、軟件等的信息,同時也可以監測系統里的行為。用戶可以通過這一過程來檢查錯誤出現的原因,或者時尋找受到侵入時攻擊者留下的痕跡。系統日志包括系統日志、應用程序日志和安全日志。(百度百科)大數據平臺或者說類似于開源Hadoop平臺會產生大量高價值系統日志信息,如何采集成為研究者研究熱點。目前基于Hadoop平臺開發的Chukwa、Cloudera的Flume以及Facebook的Scribe(李聯寧,2016)均可成為是系統日志采集法的典范。目前此類的采集技術大約可以每秒傳輸數百MB的日志數據信息,滿足了目前人們對信息速度的需求。一般而言與我們相關的并不是此類采集法,而是網絡數據采集法。

(2)網絡數據采集法。除了目前已經存在的公開數據集,用于日常的算法研究外,有時為了滿足項目的實際需求,需要對現實網頁中的數據進行采集,預處理和保存,這種方法就叫做網絡數據采集法,目前網絡數據采集主要是通過API和網絡爬蟲。

(3)其他數據采集法。其他采集法是指對于科研院所,企業政府等擁有機密信息,如何保證數據的安全傳遞?可以采用系統特定端口,進行數據傳輸任務,從而減少數據被泄露的風險。

2.2數據存儲

1、概念

大數據存儲技術是大數據領域的另一個關鍵數據,人們利用分布式存儲代替集中式存儲,用更廉價的機器代替之前昂貴的機器,讓海量存儲的成本大大降低。大數據存儲主要利用各式各樣的存儲引擎,以下就是幾個極具代表性的大數據存儲引擎。

2、存儲引擎

HDFS:大規模分布式數據存儲, 對小文件讀寫相對比較困難。HDFS的特點是比較適合對延時不敏感, 吞吐量比較大的業務, 另外小文件不能太多。

HBASE:HBASE適用于大規模分布式OLTP, 可以無感知平行擴展, 沒有固定的概要, 讓HBASE增刪列非常靈活。既可以通過主鍵查詢, 也可以通過關鍵字范圍掃描, 由于寫是順序寫, 非常適合寫多讀少的場景。類似于IM的數據場景,而且HBASE的數據會按照ID聚合放置,非常適合消息上拉和下拉的場景。

2.3數據清洗

1、概念

數據清洗是一種清除錯誤數據、去掉重復數據的技術。數據經過清洗之后,可以還保存到原來的數據庫中,也可以和數據集成聯系在一起,最終保存到集成后的數據庫里。

2、步驟

預處理:第一是從分析處理工具中導入所需數據。一般是用數據庫來進行處理,具有SQL環境為益。如果說數據量非常大,可以使用文本文件存儲+Python操作的方式;第二是查看數據。這一步又包含兩個部分:一個是查看對數據進行描述的信息,比如說字段的解釋以及數據來源等。二是抽取樣本數據,人為觀察,大致了解數據的表象,從中發現一些初步的問題,為以后的工作做準備。

缺失值清洗:數據中最常見的問題之一就是數據缺失,處理缺失值由四個步驟組成,一是確定數據缺失的位置和范圍,計算出每個字段當中數據缺失的比例,然后按照缺失比例和字段重要性,分別制定策略;二是去除不需要的字段,直接刪掉不需要字段即可;三是填充缺失內容,某些缺失值可以根據以往的經驗或者知識來進行推測、按照同一個指標來進行計算(中位數、均值等等)或按照不同的指標來進行計算著三種方式來填補;四是重新抓取數據,如果說一些數據對分析來說非常重要,但缺失現象嚴重,就有必要考慮重新制定科學的策略去進行數據的重取。

格式內容清洗:分析的數據如果說是經過系統日志得來的,一般情況下格式以及內容就會跟元數據所表現的一樣。但如果說數據是人工采集的,那么就可能需要進行格式內容清晰,因為此時數據的格式、內容極有可能出現很多的問題。? ? 邏輯錯誤清洗:這部分的工作是去掉一些使用簡單邏輯推理就可以直接發現問題的數據,防止分析結果走偏。主要包括去重、去除不合理值。

修正矛盾內容:字段相矛盾時,我們有必要考究其數據來源,人為的判斷哪個字段中的信息更有意義,刪除重復的、無意義的字段。

非需求數據清洗:刪除不需要的字段。

2.4數據分析與挖掘

數據分析與挖掘是大數據處理環節中的一個核心環節,要得到數據的巨大價值,必須要經過專業的數據分析與挖掘過程,這其中涉及到的知識面較廣,需要用到統計學、計算機、數學模型等知識,對分析人員的專業性要求較高。數據分析與挖掘的統計學方法:描述性分析是最基本的分析統計方法,在實際工作中也是應用最廣的分析方法。描述統計又分為兩大部分:數據描述和指標統計。[3]數據描述:所謂數據描述,是指能夠表現數據特點的一些指標,比如數據的時間范圍、數據的總量、數據來源等。倘若我們需要對數據進行建模,則所選數據的分布情況和離散程度等指標都得囊括在其中。指標統計:對指標進行統計,主要是為了寫分析報告,統計指標可以簡單的劃分為四個類型。第一類是變化,可以參考數學中的時間序列,指標隨時間的變動而變動,具體表現為增幅或降幅;第二類是分布,比如在空間上的分布:不同的國家,不同城市,由如不同群體的分布:不同的年齡、不同的職業、不同的性別等等;第三類是對比,比如說內部對比;第四類是預測,根據現有情況,估計下個分析時段的指標值。數據分析與挖掘的常用工具:R語言、SQL、Python等。

2.5數據可視化

數據可視化,就是將分析完的數據以直觀的方式呈現出來。數據之中盡管隱藏著再高的價值,若是不能以一個直觀易懂的方式呈現,也就失去了挖掘的意義。數據可視化將數據轉換成圖或表等,以一種更直觀的方式展現和呈現數據。通過“可視化”的方式,我們看不懂的數據通過圖形化的手段進行有效地表達,準確高效、簡潔全面地傳遞某種信息,甚至我們幫助發現某種規律和特征,挖掘數據背后的價值。

三、大數據分析及處理發展情況

我國目前的大數據應用環境和技術相對于美國而言,在整體技術水平、應用環境、國民意識、商業環境、技術廠商、技術平臺上面有一定差距,在大數據應用的國家戰略層面也較為落后。2014年,我國召開了兩會,會上提案中,不少人提出建議,將大數據業務作為國際級別的戰略來進行推進。一些知名企業的創始人紛紛響應,小米創始人雷軍對此大力支持,科大訊飛劉慶峰則創新性的提出了利用聲紋數據庫來進行反恐。在國家對大數據行業產業的重視和推動之下,如今,我國大數據產業行業發展態勢勇猛,向前的勢頭熱烈,以大數據為核心的多種新興行業異軍突起,技術創新的步伐不斷前進,在各級政府和部門的支持和推動之下,大數據相關行業的發展不僅極大促進了我國的經濟增長,還有力地帶動了就業,其支撐能力肉眼可見地逐漸增強。

參? 考? 文? 獻

[1] 蔡江輝,大數據分析與處理綜[J],太原科技大學學報.2020.05.30

[2]維克多.邁爾-舍恩伯格,肯尼思.庫克耶.大數據時代[M],浙江人民出版社.2019.01.01

[3]威廉.M.門登霍爾,統計學[M],機械工業出版社,2018.06.08

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 欧美日韩一区二区三| 欧美精品亚洲日韩a| 五月婷婷综合网| 在线观看国产精品第一区免费| 国产福利免费视频| 伊人激情久久综合中文字幕| 操操操综合网| 国产成人久久综合一区| 国产日本一线在线观看免费| 成人免费午夜视频| 色婷婷啪啪| 黄色网在线| 日本一本正道综合久久dvd| 99re视频在线| 国产肉感大码AV无码| 亚洲黄色成人| 亚洲αv毛片| 美女被躁出白浆视频播放| 亚洲AV色香蕉一区二区| 成人中文字幕在线| 免费国产在线精品一区| 国产香蕉一区二区在线网站| 四虎影视永久在线精品| 欧美日本视频在线观看| 亚洲动漫h| 久久这里只有精品免费| 伊人成色综合网| 国产成人a毛片在线| 女人天堂av免费| 日韩在线视频网站| 亚洲AV人人澡人人双人| 亚洲国产天堂久久综合226114| 亚洲天堂色色人体| 国产在线观看99| 午夜国产理论| 91午夜福利在线观看| 成人看片欧美一区二区| 国产综合在线观看视频| 毛片一级在线| 国产精品亚洲一区二区三区z | 99在线国产| 2021天堂在线亚洲精品专区| 激情六月丁香婷婷四房播| 国产精品理论片| 国产免费高清无需播放器| 美女内射视频WWW网站午夜| 久久婷婷六月| www中文字幕在线观看| 国产97视频在线| 亚洲国产中文在线二区三区免| 日本不卡在线播放| 亚洲欧美人成电影在线观看| 国产在线观看高清不卡| 原味小视频在线www国产| 国产呦精品一区二区三区网站| 亚洲大学生视频在线播放| 四虎永久在线精品国产免费| 国产激情无码一区二区免费| 亚洲精品免费网站| a亚洲天堂| 91午夜福利在线观看| 四虎在线高清无码| 国产在线一区二区视频| 天天综合网亚洲网站| 视频一本大道香蕉久在线播放| 成人国产精品网站在线看| 亚洲国产成人自拍| 久久一日本道色综合久久| 精品福利视频网| 免费在线一区| 97久久精品人人| 欧美视频免费一区二区三区| 就去色综合| 久久一日本道色综合久久| 久久综合久久鬼| 亚洲经典在线中文字幕| 国产一区二区精品福利| 国产va视频| 欧美色视频日本| 国产成人免费| 一区二区在线视频免费观看| 天天综合天天综合|