999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據技術體系及發展趨勢探析

2021-08-27 08:54:10黃小華
商業文化 2021年20期
關鍵詞:數據挖掘數據庫

黃小華

進入二十一世紀以來,以計算機技術、網絡技術等為代表的新技術應用,深刻的改變了人類社會的方方面面,尤其是近年來,伴隨著5G技術的應用、物聯網技術的突飛猛進,萬物互聯、一切皆可數據化似乎正從夢想走向現實。目前,數據已經滲透到了每一個行業領域并成為重要的生產因素,數據規模也正以驚人的速度呈膨脹式的增長,大數據正成為這個時代最為顯著的標簽。大數據概念的提出,顛覆了我們對傳統數據的認識,同時也引起了數據獲取、存儲、分析、挖掘以及可視化等技術的變革,大數據以及其相關技術的發展正在成為改變人類生產以及生活方式的重要基礎。本文基于對大數據內涵的認識,就其技術體系進行一些探討并分析其未來發展趨勢,以期能夠對相關研究提供一些參考與借鑒。

大數據內涵分析

大數據的概念一經提出便受到了學界的廣泛關注,但到目前為止,對于大數據還沒有形成一個統一的定義。麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合。維基百科則將大數據定義為:利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間限制的數據集。中國科學院院士徐宗本則將大數據定義為:不能夠集中存儲、并且難以在可接受時間內分析處理,其中個體或部分數據呈現低價值性而數據整體呈現高價值的海量復雜數據集。從上述定義不難看出,大數據從不同角度、側重點可以有不同的理解,但其本質核心是一種數據集,是相較于傳統數據在獲取、存儲、分析處理等方面具有較大差異,需要特殊技術支撐的復雜數據集合。

大數據具有數據規模大、流動速度快、類型多樣、低價值密度以及真實性等特征,這使得其與傳統數據相較具有較大差異。計算機技術、數字化技術以及網絡技術等的飛速發展以及大范圍普及是大數據產生的基礎條件,使得數據的產生脫離了對活動的依賴,從被動產生到主動產生再到自發性產生,數據的規模在此情況下得到了爆發性的增長。但大數據的戰略意義或者說是價值體現并不在于對海量數據的掌握,而在于對這些數據的分析加工、處理能力,也就是說,大數據技術才是大數據從“死數據”變成“活資產”的關鍵。大數據的數據類型主要分為結構化數據、非結構化數據的半結構化數據,其中非結構化數據和半結構化數據是大數據的主要類型,也被稱為異構數據。由于半結構化數據和非結構化數據無規則性結構、模式多樣化,且在大數據海量數據規模中占比較大,為大數據的存儲、分析、呈現帶來巨大挑戰。

大數據技術體系

大數據采集技術

大數據采集是指從終端設備、社交網絡、企業管理系統以及其它互聯網平臺、系統等獲取數據的過程。大數據采集的數據包括了從各種數據源如RFID、傳感器、社交網絡及移動互聯網等采集的各種類型的結構化、半結構化及非結構化的海量數據。這些數據不但來源廣泛,且數據類型多樣、規模龐大、產生速度快,傳統的數據采集方法基本無法勝任。大數據采集過程中主要挑戰是并發數高,成千上萬的用戶在同一時間對系統進行訪問和操作,無疑對其技術支撐提出了挑戰。大數據采集的數據源不同,數據采集方法也有所不同。就目前來說,針對不同的數據源,采集方法大致有如下幾種:一是數據庫采集。傳統的關系型數據庫如MySQL和Oracle等可用大數據的采集,但其在處理超大規模和高并發的數據采集中顯得有些力不從心。近年來,非關系型數據庫如Redis、MongoDB和HBase等在大數據采集中的應用日益增多;二是系統日志采集。很多企業管理系統、商務平臺每天都會產生大量的日志,這些日志是大數據中的一種重要數據類型。對于系統日志采集,目前使用最廣泛的采集工具有Hadoop的Chukwa、Apache FlumeA;Facebook的Scribe和LinkedIn的Kafka等,這些工具均采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求;三是網絡數據采集。網絡數據采集是指通過網絡爬蟲或網站公開 API 等方式從網站上獲取數據信息的過程。網絡爬蟲會從一個或若干初始網頁的URL開始,獲得各個網頁上的內容,并且在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足設置的停止條件為止。這樣可將非結構化數據、半結構化數據從網頁中提取出來,存儲在本地的存儲系統中。四是感知設備數據采集感知設備數據采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數據。大數據智能感知系統需要實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。其關鍵技術包括針對大數據源的智能識別、感知、適配、傳輸、接入等。

大數據存儲技術

大數據的存儲與數據采集環節密切相關。一般情況下,當數據采集量在一定的量級范圍內且僅需要響應簡單的處理請求時,可將數據存儲在輕型數據庫內。大數據存儲的輕型數據庫包括了關系型數據庫、非關系型數據庫和一些新型數據庫。如EMC的Greenplum、HP的 Vertica、Teradata的 AsterData都是用于大數據存儲的關系型數據庫;Google的HBase、10gen的MongoDB、Facebook的Cassandra以及VMware的Redis等都是用于大數據存儲的非關系型數據庫;此外,Google的Spanner、Megastore、F1是具有代表性的大數據NewSQL數據庫。

當輕型數據庫難以滿足大數據存儲需要時,便需要采取大型分布式存儲數據庫或者分布式存儲集群的方式,這類大數據存儲技術也被稱為大數據存儲平臺。目前典型的大數據存儲平臺包括Info Brignt、Hadoop、YunTable、HANA以及 Exadata等。

猜你喜歡
數據挖掘數據庫
探討人工智能與數據挖掘發展趨勢
數據庫
財經(2017年15期)2017-07-03 22:40:49
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據挖掘技術在中醫診療數據分析中的應用
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 久热这里只有精品6| 精品一区二区三区中文字幕| 国产区人妖精品人妖精品视频| 欧美区国产区| 日本免费一区视频| 91成人在线观看| 欧美成人午夜影院| 色综合热无码热国产| 精品国产黑色丝袜高跟鞋| 欧美第一页在线| 国产69囗曝护士吞精在线视频| 99精品热视频这里只有精品7| 亚洲最黄视频| 欧美视频免费一区二区三区| 99人体免费视频| 精品99在线观看| 免费又黄又爽又猛大片午夜| 91丝袜在线观看| 日日噜噜夜夜狠狠视频| 国产乱人伦AV在线A| 欧美性天天| 国产剧情一区二区| 特级毛片免费视频| 国产95在线 | 欧美国产日韩在线播放| 国产无码网站在线观看| 欧美成人亚洲综合精品欧美激情 | 激情网址在线观看| 久久综合色天堂av| 亚洲视频二| 高清国产在线| 亚洲有无码中文网| 欧美在线综合视频| 一级毛片在线播放免费观看| 狠狠色婷婷丁香综合久久韩国| 国产黄视频网站| 网久久综合| 蝴蝶伊人久久中文娱乐网| 欧美视频在线第一页| 亚洲一区无码在线| 亚洲一级无毛片无码在线免费视频| 欧美一级高清视频在线播放| 国产一级在线播放| 在线播放国产一区| 欧美a在线视频| 国产视频a| 欧美成人影院亚洲综合图| 精品无码视频在线观看| 久久人搡人人玩人妻精品一| 日本三区视频| 91免费精品国偷自产在线在线| 亚洲国产欧美目韩成人综合| 国产免费福利网站| 国产精品天干天干在线观看 | 不卡无码h在线观看| 伊人丁香五月天久久综合| 免费在线播放毛片| 四虎国产精品永久一区| 亚洲综合色婷婷中文字幕| AV老司机AV天堂| 欧美激情第一区| 99热这里都是国产精品| 手机永久AV在线播放| 日韩毛片免费视频| 久无码久无码av无码| 免费在线一区| 久草中文网| 乱系列中文字幕在线视频| 国产精品999在线| 思思热精品在线8| 88av在线看| 国产国产人成免费视频77777| 国内自拍久第一页| 日韩欧美国产三级| 亚洲欧美日韩高清综合678| 97国产在线视频| 精品成人一区二区| 久久99国产视频| 国产精品一区在线麻豆| 99久久性生片| 人妻丰满熟妇AV无码区| 亚洲高清在线播放|