999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據收集與存儲的數據挖掘分析及研究

2017-11-02 18:23:22楊靜許峰
軟件導刊 2017年10期
關鍵詞:云計算數據挖掘大數據

楊靜++許峰

摘要: 大數據應用研究已成為學術界熱點。為更好地收集與存儲大數據,變革對數據的管理以使其在大數據時代更好地服務于企業、社會與科學研究,探討了目前大數據收集與存儲方式的優缺點,提出了大數據挖掘與分析面臨的問題,為下一步研究大數據生物存儲方法奠定基礎。

關鍵詞:大數據;數據收集;數據存儲;數據挖掘;云計算

DOIDOI:10.11907/rjdk.171755

中圖分類號:TP301文獻標識碼:A文章編號:16727800(2017)010000103

英文標題The Analysis and Research of Data Mining Based on the Big Data Collection and the Storage

——副標題

0引言

隨著互聯網、物聯網、云計算、三網融合等IT與通信技術迅猛發展,數據的快速增長給許多行業帶來了嚴峻挑戰與寶貴機遇,信息社會進入了大數據時代[1]。2011年5月,在“云計算相遇大數據”為主題的“EMC World 2011”會議中,EMC拋出了Big Data概念。《紐約時報》2012年2月一篇專欄稱“大數據”時代已經降臨許多現實世界的領域。哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。”大數據的涌現不僅改變著人們的生活、工作方式與企業運作模式,甚至還會引起科學研究模式的根本性改變。

大數據是指無法在一定時間內用常規機器與軟硬件工具對其進行感知、獲取、管理、處理、服務的數據集合[2]。IBM將大數據的特點總結為4個V,即大量化(Volume)、多樣化(Variety)、快速化(Velo- city)與價值密度低(Value)。首先,網絡空間中數據的規模不斷擴大,已經從GB、TB到PB,有的甚至以EB或ZB等單位來計數,IDC研究報告稱,未來10年全球大數據將增加50倍,管理數據倉庫的服務器數量將增加l0倍以迎合50倍的大數據增長。有專家研究認為,從人類文明誕生到2003年所產生的數據大約為5EB,而2003-2012年產生的數據是2003年以前的500倍之多,達到2.7ZB,2012-2015年所產生的數據又翻了3倍。大數據數據集在以難以想象的速度增長,大數據收集、存儲及挖掘給數據的處理帶來了極大挑戰。

1數據收集

大數據的特點除了數量多以外,還有種類雜、來源廣等,這導致處理數據前的存儲問題變得比以往更為復雜[38]。存儲數據本身不是一項新技術,但舊時存儲技術已無法完全勝任大數據下的要求,因為在海量數據面前,存儲數據已不再是單純的存儲行為,在存儲這些數據前,首先要面對如何提取或收集有用數據。

隨著手機、平板電腦、智能家電、VR等硬件與搭載其上的社交軟件、數據處理工具、編輯器等軟件普及,每天或者說每秒都會產生難以估量的數據。這些數據必須收集起來加以分析,才能使其價值體現出來,而數據收集難點主要有以下幾個方面:

(1) 求真。信息增多,同時也意味著錯誤或虛假情報增多,錯誤的信息不僅增加了工作量,還影響了數據分析的價值。因此,在獲取信息時對信息可信度進行評估是非常重要且必要的。

(2) 及時。大數據下并不一定總需要保障數據的及時性,但也有相當多情況需要保障及時性,如交通出行數據或突發事件處理等,因此需要兼顧及時性問題。

收集數據在大數據時代下已不再是被動與單一地收集特定數據,而是主動收集需要的數據,隨時隨地進行收集。作為實現數據有效價值的第一步,還有很長一段路要走,這是有意義的一條道路,將會對大數據發展起到非常重要的作用。

2數據存儲

提取出有用數據后,就應該選擇合適數據庫或其它方式進行存儲,以方便以后的數據分析。基于傳統關系型數據庫的存儲特點,由于大數據結構復雜,且無法在獲取數據前很好地預測大數據結構,目前數據庫還未能滿足大數據時代的數據存儲需求。

大數據中有大量冗余,消除冗余是降低開銷的重要途徑。大數據當前的存儲方式不僅影響效率也影響成本,需要研究高效率低成本數據存儲方式、多源多模態數據高質量獲取與整合理論技術、錯誤自動檢測與修復理論技術以及低質量數據上的近似計算理論與算法。這些問題對當今數據處理技術提出了巨大挑戰。

目前一些大公司(如Google、Facebook、Microsoft、IBM與Oracle等)都設計了許多專門應對大數據時代的存儲技術,尤其是Google在這一方面取得了非常大的成就。

2013年,Goldman 與Ewan Birney[9]在實驗室實現了DNA存儲技術,成功使用DNA編碼存儲了5個文件。在此之前,哈佛大學生物學家George Church等[10]將一本約有5.34萬個單詞的書籍進行DNA編碼存儲,用了不到1g的DNA微芯片,并實現了利用DNA測序來閱讀。如果信息存儲密度可以像大腸桿菌的基因一樣密集,那么全世界數據只需要1kg的DNA。瑞士Robert Grass等[11]將DNA保存在二氧化硅球體里,模擬在10℃下保存2 000年,數據依然完好無損,這預示著利用DNA存儲數據可以更長久保存數據的完整性。DNA計算機具有4個方面突出優點:①高度并行性,整體運算速度快;②海量存儲能力;③能耗低;④資源豐富。其計算原理是利用DNA分子具有的海量存儲能力及生化反應的巨大并行性等特點進行計算,這也正是電子計算機所不具備的。

3數據挖掘與分析

大數據的價值是毫無疑問的,然而與普通數據不同,普通數據的價值在大多數情況下直接體現在數據上,數據價值與數據量基本上成正比,但大數據卻不一定,數據越多并不一定代表價值越大,相反,在有些時候,數據越多對于存儲與分析數據的能力要求會越高,且無法提前確定數據價值。正因為這樣,大數據下分析與挖掘數據價值是一件非常有挑戰性的工作,主要會遇到以下問題[12]:endprint

(1)分析目標對分析方法的影響。大數據下,因為從不同側面分析同一份數據會得到不同的結果,因此需要在確定目標的前提下去分析數據。某些情況下會存在對同一個問題多次分析,因為在分析一些大問題時可能已經分析過其中的小問題,或者說對被分析問題的徹底理解需要借助更多關系,這勢必提高問題難度,因為無法預料到各方面的權重是否合理。

(2)數據量對分析速度的影響。數據量對分析速度的影響除了表現在運算上,還有一個分析系統可承載數據量的問題。因為任何一個系統可以同時運算的數據量都不會無限大,系統存在一個負載問題,大數據下數據量的急劇增加導致了許多問題,很多運算系統必須改進。另一個問題是數據太多,運算時數據傳輸會影響數據運算速度,也許可以考慮改變運算方式,不是把數據輸入到CPU去分析,而是讓CPU去分析數據,但又會出現一些新的問題,需要研究一些新的技術與算法。

(3)隱私權是數據分析必須思考的問題。大數據隱藏著許多信息,簡單幾個數據不會輕易體現一個人的行蹤,但當許多數據集中在一起時,結果可能就不一樣了。因此還必須考慮隱私問題,這同樣提高了數據分析的難度。

Google等一些科技公司為了應對大數據時代的機遇與挑戰,研發了專門的數據庫軟件與新技術,比如Google在2004年提出了Map Reduce,完整流程如圖1所示。

這是一個具有代表意義的批處理模式,從圖1可見,將問題分而治之的思路,好處是顯而易見的,復雜問題變得不那么復雜,且改變了數據與計算的關系。回想計算機發展史,從最初以運算器為中心的馮·洛依曼機到現在以存儲器為中心的計算機結構,Map Reduce改變了數據必須送到計算中處理的方式,讓計算“跑”到數據中處理數據。關系型數據庫在很長一段時間內都是處理數據的最佳選擇,然而隨著大數據時代對數據處理需求的改變,出現了許多特別應對大數據分析的工具,Hadoop是目前比較流行的平臺,當然也有在Hadoop基礎上改進或完全獨立開發的工具。

4數據分析結果顯示

為什么數據分析結果不可以使用傳統的方式展示,而要特地設計?先來看一組數據,如圖2所示。

從圖2可以看出原始數據的復雜性,分析結果也是多維度的,無法也不需要列出全部分析結果,這就需要尋求新的方式去展示數據分析結果。分析結果可能牽扯到個人隱私,這也是需要面對的問題。比如在Google里搜索關鍵字,會在無意識情況下將一個人的私人偏好或目前面臨的問題暴露出來(比如Google后臺被入侵或Google出售自己的數據,雖然這二者可能性都很低)。數據分析結果并不簡單,需要兼顧非常多的技術問題與非技術問題。

5結語

如今,數據越來越多,但它本身只是璞玉,需經過精雕細琢才能實現真正的價值。總的來說,大數據研究才剛剛起步,還有許多基礎問題需要解決;大數據與其它計算機技術有什么不同、是否會在根本上導致新的計算機革命,還需要較長時間來驗證。不過,在某種意義上,大數據的魅力正是其未來的無限可能,因為未來無法預測,才令人充滿好奇,停不下探索的腳步。

參考文獻參考文獻:

[1]方巍,鄭玉,徐江.大數據:概念、技術及應用研究綜述[J].南京信息工程大學學報:自然科學版,2014(5):405419.

[2]馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013,34(2):1017.

[3]李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015,45(1):144.

[4]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013(4):168172.

[5]WU X,ZHU X,WU G Q, et al. Data mining with big data[J]. IEEE Transactions on Knowledge & Data Engineering,2014,26(1):97107.

[6]BENSRHIR A. Big data for geopolitical analysis: application on barack obama's remarks and speeches[C]. ACS International Conference on Computer Systems and Applications IEEE Computer Society,2013:14.

[7]ZHENG Z, ZHU J, LYU M R. Servicegenerated big data and big dataasaservice: an overview[C]. IEEE International Congress on Big Data,2013:403410.

[8]ZIN T T, TIN P, TORIU T,et al. A big data application framework for consumer behavior analysis[C]. Consumer Electronics IEEE,2013:245246.

[9]GOLDMAN N, BERTONE P, CHEN S,et al. Toward practical highcapacity lowmaintenance storage of digital information in synthesised DNA[J]. Nature,2013:494.

[10]CHURCH G M,GAO Y,KOSURI S. Supplementary materials for nextgeneration nextgeneration digital information storage in DNA[J]. Science, 2012,337:16281643.

[11]GRASS R N, HECKEL R, PUDDU M,et al. Robust chemical preservation of digital information on DNA in silica with errorcorrecting codes[J]. Angewandte Chemie International Edition,2015,54(8):25522555.

[12]陳鵬.面向大數據應用的異構可重構平臺關鍵技術研究[D].合肥:中國科學技術大學,2015.

責任編輯(責任編輯:何麗)endprint

猜你喜歡
云計算數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于云計算的移動學習平臺的設計
實驗云:理論教學與實驗教學深度融合的助推器
大學教育(2016年9期)2016-10-09 08:54:03
云計算中的存儲虛擬化技術應用
科技視界(2016年20期)2016-09-29 13:34:06
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 中国一级特黄大片在线观看| 亚洲国产中文精品va在线播放| 久久综合九九亚洲一区| 毛片a级毛片免费观看免下载| 亚洲欧美成人在线视频| 91啦中文字幕| 伊人精品视频免费在线| 欧美亚洲综合免费精品高清在线观看| 久久精品丝袜| 狠狠操夜夜爽| 国产美女人喷水在线观看| 亚洲欧美综合另类图片小说区| 喷潮白浆直流在线播放| 91精品最新国内在线播放| 国产亚洲精品yxsp| 国产高潮流白浆视频| 暴力调教一区二区三区| 国内老司机精品视频在线播出| 91久久青青草原精品国产| 伊人久综合| 女人18毛片一级毛片在线| 91福利免费视频| 国产亚洲高清在线精品99| 久夜色精品国产噜噜| 熟妇人妻无乱码中文字幕真矢织江| 性视频一区| 一区二区三区成人| 在线国产毛片手机小视频| 欧美亚洲国产精品久久蜜芽| 国产成人精品亚洲日本对白优播| 亚洲最大看欧美片网站地址| 91精品伊人久久大香线蕉| 漂亮人妻被中出中文字幕久久| 国产免费a级片| 亚洲欧美在线综合一区二区三区| 一级做a爰片久久毛片毛片| 国产理论一区| 婷婷色中文网| 麻豆精品在线播放| 久久亚洲天堂| 国产亚洲成AⅤ人片在线观看| 国产欧美性爱网| 久热中文字幕在线| 国产欧美日韩综合一区在线播放| 成人免费网站在线观看| 一级爱做片免费观看久久| 婷婷色丁香综合激情| 综合色在线| 国产三级国产精品国产普男人| 亚洲欧美综合另类图片小说区| 亚洲午夜福利在线| 日本尹人综合香蕉在线观看| 亚洲综合专区| 99久视频| 丰满人妻中出白浆| 国产一区二区视频在线| 精品福利国产| 伊人激情综合网| 亚洲天堂精品视频| 69精品在线观看| 国产视频a| 亚洲狼网站狼狼鲁亚洲下载| 欧美一区二区三区不卡免费| 亚洲大尺度在线| 日本免费精品| 蜜桃视频一区二区| 国产精品刺激对白在线| 久久semm亚洲国产| 19国产精品麻豆免费观看| 四虎在线观看视频高清无码| 成人福利在线观看| 国产高清在线观看| 有专无码视频| 国产主播喷水| 国产毛片不卡| 99在线观看精品视频| 一级爆乳无码av| 亚洲bt欧美bt精品| 99在线视频免费| 天堂在线www网亚洲| 91色老久久精品偷偷蜜臀| 99在线视频网站|