999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)問題

2013-12-29 00:00:00陳明
計(jì)算機(jī)教育 2013年5期

摘要:由于科學(xué)實(shí)驗(yàn)與互聯(lián)網(wǎng)的飛速發(fā)展,出現(xiàn)了大數(shù)據(jù)。對(duì)大數(shù)據(jù)進(jìn)行合理的分析和管理必將會(huì)推動(dòng)科學(xué)進(jìn)步和企業(yè)發(fā)展,也會(huì)為社會(huì)創(chuàng)造出更多、更新的成果。文章介紹大數(shù)據(jù)的概念與特征、產(chǎn)生源泉以及相關(guān)的技術(shù)問題。

關(guān)鍵詞:大數(shù)據(jù);復(fù)雜性;非結(jié)構(gòu)化

1.背景

近年,來自人們?nèi)粘I?,特別是互聯(lián)網(wǎng)服務(wù)的數(shù)據(jù)量飆升。僅過去兩年間,新產(chǎn)生的數(shù)據(jù)就占到了全球數(shù)量總量的90%;預(yù)計(jì)到2020年,全世界需要管理的數(shù)據(jù)將達(dá)到35個(gè)ZB,其中主要包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理信息等各種類型,存儲(chǔ)在不同地域的各類服務(wù)器中。數(shù)據(jù)是重要的戰(zhàn)略資源,隱含著巨大的經(jīng)濟(jì)價(jià)值。通過對(duì)大量數(shù)據(jù)的交換、整合、分析與利用,我們可以發(fā)現(xiàn)新的知識(shí)、創(chuàng)造新的價(jià)值,形成大知識(shí)和大科技,帶來大利潤(rùn)和大發(fā)展。因此,多國(guó)政府已將數(shù)據(jù)提升為與水、石油、煤炭一樣的高度,并將擁有數(shù)據(jù)的規(guī)模和數(shù)據(jù)分析能力視為國(guó)家的核心競(jìng)爭(zhēng)力。

2.大數(shù)據(jù)科學(xué)與技術(shù)

2.1定義

大數(shù)據(jù)是指規(guī)模大、類型多、高變化率的數(shù)據(jù)集合。大數(shù)據(jù)的定義至少涉及容量、種類和傳輸速度三個(gè)要素。

如何快速訪問龐大的數(shù)據(jù),如何有效處理包含數(shù)千萬個(gè)文檔、數(shù)百萬張照片或者工程設(shè)計(jì)圖的數(shù)據(jù)集等,是大數(shù)據(jù)研究者面臨的挑戰(zhàn)。

2.2大數(shù)據(jù)產(chǎn)生的源泉

大數(shù)據(jù)主要來自互聯(lián)網(wǎng)世界與物理世界。

1)互聯(lián)網(wǎng)世界。

大數(shù)據(jù)來自人類社會(huì),尤其是互聯(lián)網(wǎng)的發(fā)展為數(shù)據(jù)的存儲(chǔ)、傳輸與應(yīng)用創(chuàng)造了基礎(chǔ)與環(huán)境。依據(jù)基于唯象假設(shè)的六度理論而建立的社交網(wǎng)絡(luò)服務(wù)(SNS,Social Network Service),使用者以認(rèn)識(shí)朋友的朋友為基礎(chǔ),擴(kuò)展自己的人脈。在基于W2.0網(wǎng)站建立的社交網(wǎng)絡(luò)中,用戶既是網(wǎng)站信息的使用者,也是網(wǎng)站信息的制作者。

2)物理世界。

科學(xué)實(shí)驗(yàn)是科技人員設(shè)計(jì)的,其中的數(shù)據(jù)采集、數(shù)據(jù)處理需要事先設(shè)計(jì),無論是檢索還是模式識(shí)別都有科學(xué)規(guī)律可循。例如,希格斯粒子(又稱為上帝粒子)的尋找,采用了大型強(qiáng)子對(duì)撞機(jī)實(shí)驗(yàn),至少要在1萬億個(gè)事例中才可能找出一個(gè)希格斯粒子。這是一個(gè)典型的基于大數(shù)據(jù)的科學(xué)實(shí)驗(yàn)。從這一實(shí)驗(yàn)可以看出,科學(xué)實(shí)驗(yàn)的大數(shù)據(jù)處理是整個(gè)實(shí)驗(yàn)的一個(gè)預(yù)定步驟,這是一個(gè)有規(guī)律的設(shè)計(jì),可以預(yù)見性地發(fā)現(xiàn)有價(jià)值的信息。

2.3大數(shù)據(jù)的特點(diǎn)

大數(shù)據(jù)有以下5個(gè)特點(diǎn),分析這些特點(diǎn)對(duì)有效傳輸、存儲(chǔ)、處理、應(yīng)用和管理大數(shù)據(jù)至關(guān)重要。

1)容量巨大。

一般說來,超大規(guī)模數(shù)據(jù)是指GB(1GB(千兆)=1 024MB)級(jí)的數(shù)據(jù),海量數(shù)據(jù)是指TB(1TB(萬億字節(jié),太字節(jié))=1024GB)級(jí)的數(shù)據(jù),而大數(shù)據(jù)則是指PB(1PB(千萬億字節(jié),拍字節(jié))=1024TB)級(jí)及其以上(EB、ZB和YB)的數(shù)據(jù)。可以想象,容量的指標(biāo)是動(dòng)態(tài)變化的。相對(duì)于當(dāng)前的CPU和存儲(chǔ)技術(shù)水平而言,系統(tǒng)管理這些規(guī)模過大的數(shù)據(jù)需要特別對(duì)待。

2)類型繁多。

大數(shù)據(jù)包含大量不同的數(shù)據(jù)和文件類型,如各種聲音和電影文件、圖像、文檔、地理定位數(shù)據(jù)、網(wǎng)絡(luò)日志、文本字符串文件、元數(shù)據(jù)、網(wǎng)頁、電子郵件、社交媒體供稿、表格數(shù)據(jù)等。

3)速度快。

大數(shù)據(jù)速度快是指數(shù)據(jù)的變化率高,傳統(tǒng)技術(shù)并不適于大數(shù)據(jù)的高速儲(chǔ)存、管理和使用。

4)非結(jié)構(gòu)化。

非結(jié)構(gòu)化數(shù)據(jù)是指在獲得數(shù)據(jù)之前無法預(yù)知其結(jié)構(gòu)的數(shù)據(jù)。目前所獲的數(shù)據(jù)85%以上是非結(jié)構(gòu)化數(shù)據(jù),而不再是純粹的關(guān)系數(shù)據(jù),傳統(tǒng)的系統(tǒng)無法勝任這些數(shù)據(jù)的處理。從應(yīng)用角度,非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算是計(jì)算機(jī)科學(xué)的前沿。大數(shù)據(jù)的高度異構(gòu)也導(dǎo)致難以抽取出合適數(shù)量的語義信息。

5)價(jià)值密度低。

以視頻為例,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅為1~2秒內(nèi)的數(shù)據(jù)。

2.4大數(shù)據(jù)的研究領(lǐng)域

大數(shù)據(jù)可分成大數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)應(yīng)用等領(lǐng)域。大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)的過程,注重發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系;大數(shù)據(jù)技術(shù)包括對(duì)大數(shù)據(jù)的估算、表示、處理等技術(shù);大數(shù)據(jù)工程是指大數(shù)據(jù)的規(guī)劃、建設(shè)、運(yùn)營(yíng)和管理;大數(shù)據(jù)的應(yīng)用領(lǐng)域主要包括科學(xué)決策、應(yīng)急管理(如疾病防治、災(zāi)害預(yù)測(cè)與控制、食品安全與群體事件等)、環(huán)境管理、社會(huì)計(jì)算、知識(shí)經(jīng)濟(jì)等。

大數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué),是在某個(gè)領(lǐng)域中有條件地尋找數(shù)據(jù)相互關(guān)系和普適性規(guī)律。因?yàn)楦黝I(lǐng)域的數(shù)據(jù)分析方法和結(jié)果存在一定程度的普適性,所以抽取領(lǐng)域的共性科學(xué)問題很有意義,但這往往需要較長(zhǎng)的時(shí)間,需要一段時(shí)間的實(shí)踐積累,通過分層次、不斷抽象,共性科學(xué)問題才會(huì)逐步清晰明朗??茖W(xué)研究的軌跡是先做白盒模型研究,通過積累就可以抽象出通用性強(qiáng)大的黑盒模型。

大數(shù)據(jù)研究是一種方法研究,數(shù)據(jù)本身不作為研究目標(biāo),而是作為方法研究和發(fā)現(xiàn)新知識(shí)的工具。大數(shù)據(jù)研究是一種交叉學(xué)科研究,它與數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、搜索等人工智能方法密切相關(guān)。在傳統(tǒng)數(shù)據(jù)挖掘研究中,當(dāng)數(shù)據(jù)維度和規(guī)模增大時(shí),所需資源呈指數(shù)級(jí)增加,但對(duì)PB級(jí)以上(EB、ZB和YB)的大數(shù)據(jù)需要研究新的方法。統(tǒng)計(jì)學(xué)的目標(biāo)是從各種類型的數(shù)據(jù)中提取有價(jià)值的信息,進(jìn)而實(shí)現(xiàn)預(yù)見性,但一般不強(qiáng)調(diào)因果邏輯。人工智能則需要將統(tǒng)計(jì)方法和其他方法結(jié)合,采用多元化的方法來建立綜合模型。

目前業(yè)界探討最多的是大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。

3.大數(shù)據(jù)技術(shù)

如何獲取并動(dòng)態(tài)高效處理大數(shù)據(jù)將成為處理大數(shù)據(jù)的關(guān)鍵技術(shù)。由于大數(shù)據(jù)的異質(zhì)異構(gòu)、非結(jié)構(gòu)及不可信等特征,大數(shù)據(jù)的管理和分析研究需要解決表示、處理和可靠性等一系列重要問題。

3.1數(shù)據(jù)量復(fù)雜性估算

時(shí)間復(fù)雜性和空間復(fù)雜性是計(jì)算機(jī)科學(xué)的基本問題。大數(shù)據(jù)處理除了要考慮時(shí)間和空間復(fù)雜性外,還需要考慮數(shù)據(jù)量復(fù)雜性。數(shù)據(jù)量復(fù)雜性是指解決一個(gè)問題需要多大的數(shù)據(jù)量,即需要建立求解一個(gè)問題達(dá)到某種滿意程度需要多大規(guī)模的數(shù)據(jù)量理論。顯然,這類問題為預(yù)言型數(shù)據(jù)分析問題。目前社會(huì)科學(xué)的研究已開始涉及大數(shù)據(jù),如輿情分析、情感分析等,這些都迫切需要計(jì)算機(jī)學(xué)者與社會(huì)科學(xué)領(lǐng)域的學(xué)者密切合作,共同開拓新的理論。

3.2大數(shù)據(jù)的表示

利用統(tǒng)一的模型對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析處理困難巨大,傳統(tǒng)的數(shù)據(jù)表示方法不能直觀地展現(xiàn)數(shù)據(jù)本身含義。為了有效利用數(shù)據(jù)并挖掘其中的知識(shí),必須尋找最合適而有效的數(shù)據(jù)表示方法。目前使用的方法是數(shù)據(jù)標(biāo)識(shí),標(biāo)識(shí)方法可減輕數(shù)據(jù)識(shí)別和分類的困難,但卻給用戶增添了預(yù)處理工作量。研究既有效又簡(jiǎn)易的數(shù)據(jù)表示方法是進(jìn)行大數(shù)據(jù)處理首先面臨的技術(shù)難題之一。

3.3大數(shù)據(jù)的處理

全球數(shù)據(jù)量每18個(gè)月翻一番(遵循摩爾定律),數(shù)據(jù)規(guī)模急劇擴(kuò)大,已超越現(xiàn)有計(jì)算機(jī)存儲(chǔ)與處理能力。不僅數(shù)據(jù)處理規(guī)模巨大,而且處理需求多樣化,數(shù)據(jù)處理能力已成為企業(yè)核心競(jìng)爭(zhēng)力的關(guān)鍵。而數(shù)據(jù)處理需要結(jié)合多學(xué)科,探索一種處理新型數(shù)據(jù)的方法,以便在數(shù)據(jù)多樣性和不確定性的前提下研究數(shù)據(jù)規(guī)律和統(tǒng)計(jì)特征,具體研究?jī)?nèi)容包括以下幾個(gè)方面。

1)數(shù)據(jù)的非結(jié)構(gòu)性。

大量出現(xiàn)的各種數(shù)據(jù)本身是非結(jié)構(gòu)化的或弱結(jié)構(gòu)化的,如留言、博客、圖像、視頻數(shù)據(jù)等,如何將這些數(shù)據(jù)轉(zhuǎn)化成一個(gè)結(jié)構(gòu)化的格式是研究者面臨的一項(xiàng)重大挑戰(zhàn)。

2)數(shù)據(jù)的不完備性。

數(shù)據(jù)的不完備性是指在大數(shù)據(jù)條件下所獲取的數(shù)據(jù)常常包含一些不完整的信息,甚至是錯(cuò)誤的數(shù)據(jù)。數(shù)據(jù)的不完備性必須在數(shù)據(jù)分析階段得到有效處理。

3)數(shù)據(jù)的時(shí)效性。

處理大數(shù)據(jù)的速度非常重要。數(shù)據(jù)規(guī)模越大,分析處理時(shí)間就會(huì)越長(zhǎng)。如果設(shè)計(jì)一個(gè)專門處理固定大小數(shù)據(jù)量的數(shù)據(jù)系統(tǒng),其處理速度可能會(huì)非常快,但并不能適應(yīng)大數(shù)據(jù)的要求。在許多情況下,用戶要求立即得到數(shù)據(jù)的分析結(jié)果,這需要在處理速度與規(guī)模上折中考慮,并尋求新的方法。

4)數(shù)據(jù)的安全性與可靠性。

大數(shù)據(jù)高度依賴數(shù)據(jù)存儲(chǔ)與共享,必須考慮尋求更好的方法消除各種隱患與漏洞,才能有效地管控安全風(fēng)險(xiǎn)。數(shù)據(jù)的隱私保護(hù)是大數(shù)據(jù)分析和處理面臨的重要問題,既是技術(shù)問題也是社會(huì)學(xué)問題。如果對(duì)私人數(shù)據(jù)使用不當(dāng),尤其是泄漏有一定關(guān)聯(lián)的多組數(shù)據(jù),將導(dǎo)致用戶的隱私泄漏。

基于上述特性,目前,對(duì)大數(shù)據(jù)的處理多采用數(shù)據(jù)清洗、去冗等技術(shù),提取有價(jià)值數(shù)據(jù),實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量的高效管理。其中,對(duì)數(shù)據(jù)的安全訪問和隱私保護(hù)已成為大數(shù)據(jù)可靠性的關(guān)鍵需求,因此,如何滿足對(duì)互聯(lián)網(wǎng)大規(guī)模真實(shí)運(yùn)行數(shù)據(jù)的高效處理和持續(xù)服務(wù)的需求,數(shù)據(jù)的可靠性處理將成為重要環(huán)節(jié)。

4.大數(shù)據(jù)處理的工具

Hadoop是一個(gè)開源軟件框架,被稱為處理大數(shù)據(jù)的利器,一些大零售商常常通過Hadoop平臺(tái)用大數(shù)據(jù)鎖定客戶。Hadoop平臺(tái)包括多種專門設(shè)計(jì)的組件,主要用于解決大規(guī)模分布式數(shù)據(jù)存儲(chǔ)、分析和檢索任務(wù)。但并不是所有的Hadoop組件都是必要,對(duì)于一個(gè)大數(shù)據(jù)解決方案,其中的一些組件可取代某些技術(shù),更好地配合用戶的需求。如MapR的Hadoop,它用NFs替代HDFs,并提供了一個(gè)完整的隨機(jī)存取與讀/寫文件系統(tǒng)。

5.結(jié)語

數(shù)據(jù)為王的時(shí)代已經(jīng)到來,研究熱點(diǎn)從計(jì)算速度轉(zhuǎn)向大數(shù)據(jù)處理能力,從以編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。云計(jì)算、社交計(jì)算和移動(dòng)計(jì)算三大技術(shù)趨勢(shì)正在重塑著IT世界,并推動(dòng)數(shù)據(jù)以更大容量、更多種類及更快速度迅猛增長(zhǎng)。中國(guó)IT的發(fā)展比世界任何地方都要快,數(shù)據(jù)產(chǎn)生量也是最多的。未來十年,將是一個(gè)由大數(shù)據(jù)引領(lǐng)的智慧科技時(shí)代,其廣闊的研究領(lǐng)域和應(yīng)用前景將會(huì)越來越受到人們的重視。

(編輯:彭遠(yuǎn)紅)

主站蜘蛛池模板: 91福利免费视频| 在线观看精品国产入口| 在线免费观看AV| 国产精品午夜电影| 激情综合婷婷丁香五月尤物 | 尤物精品国产福利网站| 国产毛片不卡| 亚洲成人黄色在线观看| 国产精品精品视频| 伊人五月丁香综合AⅤ| 国产欧美性爱网| 熟妇无码人妻| 国产高清免费午夜在线视频| 91极品美女高潮叫床在线观看| 亚洲二区视频| 91精品国产丝袜| 色哟哟国产精品| 免费人成视网站在线不卡| 国模沟沟一区二区三区| 国产色网站| 亚洲天堂网在线播放| 国产拍在线| 欧美视频在线不卡| 精品午夜国产福利观看| 2022国产无码在线| 成人伊人色一区二区三区| a级免费视频| 色视频国产| 综合天天色| 成人欧美在线观看| 久久国产精品波多野结衣| 91在线播放免费不卡无毒| 999精品视频在线| 精品少妇人妻无码久久| 国产精品一区二区久久精品无码| 欧美第九页| 四虎影视库国产精品一区| 国产精品观看视频免费完整版| 在线精品视频成人网| 成人av手机在线观看| 东京热高清无码精品| 成人午夜视频在线| 91精品视频网站| 美女国产在线| 狠狠躁天天躁夜夜躁婷婷| 九九免费观看全部免费视频| 欧美五月婷婷| 蝌蚪国产精品视频第一页| 日本欧美一二三区色视频| 久久精品这里只有国产中文精品| 在线观看欧美精品二区| 欧美福利在线播放| 国产在线精彩视频论坛| 欧美日韩一区二区在线播放 | 国产黄色片在线看| 萌白酱国产一区二区| 亚洲免费黄色网| 中文字幕免费在线视频| 无码内射中文字幕岛国片 | 欧美日韩国产高清一区二区三区| h网站在线播放| 超清无码一区二区三区| 久久精品日日躁夜夜躁欧美| 欧美日韩精品在线播放| 精品国产一区二区三区在线观看| 97成人在线视频| 青青久久91| 国产精品极品美女自在线网站| 99精品视频播放| 国产乱视频网站| 香蕉国产精品视频| 99热国产这里只有精品9九 | 亚洲美女AV免费一区| 97久久免费视频| 欧美一区二区三区国产精品| 久久婷婷五月综合色一区二区| 亚洲最大在线观看| h视频在线观看网站| 91麻豆精品视频| 毛片免费试看| 五月天丁香婷婷综合久久| 国产清纯在线一区二区WWW|