999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)淺析

2019-12-23 10:52:48唐和卿
關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)

◆唐和卿

?

基于大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)淺析

◆唐和卿

(甘肅鋼鐵職業(yè)技術(shù)學(xué)院 甘肅735100)

人們大量使用手持終端設(shè)備接入互聯(lián)網(wǎng),產(chǎn)生了龐大的數(shù)據(jù)量,這些數(shù)據(jù)已經(jīng)成為信息社會(huì)的巨大財(cái)富,同時(shí)也帶來了數(shù)據(jù)篩選和數(shù)據(jù)安全方面的巨大挑戰(zhàn)。數(shù)據(jù)篩選即數(shù)據(jù)可用性問題成為大數(shù)據(jù)的重要挑戰(zhàn)之一。大數(shù)據(jù)的價(jià)值并非數(shù)據(jù)本身,而是由大數(shù)據(jù)所反映的“大決策”,“大知識(shí)”,“大問題”。近年來,大數(shù)據(jù)可用性的研究已經(jīng)取得了一定成果,而計(jì)算機(jī)信息處理技術(shù)的發(fā)展就是要提高數(shù)據(jù)可用性,本文研究了大數(shù)據(jù)時(shí)代信息處理技術(shù),供讀者參考。

大數(shù)據(jù);靜態(tài)數(shù)據(jù);流式數(shù)據(jù);數(shù)據(jù)挖掘

1 大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)概述

大數(shù)據(jù)蘊(yùn)含著巨大的價(jià)值,可以從中獲取豐富的信息,對(duì)改善和預(yù)測(cè)人們的生產(chǎn)生活,更加深入地認(rèn)識(shí)和控制物理世界具有重要的戰(zhàn)略意義。但隨著各類信息數(shù)據(jù)的爆炸性增長(zhǎng),數(shù)據(jù)質(zhì)量良莠不齊,部分?jǐn)?shù)據(jù)呈現(xiàn)低價(jià)值性而數(shù)據(jù)整體呈現(xiàn)高價(jià)值性,劣質(zhì)數(shù)據(jù)的大量涌現(xiàn),極大地降低了數(shù)據(jù)的可用性,使數(shù)據(jù)之間的關(guān)聯(lián)性更加復(fù)雜。

大數(shù)據(jù)主要有三個(gè)來源:(1)互聯(lián)網(wǎng)上的數(shù)據(jù)庫(kù)資源;(2)各種科學(xué)實(shí)驗(yàn)與觀測(cè)數(shù)據(jù);(3)物理信息系統(tǒng),如智能電網(wǎng),智慧城市等。

2 大數(shù)據(jù)的處理方式:

2.1 靜態(tài)數(shù)據(jù)的處理

批量處理:主要操作大容量靜態(tài)數(shù)據(jù)集,并在計(jì)算過程完成后返回結(jié)果。常用于對(duì)歷史數(shù)據(jù)進(jìn)行分析,不適合對(duì)實(shí)時(shí)性要求較高的場(chǎng)合。

特征:一、數(shù)據(jù)體量巨大;二、數(shù)據(jù)精度高;三、數(shù)據(jù)價(jià)值密度低,例如監(jiān)控?cái)?shù)據(jù),數(shù)據(jù)始終存儲(chǔ)在某種類型的持久存儲(chǔ)位置中。目前的主要應(yīng)用為Apache Hadoop,專用于批處理的處理框架。Hadoop(集群)——大數(shù)據(jù)框架,用于由通用硬件構(gòu)建的大型集群上運(yùn)行應(yīng)用程序。類似于CPU進(jìn)程被分解為多個(gè)線程的操作,它的計(jì)算任務(wù)會(huì)被分割成小塊運(yùn)行在不同的節(jié)點(diǎn)上,每個(gè)小塊可能被多次運(yùn)行,實(shí)現(xiàn)了Mapreduce(分布式計(jì)算層)的編程范型。它提供了分布式存儲(chǔ)(文件)系統(tǒng)HDFS,數(shù)據(jù)被存儲(chǔ)在計(jì)算節(jié)點(diǎn)上以提供極高的跨數(shù)據(jù)中心聚合帶寬。基本步驟如下:

(1)從HDFS文件系統(tǒng)讀取數(shù)據(jù)集;(2)拆解數(shù)據(jù)集并按需分配至所有可用節(jié)點(diǎn);(3)計(jì)算節(jié)點(diǎn)上的數(shù)據(jù)子集,中間態(tài)重新進(jìn)入HDFS;(4)按鍵分組重新分配中間態(tài)結(jié)果;(5)匯總節(jié)點(diǎn)計(jì)算的結(jié)果并對(duì)每個(gè)鍵的值進(jìn)行還原;(6)計(jì)算的最終結(jié)果重新寫入HDFS。

這種方式對(duì)每個(gè)任務(wù)需要多次執(zhí)行讀取和寫入操作,速度較慢,對(duì)持久存儲(chǔ)依賴嚴(yán)重。MapReduce可以處理來自服務(wù)器磁盤空間的龐大數(shù)據(jù)集,意味著相比其他技術(shù),MapReduce可以在硬件上直接運(yùn)行,它的運(yùn)行不需要大容量的內(nèi)存支持[1]。MapReduce的縮放能力極高,對(duì)包含數(shù)萬個(gè)節(jié)點(diǎn)的應(yīng)用也能輕松應(yīng)對(duì)。如今圍繞Hadoop已經(jīng)形成了遼闊的生態(tài)系統(tǒng),Hadoop集群本身也經(jīng)常被用作其他軟件的組成部件。很多其他處理框架和引擎通過與Hadoop集成也可以使用HDFS和YARN(集群資源管理器)。

典型應(yīng)用實(shí)例:一、社交網(wǎng)絡(luò);二、電子商務(wù);三、搜索引擎;四、物聯(lián)網(wǎng);五、云計(jì)算。

2.2 對(duì)在線流式數(shù)據(jù)的處理

流式數(shù)據(jù)的處理,完成數(shù)據(jù)的動(dòng)態(tài)清洗,格式處理。流式數(shù)據(jù)的特點(diǎn):數(shù)據(jù)連續(xù)不斷,來源眾多,格式復(fù)雜,物理順序不一,數(shù)據(jù)的價(jià)值密度低,對(duì)應(yīng)的處理工具則需要具備較高性能,以及實(shí)時(shí)、可擴(kuò)展等特性。Hadoop主要是為離線數(shù)據(jù)設(shè)計(jì),并不能夠?qū)υ诰€數(shù)據(jù)流進(jìn)行處理。此外,隨著智能終端的普及,如今互聯(lián)網(wǎng)已經(jīng)漸變?yōu)橐苿?dòng)互聯(lián)網(wǎng),用戶可以隨時(shí)隨地使用手持終端接入互聯(lián)網(wǎng)。流式數(shù)據(jù)的規(guī)模量逐步增長(zhǎng),內(nèi)容和服務(wù)的實(shí)時(shí)性愈加重要。這也就對(duì)實(shí)時(shí)計(jì)算能力提出更高的要求,因此分布式的實(shí)時(shí)計(jì)算平臺(tái)Storm應(yīng)運(yùn)而生。系統(tǒng)基于Hadoop平臺(tái),采用Storm作為實(shí)時(shí)計(jì)算框架,為在線任務(wù)的執(zhí)行提供外部環(huán)境。并且采用KeyValue數(shù)據(jù)庫(kù)HBase作為主要的存儲(chǔ)方式,使得系統(tǒng)在高并發(fā)的情況下仍然能夠穩(wěn)定服務(wù)。此外,用戶可以根據(jù)規(guī)則對(duì)業(yè)務(wù)處理邏輯進(jìn)行自定義,大大提高了用戶使用數(shù)據(jù)的效率[2]。

流處理中的數(shù)據(jù)集是“無邊界”的,基于事件處理,隨著新數(shù)據(jù)的抵達(dá)持續(xù)更新,如果沒有命令停止則一直不間斷執(zhí)行,處理結(jié)果實(shí)時(shí)可用。同一時(shí)間只能處理很少量的數(shù)據(jù),不同記錄間只維持最少量的狀態(tài)。對(duì)流式數(shù)據(jù)采用批處理方法,采用對(duì)進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行緩沖的機(jī)制,這使得該技術(shù)可以處理巨大體量的傳入數(shù)據(jù),提高單位時(shí)間內(nèi)的數(shù)據(jù)吞吐率,但新數(shù)據(jù)進(jìn)入緩沖區(qū)要等待緩沖區(qū)已有數(shù)據(jù)清空,這樣會(huì)導(dǎo)致延遲增高。

2.3 對(duì)在線實(shí)時(shí)性交互式數(shù)據(jù)的處理

特點(diǎn)是靈活,直觀便于控制。以DBMS為主,有兩類應(yīng)用:聯(lián)機(jī)事物處理(OLTP)和聯(lián)機(jī)分析處理(OLAP)如:spark系統(tǒng),Dremel系統(tǒng)。Dremel 是由Google 研究出的“交互式”數(shù)據(jù)分析系統(tǒng)。可以組建成百上千的集群,處理存儲(chǔ)容量為PB(拍字節(jié),1024TB)級(jí)別的數(shù)據(jù)。Dremel處理一個(gè)數(shù)據(jù)為秒級(jí),而MapReduce是分鐘級(jí)。2009年Google的研究人員通過對(duì)每日超過30億次搜索請(qǐng)求和網(wǎng)頁(yè)數(shù)據(jù)的挖掘分析,在H1N1流感爆發(fā)幾周就預(yù)測(cè)出流感傳播;通過對(duì)微博、論壇、聊天記錄等網(wǎng)絡(luò)大數(shù)據(jù)的挖掘分析能夠發(fā)現(xiàn)社會(huì)動(dòng)態(tài),預(yù)警重大和突發(fā)性事件[3]。

2.4 圖形圖像數(shù)據(jù)的處理

圖像數(shù)據(jù)處理技術(shù)基本可以分成兩大類:模擬圖像處理(Analog Image Processing)和數(shù)字圖像處理(Digital Image Processing)。數(shù)字圖像處理是將圖像的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)并利用計(jì)算機(jī)進(jìn)行處理的過程[4]。其優(yōu)點(diǎn)是處理精度高,重現(xiàn)性能好,靈活性高,效果易于控制,可進(jìn)行復(fù)雜的非線性處理,使用不同的圖像處理軟件能獲得不同的處理效果,但在進(jìn)行復(fù)雜的數(shù)字圖像處理的時(shí)候處理速度會(huì)較慢,數(shù)字圖像的處理對(duì)計(jì)算機(jī)硬件性能的要求較高。數(shù)字圖像處理技術(shù)主要包括:圖像變換、圖像壓縮和編碼、圖像增強(qiáng)和復(fù)原、圖像分割、圖像描述、圖像分類(識(shí)別)。圖像處理技術(shù)的理論和技術(shù)的日趨成熟,對(duì)圖像處理科學(xué)的發(fā)展作用越來越大,影響深遠(yuǎn),在人工智能,人工模擬,航空航天,軍事,視頻和多媒體系統(tǒng)、生物醫(yī)學(xué)、電子商務(wù)等領(lǐng)域被廣泛應(yīng)用。基于圖數(shù)據(jù)處理系統(tǒng)Apache Hadoop,典型應(yīng)用為中文知識(shí)圖譜,知立方平臺(tái),zh-ishi.me,知件等。

3 大數(shù)據(jù)挖掘技術(shù)

3.1 數(shù)據(jù)挖掘的意義

數(shù)據(jù)挖掘(Data Mining)是從巨大體量的數(shù)據(jù)中通過數(shù)學(xué)算法搜索隱藏在其中的有價(jià)值的信息的過程,這些數(shù)據(jù)可能包含不完全、有噪聲、模糊、隨機(jī)等屬性。根據(jù)信息存儲(chǔ)格式,用于挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)以及Internet等[5]。

3.2 大數(shù)據(jù)挖掘技術(shù)

大數(shù)據(jù)挖掘技術(shù)主要有這幾項(xiàng):一、有效的大數(shù)據(jù)預(yù)處理技術(shù);二、非向量數(shù)據(jù)挖掘技術(shù);三、分布式大數(shù)據(jù)挖掘技術(shù)。

4 結(jié)束語(yǔ)

總之,計(jì)算機(jī)信息處理技術(shù)的日益發(fā)展為人們的生產(chǎn)生活帶來了極大的便利,更快、更高效,精度更高的計(jì)算機(jī)信息處理技術(shù)也在眾多科研人員的努力下快速發(fā)展。有追求就會(huì)有突破,只有不斷滿足社會(huì)大眾生活需求,才能使計(jì)算機(jī)處理技術(shù)高效快速發(fā)展,這是機(jī)遇,亦是挑戰(zhàn)。不斷加強(qiáng)計(jì)算機(jī)信息處理技術(shù)方面的研究,讓互聯(lián)網(wǎng)數(shù)據(jù)為人民大眾的福祉牟利,為推動(dòng)我國(guó)現(xiàn)代化建設(shè)牟利。

[1]郭若男.基于Hadoop平臺(tái)的在線數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué)碩士論文,2015(08):1-70.

[2]李建中,劉顯敏.大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J].計(jì)算機(jī)研究與發(fā)展,2013(05):1147-1162.

[3]李紅俊,韓冀皖.數(shù)字圖像處理技術(shù)及其應(yīng)用[J].計(jì)算機(jī)測(cè)量與控制,2002(10):620-622.

[4]金育嬋.數(shù)據(jù)挖掘技術(shù)中關(guān)于關(guān)聯(lián)規(guī)則算法的研究[J].科技傳播,2011(06):223-224,226.

猜你喜歡
數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)庫(kù)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫(kù)
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 国产不卡在线看| 国内毛片视频| 一级成人a毛片免费播放| 欧美亚洲一二三区| 2020国产精品视频| AV不卡在线永久免费观看| 亚洲精品黄| 国产精品无码作爱| 99er这里只有精品| 妇女自拍偷自拍亚洲精品| 狠狠五月天中文字幕| 国产另类视频| 亚洲欧美成人| 五月丁香伊人啪啪手机免费观看| 国产真实乱子伦精品视手机观看 | 欧美成人午夜在线全部免费| 永久在线播放| 亚洲成a人片77777在线播放| 亚洲电影天堂在线国语对白| 国产成人久久777777| 精品亚洲国产成人AV| 日本一区二区不卡视频| 在线综合亚洲欧美网站| 国产天天色| 日本不卡免费高清视频| 亚洲无码高清免费视频亚洲| 在线看免费无码av天堂的| 欧美精品成人| 啦啦啦网站在线观看a毛片| aⅴ免费在线观看| 福利在线不卡| 九九九精品视频| 波多野结衣二区| 日本黄色a视频| 国产精品午夜电影| 超碰免费91| 亚洲视频免| 九九九国产| 成年午夜精品久久精品| 三级国产在线观看| 在线观看国产精品第一区免费| 国产三级成人| 欧美一级大片在线观看| 国产欧美日韩91| 国产黄色免费看| 亚洲综合第一页| 99精品在线看| 亚洲人成电影在线播放| 国产欧美视频综合二区| 国内精品视频区在线2021| 国产无码性爱一区二区三区| 激情六月丁香婷婷| 欧美成人精品一级在线观看| 免费av一区二区三区在线| 欧美在线精品怡红院| 99精品这里只有精品高清视频| 激情五月婷婷综合网| www.youjizz.com久久| 伊人久久久久久久久久| 无码视频国产精品一区二区| 亚洲色无码专线精品观看| 夜夜高潮夜夜爽国产伦精品| 国产亚洲视频中文字幕视频| 黄片一区二区三区| 国产精品播放| 国产精品无码影视久久久久久久| 99久久精品免费看国产电影| 国产一区自拍视频| www中文字幕在线观看| 黄色网页在线播放| 99在线观看免费视频| 91精品国产情侣高潮露脸| 不卡午夜视频| 国产网站免费观看| 韩日无码在线不卡| 欧美人与性动交a欧美精品| 国产精品视频导航| 亚洲黄色视频在线观看一区| 国产无遮挡裸体免费视频| 国产成人欧美| 国产精品亚欧美一区二区| 天天做天天爱夜夜爽毛片毛片|