大數據環境下計算機信息處理技術的應用及實踐要點分析

2016-01-19 17:13:13李海燕

科技與創新 2016年1期

關鍵詞：數據存儲數據挖掘大數據

李海燕

摘要：首先簡要闡述了大數據與計算機信息處理技術，然后在此基礎上論述了大數據環境下計算機信息處理技術面臨的挑戰及其應用實踐，希望能對數據信息加工處理效率的提升有所幫助。

關鍵詞：大數據；計算機；數據存儲；數據挖掘

中圖分類號：TP311.13 文獻標識碼：A DOI：10.15913/j.cnki.kjycx.2016.01.156

1 大數據與計算機信息處理技術概述

1.1 大數據

大數據在業內又被稱為“巨量數據集合”，具體是指在可承受的時間范圍內無法借助常規軟件工具進行捕捉、管理和處理的數據集合。大數據具有如下特征：①容量大，均為PB級以上；②種類多，數據類型多種多樣；③速度快，獲取數據的速度非常快；④真實，數據本身的質量較高；⑤復雜性，數據來源的渠道較多。

1.2 計算機信息處理技術

計算機信息處理技術是一項綜合性技術，具體包括通信、微電子、網絡等技術。計算機的信息處理過程非常復雜，所以該技術成為了數據獲取、傳輸、分析和處理的綜合體。大體上，可將該技術分為檢索技術、信息系統技術、通信網絡技術和數據庫技術這幾種。它可以整合數據資料，然后存儲有效信息。

2 計算機信息處理技術面臨的挑戰

在大數據環境下，計算機信息處理技術的發展面臨著嚴峻挑戰，具體表現在以下幾個方面：①巨量的數據信息要求具備足夠的儲存空間以及高效率的壓縮技術和數據傳輸技術。②數據挖掘要滿足全面性和可信度高的要求，然后要對數據進行分類，以便于信息檢索，并要求數據處理結果可視化。③數據流的增多導致網絡黑客越來越多，對用戶信息的安全構成了威脅，所以必須重視對信息安全防護技術的研發。同時，為了保證大數據的安全，要求計算機信息處理技術能夠在處理信息的同時，實現對網絡環境的跟蹤監控，有效防范網絡黑客的惡意攻擊。④在大數據環境下，必須提高計算機對海量數據的處理能力，并要求網絡運營商提升硬件設備的性能和網絡寬帶的傳輸速度。⑤有價值的數據信息往往隱藏在海量信息中，為了快速提取這部分信息，就必須提高計算機的信息處理能力。⑥大數據的容量大、結構復雜，所以必須優化、創新計算機網絡結構，加快計算機與網絡融合的速度，以保證數據的高效存儲和傳輸。⑦大數據時代的發展需要一大批高素質的計算機專業人才。

3 計算機信息處理技術的應用實踐

在大數據環境下，計算機信息處理技術的應用具體體現在如下幾個方面。

3.1 深網數據感知與數據獲取

這里所指的“深網”（DEEP WEB）又被稱為“網絡深層空間”，最為突出的特點是數據信息的規模較大，且所有的信息均呈動態。它的訪問方式較為特殊，數據信息十分分散。通過對網絡深層空間數據的利用，可以實現高質量的數據集成，從而高效地完成數據信息的抽取和整合。

3.2 分布式數據存儲

由Google公司研發的GFS（可擴展的分布式系統）技術是分布式數據處理的核心，其主要應用的是列存儲的概念。這種存儲方式以列為單位，與傳統的行存儲相比，它在數據壓縮上更方便，并且循環速度較快。目前，較為流行的存儲技術為行列混合式儲存，它可以在較短的時間內以較快的速度加載海量數據信息，大幅縮短了信息查詢時間，使磁盤空間得到了高效利用。在具體應用該技術時，應注意對數據分布的優化，以提高數據的存儲效率和處理效率。

3.3 數據索引

Big Table（非關系型數據庫）是當前比較主流的一種數據索引技術，同樣是由Google公司研發的。聚簇和互補式索引是現階段研究的熱點課題，前者是指根據索引的先后順序對全部的數據進行存儲；后者則是以多副本為數據索引列創出互為補充的索引表。在這兩種索引方式的基礎上，結合查詢結果估算方法，便可實現對最優數據查詢的計劃。

3.4 基于信息內容的數據挖掘

基于信息內容的數據挖掘主要應用了兩項關鍵技術，分別是網絡搜索技術和實體關聯分析技術。目前，網絡信息搜索的熱點是排序學習算法。排序學習算法主要是針對大數據中半結構化數據的社會媒體信息量提出的，包括逐點算法、逐對算法和逐列算法。在這一應用領域中，關注的數據具有短文本的特點。在國內的很多行業中，均存在數據量大、信息缺乏的現象，而應用基于信息內容的數據挖掘可以使這一問題得到有效解決，有利于推動行業的發展。

3.5 分類數據與聚類數據分析

分類數據的理論基礎是最大似然估計和其他可供選擇的估算方法，具體是指將數據點進行歸類處理，在此基礎上確定出新的數據點，然后在明確假設和客觀結構后準確預測客戶的行為。分類數據又被稱為“名義數據”，是社會科學研究的重要內容，其數據信息具有單一性的特點，即只能代表數據類別。依據每個類別的數量，分類數據能夠分析出不同類別數據之間的關系。

所謂“聚類數據分析”，是指將物理或抽象對象的集合分組為由類似的對象組成多個類的分析過程，主要目標是在相似的基礎上對收集到的數據進行分類。很多領域都需要應用到聚類技術，例如數學、統計學、經濟學和計算機科學等。聚類數據分析能夠對數據進行描述，衡量不同數據源之間的相似性，并將數據源分類到不同的簇中。

4 結束語

總而言之，在大數據環境下，計算機網絡朝著云計算網絡的方向發展已經成為一個必然趨勢。由于現有的網絡架構主要是以計算機硬件為基礎，局限性相對較大，因此，要充分利用數據信息處理技術，并通過重新定義網絡架構，使網絡中的數據信息與硬件分離，這樣計算機信息處理技術才能不再依靠硬件設備，而只要通過網絡就能實現連接，滿足大數據環境的要求。

參考文獻

[1]王東濱，智慧，余翔湛.網絡數據實時處理中的多線程內存管理技術[J].網絡與信息安全技術，2012（7）：163-165.

[2]趙卓峰，馬強，房俊.針對高速數據流的大規模數據實時處理方法[J].計算機學報，2012（5）：78-79.

[3]常明迪.網絡環境下的計算機信息處理與安全技術分析[J].計算機光盤軟件與應用，2013（9）：56-57.

〔編輯：王霞〕