摘 要計算機技術與信息技術的發展給信息社會的發展提供了動力,同時也促進了大數據時代的到來,通過對大數據的概念和特點進行分析,介紹了大數據時代計算機信息處理技術面臨的挑戰與機遇,并對大數據時代計算機信息處理的關鍵技術進行分析,以實現不斷完善計算機信息處理技術的目標。
【關鍵詞】大數據 計算機技術 信息處理
隨著信息技術、數據化的發展,對于數據與信息的生成和處理成了人們生產與管理過程中的重要組成部分。計算機技術的發展,促進了數據的搜索、存儲和交換技術的發展,大數據時代的到來,給人們提供了豐富的信息資源和信息處理技術。
1 大數據的概念與特點
1.1 大數據的概念
所謂的“大數據”,就是信息的數據量巨大,由于需要處理的數據十分龐大,目前的計算機主流軟件在短時間內無法實現對其進行獲取、處理、存儲、傳輸、管理等方面的功能,它不僅包括數據量大,同時還包括數據比較難以處理、復雜多樣,同時在處理的過程中,還會出現數據處理的重復性。對于大數據的數據量大到什么程度,目前還沒有一個統一的標準,一般認為數據量在10TB-1PB(1TB=1024GB,1PB=1024TB)以上的數據為大數據。
1.2 大數據的特點
1.2.1 數量大
大數據的產生是基于大量數據信息處理而產生的,需要運用計算機技術處理數據的量越來越大,從TB及已經發展到PB技術的數據處理。
1.2.2 種類多
隨著信息技術在生活應用中普及,人們對信息的需求也越來越多樣化,信息數據的來源也變得多樣化,結構化和半結構化的原始數據也出現了多樣化,使得大數據呈現出多樣化的發展趨勢。
1.2.3 速度快
海量的數據,就需要高速度的對數據進行處理,這樣才能滿足使用者對信息數據的需求,如果大數據的處理出現滯后,將不利于信息的傳播與擴散。
2 大數據背景下計算機信息處理關鍵技術分析
2.1 DEEP WEB數據感知與獲取技術
它是利用網絡深層空間技術對網絡中的信息進行抽取、分析和集成。主要數利用信息數據的動態變化、信息的規模、數據的分布式處理與訪問技術,對網絡數據進行處理和分析,實現對數據的高質量集成、抽取和整合。
2.2 分布式處理技術
分布式數據處理主要是由谷歌公司提出的GFS技術來實現數據的分布式存儲和處理。它利用存儲列的概念,以列為單位對數據進行存儲,具有數據壓縮快,循環利用效率高,采用行列混合是存儲結構,能夠快速加載海量數據和縮短數據查詢的時間,同時也能夠高效的利用磁盤空間。目前,分布式處理技術在百度、IBM得到了廣泛的應用。
2.3 數據高效索引
該技術是谷歌公司提出的BIGTABLE技術,目前主要集中在聚簇索引和互補式聚簇索引技術的研究。聚簇索引技術是按照索引順序技術對相應的技術進行處理,互補式聚簇索引主要采用多副本索引技術創建相互補充的數據建立數據索引表,進而實現對數據的優化查詢。
2.4 基于內容信息的數據挖掘技術
基于內容的數據挖掘技術主要是依據網絡搜索技術和信息實體的關聯技術對數據進行分析挖掘。例如網絡信息搜索的熱點排序學習算法主要針對媒體的信息量和信息數據的關注特點、短文本特征實現對數據的搜索等,目前常見的學習算法有逐點,逐對和逐列等幾種算法。
2.5 遺傳算法和神經網絡技術
遺傳算法主要是依據生物界的進化發展規律和數據演化隨機化的數據搜索辦法實現對數據的搜索,遺傳尋優辦法采用概率化,實現對數據搜索方向的自動調整。目前,遺傳算法技術在機器學習、信號處理與物流選址等方面得到了廣泛的應用。神經網絡主要采用生物神經網絡結構的運行方式,模擬生物運動神經的網絡行為,對數據進行分布式處理的算法。
2.6 分類和聚類分析技術
分類分析技術首先是對信息的數據點進行歸類分析,然后通過綜合之后形成新的數據點之后,對數據點進行明確的假設和客觀結構預測,然后預測未來信息的發展。聚類分析技術主要是在沒有明確數據點的前提下,將數據集合分為若干個對象組,通過對對象組的數據進行分析,實現對數據的綜合查詢。分類分析和聚類分析技術在數據挖掘方面應用的比較廣泛。
2.7 關聯規則學習和機器學習技術
關聯規則學習技術就是在復雜的數據處理過程中,通過排序、對比等方法尋找到數據之間的關聯規則,是指在數據處理的過程中,找到數據之間的關聯規則,進而能夠實現對重復數據的篩選。而機器學習主要研究計算機模擬人類學習的智能技術,對現有的信息知識體系進行重新組織,它是人工智能的核心技術,在數據處理時,關聯規則和機器技術主要運用在數據挖掘技術中。
2.8 數據分析技術
數據分析技術在數據處理中應用比較廣泛,它主要包括情感分析技術、網絡分析技術、空間分析技術、數據時域序列分析技術以及數據回歸分析技術,該技術在大數據處理中具有十分重要作用,其中,情感分析技術采用對自然語言進行編碼分析的技術,網絡分析技術就是基于網絡的特征對數據的特征進行分析。空間分析技術就是將網絡拓撲、幾何和地理數據編碼技術有機的融合在一起,對數據進行綜合分析的統計技術。
2.9 可視化技術
可視化技術主要功能是在對大數據進行分析和處理之后,能夠通過圖片、動畫、圖表等方式表示出來,便于人們進行溝通、交流與理解。例如Clustergram是可視化技術,它采用聚類分析技術,對數據進行處理,然后顯小數據集的個別成員是如何經過數據處理后分配到大的信息集群中。
3 小結
大數據時代對計算機信息處理技術提出更高的挑戰和要求,需要采用比較復雜的信息技術對海量的技術進行分析,需要運用計算機技術建立真正適應大數據時代的網絡系統和信息處理系統。通過對大數據處理中運用的關鍵技術進行分析,能夠為相關研究領域的人們提供參考。
參考文獻
[1]李春輝.“大數據”背景下的計算機信息處理技術分析[J].電子技術與軟件工程,2014(9):33-34.
[2]呂敬全.“大數據”時代背景下計算機信息處理技術分析[J].信息與電腦:理論版,2013(6):19-21.
[3]劉銀龍.“大數據”背景下的計算機信息處理技術分析[J].電子技術與軟件工程,2015(1):206.2
作者簡介
孫紅云(1979-),女,山東省臨沂市人。大學本科學歷。現為臨沂職業學院講師。研究方向為計算機技術應用。
作者單位
臨沂職業學院 山東省臨沂市 276017