蔣灝東
(蘇州工業職業技術學院,江蘇蘇州,215104)
數據的采集比如流行的Sqoop和ETL工具[ETL概念是將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端],傳統的關系型數據庫MySQL和Oracle等,都是將數據從來遠端采集并加載到目標端的工具,海量數據對數據采集也有極大的壓力。數據采集可參考圖1所示。

圖1 數據采集
另外,大數據背景下,對數據的收錄和存儲也有了更高要求,通過計算機軟硬件技術的提升來加強數據的存儲,通常來說,數據都存儲在企業的一個個“云”上,如阿里云、AWS(亞馬遜)、AZURE(微軟)、DINDINCLOUD(丁丁云)、KTC、GOOGLE CLOUD(谷歌云)等等,但需要看出,云的作用不僅僅在于存儲,也在于對信息數據的處理。
上面提到,高端互聯網企業已經逐步開發屬于自己的云計算,對于大數據的采集、存儲和計算都非常方便,大數據作為基礎提供海量數據,云計算則將所有數據進行分布式處理、分布式數據庫,解決目標任務并進行計算結果的合并,通過云計算,可以在短短數秒鐘時間內,處理數以萬計的數據,例如串口溫度檢測(如圖2).通過計算與處理的數據,才真正具有“可視化”的特點,為隨后的智能運營提供基礎。發展至今,云計算已經越來越復雜,如大樹般開枝散葉,逐漸形成了分布式計算、效用計算、負載均衡、并行計算、網絡存儲、熱備份冗雜和虛擬化等計算機的混合技術。

圖2 基于串口溫度檢測流程
除了各家企業的云計算之外,Hadoop、Mapreduce、Tensorflow(深度學習框架)、Spark、Pentaho BI等開源框架或軟件也符合對數據計算與處理的需求,要正確看待云計算和上述開源框架的區別,如果將云計算比作大型的、系統工程的藍圖,那么上述幾個開源框架就是基礎工具,比如修建一棟別墅,云計算就是方方面面的設計圖,而上述開源框架可能只是水泥、錘子、釘子等工具,這樣的比喻并不完全準確,需正確看待,如果數據量不大,企業可以選擇上述開源框架,對大數據進行集中分布式處理,開發分布式程序,現在Hadoop已經被公認為大數據標準開源軟件,也已被全球幾大IT公司用作其云計算環境中的重要基礎軟件。
通過上述兩點,大數據才真正具有可視化的標準,讓大數據以統計圖表等形式反映出來,對所有數據進行了分割、加工、處理,之后就需要根據數據支持采取行動,也就是智能運營,分析師通過對所有可視化的數據進行分析,利用機器學習和人工智能構建數據模型,模擬出用戶的行為習慣和喜好特點,深入挖掘其中的價值,并進行更清晰化、更有目的、更準確地判斷,最終完成信息推送,推送的內容就會是用戶喜歡或者需求的。
在大數據時代下信息安全技術也是一項非常關鍵的內容。因為處在這樣的時代下,數據之間的關聯性是非常明顯的,這相較于任何時代,都是一個比較顯著的特點。在運行的過程中,如果某一部分的數據出現了安全問題,那么就會對整體運行產生極大的影響,會對于其他數據產生安全威脅,所以處在大數據這一時代下,在計算機信息處理的過程中不僅要關注具體的單個數據所涉及的安全問題,更需要有整體性思維,對于問題進行全面考慮。能正確認識大數據這一時代對于信息處理技術所帶來的機遇還要明確存在的挑戰,這樣才能更好地應對。從當前的實際情況來看,處于大數據這一時代下,對于數據信息進行處理時,并不能脫離具體的硬件,因為這樣會讓信息安全方面受到極為嚴重的威脅,所以要對于線下的技術不斷完善,這樣才能更好地把握機遇,應對挑戰。
在對大數據背景下的計算機信息處理技術進行研究時,一定要立足時代發展的背景,明確這項技術在當前面臨的機遇與挑戰,這樣才能讓其更好的發展。在當前這一時代下,計算機的網絡部計劃程度變得越來越高,大數據隨即產生。這期的應用可以給企業的具體工作提供非常大的幫助助力企業實現精細化管理。在教育行業中,大數據也能發揮極為重要的作用,例如手機學生的喜好,這樣能更好地做到因材施教,這是機遇。
不過,挑戰也是存在的,首先這讓存儲技術以及存儲空間等面臨著更高的要求,此外,用戶的隱私以及企業隱私等也面臨著更高的要求,而且網絡運營商在硬件方面要能跟上時代發展滿足大數據技術的相關要求,從而能提升自己的信息處理能力,這些問題都需要在未來的發展過程中不斷攻破。
在計算機信息處理的過程中,必不可少的就是計算機的運行,因此也可以非常明確,計算機在不斷高速運轉的狀態下,就需要依靠自身硬件等設備的性能,保障好這些方面,才能促使信息處理的速度以及效率更高。不過當前的計算機軟硬件設備發展還略顯不足,在大數據時代不斷進步的前提下,這些技術越來越顯得滯后。計算的概念就是為了解決這個難題而提出的解除這種技術能夠對于網絡上的信息進行加工,這一技術的輔助就不用完全依靠計算機的硬件,不過雖然云計算在這一問題的解決上發揮著重要作用,但是技術還不是很成熟,在實際應用時依然對于計算機的軟硬件依賴性比較大。因此在未來需要重視云計算發展,這是一項艱巨的任務。
大數據技術不斷發展,數據量是非常大的,他們借助大數據技術聚合在一起,并且有著密不可分的關系,對于這些數據的分析,能夠明確看出客戶的實際需求,但是在這些海量的數據中,有一些是不需要的屬于冗余數據。這次就需要在海量的數據信息中找到真正需要的數據,這是企業最關注的一個要點,因此就涉及數據挖掘技術。成像技術主要是對具體的數據進行加工以及整理并且實時細致地分析,這樣能發現各個數據之間的聯系,從而對其進行分類篩選,將有用的數據提取出來,無用的數據則剔除。
這一算法主要是為了提升數據處理效率而出現的,這種智能算法在研發時是以自然界的各種自然現象為重要依據的,在這種智能算法的應用中,能夠給各種信息數據的處理工作提供極大的幫助,從現代計算機智能算法的應用情況來看,發展是比較快的,比較常用的有遺傳算法、粒子群算法等多種類型。當前我們比較多應用的是傳統計算機算法,其雖然能夠滿足工作的實際需求,但是工作效率比較低。應用智能算法則很好地彌補其存在的不足,從而提高工作效率,讓信息處理結果能夠達到理想的程度。因此發展現代智能算法也是一個重要的促進計算機信息處理技術發展的策略。