黃佳
(南京市信息中心 江蘇省南京市 210009)
當前,我們應當將大數據產業的未來發展作為一個關鍵課題,積極加強研究、探討與實踐,嘗試分別從技術、政策以及應用三個層面,采取科學的發展策略,全方位提高大數據產業水平,使其能夠在社會生活、生產的信息化、數據化以及智能化建設中,發揮出更大的作用、價值。
所謂的“大數據”,從字面上解釋,指的是巨量的電子數據信息的集合,而從更深層次的技術運行機制來講,其還包括了對巨量電子數據信息的存儲、分析、挖掘和應用。通過對這些巨量的、碎片化的、無序的電子數據信息進行存儲、分析與挖掘,我們可以從中發現各類數據關聯,并將其應用于各個行業,以此推動社會的發展與變革[1]。從大數據的概念出現至今,整個大數據產業經過了三個發展階段。
大數據的出現,必然是伴隨傳統信息化技術的全面普及與應用而來的。1998年,在信息化技術已經基本實現了全球普及的情況下,對信息化技術的深入研究依然沒有停止,反而加大了研究力度,此時在USENIX 大會上,SGI 首席科學家 John Masey 首次提出了“大數據”的概念,其重點強調了“數據”在未來信息化社會中的價值和重要性,因此建立巨量的數據信息集合,不過最開始的大數據定義也就僅限于此,還不包括對數據采集、存儲以及分析等方面的研究[2]。
大數據的概念提出以來,也曾經受到過質疑,不少人認為當時的軟硬件技術,不足以實現大數據產業和應用。但即使是如此,也有很多國內外的信息化企業在大數據方面進行了大量的探索、開發與研究、應用,例如美國的google 公司,以及我國的阿里巴巴公司,均在大數據研發方面投入了巨大的人力、技術和資金成本,因此大數據的技術體系、標準構架等,開始逐漸的完善起來。
從2011年開始,大數據技術逐步的投入應用,并由此形成了大數據產業,數據流量成為了資金發展的一個重要基礎。如在我國,阿里巴巴公司的大數據產業布局便已經相當的完善,在今天已經被廣泛的應用到了各個行業領域當中,商業、教育、交通、物流以及醫療等等行業,都通過大數據的應用,得到了推動與變革。不過,大數據的潛能在當前還沒有被完全的開發出來,未來的大數據產業發展依然會受到關注的關注與重視。
2.1.1 采集技術
大數據產業的發展,是緊密依靠于技術的,只有在先進的技術支撐下,大數據才能夠運轉起來,并被應用到各個行業領域。而在大數據產業的構建中,最先需要考慮的問題便是如何采集數據,數據越多、價值越高,但采集難度必然也越大。為了使數據的采集更加高效,在未來應當分別發展好軟采、硬采兩種采集技術。所謂的軟采集,及主要依靠軟件進行數據采集,需要建立統一的數據采集框架,通過在待采集數據的系統中預留接口,直接和大數據平臺的采集接口對接。這個統一的數據采集框架要能夠適應多種多樣的數據源,并且能適應大數據數據量大、更新快的特點,自動對采集的數據進行一些預處理,刪除重復數據,可靠快速地完成數據采集[3]。而硬采,則主要依靠各種專業的數據采集硬件,以低功耗、針對性、高效率的硬件運行速度,實現對數據的采集。
2.1.2 存儲技術
如上所述,大數據是“巨量數據”的集合,而且數據量越大,其價值越高,尤其是在產業化發展的需求下,大數據的體積可以說更是沒有邊界,這就對存儲帶來了很大的難度與挑戰。目前,分布式文件系統、No SQL、New SQL 等被廣泛的應用于大數據存儲,但是在未來,考慮到數據量的進一步增大,訪問的進一步增多,以及降低存儲成本的需求,還需要在存儲技術方面做出進一步的提升,以適應不斷提高的大數據需求[4]。再者,在存儲介質方面,未來也還須得改進,因為現目前的存儲介質有效時間較短,如果要長時間存儲大數據,就需要不斷的搬運、轉移大數據,操作復雜而且成本高,因此需要具有更加長時效性的存儲介質,來進行未來的大數據存儲。
2.1.3 分析技術
初步收集到的大數據信息,都是混亂的、無序的、碎片化的,簡單來說并沒有直接應用的價值,必須要通過高效率、專業性的數據分析,才能從中得到有價值的信息,因此對于大數據的分析技術,在未來還應當得到更大的提升。大數據分析技術主要包括已有數據的分布式統計分析技術和未知數據的分布式挖掘、深度學習技術,通過這些技術把隱藏在大型數據庫或數據倉庫的數據中的信息集中起來,進行萃取、提煉,以找出所研究對象的內在規律。目前常用的大數據分析及挖掘技術包括可視化分析、數理統計分析、情報檢索、機器學習、專家系統和模式識別等。隨著數據量的迅速膨脹,大數據分析挖掘日益復雜,如果采用普通單機進行數據分析挖掘,性能無法滿足,如果采用高性能機來處理海量數據,則在軟硬件成本上可能無法承受。基于云計算平臺的數據分析挖掘可以在節約成本的前提下滿足性能需求,是大數據分析挖掘未來的重要發展方向。另外,機器學習、人工神經網絡在未來將繼續成為大數據智能分析的核心技術[5]。
2.2.1 政府政策
我國至今為了推動大數據產業的發展,已經先后出臺實施了多項政策,如《關于組織實施促進大數據發展重大工程的通知》、《生態環境下大數據建設總體方案》、《關于印發促進國土資源大數據應用發展實施意見》、《關于推進水利大數據發展的指導意見》、《智慧城市時空大數據與云平臺建設技術大綱》等等。在未來,大數據產業的發展,還需要國家從政策層面予以更大的幫助和指導,尤其是地方政府,應當認識到大數據產業對地方經濟的帶動作用,根據地方的其他產業發展情況、發展需求,通過政策的規劃和指導,使地方大數據產業能夠迅速的發展起來,并與其他產業緊密結合,推動地方產業整體同步發展。
2.2.2 國家法律
大數據產業的發展,勢必會涉及到很多的社會倫理問題,其中最為敏感的一個問題便是個人的隱私權如何在大數據時代下得到有力的保護。為此,在未來為了促進大數據產業的健康、常見發展,應完善法律的建設需要對大數據時代下公民在網絡方面的知悉權、選擇權、控制權和安全請求權等,做出明確的立法規定,這樣才能更加全面的保護好公民的網絡信息安全。最后,還需要對侵害網絡隱私權的行為進行分類,做好侵權行為的認定工作。對于隱私權責任的承擔方面,要進行細分,比如停止侵害、消除影響,或者是對受害人進行賠償等。不能因為大數據的收集和發展,影響到個人合法權益[6]。
大數據產業本身并不能體現出實際的作用,其必須要被應用到各個實在的行業領域當中,才能產生出價值。因此,在未來還需要對大數據的應用,加強研究、探索與發展,使其能夠與社會生活、生產全面的、深入的結合起來,這樣不僅有利于大數據產業本身的發展,同時也有利于整個社會的生活、生產發展。如隨著信息技術和人類生產生活交匯融合,未來大數據應用的涉及面將會更廣泛,也更注重解決實際問題。
以電子商務為例,其通過對大數據技術的應用,一方面是可以更加精準的獲取客戶需求,為商品的生產、采購等提供有價值的依據,另一方面是能夠更加精準的投放廣告,對可能有需求的客戶提供廣告信息,進而降低廣告成本,提高廣告效果;在金融行業當中的話,通過對大數據技術的應用,則可以實現對市場變化的預測,同時實現對市場的全方位監管,這更有利于對金融風險的規避;在醫療領域當中,通過對大數據技術的應用,可以動態的、及時的采集、監測個人的健康數據信息,并與標準的健康數據信息進行對比,發出健康方面的提示、預警;在物流行業、交通行業當中,大數據技術的應用則更加的廣泛,其可以幫助計算、優化運輸、交通路線,提高交通效率,降低運輸成本。而且就未來的所有市場行業來講,在大數據技術的支撐下,都能夠實現相互之間的深度交流、有機融合,有利于整個市場的共同發展[7]。
尤其是面對即將普及的5G 通信技術,大數據產業的應用發展,應當進一步深入終端和基層,嘗試為每一個個體提供優質的大數據信息服務,在合法、安全的前提下,允許個人進行大數據的分析和運用。
通過政策和法律,還并不能完全的保障大數據安全,需要進一步從技術層面采取安全策略,才能真正強化對大數據的安全保障。現目前,針對大數據的信息安全技術主要有數據細粒度訪問控制技術、數據加密技術、數據脫敏技術等,它們均能針對大數據信息安全的薄弱環節,以技術措施、技術手段,來消除安全隱患。如數據脫敏技術包括了靜態數據脫敏、動態數據脫敏,它們各有技術特點,就靜態數據脫敏這項技術來說的話,其處理方式并不是實時的,具體由專門的脫敏組件,來幫助進行脫敏處理,從而為用戶提供脫敏數據。在實踐當中,采用這項技術,可以與大數據平臺相互獨立,即在大數據平臺之外,獨立的進行脫敏處理等工作。并且整個脫敏過程,可以預先設定任務計劃安排,由其自動進行,將大數據平臺當中的數據,脫敏后轉移到其他的數據存儲環境中去。在具體的工作當中,應當根據大數據的實際應用情況,如大數據平臺的技術結構、應用傳輸途徑、數據的敏感度等等,選擇相應的技術方式,采取最可靠、最經濟的安全策略。
大數據產業在如今已經形成規模,不過在未來其還有非常大的發展空間。對此我們應當加強研究、探討與實踐,要從技術、政策以及應用等各方面,采取相應的科學發展策略,進一步提高大數據產業水平,使其能夠更加高效率、低成本,且安全、合法的應用到社會方方面面,有力推進社會的信息化、數據化、智能化建設。