趙文林
(中國人民銀行蘭州中心支行,甘肅 蘭州 730000)
隨著世界不斷發展,我們已經進入了云計算大數據時代,大數據對我們生活產生了越來越重要的影響,給我們生活帶來翻天覆地變化。當前,我們金融、醫療等等行業都會產生大量數據,淘寶購物、qq聊天、微信也會產生大量的數據,這些數據無時無刻不在影響著我們的正常生活。數據資源已經成為了與智能資源、人力資源相同的戰略資源,我們的社會已經全面進入了大數據時代。
對于大數據概念,不同專家學者和機構都做出了不同解釋,麥肯錫認為大數據主要是指在一段時間內通過傳統數據庫無法進行采集、采樣、管理和分析的數據,必須通過當代先進技術才能夠進行有效運用。維基百科認為,大數據主要是指數據量非常龐大,在合理的時間內可以對這些數據進行有效管理,并且整理出有助于企業經營決策的數據內容。
第一,速度非常快。一般而言,速度快一般是指數據在獲取儲存以及信息挖掘方面速度非常快。但是隨著我們數據量不斷增加,我們已經進入了PB級數據時代,考慮到超大規模數據出現,在進行數據采集時也強調快速動態變化,數據的快速流動難以通過以往傳統系統進行有效處理。
第二,價值密度非常低。雖然數據量呈現海量式增加,但是真正具有價值的信息并沒有呈現出爆炸式增長,反而使得我們獲取有價值信息的難度進一步加大。
第三,數據體量非常大。一般而言,大數據通常都是指10tb以上數據。之所以會出現如此龐大數據,一方面是各種儀器使用使我們可以獲得更多數據資源,另一方面主要是通過通訊工具使用可以使人們全時段進行聯系,這就使得數據出現幾何倍數增長。
第四,數據種類變得非常復雜,隨著智能設備不斷發展,數據種類變得越來越復雜,這些數據不僅包含有傳統數據,也包含有許多新鮮未加工數據,甚至很多數據都是以半結構化的形式出現。
首先,數據處理并不是隨機抽樣,而是對所有數據都進行處理。隨機抽樣方式是在小數據時代最常見使用方式。但是在大數據時代,我們使用的是所有數據而不是依靠小部分數據進行篩選。我們以喬布斯為例,喬布斯在與癌癥抗衡期間采用了完全不同治療方法,他的主治醫師將她的DNA和腫瘤DNA進行了全面對比。一是可以根據喬布斯DNA配置特定藥物,如果發現藥物不會起到任何效果可以及時更換,這樣可以保證喬布斯獲得有效治療。雖然喬布斯最終沒有治愈,但是通過這種方法延續了喬布斯生命,這也體現了大數據優勢。
其次,大數據并不是精確性,而是混雜性。在大數據時代,各種結構化和非結構化數據都匯聚在一起,這樣難免會使得數據的結果出現不精確狀況。大數據通常是用概率說話,并不是通過確鑿無疑數據進行解釋,當我們試圖擴大大數據規模之時常常也會出現數據混亂現象。
最后,大數據不是因果關系,而是相關關系。在以前,由于數據相對較少,相關關系非常有用,但是在大數據背景之下,相關關系常常可以大放異彩。將大數據與相關關系進行結合,我們常常可以更好對事物進行分析,這樣可以幫助我們透過現象看本質,預測未來發展結果。例如,每當颶風來臨之時,美國民眾不僅會購買手電筒,同時還會購買一些含糖類早餐零食。在這樣數據推算之下,許多零售巨頭都將手電筒和美式含糖類早餐放在一起,方便客戶進行購買,同時也增加自身銷售收入。
第一,運營商通過大數據淘金。在移動互聯網時代,運營商常常具有多經驗,很多運營商包含有語音、固定電話等等業務,同時也包含有公眾客戶、家庭客戶等不同客戶群體,他們可以通過實體渠道、直銷渠道等不同渠道接觸到信息。隨著語音業務不斷發展,數據流量已經成為了很多運營商的主要業務,運營商擁有任何移動互聯網都無法比擬的數據優勢,這就使得運營商可以通過大數據淘金,由流量經營進入大數據經營已成為很多運營商的發展趨勢。當前,各大通訊商都已經開始挖掘大數據的價值。據統計,有超過50%運營商已經著手實施大數據業務。大數據業務的平均成本是運營商總預算的10%左右,而且在未來五年中會不斷攀升,成為運營商的戰略優勢。
第二,大數據對電力企業產生影響。在大數據時代,智能電網是電力企業發展的趨勢。隨著電力工業與信息化的結合程度越來越深,智能電網在電力流、信息流等方面都發揮著巨大優勢,會使電網的整體價值出現飛躍式成長,這種飛躍式成長會使電力企業進入大數據時代。
第三,大數據時代對傳媒產業的影響。隨著智能手機不斷普及,每個人都可以發布信息,每個人都可以編輯信息,手機就是人們手中的媒體。在這樣背景之下,信息發布已經不再是媒體能自由權力,我在現場常常是傳媒人倍感驕傲的事情。在大數據時代,聯網網民和各種電子記錄儀已經在社會各個角落散布,可以將信息實時上傳,在經過網民分布式集中選擇之后形成了熱點信息。在這樣的背景之下,最有效的新聞常常是在現場的人,而不是到現場的人,這就使得傳媒業產生了顛覆式的發展。
大數據是一種快速崛起的網絡數據,大數據可以讓商業機構和公共管理部門獲得極好調查研究能力,可以大大優化他們的決策。但是大數據還存在一些不穩定性,需要我們繼續進行反思。
第一,數據的真實性有待進一步檢驗。由于大數據所產生的數據都是隨機動態而且具有多元性,交互性等特點,非結構化數據具有臨時性。在網絡社會中,大量假信息充斥著網絡世界。例如社交網站很難對所有的注冊會員進行信息真實性審核,電子商務網站也無法對每一個交易賬號進行實時鑒別等等。
第二,數據合法性尚不明確,在數據采集和被采集過程中,一些數據資源會涉及到個人隱私甚至是國家安全,因此大數據合法性始終是一個不確定的因素。
第三,數據侵權風險日益增加。當前,越來越多的企業都看到了大數據優勢,都致力于本行業數據挖掘,搭建為公司商業決策提供依據的數據庫。這是在這種空前挖掘背景之下,相關數據以及數據搭建起來的數據庫都面臨著被侵權的風險,網絡環境下的侵權方式更加多元化,不利于保護正當權益。
綜上所述,我們已經進入大數據時代,我們需要大數據給我們生活帶來的便利,但是我們也需要正視大數據給我們生活帶來的弊端,需要充分挖掘大數據的優勢,減少大數據給我們帶來的弊端,這樣才能揚長避短,讓大數據更好的為人類社會服務。