摘要:大數(shù)據(jù)是最近很多人熱議的一個話題,也是在諸多領(lǐng)域引起了大家不同爭議與意見的話題。隨著我國信息技術(shù)的不斷發(fā)展,其應(yīng)用場景不斷拓寬,大數(shù)據(jù)應(yīng)潮流而生,成為在當(dāng)今商業(yè)世界里的重要概念,也有越來越多的人開始對大數(shù)據(jù)產(chǎn)生濃厚的興趣。雖然說大數(shù)據(jù)得益于信息技術(shù)的飛速進(jìn)步,并在金融經(jīng)濟(jì)等多個環(huán)境里都有應(yīng)用,但是很多人對于大數(shù)據(jù)缺乏一個理性全面的認(rèn)識。本文從大數(shù)據(jù)的定義入手,介紹了大數(shù)據(jù)所擁有的特征,并分析其可能擁有的應(yīng)用場景與存在的應(yīng)用局限,旨在幫助讀者對其形成一個更加全面客觀的認(rèn)識。
關(guān)鍵詞:大數(shù)據(jù);信息技術(shù);商業(yè)科技;大數(shù)據(jù)的局限性
0 引言
大數(shù)據(jù)是最近很多人熱議的一個話題,也是在諸多領(lǐng)域引起了大家不同爭議與意見的話題。不同的IT巨頭都開始推出各自的大數(shù)據(jù)產(chǎn)品,很多企業(yè)也在構(gòu)想通過不同的方式來挖掘自己所有的或者通過其他渠道獲取的數(shù)據(jù)的價值。隨著我國信息技術(shù)的不斷發(fā)展,數(shù)據(jù)分析的應(yīng)用場景不斷拓寬,大數(shù)據(jù)應(yīng)潮流而生,成為在當(dāng)今商業(yè)世界里的重要概念,也有越來越多的人開始對大數(shù)據(jù)產(chǎn)生濃厚的興趣。
雖然說大數(shù)據(jù)得益于信息技術(shù)的飛速進(jìn)步,并在金融經(jīng)濟(jì)等多個領(lǐng)域里都有應(yīng)用,是當(dāng)今最熱門的話題之一。但是很多人只是人云亦云,對于大數(shù)據(jù)缺乏一個理性全面的認(rèn)識。本文從大數(shù)據(jù)的定義入手,介紹了大數(shù)據(jù)所擁有的特征,并分析其可能擁有的應(yīng)用場景與存在的應(yīng)用局限,旨在幫助讀者對其形成一個更加全面客觀的認(rèn)識。
1 大數(shù)據(jù)的定義與特點
1.1 大數(shù)據(jù)的定義
大數(shù)據(jù)的應(yīng)用范圍廣泛,大家對其都有自己的看法,因此對于大數(shù)據(jù)的定義眾說紛紜。目前比較受到公眾認(rèn)可的一種定義來自于重量級統(tǒng)計軟件SAS官網(wǎng):“大數(shù)據(jù)是用來描繪數(shù)據(jù)源以及數(shù)據(jù)技術(shù)指數(shù)性增長的術(shù)語,飛速增長的數(shù)據(jù)既包括結(jié)構(gòu)化的數(shù)據(jù),也包括非結(jié)構(gòu)化的數(shù)據(jù)。大數(shù)據(jù)在商業(yè)以及整個社會范疇內(nèi)都有廣泛運用。”
其中,所謂的結(jié)構(gòu)化是指所獲取的數(shù)據(jù)是指我們現(xiàn)實生活中常見的二維表單類型數(shù)據(jù),即對于某些固定的項目有多條記錄。結(jié)構(gòu)化數(shù)據(jù)的別稱叫做行數(shù)據(jù),對于表格中的每一個項目,每條記錄相應(yīng)的內(nèi)容都應(yīng)該嚴(yán)格地遵循該項目所要求的數(shù)據(jù)格式與長度規(guī)范。例如我們在生活中常見的各類電子表格數(shù)據(jù)等。它們有固定的表格格式,所填內(nèi)容也遵循相應(yīng)規(guī)范。
而非結(jié)構(gòu)化數(shù)據(jù)則是與結(jié)構(gòu)化數(shù)據(jù)相對的,不存在固定格式與規(guī)范的各類數(shù)據(jù)源。例如財務(wù)報表等,這一類數(shù)據(jù)包含了大量信息,但是因為缺乏統(tǒng)一的標(biāo)準(zhǔn)格式與規(guī)范,導(dǎo)致不同企業(yè)間的報表格式可能存在較大區(qū)別。無法直接進(jìn)行統(tǒng)一的分析處理。
1.2 大數(shù)據(jù)的特點
對于大數(shù)據(jù)的特點,目前公眾比較認(rèn)可的幾點如下:
海量
大數(shù)據(jù)的數(shù)據(jù)源一般體量非常大,這一特征得益于我們高速發(fā)展的信息科技。在越來越多的地方,有各種自動化的調(diào)查統(tǒng)計手段作為輔助,幫助我們收集大量信息源。很多時候數(shù)據(jù)采集與產(chǎn)生的過程是自動實現(xiàn)的,不僅解決了人工調(diào)查耗時多,成本高的問題,而且不易出錯,較為客觀。大量的數(shù)據(jù)源信息是大數(shù)據(jù)的基本特征。這樣的特征能夠給我們的統(tǒng)計分析提供支持,讓我們有機(jī)會從大量的數(shù)據(jù)中去采集我們所需要的信息。總體來說我們認(rèn)為,數(shù)據(jù)的體量越大,能夠進(jìn)行分析和利用的方面就越多。
高速
高速也是大數(shù)據(jù)的關(guān)鍵特點之一,正如我們在前文中說到,許多數(shù)據(jù)產(chǎn)生的過程都是自動的,這也就意味著很多數(shù)據(jù)從采集到形成最終的數(shù)據(jù)表格都是非常迅速的,這一特點對于大數(shù)據(jù)技術(shù)能夠滿足我們當(dāng)今變化飛速的需求是至關(guān)重要的。隨著我國社會經(jīng)濟(jì)不斷發(fā)展與進(jìn)步,人們的需求也在無時無刻發(fā)生巨大變化,這個轉(zhuǎn)變的速度非常快,這也就意味著依賴過時的數(shù)據(jù)所作出的決策很有可能是不適用的。只有足夠及時,足夠新的數(shù)據(jù),才能夠幫助不同的數(shù)據(jù)使用者了解市場形勢的最新變化,從而采取相應(yīng)的措施,作出相應(yīng)的決策。
多樣
多樣性也是大數(shù)據(jù)非常重要的特點之一,多樣性是指我們現(xiàn)在的數(shù)據(jù)源中可能不僅僅包含了某一方面的數(shù)據(jù)信息,而是囊括了非常多不同的方面。這樣有利于我們將不同的方面結(jié)合起來,依賴于統(tǒng)計分析手段找出其中的聯(lián)系。但是這樣的多樣性也給我們帶來了巨大的挑戰(zhàn),正如我們前文中介紹的非結(jié)構(gòu)化數(shù)據(jù)一樣,它們也是構(gòu)成數(shù)據(jù)多樣性的重要組成部分,但是它們?nèi)狈σ?guī)范的格式,很難直接用于數(shù)據(jù)分析。應(yīng)該怎樣對這部分?jǐn)?shù)據(jù)進(jìn)行處理,從而進(jìn)一步挖掘數(shù)據(jù)價值,是很多數(shù)據(jù)科學(xué)家現(xiàn)在專注的方向。
2 大數(shù)據(jù)的應(yīng)用場景與局限性
2.1 大數(shù)據(jù)可能的應(yīng)用場景
大數(shù)據(jù)在我們的生活中擁有非常多不同的應(yīng)用場景。下面本文僅舉一例,更多的應(yīng)用場合讀者可以自行思考。通過大數(shù)據(jù)技術(shù),我們可以發(fā)現(xiàn)消費者消費行為模式,獲取客戶信息,進(jìn)行客戶群體細(xì)分
這是大數(shù)據(jù)在企業(yè)外部的一種應(yīng)用模式,通過大數(shù)據(jù)我們可以獲取消費者的各類信息。包括基本的年齡,性別,工作等,同時在消費者購買的過程中我們可以記錄其消費的習(xí)慣與偏好。當(dāng)這個數(shù)據(jù)量達(dá)到一定規(guī)模以后,我們可以通過大數(shù)據(jù)分析,來觀察不同的特征會怎樣影響消費者的消費行為與模式。
通過這樣的方法我們可以將具有不同特征的消費者劃分為不同的群體,然后根據(jù)該群體的消費行為與偏好,為其量身定制他們所需要的商品或者服務(wù)。比如現(xiàn)在的智能手機(jī)廠家通過各類的標(biāo)準(zhǔn)將消費群體進(jìn)行劃分,按照年齡層與職業(yè)推出了關(guān)注不同的特點的智能手機(jī)(如關(guān)注拍照、音樂、性能等)后,再按照該群體的特征進(jìn)行營銷。比如針對年輕群體的手機(jī)通過各類社交媒體,而針對中老年的手機(jī)則通過電視、線下活動進(jìn)行推廣。
還有一例是美國的孟山都公司,該公司是美國農(nóng)業(yè)生物科技行業(yè)的領(lǐng)頭羊。其發(fā)起的“Green Data Revolution(綠色數(shù)據(jù)革命)”旨在幫助農(nóng)民享受數(shù)據(jù)科學(xué)的好處。它向農(nóng)民提供種子監(jiān)視器用于收集種子與土地信息,農(nóng)民只需使用獲取的平板終端將信息上傳到孟山都的農(nóng)業(yè)數(shù)據(jù)聯(lián)盟中,便可以獲取由該公司提供的最適合其土地與種子狀況的化肥。
2.2 大數(shù)據(jù)的應(yīng)用局限性
成本限制
大數(shù)據(jù)依賴于數(shù)據(jù)收集手段,正如我們前文中所提倡的,需要利用各類自動化的輔助手段進(jìn)行數(shù)據(jù)收集,這樣的一個過程是依賴于硬件支持的。企業(yè)可能需要安裝各類傳感器以及電腦終端來完成數(shù)據(jù)的收集,而當(dāng)這個規(guī)模較大時,需要投入大量的人力物力才能夠完成對于數(shù)據(jù)采集的支持。而這樣的投入是很多小型企業(yè)所無法承擔(dān)的。公用的付費數(shù)據(jù)庫雖然現(xiàn)在也在蓬勃發(fā)展,但是其高昂的收費對于許多企業(yè)來說依然是一個較高的門檻。
技術(shù)限制
前文中提到,現(xiàn)在的數(shù)據(jù)源的多樣性為我們的統(tǒng)計分析帶來了很大的挑戰(zhàn)。大數(shù)據(jù)的技術(shù)局限性一方面體現(xiàn)在收集數(shù)據(jù)源的過程仍然需要進(jìn)一步的完善與發(fā)展;另一方面也體現(xiàn)在我們對于一些非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一分析的能力仍然較弱。不能夠完全挖掘數(shù)據(jù)價值。
法律限制
這也是大數(shù)據(jù)技術(shù)一直以來備受詬病的一點,大數(shù)據(jù)技術(shù)依賴于收集客戶信息,但是這一收集過程的邊界很難定義,很有可能對于客戶的隱私權(quán)帶來威脅。比如我們當(dāng)今社會利用電話進(jìn)行推銷或者詐騙的現(xiàn)象越來越多,其根本就在于數(shù)據(jù)源的收集方?jīng)]有對客戶數(shù)據(jù)盡到隱私保護(hù)的責(zé)任與義務(wù),才會導(dǎo)致客戶信息泄漏,個人隱私受侵犯。
可驗證性
可驗證性是指我們收集的數(shù)據(jù)由于其海量、高速、多樣的特點,很難對其進(jìn)行一一核實,因此數(shù)據(jù)的真實性以及準(zhǔn)確性就值得質(zhì)疑。如果我們對于數(shù)據(jù)的真實準(zhǔn)確性無法保證,那么基于這些數(shù)據(jù)得出的結(jié)論的有效性也就有待商榷。對于這部分?jǐn)?shù)據(jù)的驗證工作龐大復(fù)雜,至今還沒有有效而簡潔的手段。
參考文獻(xiàn)
[1]鄔賀銓. 大數(shù)據(jù)時代的機(jī)遇與挑戰(zhàn).《中國儲運》 , 2013 (4) :9-10
[2] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望.《計算機(jī)學(xué)報》 , 2013 , 36 (6) :1125-1138
[3] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn).《計算機(jī)研究與發(fā)展》, 2013 , 50 (1) :146-169
作者簡介
趙楊晴:2000年生,女,籍貫山東省青島市endprint