李華芳
在大數據時代,人們很容易把一大堆數據定義為“大數據”。比如,大型制造企業和倉庫可能存有多年積累下來的存貨數據,或許高達幾兆兆字節,但這并不能算大數據。同樣,1 500個POS機的現金數據、一大份工作表中的數據也不是大數據。
企業需要行之有效的方法去儲存、分析、使用數據,如果管理的不是大數據問題,那就沒有必要建立數據池、雇傭數據科學家。說到底,辨別所管理的是大數據還是大量數據至關重要。以下是我個人推崇的幾種辨別方法:
1. 數據是否來源于多種不同渠道。
如果數據來源單一,即使數據量很大,也不太可能是大數據。
職業數據人會考慮大數據的3V(或4V):數量,多樣性,速度(精確性)。本文討論的就是第二種:多樣性。一般來說,大數據往往不是來自于單一源頭或系統,而是來自于許多不同的地方,不同的形式,以及不同的變量。
例如,POS數據盡管數量龐大但不是大數據,可是如果把從供應商處取得的數據與其整合以構建供應鏈,則它們就成了大數據。因此,問題在于是什么形成了大數據,而不是僅僅考慮數量因素。
2. 數據是否需要被實時分析使用。
并不是所有的大數據都一定來源于多種不同渠道,當數據需要被實時分析使用,比如預防欺詐、股票交易時,盡管數據缺乏多樣性,但仍可被定義為大數據。在信用服務業,用于預防欺詐的數據來源并不復雜,但需要實時分析技術,這樣若真的存在欺詐,也會被馬上檢測出并予以阻止。
同樣的,股票交易員所依賴的高頻交易數據也并不是特別復雜的數據,但需要連續處理以做出買入或賣出股票的決定。
3. 你是否需要詢問復雜問題。
當你開始針對數據詢問更加復雜的問題的時候,比如確定因果關系,則該數據就成了大數據。當然,在這種情況下,最好還是使用多方面來源的數據。
比如,當你想知道女性紅色高跟鞋四月份的市場情況的時候,你所要的數據就不僅僅是你自己的采購記錄了,你還要整合社交媒體和其他外部市場數據以得到最佳答案。
4. 數據集是否代表了許多不同的變量。
如果數據代表了一系列不同的難以界定模式和關聯性的變量,那么即使數據是由單一系統或小型系統搜集而來,也可認定為是大數據。例如,氣象數據僅從一些基礎的系統取得(氣溫,氣壓,風速等),但數據關系卻極為復雜,即使是最富經驗的氣象學家也不一定總能做出準確的氣象預測。因此,他們會使用高度專業化的數據分析方法以做出更準確的預測。
5. 數據是未架構的,半架構的,架構的還是以上的綜合。
諸如SQL等關系明確的數據庫長時間以來成功地處理了組織良好的數據,但如今的多媒體世界為我們呈現了一系列未架構的和半架構的數據,這些數據在SQL中無法得到良好的處理。這些數據包括圖像,視頻,文本文件,電子郵件交流,社交媒體,音頻文件以及其他。
以上五種鑒別方法,正是我們在討論大數據運用時,常常因為邊界模糊,定義不清晰造成的“誤判”。
這是一場顛覆性的革命,從信息不對稱的服務業出發逐步延伸到政府、制造業甚至第一產業中。許多企業家的坐標系、商業知覺失靈了,許多投資人對趨勢的判斷失效了。這最早體現在客戶結構的變化,上世紀八九十年代人群的消費成主流,帶動游戲規則的變化,物理間隔。
大數據時代一定要注意移動互聯網。在2012年移動互聯網流量已經全面超過PC了,我們如何在移動互聯網做產品,同時考慮客戶的需求點?未來軟件會免費,會成為一個采集數據的入口,行業的邊界會被打破,現在更多的行業都在做金融相關服務。數據越來越重要,已經在逐漸成為資產。
這是一個完整的電商過程,一個做得比較優質的電商從客戶進店、瀏覽、下單、付款、期待、收貨、評價。有一家大的互聯網公司,它的客戶分成接近800萬類,同時每一類貼上上萬個標簽,這是非常必要的過程。你會知道什么客戶是你的老客戶,什么是新客戶,什么是忠實客戶,什么是粉絲,以及未來在社交網絡上新的營銷方式,怎么通過粉絲進行大回響的效應等。
關于大數據的定義,準確地說是通過數據很準確、深刻地標識出來人或者事物行為的本質,通過這些數據來產生商業的或某一種動機的目的。
從這個意義上來說,至少有幾個特征不屬于大數據。第一,你有大量的數據并不能說明你是大數據,因為數據里面有意義的數據還是少數的。第二,數據之間復雜的關系往往是跨行業的,也就是說這些數據越是超越了某個行業,越是能夠更復雜地認識人的行為,這種綜合性是一個大數據的十分明顯的特點。第三,它一定是不斷交互和循環的。它會不斷地學習,通過越來越深刻的、循環的過程,使這種識別、標識變得更為準確。
所以它也是動態的,因此大數據被應用于識別標識行為的過程中。今天因為有了平臺、有了提供者、有了人參與、有了綜合和跨越,最終服務于商業根本的目的。