
究竟是大數據更加重要,還是小數據更有價值?對此,中鋼集團信息管理部總經理李紅和昆侖數據首席數據科學家田春華給出了各自的見解。
在過去幾年,“大數據”一詞炙手可熱,很多企業、用戶都對大數據十分感興趣。但是在實際應用當中,我們看到大數據應用的狀況似乎并不如想象中的普遍。
世界著名品牌營銷專家馬丁·林斯特龍指出,大數據雖然連接了千萬個數據點,可以準確地產生相互關系,但是當人類按照自己的習慣行動時,大數據分析通常不會十分準確。所以,在大數據之外,挖掘用戶需求的同時,更重要的是通過對一個小群體的親身觀察和對小數據的常識判斷,捕捉到這個社會群體所體現出的文化欲望,滿足這些用戶的需求。
那么究竟是大數據更加重要,還是小數據更有價值?對此,中鋼集團信息管理部總經理李紅和昆侖數據首席數據科學家田春華進行了討論。
Q:您認為大數據更有價值,還是小數據更實用?
李紅:我認為不能武斷地說大數據、小數據誰更有價值,因為兩者不是對等的概念,應該說大數據有大數據的價值,小數據有小數據的價值,取決于數據的應用。
田春華:我支持的數據是大數據和小數據的融合,因為“數”是載體,“聚”才是我們的目的。
Q:究竟什么是大數據、什么是小數據,兩位專家如何定義?
李紅:我曾經在行業工作了十幾年,一直從事統計工作,由于我個人的工作經歷,我對數據比較敏感。
我認為小數據一般是指傳統上對數據的使用,在過去由于受技術、資源的限制,我們在采取小數據時有明確的目的,對小數據的用途賦予了很明確的要求。在取得數據時,數據本身就被賦予了很多信息和知識內涵,否則我們就會浪費資源。
大數據和小數據是不對等的,因為現在技術進步了,我們可以簡單而又方便地應用大量數據,所以人們給數據定義了四個V(多樣化、體量大、速度快、價值高)。大數據的概念是什么?是將原生態、原始的數據經過一系列的清洗、打標簽、標識、建模等手段,使原始數據產生價值。所以,在四個V中,才會有價值高這個概念。
無論是小數據還是大數據,我們都要理解各自的用途。為了滿足對現象的描述,對經濟發展概念的理解,我們花了大量的精力,對小數據進行指標設置、標準的界定,然后對數據反映的情況進行分析和甄別,這是小數據的應用。
在傳統應用中哪些是小數據?小數據包括了GDP、銷售率、成本核算等這些大量的傳統數據。
大數據的用途非常廣泛,主要聚焦在互聯網和電商企業,大數據在這些企業中體量十分龐大,并且有很多維度,還可以實時動態更新。當擁有這些數據后,我們就可以通過分析提高自身的能力。
比如通過大數據,可以進行用戶畫像、精準營銷、預測性維護,這些能力是小數據達不到的。
所以,我的觀點就是,大數據和小數據不是對等的概念,大數據和小數據各有價值,取決于在不同的領域有不同的用途。
田春華:不能從內、外這樣的角度來區分大數據和小數據,從學術上來講,大數據也不是一個嚴格的學術名詞。
談到大數據,很多人混淆了數據的兩個層面:
1.大數據技術。
2.大數據思維。
從數據技術的角度來說就是四個V。目前,大家總會強調數據量的問題。比如Google在早期解決的數據問題非常簡單。他們在面對海量數據時,利用高性價比的方式來代替昂貴的存儲介質、商用服務器等,因為大量搜索低價值密度的數據,雖然數據量大,但是價值密度比較低。這時如果再用昂貴的存儲介質,銀行、電信等行業就無法支撐下去。
最早互聯網行業發展大數據的動機很簡單,就是為了降低成本。所以,如果用普通的機器來做,就帶來了一個新的問題,各類機器的差異性較大,而且機器的計算是單節點,性能較低,怎樣組成一個可靠性強、吞吐量大的高級節點計算,這就需要大數據技術,包括如何解決計算中的瓶頸問題,這是大數據技術的起因。
數據思維就是如何依靠數字化轉型,來幫助企業審視企業自身的業務,支持企業轉型和發展。
但是大數據就要體現全面性。我們接觸最多的是石油行業,在過去,小數據覆蓋了很多專業領域,包括管理性維護、施工系統等,而這些系統都可以反饋數據,但是各個數據都沒有打通。
通過數據梳理后,數據雖然打通了,但是卻無法運行。這不僅僅是運維的問題,也可能是施工的問題。所以,在以前,小數據或者是專業數據是割裂的。在大數據時代,每個企業做的第一件事就是把數據打通,建立全生命周期的數據管理體系,從建設期到移交期,再到運維期。但是這還不能稱為大數據,應該稱為數據思維。
對于制造行業,在整個生產環節中,如果通過數據關聯,我們可以把生產過程的全息畫像描繪出來再進行分析,可能會發現原來在工藝或者是傳統制造之外的東西,這是數據思維或者是大數據思維帶來的一些新的東西。
主要的區別在于數據的利用方面,就是如何利用數據。
大數據、小數據二者的區別是相對的。小數據的價值密度高,大數據的價值密度低。另外從統計的角度來講,我們從來沒遇見過大數據,因為人們的好奇心永遠超過數據量。對于數據科學家來說,總是感覺數據不夠。因為我們的興趣是呈指數增長的,而數據量是線性或者是多項式增長,所以我們的增長速度遠遠超過數據。
Q:為什么在大數據時代,我們又重新提起小數據?現在的小數據跟之前的小數據有什么不同?
李紅:目前,大數據通過互聯網的發展,越來越受到各界追捧,很多人認為一切都可以利用大數據來解決。但實際上并不是這樣,為什么不能忽視小數據?什么才是數據的價值?
1.數據來源。
2.數據加工。
3.數據使用。
應當從這三個方面來看二者的區別。
從數字來源看,互聯網企業強調數據一定來源于最原始、最本源的狀態。就像礦石一樣,埋在地下,只有挖出來它才有價值。所以,現在大量的機器數據、行為數據等,都可以變成數據。
而小數據則不同,為了獲得知識,我們要定位自己的需求、有較強的目的性,才能保證付出較小的代價。因為在龐大的數據量面前,我們就沒有足夠的力量和能力進行處理了,所以在獲取的過程中就會出現取舍,因為取舍,就會忽視很多事物的本質,數據量就會變小。
只有賦予了數據的定義、內涵、算法,我們所獲取的數據才會變得有價值。但是小數據和大數據的區別就是,小數據舍棄了很多有價值的東西。
從數據來源的角度來說,小數據是人類社會、經濟社會活動的基礎。不能只依靠挖掘大數據,小數據也可以支撐我們對事物進行經濟分析。
從加工的角度來說,大數據的加工很簡單。現在的算法有很多,比如要識別一個東西,必須通過算法、算力和數據的不斷迭代,才能精確識別,才能確認大數據是否存在價值。
有些BAT的專家曾經講過,盡管手里有數據,也不知道怎么用。比如人工智能需要通過數據建模不斷迭代,才能體現識別能力。這是大數據的加工方法。
小數據的加工方法相對簡單,通過統計、匯總、建模,也可以通過數據展示來處理小數據。我們現在所看到的圖表、報表、簡單圖形等都非常直觀,它們能夠讓我們很容易地知道我們想達到的目的,驗證我們預測的目標和結果。
相比之下,通過大數據我們很容易獲得更深層次的東西。因為有數據,我們通過加工、建模,可以把一些顯性的數據利用起來。小數據只能用一些能看得到的顯性數據,而大數據可以發現更深層次的東西。從數據加工來說,小數據加工簡單、直觀,大數據需要通過復雜的處理。
從數據的最終使用角度來看,在過去,小數據要支撐我們的各種決策,直到現在也如此。舉個例子,從人力資源理論來講,一般的物理情況下,一個人能管控七個人,因為人的手、目測距離有限。那么七個人以上怎么辦?如果一個大公司有幾千、幾萬人,一個企業在全世界都有部署,那么依靠傳統的人力資源管理方式就行不通了。所以,這種情況下利用小數據進行決策更加有效。
我們為什么用大數據?為什么大數據發展這么迅速?區塊鏈、人工智能都是大數據自然發展而來的一種技術,這就說明大數據發揮了更大的價值。大數據的產生能夠在將來提升人類對科學的第四范式,在過去,我們通常憑借經驗和推理做出決策,而現在通過數據就能發現問題。
所以,從這個角度來說,小數據從采集、加工到最后的處理和分析過程中都具有價值,社會的經濟活動還是需要小數據。但是大數據開辟了新的天地,提高了我們的認識和認知能力,所以大數據的價值確實是非常值得期待的。但是不能因為大數據,就忽視了小數據。
Q:現在大數據非常火,但是小數據如何切入?
田春華:我們在做大數據分析時,其實還是需要小數據的支撐,但需要的是具有代表性的小數據,當利用小數據后再遷移到大數據進行大規模驗證,包括挖掘我們認識之外的東西,在大數據上是否能看到一些我們原來理解之外的東西?或者是看到一些目前解釋不了的東西?解釋不了的東西有可能存在規律,有可能是我們的測量手段或者是當前的數據采集方式有問題。
其實我們一直按照從小數據到大數據的迭代方式,先利用小數據,再應用大數據,從大數據的應用中再回到小數據反復迭代,然后再提升,這樣才能使大數據成功落地,而不是只談大數據不顧小數據。
如果脫離了小數據來談大數據,對于企業來說具有很大的風險。
主持人:而且可能也會給企業帶來一些不好的效果。小數據見效更快,對于企業來說,小數據的直接價值更大。
田春華:不只是對企業,對我們分析師來說,小數據或者是少量的數據更容易參透。其實很多事情和工程問題一樣,講究二八定律,人類把握80%的問題,而剩下的20%的問題交給統計或者智能進行挖掘,來解決20%的未知因素。
Q:在咱們日常的工作當中,是不是小數據應用得更多一些?
李紅:對,國家統計局有一個國民經濟行業分類。為什么要分類?我們的社會充滿數據,如何有條理、有規矩、有序地應用數據?還需要人為地把這些數據進行歸類、識別、分析。所以,為了解決好效率和質量的問題,我們需要大量的小數據。
就像日常出行選擇交通方式時,如果距離非常近,最好騎自行車,這樣的話效率很高。如果開車的話,需要啟動、停車,效率反而降低。所以,不能因為大數據的價值高,就忽視了小數據。
Q:能否以小數據的應用為例,談談如何將其與大數據結合為企業解決問題?
田春華:我舉個例子:
我們幫金風科技(一家世界領先的風電設備制造商)做載荷仿真時,遇到的問題就是要加速仿真過程,因為工礦比較多,有一千多個工礦要仿真。所以,最初始的訴求也很簡單,通過智能化、小數據,把瑣碎的過程自動化,還有解決計算時間較長的問題,另外,產生的仿真文件特別多,需要把用的結果自動抽出來。
這本身是一個很好的自動化小數據,但是中間用了一些大數據計劃,其實更多是利用傳統的小數據。
用完之后,我們隱約意識到,一旦能把載荷仿真智能化之后,從業務上帶來的價值不僅僅是在企業內部提升了載荷仿真團隊的工作效率,而且極大地改善了認證的階段。過去我們通常寫二三百頁的文檔作為報告,而認證機構把它還原到計算機中的過程則需要一周的時間。如果能把這些計算自動化,把計算結果、計算過程、原始資料都提交給認證機構,認證機構也省去了驗證的過程,我們也省去了寫企業幾百頁報告的麻煩。
后來我們更意識到了,這對企業整個的研發來說,就是協同研發、協同設計。過去,葉片廠商和塔架廠商都把自己設計好的文件提交到金風的研發團隊,研發團隊再整合起來進行仿真,之后如果發現某些環節需要調整,再返回給各廠商。
在實現了自動化之后,每個人可以獨立地提交文件,可以和別人現有的方法進行整合,然后馬上就會出具結果,這樣就使整個研發過程變成了一個并行的研發。
我們從最早非常小的一個點,慢慢走到需要用大數據來進行支撐。這是我們和業務部門都沒有想到的,事實證明一旦某個生產環節得到了加速,所帶來的是業務模式的轉變,而業務模式所對應的大數據后臺技術的要求是不一樣的。在企業內部用安全、認證沒有問題,但對外我們還要建模性加密,包括各種引擎的分析模型分享等。
我們過去做過很多大部件的工程診斷,研發部門有很多經驗模型,并且全部都驗證,大家對模型的應用非常有自信。
但當我們部署了大數據平臺之后,發現以往的經驗應用到風機廠,幾乎沒有一個模型是準確的。這也是我們為什么后來應用在小數據上做的模型,到大數據上去驗證,當驗證完成后,再回頭修改小數據。通過這種大數據、小數據迭代的方式,金風已經成功做出上百的模型,可以應用在全球范圍內的風機。
小數據為我們打下了很好的基礎,已經八九不離十,剩余10%的間隙用大數據去彌補。如果沒有那80%、90%小數據的支撐,只依靠挖掘大數據,很難保證其精準度。因為樣本不均衡,在工業中越嚴重的故障樣本量越小,我們沒有足夠的樣本來訓練一個可靠的模型。這就是為什么我們做出小數據之后,再用大數據去驗證反而見效更快。
Q:那么在傳統企業中,是否也碰到過上述情況?
李紅:在傳統企業中我們也遇到了這種問題。因為大數據被理解為一種技術,它是一種新的思維、新的能力,傳統企業和互聯網企業是不一樣的,我們在技術和思維能力之間還存在差距。
簡單說,我們在與CIO這個群體交流時發現,大家都苦于企業沒有需求,不確定業務部門能否做一些大數據研究案例,以及業務部門不知道為什么做大數據。而職能部門也無法改善管理,因為職能部門也不知道怎么做大數據。
問題出在哪里?互聯網企業已經實現了技術和能力的匹配,物聯網企業要想知道做什么,就要去搜集數據。那么在傳統企業中,大數據如何能發揮價值?在需求端、業務端、應用端他們還很難說出為什么要用大數據,用大數據干什么?大數據從哪里來?他們正被這種問題困擾著。
所以,目前大數據所落地的傳統企業都是一些很具體的實戰型企業,比如生產廠商。我們最近看到華倫集團率先在水電、火電設備上和具體的生產場景中,利用大數據進行突破。
目前,大數據在傳統企業里面一定要找到具體的應用場景和目標,要解決數據從哪兒來,什么是大數據,大數據能做什么等問題。因為傳統企業必須見到效果了,或者是感覺到了大數據的價值,才會發展大數據。
所以,大數據在傳統企業的推進中要有一個過程。從技術發展的角度來說,我們從消費互聯網過渡到產業互聯網和工業互聯網階段,應該說大數據剛剛起步,無論是從理論上、應用上還是價值上來說,都是剛剛開始。
盡管現在依然是技術人員在技術層面上談大數據,實際上,一旦傳統企業應用了大數據,傳統企業轉型升級、創新發展、彎道超車都有很大可能,所以大數據的未來是非常好的。
Q:最后請兩位專家用一分鐘的時間總結一下大數據和小數據的關系。
田春華:我認為數據技術和業務不是割裂的關系,無論是大數據還是小數據,我們在以數字化轉型或是數字化業務的視角去審視和推進整個數據建設時,都應當遵循三點:
1.有明確的業務規劃或者是業務場景。
2.要對當前整個行業環境包括企業的數據基礎進行摸底,當我們要發展大數據時,當前的數據基礎能不能支持現有的場景。
業務驅動還是要尋找業務場景,一方面是業務部門的努力,另一方面大數據公司也應努力地尋找業務場景、業務驅動,以合適的方式將可行的數據、高價值的信息及時推給相應的人。
3.從數據的角度審視我們的業務和問題,從而完善我們的業務。當通過數據分析發現問題后,反過來改善業務流程,形成業務和數據的閉環。
李紅:我們要重視小數據的利用價值,因為小數據事關我們的日常生活和工作,但是我們要大力推進大數據的應用發展,因為它關系到我們的產業升級、動能轉化、經濟轉型和強國建設。所以,大數據決定我們的命運和未來。
數據本無大小,但運用數據的立場卻分大小。