楊文彩
摘要:大數據已經無處不在了,大數據現象正日益影響到各個工商業領域,產生了一個新興的新信息生態系統。大數據在社會實踐和理論上有巨大影響,有關大數據的應用已經滲透到各個領域中去了,受到各行各業熱捧。
關鍵詞:算法運用到海量數據;數據的挖掘;數據的開放性;數據在生活中的應用
舍恩伯格的大數據的書風靡全球,說起媒體和互聯網必提大數據,似乎不說就“out”了。那什么事是大數據呢。概念是研究的邏輯起點,“大數據”到底是什么?在百度上搜索到的解釋是,“大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。”大數據的4V特點:數量(Volume)、速度(Velocity)、品種(Variety)和真實性(Veracity)。但舍恩伯格認為大數據并非一個確切的概念。他在書中的一段詮釋更具人文色彩和社會意義:“大數據是人們獲得新的認知、創造新的價值的源泉;大數據還是改變市場、組織機構,以及政府與公民關系的方法。”其實,概念的界定要看研究者從哪個角度來研究它而定。
科學家的治學態度是嚴謹的,而人文學家更具有想象力。一些對大數據不甚了然的人往往夸大了它的作用,甚至把它神化。舍恩伯格認為大數據的核心是預測。“大數據不是要教機器像人一樣思考。相反,把數學算法運用到海量的數據上來預期事情發生的可能性。”舍恩伯格甚至不回避大數據所產生的負面影響,他在第七章里談到讓數據主宰一切的隱憂。我覺得這是實事求是的科學態度。在量子力學里有一個測不準原理:一個微觀粒子的某些物理量(如位置和動量,或方位角與動量矩,還有時間和能量等),不可能同時具有確定的數值,其中一個量越確定,另一個量的不確定程度就越大。它是解釋微觀世界的物理現象,信息社會中的大數據會不會也有類似情況呢?如果我們再把凱文·凱利的《失控》對比來讀的話就更有意思了,這樣我們對整個物質世界及至人類社會就有了更全面更深刻的洞察,從物理王國到生物世界,再到信息社會。從公共衛生到商業應用,從個人隱私到政府管理,大數據無處不在。與此同時,從哪個角度探討用什么方法研究,舍恩伯格都不會忘記大數據服務人類造福人類的終極目的和價值所在。“大數據并不是一個充斥著運算法則和機器的冰冷世界,其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創造力、直覺和天賦。偶爾也會帶來屈辱或固執的同樣混亂的大腦運作,也能帶來成功,或在偶然間促成我們的偉大。這提示我們應該樂于接受類似的不準確,因為不準確正是我們之所以為人的特征之一。”[iv]用中國話來說就是“人無完人”,人類在收獲大數據帶來的紅利的同時也要承受它帶來的危害。這不是對立統一的辯證唯物主義?我把它看作帶著歐洲批判學派色彩的科學發展觀。
問題是研究的價值基點,“大數據”不是舍恩伯格研究的問題,而是研究對象,他研究的是數據處理和信息管理問題,同時也討論信息安全和網絡倫理問題,還引發哲學上的思考,哲學史上爭論不休的世界可知論和不可知論轉變為實證科學中的具體問題。可知性是絕對的,不可知性是相對的。“大數據”之所以為大是因它引發人類生活、工作和思維的大變革,從這個意義上來看,《大數據時代》的意義不僅在于它討論了若干重大問題,而且對研究者開出了一個問題清單,從而引發更多人來探討這些有趣的問題。
《大數據時代》實際上主要是一本討論數據挖掘的書,數據挖掘與數據分析是不同的概念,數據挖掘一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性的信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。而數據分析的目的是把隱沒在一大批看來雜亂無章的數據中的信息集中、萃取和提煉出來,以找出所研究對象的內在規律。數據挖掘主要運用計算機來進行處理,而數據分析既要用計算機也要人工分析,是計算機科學與人文價值判斷的統一結合。換言之,《大數據時代》并不是一本討論大數據所有問題的書。
《大數據時代》也是一本討論互聯網發展的書,從數字化到數據化,同時有濃厚的未來學色彩。當文字變成數據,我們進入了互聯網;當方位變成數據,我們進入了物聯網;當溝通變成數據,我們進入了下一代互聯網。一切可量化,萬物皆數據,正是當今互聯網世界的真實寫照。面對于這樣的世界及世界的未來,在《大數據時代》出現最多的詞是“思維”和“方法”,因此也可以把這本書視為思維科學應用研究的書。
此外,在閱讀此書之前還必須具備一些數據科學的基本知識和基本概念,比如說什么叫數據?什么叫大數據?數據分析與數據挖掘的區別,數字化與數據化有什么不同?讀前做些功課讀起來就比較好懂了。
有朝一日,我們就生活在大數據中。我們去逛街,我們將我們的移動通訊打開,搜索我想買的物品,附近有此物品的店子就都呈現在我眼前了。我只需要比較距離,質量,價格就可以選擇去哪買了。同時我可以看看周圍有什么吃的喝的玩的。我可以通過我的通訊設備了解得很清楚。還比如我逛累了找家休閑娛樂的地方休息。快要到飯點了,與此同時我搜索吃飯的地方,所有相關的飯館都出現在我的手機屏幕上,我只需要選擇就可以了。這就是大數據給我們生活帶來的方便。這些數據都是通過整合,分析了的。通過互聯網傳輸給我們的。
大數據將會被運用到很多方面,最先使用大數據的人肯定是時代的弄潮兒。他們利用大數據商業化。各個領域將會涉及到大數據。就像信息一樣的。但是數據和信息又不一樣。
數據與信息的關系為:數據是信息的一種表現形式,數據通過能書寫的信息編碼表示信息。信息有多仲表現形式,它通過手勢、眼神、聲音或圖形等方式表達,但是數據是信息的最佳表現形式。由于數據能夠書寫,因而它能夠被記錄、存儲和處理,從中挖掘出更深層的信息。但是,數據不等于信息,數據只是信息表達方式中的一種。
我們生活悄然發生著變化,涉及到生活的方方面面,讓我們深有感觸的就是衣食住行了。我們上網,網絡上就會我們的痕跡,數據就會分析,個人的偏好,然后就會去推薦。然后自己也會去種草,比較。商家會利用大數據來找客戶,發展客戶,促進銷售。商家也能利用大數據來開拓市場,資源不浪費。客戶看數據對比,買性價比高的商品。我們出去旅游,通過大數據可以了解旅游的各種信息,出門心里有數。把旅游攻略做好,看大數據推出的網紅打卡地,網紅美食等等一切。不走冤枉路不花冤枉錢。旅游品質提高了。大數據功不可沒。
大數據時代,我們每個人都相當于在裸奔。因此我們在試用數據的時候,我們的信息也暴露了。這就要求人們有道德底線了。我們也要保護自己的信息安全。大數據是把雙刃劍,要合理合法的應用。
看了大數據后,我的腦袋是混亂的,是懂非懂。感覺既具體又抽象。總之這是一本很好的書,值得一讀。
參考文獻:
[1][英] 維克托·邁爾·舍恩伯格(Viktor Mayer-Sch?nberger)大數據時代.
[2][美]BILL Franks駕馭大數據.