吳新維
摘 要: 伴隨著互聯網、云計算、傳感器等信息技術的發展和計算機儲存能力的提升,人們的生產、生活等活動在一定時間內被記錄并保存下來,由此產生了海量的數據,普通的計算機軟件無法捕捉、處理這些海量數據,大數據概念由此誕生。大數據之大的實質要義在于其潛在價值的巨大,潛在價值的巨大不僅得到了諸多領域實踐上的印證,也有其深刻的理論鋪墊,建立在互聯網等技術基礎上的大數據方便了人們的生產、生活與研究,也帶來了思維方式的變革。
關鍵詞: 大數據; 價值; 依據; 思維方式; 變革
中圖分類號:N941 文獻標志碼:A 文章編號:1006-8228(2016)10-01-04
The basis of big data's value and the change of thinking mode
Wu Xinwei
(College of computer science and technology, Jin University, Changchun, Jilin 130012, China)
Abstract: Following the development of information technology of the Internet, cloud computing, sensors etc. and the increasing of the computer storage capacity, people's production and life, and many other activities in a certain period of time is recorded and preserved, from this, creating vast amounts of data. Because the common computer software cannot capture, process these vast amounts of data, the concept of big data was born. The cause of the big data called big lies in its huge potential value. The huge potential value is proved in many practice fields, and has its profound theoretical foil. big data based on Internet technologies is convenient to people's production, life and study, and also brings the change of thinking mode.
Key words: big data; value; basis; thinking mode; change
0 引言
信息技術的發展,對人類的生產、科研、生活產生了巨大的影響,不僅為人們提供了巨大的便利和節省了大量的時間,也為人類探索未知的領域提供了可以量化分析與研究的總體樣本,即大數據。那么如何理解大數據,如何體驗大數據帶給人們的便利以及大數據對人類思維方式的巨大改變值得關注。
1 大數據
大數據看似抽象的概念,實則與我們的實踐活動有著內在的關聯性,且大數據之大不只是形式上量的積累,實質上是其潛在的價值巨大,把大數據還原到現實世界中來,我們就會對其有著感性直觀的近距離理解。
1.1 來源
廣義的數據源于人們對自身各種實踐活動及各類自然現象的記錄,自文字誕生之日起,人類就進行了各種記載活動。如對生產技術的記錄,如我國先秦時期的《考工記》、三國魏初時的《長物志》、宋朝以前的《農桑輯要》等。廣義的數據不同于今天的大數據,其顯著特征表現在周期長和規律性,周期長是指對人類的某種活動完整過程的記錄,并且是在已經知曉這種活動規律的情況下才作記錄。而今天的大數據的特征在于其時效性和無序化(不知其規律性),建立在計算機基礎上的互聯網、物聯網、云計算及傳感器技術使人類記錄各種瞬時活動和無序活動成為了可能。
1.2 數據之大的根據
早在2001年,就出現了關于大數據的定義,META集團(現為Gartner)的分析師道格·萊尼(Doug Laney)在研究報告中,將數據增長帶來的挑戰和機遇定義為三維式,即數量(Volume)、速度(Velocity)和種類(Variety)的增加后來變為“4V”,除了上述三個特征外,增加了Value(價值巨大但密度很低)[1]。2010年Apache Hadoop組織將大數據定義為“普通計算機軟件無法在可接受的時間范圍內捕捉、管理、處理的規模龐大的數據集”[2]。目前,大數據的一般范圍是從幾個TB到數個PB(數千TB)[3]數據集的大小并不是大數據的惟一標準,數據之大除了量和規模大外,其重要的標志性特征是其潛在價值之大,Facebook的副總工程師杰伊·帕瑞克所言:“如果不利用所采集的數據,那么你所擁有的只是一堆數據,而不是大數據”。對地理現象的記錄如《徐霞客游記》,這部著作是我國最早詳細記錄所經之處的地理環境的游記,亦是世界上最早記述卡斯特地貌,并能詳細對其成因進行考證的書籍。人類的思想創作亦是一種實踐活動,記錄當時學者對所屬時代的認知及反思,如我國經典文獻中的《道德經》、《論語》等[2]。
2 大數據潛在價值之大的依據
大數據之所以有巨大的潛在價值,在于不同領域研究者如何利用大數據去預測當下憑著直觀無法知曉和做出判斷的關于事物或事態潛在的運行趨勢,信息時代為我們提供了進行量化分析的技術手段,且研究的樣本不是部分,而是總體。大數據不同于一般的研究成果,在其被人們作為研究對象使用之前,其潛在價值看似“無”,所以,大數據的價值在于使用者的目的及其探究的方式。
2.1 大數據的創新潛質
維克托·邁爾-舍恩伯格、肯尼思·庫克耶著的《大數據時代——生活、工作與思維的大變革》中指出了大數據創新的六大特征:數據的再利用、重組數據、可擴展數據、數據的折舊值、數據廢氣、開放數據[4]。結合文本及自身的理解,對其做出簡要的分析。
數據的再利用:消費者在網絡上通過搜索關鍵詞來尋找信息。“消費者和搜索引擎之間的瞬時交互形成了一個網站和廣告的列表,實現了那一刻特定功能”[4],似乎在滿足消費者之后,這些信息就變得一文不值,但是這些查詢可以匯集起來,被商家再利用。
重組數據:一組數據與另一組迥然有別的數據組合起來,探討一種現象和另一種現象之間是否存在著必然的關聯性,如丹麥癌癥協會把1990年到2007年擁有手機的用戶信息與這期間所有癌癥患者的信息進行比對,以期解決:手機使用者是否比非手機使用者顯示出較高的癌癥發病率;使用手機時間長比使用時間短是否更容易患上癌癥;比對結果顯示二者之間沒有必然的聯系。
可擴展數據:在決定進行數據收集之前,最好想到數據的多種可利用價值。比如,零售商在店內安裝監控攝像頭,起初只是起到安全保衛作用,可攝像頭還能跟蹤客戶流和客戶停留的位置,零售商可據此設計店面的最佳布局并判斷營銷活動的有效性。
數據的折舊值:數據的擁有者、數據的收集者、數據的使用者三者之間,因為各自的角色不同,所以承擔的任務亦不同,由于現在儲存數據的成本降低,所以數據可以較長時間保存下來,在數據一次次地被使用后,數據的價值出現折舊,但當潛在的需求出現后,數據的潛在價值就會被挖掘出來,這需要作為第三方的使用者與數據擁有者,甚至數據采集者共享數據的潛在價值。
數據廢氣:數據廢氣是“用戶在線交互的副產品,包括瀏覽了哪些頁面、停留了多久、鼠標光標停留的位置、輸入了什么信息等[4]?!敝浮霸S多電腦化服務背后的機制,如語音識別、垃圾郵件過濾、翻譯等?!盵4]許多公司收集“數據廢氣”并循環利用“廢氣”,達到改善現有的服務或開發新的服務的目的。
開放數據:政府是大規模信息的原始采集者和擁有者,但政府對數據的利用率較低,具有不同需要的使用者使用數據,數據的潛在價值才能釋放出來,因此,“開放政府數據”的呼聲響徹全球。
2.2 大數據的效用
數據大體上可分為通過傳感器獲得的數據和人機物交互生成的瞬時數據,所以,擁有了大數據意味著已經掌握了事物當前的運行狀態和作為消費者當下的需求指向,據此,大數據的效用基本上可概括為預測與避免、預測與決策。
預測與避免:大型化工廠和提煉廠都安裝了無線傳感器,通過傳感器傳送來的數據變化,可提前知曉設備的哪個零件出了問題,還有對煉油廠管道承壓的測試,既可以知道不同種類的原油的腐蝕性程度的差異,也可以提前知道管道承壓是否接近極限,可以提前進行設備的更換和維修,以減少事故的發生和消除安全隱患,為工廠節省了大量時間和開支。傳感器還被安裝在橋梁和建筑物上,通過傳感器來監測磨損程度,提前進行維修,減少橋梁和建筑物的坍塌給人們的生命財產帶來的危害。作為下水道的修建口沙井蓋因其內部失火而引起的爆炸,會將沙井蓋沖出幾層樓的高度,其破壞性可想而知,2007年聯合愛迪生電力公司求助統計學家研究出現過問題的歷史數據,探討問題沙井蓋與基礎設施之間的內在聯系,進而預測可能會出現問題的沙井蓋,及時進行維修,這樣避免了災難性事情的發生。
預測與決策:人、機、物在網絡空間中彼此交互與融合所產生的并在互聯網上可獲得的大數據可被不同需要的人作為研究對象,從中梳理出數據呈現的基本走勢,或者從數據中預測消費者的未來需求方向。2003年奧倫· 埃齊奧尼因偶然遭遇早買的機票反而比晚買的機票的價格高的困惑時,決心利用已有數據預測機票價格,奧倫· 埃齊奧尼在獲取41天之內的12000個機票價格樣本基礎上,建立了機票預測系統,到2012年止,Farecast系統用了近10萬億條價格記錄來幫助預測美國國內航班的票價。Farecast票價預測的準確率高達75%[4]。通過分析互聯網上的搜索記錄,可以預測當下人們的需要和身體狀態,在甲型H1N1流感爆發前的幾周前,谷歌公司把5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節性流感傳播時期的數據進行了比較,據此判定搜索感冒治療記錄的人是否患上了流感,當然,不排除有該種搜索記錄的人可能不一定患上感冒,可以通過勘查特定檢索詞條的使用頻率與流感在時間上和空間上的傳播之間的聯系,來確定是否患上了流感,谷歌將其得出的預測與官方的疾控中心實際記錄的流感病例比對后,相關性高達97%[4]。網購已成為當下最流行的銷售方式,商家可通過分析網上訂單記錄,預測消費者下一步的消費需求,提前做好商品宣傳和促銷活動。
3 大數據與思維方式的變革
2008年,《連線》雜志主編克里斯·安德森(Chris Anderson)指出:“數據爆炸使得科學的研究方法落伍了[4]?!比绾卫斫庵骶幍纳鲜雠袛?,互聯網確實改變了人們的生活與工作方式,也改變了人們探究和認知世界的模式。
3.1 大數據改變了傳統的探究模式
傳統的研究不論是自然科學的還是社會科學的,其研究對象是事先確定的,且完成的是一次性的或靜止狀態的研究,但大數據改變了這種研究的局限性,被采集的數據的對象不是固定的,且數據的生成過程是個動態的流動過程,可以從某個時段內預測被研究對象的未來發展狀態或需求?;ヂ摼W還縮短了研究者和研究對象之間的時空距離,在萬里之外的瞬時想法和行為,可以在幾秒鐘內被世界各地的人知曉,這就是互聯網的神奇。人們在互聯網上的任何搜索活動都會被“第三只眼”看著,其行為會成為大數據的組成部分,成為研究標本的一個因子。
3.2 大數據改變了原有的認知觀念
在計算機的貯存能力有限和網絡并不普及的條件下,我們對于研究對象采用實地調查和問卷方式,那么我們采集的樣本就是部分,在這種情況下,我們思維往往傾向于有序化和規律性,這是采集手段受限的條件下的心理反應。而所謂的有序化和規律性是結構性數據的內在特征,是研究者對同質化事物的理論預設,即研究者在采集數據之前,對要研究的對象可能會呈現的發展樣態有初步的設定,那么,樣本中的任一要素基本上符合最初的理論預設。樣本是部分也因采集對象受到時間與空間的限制,而使研究結論帶有片面性,在采集數據手段受限的情況下,人們喜歡有序和規律,而逃避差異和模糊,但差異性和無序性是事物的真實存在狀態,在大數據狀態下,“只有5%的數據是有框架的且能適用于傳統數據庫的,如果不接受混亂,剩下95%的非框架數據都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶[4]。”
擁抱差異和無序才是我們解決問題的根本,現代信息技術提供了研究樣本的整體性,為我們探討差異和無序提供了技術保障。例如,為了防止和打擊信用卡詐騙,就不能放過哪怕一次異常交易記錄,Xoom公司是一個專門從事跨境匯款業務的公司,它運用大數據技術分析每一筆交易的所有有關數據,2011年的一段時間里,它發現用“發現卡”從新澤西州匯款的交易量比往常明顯增多,于是緊急啟動報警程序,從而防止了一個詐騙集團的金融犯罪[5]。
辨證地看待精確和模糊的關系,才是探究世界的理性方式,確定性、精準性是信息缺乏時代和模擬時代的思維方式,但真正的異質性的東西卻存在于非結構的無序化的數據中,現代信息技術給人們捕捉無序化的數據提供了技術上的支持;20世紀量子力學的發展打破了建立在經典力學基礎上的決定論的神話,量子力學的“測不準定律”是人們探究微觀世界的真實寫照,統計性,非精準性,不確定性逐步成為人們理解世界的新觀念;波普對于正確與錯誤的判斷不是建立在證實的基礎上,波普認為不能證偽的命題就是有意義的命題,隨著實踐的深入和探究工具的改進,是有可能被證實的科學命題。我們知道,愛因斯坦提出相對論,在當時的條件下無法被證實,也無法被證偽,其廣義相對論(光線在引力場中具有彎曲效應)于1919年5月29日發生日全蝕時,愛丁頓赴西非幾內亞灣的普林西比島進行觀測(另一只觀測隊赴南美觀測),觀測結果證實了廣義相對論。今天諸多領域高科技的實踐也證實了愛因斯坦的狹義相對論(尺縮鐘慢)。
3.3 重新審視因果關系和相關關系
休謨基于經驗論的基礎上,把觀念之間的關系分為三種:相似關系、接近關系和因果關系。一般認為因果性是“習慣的聯想”,康德認為,把科學的地基建立在經驗論的基礎上是不牢固的,康德認為因果性是理性思維的先天法則或思維形式。如何理解“先天”的含義,從黑格爾如下的判斷中,可以理解思維法則的先天性:人們不學邏輯學就能思維,就象人們不學生物學就能消化一樣,所以,因果性是人們先天的思維法則。習慣于因果關系的心理定勢是建立在數理邏輯推理的基礎上的。中國工程院院士李國杰對此評價道:“我們都是從做平面幾何證明題開始進入科學大花園的,腦子里固有的邏輯思維模式少不了因果分析,判斷是否是真理也習慣看充分必要條件,對于大數據的關聯分析蘊含的科學意義往往理解不深。”[1]維克托·邁爾—舍恩伯格認為大數據時代下,證明相關關系的成本低且省時,而因果關系卻很難被證明,他用颶風來臨時,商場老板將手電筒和蛋撻放在一起,可以起到促銷效果這一例子說明相關性。
相關關系是大數據時代人們生存節奏便捷化的一種心理反應,但是,從大數據的來源上和用途上,不僅僅要關注相關關系,因果關系也是我們探究世界,進行科學研究的基本思維形式,大數據從來源上說,基本上分為兩大類:一是人、機、物相互作用情況下生成的數據,基本上是消費者的消費需求和心理傾向,這可以被商家利用或公共管理部門利用,對這部分數據的分析,采用相關關系即可;二是作為傳感器生成的數據,是人們進行研究的重要依據,如在生產領域或基礎設施上,人們無法直觀到對象已經發生的量變,但傳感器可以采集到,在達到質變之前,人們就可以采取維修或替換的方式,避免事故的發生。
這里,僅用相關關系是不足以完成對數據價值的挖掘的。《大數據時代》一書的譯者周濤教授指出,“放棄對因果性的追求,就是放棄了人類凌駕于計算機之上的智力優勢,是人類自身的放縱和墮落?!盵6]這樣的理解是非常深刻的,重視大數據時代相關關系的分析(省時便捷),但也不能放棄對因果關系的探究,相關關系也證實了在探究事物邏輯鏈的過程中,不是一種線性的思維,有諸多因素直接或間接地影響事物的發展。例如,如果給手電筒和蛋撻的相關性尋找因果,那么在颶風來臨時,可能導致會斷電,無法照明和做蛋撻,那么大量購買這兩種東西就可以理解了。
4 結束語
大數據的創新潛質和已經開發出的應用空間有力地證實了大數據的價值之大,隨著信息技術的進一步開發和應用,大數據的潛在價值會進一步地被挖掘出來,那時候,人類的思維方式又會發生新的變革。未來需要大數據研究者進一步加強對網絡存儲模式的開發利用,并實現對大數據的高效操作和編譯的目標。本文僅作為研究“蛻變測試在編譯器中的應用”的理論鋪墊。
參考文獻(References):
[1] 李國杰.大數據研究:未來科技及經濟社會發展的重大戰略
領域[J].中國科學院院刊,2012.6:648-651
[2] 轉引自張引.大數據應用的現狀與展望[J].計算機研究與發
展,2013.50:217-218
[3] Manyika J, Chui M, Brown B, et al. Big data: The next
frontier for innovation, competition, and productivity[J]. Mckinsey Global Institute,2011:1-137
[4] 維克托·邁爾-舍恩伯格 肯尼思·庫克耶著的.大數據時代
——生活、工作與思維的大變革[M].浙江人民出版社,2013.
[5] 張弛.大數據思維范疇探究[J].華中科技大學學報社會科學
版,2015.2:123-124
[6] 周濤.《在路上晃晃悠悠.“大數據時代”》(《大數據時代——生
活、工作與思維的大變革》[M]的序言).浙江人民出版社,2013.