趙如煜
【摘要】大數據給統計學帶來了機遇、挑戰和緊迫感。本文描述大數據的環境,利用大數據的目的和大數據帶來的變革;介紹國內外有關大數據的研究動向;探討大數據包含的信息,大數據的預處理、抽樣和分析方法。
【關鍵詞】大數據 抽樣 數據分析方法論
當今時代,一方面人們在主動地獲取數據。各個科學領域都在大量地獲取數據,自然科學領域收集著從宏觀的天文數據到微觀的基因數據,經濟、金融和人文社會科學收集著大量的觀察和調查數據。另一方面人們在被動地囤積數據。隨著計算機互聯網、搜索引擎、電子商務、多種傳感器和多媒體技術的發展和廣泛使用,各種形式的數據如江河流水般地涌來。當今數據的獲取和規模發生了根本的變化,統計學面臨著新的機遇和挑戰,需要在方法論上有所突破。
一、大數據及其目的
狹義地講,大數據是一個大樣本和高維變量的數據集合。針對樣本大的問題,統計學可以采用抽樣減少樣本量,達到需要的精度。目前大數據的環境包括了:數據流環境:數據快速不斷涌來,現有存儲設備和計算能力難以應付這種洪水般的數據流;磁盤存儲環境:數據已不能完全存儲在內存中,需要硬盤存儲;分布存儲環境:數據分布存儲在多個計算機中;多線條環境:數據存儲在一個計算機中,多個處理器共享內存。
大數據的目的是將數據轉化為知識,探索數據的產生機制,進行預測和制定政策。把信息轉變為有用的知識還需漫長的時間。“預測”不同于“制定政策”。一個兒童的鞋子越大,可以預測他掌握的詞匯量越多;但是,制定政策強制他穿大鞋子并不能提高他的詞匯量。
二、大數據帶來的變革
大數據給我們的時代帶來了變革。目前,人們習慣于根據“研究問題”來驅動“收集數據”。今后,大數據到處可得,人們將會用“數據”驅動“研究問題”。就像我們出遠門前常常查詢目的地的天氣、交通和賓館那樣,未來人們在研究和決策前將會通過查詢數據做決定。目前已經有科學家開始使用軟件搜索和匯總已發表論文中的成果。大數據中包含有各種不同目的的數據集,綜合利用它們可以做出原來目的之外的意外成果。例如,將醫院病歷數據與信用卡消費數據結合,我們能發現食品與健康的相關關系,指導人們進行健康飲食。假若再加上手機和GPS等數據,還能隨時對人們進行體檢,指導健身,減少猝死,幫助醫生診斷疾病等,應用大數據可以設想的用途不計其數。
三、大數據的處理、抽樣與分析
(一)數據的預處理
大數據的預處理包括數據清洗、不完全數據填補、數據糾偏與矯正。利用隨機抽樣數據矯正雜亂的、非標準的數據源。統計機構的數據是經過嚴格抽樣設計獲取的,具有總體的代表性和系統誤差小的優勢,但是數據獲取和更新的周期長,盡管調查項目有代表性,但難以無所不包。而互聯網數據的獲取速度快、量大、項目繁細,但是難以避免數據獲取的偏倚性。將統計機構的數據作為金標準和框架對互聯網數據進行矯正,將互聯網數據作為補充資源對統計機構的數據進行實時更新,也許是解決問題的一個思路。
(二)大數據環境的抽樣
大數據的抽樣方法有待研究。“樣本”不必使用所有“數據”,不管鍋有多大,只要充分攪勻,品嘗一小勺就知道其滋味。針對大數據流環境,需要探索從源源不斷的數據流中抽取足以滿足統計目的和精度的樣本。需要研究新的適應性、序貫性和動態的抽樣方法。根據已獲得的樣本逐步調整感興趣的調查項目和抽樣對象,使得最近頻繁出現的熱門數據,也是感興趣的數據進入樣本。建立數據流的緩沖區,記錄新發生數據的頻數,動態調整不在樣本中的數據進入樣本的概率。
(三)大數據的分析與整合
針對大數據的高維問題,需要研究降維和分解的方法。探討壓縮大數據的方法,直接對壓縮的數據核進行傳輸、運算和操作。除了常規的統計分析方法,包括高維矩陣、降維方法、變量選擇之外,需要研究大數據的實時分析、數據流算法。不用保存數據,僅掃描一遍數據的數據流算法,考慮計算機內存和外存的數據傳送問題、分布數據和并行計算的方法。如何無信息損失或無統計信息損失地分解大數據集,獨立并行地在分布計算機環境進行推斷,各個計算機的中間計算結果能相互聯系溝通,構造全局統計結果。研究多個數據資源的融合算法。研究利用數據流尋找模型變化時間點的動態變化模型。
在大數據環境,很多數據集不再有標識個體的關鍵字,傳統的關系數據庫連接方法不再適用,需要探討利用數據庫之間的重疊項目來結合不同的數據庫,利用變量間的條件獨立性整合多個不同變量集的數據為一個完整變量集的大數據庫的方法。探索不必經過整合多數據庫,直接利用局部數據進行推斷和各推斷結果傳播的方法。另一方面,利用統計性質無信息損失地分解和壓縮大數據。
四、結束語
一個新生事物的出現將必定導致傳統觀念和技術的革命。數碼照相機的出現導致傳統相片膠卷和影像業的已近消亡。如果大數據包含了所有父親和兒子的身高數據,只要計算給定的父親身高下所有兒子的平均身高就可以預測其兒子身高了。模型不再重要,當年統計學最得意的回歸預測方法將被淘汰。大數據的到來將對傳統的統計方法進行考驗。統計學會不會象科學哲學那樣,只佩戴著歷史的光環,而不再主導和引領人們分析和利用大數據資源。現在其他學科和行業涌入大數據的熱潮,如果統計學不抓緊參與的話,將面臨著被邊緣化的危險。現今統計學的目標是通過獲取數據和分析數據發現真理(總體的參數和性質),統計方法和理論對數據有過高的要求。而大數據充滿了各種隨機的、非隨機的誤差和偏倚,不能滿足這些苛刻的要求。按照波普的科學劃界準則,只要我們能從大數據中提煉出具有可證偽的結論,那么這個結論還是科學的,可以用于知識積累。這些可證偽的大數據結論可作為進一步科學研究的假說,以數據驅動研究。我們在看到大數據給統計學帶來了機遇的同時,也應該看到現在的統計方法普遍只適用于全部數據放在單個計算機內存的環境,分布式大數據和數據流的環境給統計學帶來了挑戰。統計學家不應該固守傳統數據的環境,必須積極學習新生事物,適應新的大數據環境,擴展統計學的應用領域,創造出迎合大數據的新統計方法,“機遇”與“挑戰”并存。