999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代統計學面臨的機遇與挑戰

2016-10-20 07:40:30趙如煜
商情 2016年6期
關鍵詞:大數據

趙如煜

【摘要】大數據給統計學帶來了機遇、挑戰和緊迫感。本文描述大數據的環境,利用大數據的目的和大數據帶來的變革;介紹國內外有關大數據的研究動向;探討大數據包含的信息,大數據的預處理、抽樣和分析方法。

【關鍵詞】大數據 抽樣 數據分析方法論

當今時代,一方面人們在主動地獲取數據。各個科學領域都在大量地獲取數據,自然科學領域收集著從宏觀的天文數據到微觀的基因數據,經濟、金融和人文社會科學收集著大量的觀察和調查數據。另一方面人們在被動地囤積數據。隨著計算機互聯網、搜索引擎、電子商務、多種傳感器和多媒體技術的發展和廣泛使用,各種形式的數據如江河流水般地涌來。當今數據的獲取和規模發生了根本的變化,統計學面臨著新的機遇和挑戰,需要在方法論上有所突破。

一、大數據及其目的

狹義地講,大數據是一個大樣本和高維變量的數據集合。針對樣本大的問題,統計學可以采用抽樣減少樣本量,達到需要的精度。目前大數據的環境包括了:數據流環境:數據快速不斷涌來,現有存儲設備和計算能力難以應付這種洪水般的數據流;磁盤存儲環境:數據已不能完全存儲在內存中,需要硬盤存儲;分布存儲環境:數據分布存儲在多個計算機中;多線條環境:數據存儲在一個計算機中,多個處理器共享內存。

大數據的目的是將數據轉化為知識,探索數據的產生機制,進行預測和制定政策。把信息轉變為有用的知識還需漫長的時間。“預測”不同于“制定政策”。一個兒童的鞋子越大,可以預測他掌握的詞匯量越多;但是,制定政策強制他穿大鞋子并不能提高他的詞匯量。

二、大數據帶來的變革

大數據給我們的時代帶來了變革。目前,人們習慣于根據“研究問題”來驅動“收集數據”。今后,大數據到處可得,人們將會用“數據”驅動“研究問題”。就像我們出遠門前常常查詢目的地的天氣、交通和賓館那樣,未來人們在研究和決策前將會通過查詢數據做決定。目前已經有科學家開始使用軟件搜索和匯總已發表論文中的成果。大數據中包含有各種不同目的的數據集,綜合利用它們可以做出原來目的之外的意外成果。例如,將醫院病歷數據與信用卡消費數據結合,我們能發現食品與健康的相關關系,指導人們進行健康飲食。假若再加上手機和GPS等數據,還能隨時對人們進行體檢,指導健身,減少猝死,幫助醫生診斷疾病等,應用大數據可以設想的用途不計其數。

三、大數據的處理、抽樣與分析

(一)數據的預處理

大數據的預處理包括數據清洗、不完全數據填補、數據糾偏與矯正。利用隨機抽樣數據矯正雜亂的、非標準的數據源。統計機構的數據是經過嚴格抽樣設計獲取的,具有總體的代表性和系統誤差小的優勢,但是數據獲取和更新的周期長,盡管調查項目有代表性,但難以無所不包。而互聯網數據的獲取速度快、量大、項目繁細,但是難以避免數據獲取的偏倚性。將統計機構的數據作為金標準和框架對互聯網數據進行矯正,將互聯網數據作為補充資源對統計機構的數據進行實時更新,也許是解決問題的一個思路。

(二)大數據環境的抽樣

大數據的抽樣方法有待研究。“樣本”不必使用所有“數據”,不管鍋有多大,只要充分攪勻,品嘗一小勺就知道其滋味。針對大數據流環境,需要探索從源源不斷的數據流中抽取足以滿足統計目的和精度的樣本。需要研究新的適應性、序貫性和動態的抽樣方法。根據已獲得的樣本逐步調整感興趣的調查項目和抽樣對象,使得最近頻繁出現的熱門數據,也是感興趣的數據進入樣本。建立數據流的緩沖區,記錄新發生數據的頻數,動態調整不在樣本中的數據進入樣本的概率。

(三)大數據的分析與整合

針對大數據的高維問題,需要研究降維和分解的方法。探討壓縮大數據的方法,直接對壓縮的數據核進行傳輸、運算和操作。除了常規的統計分析方法,包括高維矩陣、降維方法、變量選擇之外,需要研究大數據的實時分析、數據流算法。不用保存數據,僅掃描一遍數據的數據流算法,考慮計算機內存和外存的數據傳送問題、分布數據和并行計算的方法。如何無信息損失或無統計信息損失地分解大數據集,獨立并行地在分布計算機環境進行推斷,各個計算機的中間計算結果能相互聯系溝通,構造全局統計結果。研究多個數據資源的融合算法。研究利用數據流尋找模型變化時間點的動態變化模型。

在大數據環境,很多數據集不再有標識個體的關鍵字,傳統的關系數據庫連接方法不再適用,需要探討利用數據庫之間的重疊項目來結合不同的數據庫,利用變量間的條件獨立性整合多個不同變量集的數據為一個完整變量集的大數據庫的方法。探索不必經過整合多數據庫,直接利用局部數據進行推斷和各推斷結果傳播的方法。另一方面,利用統計性質無信息損失地分解和壓縮大數據。

四、結束語

一個新生事物的出現將必定導致傳統觀念和技術的革命。數碼照相機的出現導致傳統相片膠卷和影像業的已近消亡。如果大數據包含了所有父親和兒子的身高數據,只要計算給定的父親身高下所有兒子的平均身高就可以預測其兒子身高了。模型不再重要,當年統計學最得意的回歸預測方法將被淘汰。大數據的到來將對傳統的統計方法進行考驗。統計學會不會象科學哲學那樣,只佩戴著歷史的光環,而不再主導和引領人們分析和利用大數據資源。現在其他學科和行業涌入大數據的熱潮,如果統計學不抓緊參與的話,將面臨著被邊緣化的危險。現今統計學的目標是通過獲取數據和分析數據發現真理(總體的參數和性質),統計方法和理論對數據有過高的要求。而大數據充滿了各種隨機的、非隨機的誤差和偏倚,不能滿足這些苛刻的要求。按照波普的科學劃界準則,只要我們能從大數據中提煉出具有可證偽的結論,那么這個結論還是科學的,可以用于知識積累。這些可證偽的大數據結論可作為進一步科學研究的假說,以數據驅動研究。我們在看到大數據給統計學帶來了機遇的同時,也應該看到現在的統計方法普遍只適用于全部數據放在單個計算機內存的環境,分布式大數據和數據流的環境給統計學帶來了挑戰。統計學家不應該固守傳統數據的環境,必須積極學習新生事物,適應新的大數據環境,擴展統計學的應用領域,創造出迎合大數據的新統計方法,“機遇”與“挑戰”并存。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 一本久道热中字伊人| 国产99精品久久| 久久精品娱乐亚洲领先| 国产精品免费久久久久影院无码| 欧美一级夜夜爽www| 久久国产精品夜色| 1769国产精品免费视频| 中文字幕久久波多野结衣| 强乱中文字幕在线播放不卡| 伊人国产无码高清视频| 亚洲日韩精品无码专区97| 91极品美女高潮叫床在线观看| 在线视频精品一区| 久热精品免费| 国产麻豆91网在线看| 欧美日韩第三页| 国产jizz| 欧美一级黄片一区2区| 人与鲁专区| 国产真实二区一区在线亚洲| 亚洲va精品中文字幕| 国产福利小视频在线播放观看| 99热最新在线| 国产成人无码综合亚洲日韩不卡| 欧美日韩午夜| 91精品亚洲| 日本一区中文字幕最新在线| 免费人成在线观看成人片 | 久久久久久国产精品mv| 激情乱人伦| 97久久精品人人做人人爽| 欧美精品伊人久久| 国产三级成人| 欧美专区日韩专区| 18禁黄无遮挡网站| 久久这里只有精品8| 狠狠色婷婷丁香综合久久韩国| 无码中文AⅤ在线观看| 91伊人国产| 国内老司机精品视频在线播出| 国产美女精品一区二区| 国产精品第5页| 日韩少妇激情一区二区| 好紧好深好大乳无码中文字幕| 亚洲日本中文字幕天堂网| 91探花国产综合在线精品| 亚洲成人高清在线观看| 欧美激情第一欧美在线| 野花国产精品入口| 日韩欧美中文字幕一本| 夜夜操狠狠操| 亚洲AV永久无码精品古装片| 亚洲第一色视频| 成年人国产视频| 99热国产这里只有精品无卡顿"| 国产呦精品一区二区三区网站| 精品国产Av电影无码久久久| 国产精品久久久免费视频| 高清乱码精品福利在线视频| 午夜不卡福利| 久久情精品国产品免费| 人妻无码中文字幕第一区| 熟妇无码人妻| 久久久久亚洲av成人网人人软件| 成人在线不卡视频| 人妻夜夜爽天天爽| 欧美精品综合视频一区二区| 亚洲日韩精品欧美中文字幕| 91精品视频在线播放| 欧美色图第一页| 久久久精品无码一二三区| 亚洲熟妇AV日韩熟妇在线| 美女免费黄网站| 国产一级毛片在线| 人妻无码AⅤ中文字| 茄子视频毛片免费观看| 国产成人综合在线观看| 91亚洲国产视频| 亚洲国产综合精品一区| 99re在线免费视频| 国产精品尤物在线| 国产美女无遮挡免费视频网站 |