999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)時代統(tǒng)計學專業(yè)教學改革的初步探索

2015-12-08 00:29:15周茂袁
教育教學論壇 2015年35期
關(guān)鍵詞:數(shù)據(jù)挖掘大數(shù)據(jù)

周茂袁

摘要:大數(shù)據(jù)涵蓋多學科領(lǐng)域的、海量的、各種復(fù)雜結(jié)構(gòu)的數(shù)據(jù)。各學科之間數(shù)據(jù)互相融合和貫通,學科之間的邊界已經(jīng)重疊和模糊。大數(shù)據(jù)涉及各種數(shù)據(jù)類型,包括文本和語言、視頻和圖像、時空數(shù)據(jù)、網(wǎng)絡(luò)和圖形等。對于傳統(tǒng)的統(tǒng)計學專業(yè)來說,大數(shù)據(jù)時代帶來的不僅是機遇還有挑戰(zhàn)。本文初步探索了以下幾個方面:《數(shù)據(jù)挖掘》中引入大數(shù)據(jù)分析方法;《非參數(shù)統(tǒng)計》中引入多元非參數(shù)方法、半?yún)?shù)回歸;《回歸分析》中引入隨機森林回歸等用來處理大數(shù)據(jù)的回歸方法、高維回歸變量選擇方法(其中以LASSO回歸為典型代表);《多元統(tǒng)計》中引入高維統(tǒng)計方法;以上引入的大數(shù)據(jù)分析方法均用R語言來實現(xiàn)。

關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計學;數(shù)據(jù)挖掘;非參數(shù)統(tǒng)計;回歸分析;多元統(tǒng)計

中圖分類號:G642.0 ? ? 文獻標志碼:A ? ? 文章編號:1674-9324(2015)35-0105-02

從狹義上來講,大數(shù)據(jù)的構(gòu)成包括兩方面,一方面是大樣本,在統(tǒng)計學上要達到需要的精度就必須采取抽樣的辦法降低樣本數(shù)量;另一方面是高維度變量,對于這一問題則需要采取壓縮、分解以及降維等方法。

一、大數(shù)據(jù)及其意義

大部分傳統(tǒng)的統(tǒng)計方法只適合分析單個計算機存儲的數(shù)據(jù)。而目前大數(shù)據(jù)的環(huán)境包括以下要素。

1.流數(shù)據(jù):數(shù)據(jù)快速地不斷涌來,現(xiàn)有存儲設(shè)備和計算能力難以應(yīng)付這種數(shù)據(jù)流(比如歐洲高能粒子對撞機所產(chǎn)生的數(shù)據(jù),每秒鐘可以達到500TB)。

2.磁盤存儲限制:數(shù)據(jù)已不能完全存儲在內(nèi)存中,需要硬盤存儲。

3.分布存儲狀態(tài):數(shù)據(jù)分布存儲在多個計算機中。

4.多線條狀態(tài):數(shù)據(jù)存儲在一個計算機中,多個處理器共享內(nèi)存。

大數(shù)據(jù)的發(fā)展就是對數(shù)據(jù)產(chǎn)生的機制進行探索,將所產(chǎn)生的數(shù)據(jù)轉(zhuǎn)變?yōu)槿藗兯枰闹R,進而對相關(guān)政策的制定產(chǎn)生影響。這個過程是一個漫長的過程。一個小孩子隨著年齡的增長可能會掌握更多的單詞,但是根據(jù)一個孩子的年齡確定他掌握的單詞多少則并不科學。

進一步來說,大數(shù)據(jù)有記錄保存自然與社會現(xiàn)狀的功能。現(xiàn)在大家收集著海量數(shù)據(jù),盡管他們還不清楚如何分析大量的數(shù)據(jù),但是他們相信需要保存現(xiàn)今社會經(jīng)濟高速發(fā)展的過程,期待著今后能夠分析和解釋這段歷史。還有些人將百歲老人的血液和其他各種生物的標本等存放在冰箱里,他們認為當今的技術(shù)還不足以測試和分析這些資源,期待今后更先進的測試技術(shù)能夠做到。大數(shù)據(jù)就如同自然和社會的血液那樣記錄著社會的現(xiàn)狀和發(fā)展過程。

17世紀望遠鏡以及顯微鏡的發(fā)明使人類看到了以前從來沒有看到過的宇宙空間和微生物,擴大了人類對自然的基本認識。大數(shù)據(jù)就像“望眼鏡”和“顯微鏡”那樣,使得人們能夠通過數(shù)據(jù)來觀察和分析自然、經(jīng)濟、社會的現(xiàn)象。借助于互聯(lián)網(wǎng)數(shù)據(jù),可以及時了解疾病的疫情、科學的動態(tài)、社會的動態(tài)。谷歌借助頻繁檢索的詞條能及時判斷流感從哪傳播,哪些人可能已經(jīng)感染了流感。大數(shù)據(jù)將形成自然和人文社會的歷史長河,不但能用于探索當代的科學問題,將來也可以用于研究人們食用轉(zhuǎn)基因食品對子孫后代的影響等追蹤研究問題,為未來留下當前的歷史資料。

二、大數(shù)據(jù)帶來的變革

時代的進步有賴于大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)的發(fā)展給時代變革增加了更多的不確定性。就當前研究來看,數(shù)據(jù)的搜集很大程度上依靠所研究問題的出現(xiàn)來推動其向前發(fā)展。不過在不久的將來,隨著大數(shù)據(jù)時代的到來,人們對于問題的研究將會由“數(shù)據(jù)”來驅(qū)動。例如,如果我們想去某地旅行或出差,會首先查詢目的地的交通情況、天氣情況以及住宿情況等信息,但是將來我們可以根據(jù)所查詢的數(shù)據(jù)信息來決定所要去的目的地。在古希臘時代,當時的哲學家無所不知,號稱百科全書,到了文藝復(fù)興時代,隨著學科的不斷細化,不同學科出現(xiàn)了各自的專家。隨著大數(shù)據(jù)時代的到來,大百科全書式的人物將有可能再次出現(xiàn),而不同領(lǐng)域的專家的權(quán)威性將被逐步消弱,隨著大數(shù)據(jù)的不斷發(fā)展,很有可能會逐漸將學科專家消亡掉。例如,隨著計算機專家和統(tǒng)計學家對數(shù)據(jù)的搜集越來越多并且處理能力不斷增強,他們將逐步成為生命科學方面的專家。再比如,如果我們掌握了足夠數(shù)量的相關(guān)專業(yè)書籍和日文譯本,就算我們對日文一無所知,我們也可以采取有效的方法將所需要的中文翻譯成為日文,因為我們有很多非常可靠的翻譯軟件,如谷歌翻譯軟件等。大數(shù)據(jù)已經(jīng)在各個領(lǐng)域和學科得到了應(yīng)用,例如醫(yī)療領(lǐng)域,大數(shù)據(jù)可以指導人們健康飲食,適時進行身體檢查,并且確定檢查項目,幫助醫(yī)生對患者進行疾病診斷等。

三、大數(shù)據(jù)時代統(tǒng)計學專業(yè)教學現(xiàn)狀

隨著科技的不斷發(fā)展和進步,人們獲取信息和數(shù)據(jù)的途徑也發(fā)生了很大的變化,電子商務(wù)的發(fā)展和各種多媒體信息技術(shù)的飛速發(fā)展和應(yīng)用,給傳統(tǒng)的統(tǒng)計學應(yīng)用和教學帶來了機遇的同時也帶來了非常大的挑戰(zhàn)。一方面,由于各種信息和數(shù)據(jù)的不斷涌入,人們在被動搜集著各種數(shù)據(jù)。統(tǒng)計學的教學也需要不斷探索新的模式。另一方面,人們在被動接受數(shù)據(jù)的同時也在主動搜集數(shù)據(jù)信息,不同學科有不同的數(shù)據(jù)需要。例如經(jīng)濟學領(lǐng)域的專家每天都在搜集各自的調(diào)查數(shù)據(jù)和觀察數(shù)據(jù),而自然科學領(lǐng)域的專家學者則不僅搜集宏觀天文數(shù)據(jù),還在搜集微觀基因數(shù)據(jù)。不同的人們搜集數(shù)據(jù)的方法也各不相同,有的在實驗室通過試驗進行數(shù)據(jù)搜集,有的人則通過網(wǎng)絡(luò)進行數(shù)據(jù)搜集和研究。

對于當前大數(shù)據(jù)給統(tǒng)計學帶來的挑戰(zhàn),美國科學院“大數(shù)據(jù)分析委員會”給出了分析,他們認為這些挑戰(zhàn)在于對不同格式和結(jié)構(gòu)的數(shù)據(jù)的處理方面、對于數(shù)據(jù)來源的追蹤方面、對于共享數(shù)據(jù)的安全性問題和完整性問題方面、對于樣本異質(zhì)性和偏倚性處理方面、在對問題進行處理時的決策和分析方面以及對分布式和并行式在開發(fā)時的算法方面的問題等。國內(nèi)相關(guān)部門也對這一問題進行了研討,最早一次是2012年5月在香山召開的“大數(shù)據(jù)科學與工程”會議,第二次是在2013年5月召開的對于大數(shù)據(jù)原理以及發(fā)展前景的探討會,并同時制定了相關(guān)的科研計劃。但關(guān)于大數(shù)據(jù)背景下統(tǒng)計學專業(yè)教學的探索還非常稀缺。

四、統(tǒng)計學專業(yè)課程改革

針對以上所述大數(shù)據(jù)時代的特點和變革意義以及目前統(tǒng)計學專業(yè)教學的現(xiàn)狀,本文進行了相應(yīng)的初步探索。

(一)改革的總體思路

將現(xiàn)有的統(tǒng)計學頂級雜志或著名文獻中的成熟的大數(shù)據(jù)分析方法逐步凝練,形成教學內(nèi)容;將使用R軟件中的函數(shù)包實現(xiàn)這些大數(shù)據(jù)分析方法。

(二)改革的具體內(nèi)容

1.在《數(shù)據(jù)挖掘原理與方法》課程中引入大數(shù)據(jù)分析方法及其R語言的代碼實現(xiàn)。

2.在《非參數(shù)統(tǒng)計》課程中引入多元非參數(shù)統(tǒng)計方法(諸如多元符號、多元秩、多元符號秩等)、非參數(shù)回歸模型、半?yún)?shù)回歸模型及其R語言的代碼實現(xiàn)。

3.在《回歸分析》課程中引入回歸樹、boosting回歸、bagging回歸、隨機森林回歸等用來處理大數(shù)據(jù)的回歸方法、高維回歸變量選擇方法(比如LASSO回歸、動態(tài)LASSO回歸等)及其R語言的代碼實現(xiàn)。

4.在《多元統(tǒng)計分析》課程中引入高維統(tǒng)計分析方法及其R語言的代碼實現(xiàn)。

5.在工科《概率論與數(shù)理統(tǒng)計》課程中引入R語言的代碼實現(xiàn)。

(三)改革的主要創(chuàng)新點

在傳統(tǒng)的統(tǒng)計學專業(yè)課程教學中引入最新的大數(shù)據(jù)分析方法及其R語言實現(xiàn)。

其中R語言是區(qū)別SAS、SPSS等傻瓜軟件的結(jié)構(gòu)化程序設(shè)計語言,可以靈活實現(xiàn)傻瓜軟件所不能實現(xiàn)的各種高級數(shù)據(jù)分析功能。其非常適應(yīng)于大數(shù)據(jù)統(tǒng)計分析方法的教學。所以大部分國內(nèi)外著名大學已經(jīng)不再使用諸如SAS、SPSS等傻瓜統(tǒng)計軟件進行統(tǒng)計分析方法的教學。R語言已經(jīng)逐步成為統(tǒng)計學系的標準的教學軟件。

參考文獻:

[1]Committee on the Analysis of Massive Data et al. (2013)Frontiers in Massive Data Analysis[J].National Academies Press,Washington. http:/ /www. nap. edu /catalog. php?record_id =18374.

[2]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.

[3]NIH Big Data to Knowledge (2013).http://bd2k.nih.gov/index.html#sthash.Yu5HxjcM.dpbs.

[4]納特·西爾弗.信號與噪聲[M].胡曉姣,張新,朱辰辰,譯.北京:中信出版社,2013.

[5]Yin J,Zhou Y,Wang C,He P,Zheng C,Geng Z. Partial orientation and local structural learning of causal networks for prediction. Challenges in Causality Volume 1:Causation and prediction challenge. Ed. by I. Guyon,C. Aliferis,G. Cooper,A. Elisseeff,J. Pellet,P. Spirtes and A. Statnikov,2009:93-105.

[6]趙暉,邢攀科,秦樂樂,張會肖.基于“云計算”的人力資源檔案信息決策支持系統(tǒng)的研究[J].河北工業(yè)科技,2013,(02).

[7]郭海燕,魏遵鋒,石中英.研究生課程與教學現(xiàn)狀調(diào)查分析——以北京師范大學為例[J].中國大學教學,2012,(10).

猜你喜歡
數(shù)據(jù)挖掘大數(shù)據(jù)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 手机精品视频在线观看免费| 成人午夜视频免费看欧美| 亚洲国产成人精品青青草原| 亚洲成a人片77777在线播放| 久久五月视频| 亚洲无限乱码一二三四区| 国产精品嫩草影院视频| 日韩精品中文字幕一区三区| 天天色天天操综合网| 久久久久青草线综合超碰| 国产午夜福利亚洲第一| 91精品视频播放| 午夜国产精品视频| 欧美日韩在线亚洲国产人| 日本免费福利视频| 手机成人午夜在线视频| 91色在线观看| 在线观看国产黄色| 久久国产精品影院| 呦女精品网站| 国产成人亚洲精品蜜芽影院| 国产精品亚洲一区二区三区z| 欧美翘臀一区二区三区| 毛片免费在线| 欧美在线伊人| 国产亚洲欧美日本一二三本道| 亚洲国产理论片在线播放| 中文字幕乱码中文乱码51精品| 国产91在线免费视频| 国产亚洲高清视频| 中文字幕一区二区人妻电影| 黄片一区二区三区| 毛片在线播放网址| 一本大道视频精品人妻 | 欧美一区中文字幕| 四虎在线观看视频高清无码| 午夜毛片免费看| 亚洲精品少妇熟女| 久久成人国产精品免费软件| 成人字幕网视频在线观看| 欧美成人A视频| 福利视频一区| 国产一区二区三区免费| 亚洲欧美h| 在线免费亚洲无码视频| 国产欧美在线观看视频| 精品综合久久久久久97超人| 国产精品久久精品| 久久久久免费精品国产| 国产一二三区视频| 色综合手机在线| 九九九九热精品视频| 国产性生大片免费观看性欧美| 呦系列视频一区二区三区| 国产成人精品优优av| 亚洲乱码在线播放| 特级毛片免费视频| 国产精品尹人在线观看| 无码精品福利一区二区三区| 天天躁夜夜躁狠狠躁图片| 日日碰狠狠添天天爽| 91系列在线观看| 十八禁美女裸体网站| 亚洲欧美一区二区三区麻豆| 欧美三级日韩三级| 九色视频线上播放| 婷婷六月天激情| 国产网友愉拍精品视频| 成人午夜亚洲影视在线观看| 国内毛片视频| 久久久久国产一级毛片高清板| 国产欧美另类| 亚洲综合在线网| 欧美 亚洲 日韩 国产| 国产第一页第二页| 亚洲精品免费网站| 久久无码免费束人妻| 亚洲精品动漫| 欧美日本激情| 成年女人a毛片免费视频| 亚洲女人在线| 亚洲最大情网站在线观看|