摘 要:各行業已經進入大數據時代,數據來源于統計,統計學的革新和發展已受到學界的高度重視。作為培養統計人才的高校,統計學教學改革勢在必行,本文在回顧統計學科發展歷史沿革以及大數據時代數據特征的基礎上,對新時代下統計學科面臨的傳統統計手段的不適應性、傳統統計學科框架不能滿足時代要求、統計學教學內容與社會需求脫節和統計學應用實訓體系的建立提出了部分解決方案。
關鍵詞:統計學;大數據時代;教學改革
在線支付、共享單車、高鐵和網購等新興的“四大發明”,告訴我們各個行業已經進入了信息化的時代,這個時代最顯著的特征就是大數據逐漸進入尋常百姓的生活,并深刻影響著這個時代的變革。大數據時代下海量數據所隱藏著的巨大價值不可小覷。因此,如何應用、分析、挖掘數據背后的隱含知識、潛在規律成為各個領域所關注的熱點話題,統計學科的重要性不斷彰顯。統計學科已經作為一級學科,改變了統計學科被分別安放在經濟學門類和理學門類下的歷史局面,從此終結了統計學究竟是應用經濟學范疇還是概率論與數理統計學范疇的各種爭論。如今的統計學,就是關于數據科學的學科,在理學門類之下理學學位和經濟學學位均可授予。站在大數據時代的風口浪尖,統計學在全國各個高等院校的發展如火如荼,一些是單獨開設這一專業或與大數據收集分析整理相關的專業,一些是相關專業都開設統計學或大數據相關課程。但要讓統計學科適應大數據的時代要求,培養出能收集整理分析和使用大數據的人才,統計學教學改革勢在必行。
一、我國統計學的發展
統計學源于實踐與應用,我國統計學的發展大致分為以下幾個階段:(1)蘇聯模式模仿期。新中國成立后,我國在經濟模式上采用了計劃經濟體制,同時也引入了蘇聯的馬克思統計理論與模式。在這種模式之下,統計學僅僅是計劃經濟制度的專屬工具,其抑制了數理統計學派的發展。因此,這個階段下的中國統計學發展逐漸喪失活力,未能與西方統計學的主流研究方向接軌。(2)改革開放時期的再認識。隨著我國改革開放的不斷深入,不斷涌現的新事物導致傳統模式下的蘇聯統計理論與我國實踐工作形成不可避免的矛盾,依附于計劃經濟的統計學逐漸喪失生命力,這一現象引起了我國學者的反思。在這種背景下,歐美體系下的統計學逐步進入中國市場,并引發了一場關于統計學科建設的學術爭鳴。(3)20世紀90年代的“大統計”思想。隨著我國改革開放的不斷深化,統計學在社會經濟統計學和數理統計學兩個方面蓬勃發展起來。于是“大統計”的提法日漸增多,20世紀90年代尤其是20世紀90年代中后期有關統計學發展的文獻,都在討論統計學的融合與構建問題。“大統計”思想是對傳統認識局限的一次突破,它為中國統計學在下一個世紀的發展提供了理論前提。(4)大數據時代下統計學的新機遇。從上述3個階段可以看出,統計學的發展與其時代背景息息相關。進入21世紀以來,在大數據的時代背景下,統計學在學科建設與教學改革方面該有怎樣的側重和突破,這正是身處這個時代的統計學人應該思考的問題。要對這個問題進行剖析,必須了解這個時代的數據特點。
二、大數據時代的數據特征對統計學的新要求
進入21世紀以來,社會高速發展、信息飛速流通、科技不斷進步,預示著“大數據時代”已經到來。大數據作為信息技術發展到成熟階段的產物,并不是想象中的那么神秘,大數據是什么?大數據(Big Data)是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。這一定義主要是強調了大數據的技術特點,強調大數據的數量特征以及難以用常規方法進行捕捉和衡量。而在維克托·邁爾舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》一書中,大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。書中還指出了大數據的4V特點,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。這一定義則是從大數據的來源上對其進行了定義,它強調了大數據來自于采用所有數據進行分析處理,這一來源又決定了大數據的4V特性,這一特性可以理解為大量數據,高速處理,結果多樣化,從數據中挖掘價值。研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據時代下的數據特征給傳統統計學帶來了不小的沖擊。統計學作為一門處理、分析數據的學科,在新時代下必須認清學科所面臨的問題,這樣才能有的放矢地進行革新,采用新的技術手段駕馭新時代的數據,為社會進步做出應有的貢獻。第一,要適應新的數據獲取手段,建立一套適用于當下的統計分析模式,以便更加科學高效地開展統計分析工作;第二,要完善適應大數據的學科框架; 第三,統計學要充分運用現代信息技術。
三、我國高校統計學教學過程中面臨的主要問題
目前,國家已經明確統計學為一級學科,下設的二級學科有數理統計、應用統計、社會經濟統計等。單獨開設統計學專業的一般在本科院校,一些專科高職類院校主要開設了相關的課程。但是課程內容與社會需求脫節、教學方法陳舊、師資隊伍匱乏是我們面臨的主要問題。
首先,雖然當前統計學學生的培養方式雖然逐漸向應用層面傾斜,但形式與內容相對老套。在這種模式下,理論模型的建立、參數估計的方法、一些統計量的檢驗等都得到了足夠的重視,但學生對這些問題的認識很可能還停留在表面。雖然部分課程安排有上機實踐操作,但由于數據局限性等原因,其所帶來的案例相對老舊、與時代脫節的情況時有發生。這導致學生不能很好地學以致用。
其次,大數據時代下的統計分析工作,由于數據的海量性、動態性等特點,工作量相對較大,需要團隊的分工協作才能很好地完成。而在我們日常的教學中,由于面向傳統的統計手段較多,學生基本都是個人完成案例,這種教學方式難以培養學生在數量搜集、處理、分析中的團隊協作精神,而這種精神在學生今后的工作崗位中是應該必備的。
另外,大部分教師接受的均是傳統統計理論方法的訓練,專業和研究成果也都偏向于經濟統計、數理統計的傳統模型、實證分析等方面。在傳統領域,大部分教師具備教學與科研的經驗,具有相當深厚的功底及心得。但是在大數據領域、有關大數據的清洗、降維、處理、可視化;云計算、云平臺、分布式計算、并行計算的hadoop、Spark、MapReduce等有關大數據的挖掘理論和技能方面,則出現斷層。對于絕大多數教師而言,這也是一個相對陌生的領域。因此,這引發了統計學師資隊伍知識結構不完善的問題。
四、高校統計學教學改革的思考
(一)針對新問題,尋找新的統計技術手段
大數據時代下,數據量巨大、數據信息瞬息萬變、數據類型多種多樣,數據結構也由原來單一的結構化數據變為非結構化、半結構化數據模式。面對新的問題,對于海量數據的存儲、清洗、數據挖掘、知識呈現、數據傳輸、管理等各個方面都需要有新的技術手段加入。因此,我們需要從各個細小的環節入手,從而形成一個完備統一的處理大數據問題的新模式和新框架。這個過程需要其他領域專業人員的支持和協作,其中包括計算機、數學、經濟學、信息學、管理學等。(1)數據獲取階段。數據獲取的途徑有很多,不應再拘泥于過去翻閱式的查找和抽樣調查。由于大部分數據均產生于互聯網,因此我們不得不通過爬蟲技術對所需數據進行爬取,從而獲得海量的一手數據。(2)數據清洗、降噪、降維等預處理階段。這一階段是大數據分析的開始,任何一種分析都不能離開有效的數據而進行,對原始數據的整理、清洗等工作直接影響到后續統計分析的有效性和科學性。(3)數據挖掘、知識發現。這是整個數據分析中最為關鍵的環節,是整個分析的核心所在。在此需要強調的是,并非在大數據時代所有的傳統統計方法都不可使用。當經過數據預處理、把數據轉出化成傳統數據模式之后,傳統統計分析方法依然有其用武之地,且傳統統計分析方法當中寶貴的統計思維模式和統計視野也是我們解決大數據問題的智庫。因此,對于傳統統計分析方法要給予足夠的重視,其在大數據時代也有廣闊的舞臺。我們要在繼承的基礎上,進行改進、創新和發揚。
(二)系統性調整統計學科框架,以適應時代發展
在大數據時代下,統計學同樣需要加入信息化的過程。雖然大數據與統計學有著千絲萬縷的聯系,但是由于面對的數據類型、對象等的不同,傳統統計學的研究范式已經不能適應新時代的要求。這主要表現在以下幾方面:(1)統計對象的改變。新時代下的統計數據從數量、結構和類型上早已打破傳統統計學的數據概念。(2)統計技術的改變。新時代下關于數據的搜集、整理、知識發現等數據處理手段相較于傳統的統計學科,已經發生了巨大的變化。3.數據倉庫的建設和使用。關于海量數據的存儲、調取、傳輸、管理是在傳統統計學當中較容易被忽視的環節。傳統統計學下的數據量較小,對其的存儲、傳輸和管理并不存在問題,但海量數據出現之后,這個話題則成為統計學需要重點研究的問題之一。因此,我們需要從更高的視野重新構建統計學的學科框架,使其達到能駕馭大數據時代的目的,從而為人們的生產、生活提供科學有效地指導和幫助。首先,要從思想上打破對傳統統計學的認識,將視野投放到更加廣闊的數據天地。客觀對待傳統統計學在社會發展中所出現的滯后性問題。其次,應尋求多學科協作,信息資源共享。沒有任何一種單一的技術分析手段可以貫穿大數據分析的始終,它需要多種學科的交叉與融合。因此,統計學的學科框架不能故步自封,一定要兼容并蓄,這樣才有新活力。最后,統計學科框架的建設要體現出大數據時代的信息化。對信息的收集與爬取、清洗與降維、分析與挖掘、結果與展示等各個方面,都需要在傳承經典的基礎上,進行大膽地突破性改革。從而建設一個能夠在新歷史背景下解決新數據問題的學科,從而培養出適應這個時代發展的統計分析人才。
(三)改良統計學科內容設置,滿足新時代下的社會需求
關于統計學科的專業培養方案。目前,基于傳統統計學的模式,可以采取兩種統計方式進行培養。這就是我們熟知的數理類和經濟類,這兩類具有不同的側重點和學科背景。“大統計”思想的提出以及統計學一級學科的成立,終于可以讓統計學匯到統計學院或者統計系的框架下統一培養。由于西方主流統計學甚至經濟學,均注重數理思維和能力,任何一個統計分析手段和經濟模型都離不開數學推導、演算,因此,打好數理基礎成為我國統計學科建設的普遍共識。在本科生的培養方案中,就包含數學分析、高等代數等一系列數學思維培養的課程。但無論是本科生還是碩士生的教學,都缺乏對大數據分析技能的培養,未能迅速地緊跟時代,與社會需求相脫節。這一現象不利于學生就業。因此,亟須在教學內容、方法和技術方面進行改進。(1)在教學內容方面,傳統的統計學科從概率論與數理統計、多元統計分析到統計學原理等都是基于結構化的小量數據展開,關于非結構化大數據的教學內容缺失。因此,要注重培養學生對非結構化、半結構化數據的處理分析能力;教師應對原有課程進行調整,減少重復內容與重復教學,加入與大數據相關的數學理論與軟件學習方面的新內容。(2)在教學方法方面,應注重培養學生的動手能力和團隊協作精神。傳統統計學的數據處理分析工作量相對較輕,個人可以獨立完成工作,但是在大數據模式下,分工與協作是必不可少的環節。因此,在培養學生實戰能力的同時,不能忽視團隊協作能力的培養。(3)在教學技術方面,要善于通過經典案例寓教于樂,通過對實際問題的思考,培養學生對數據處理的熱情及其思維能力和實戰能力。有必要打破傳統的相對固化的授課模式,采用具有時代感的新鮮問題來激發學生的創新性思維,讓學生在解決實際問題的過程中對理論有更加深刻的認識。
(四)加強統計學師資隊伍建,填補知識結構的不均衡性
在統計學成為一級學科之前,我國高校的普遍做法是將數理統計專業放在數學學院,授予理學學士學位,把經濟統計放在經濟學院,授予經濟學學位。這種模式對我國統計學教師隊伍的知識結構產生了重要影響。統計學專業教師基本也都來源于這兩個領域:一個分支來自擅長數學模型、推導等數量關系的數理統計方面;另一個分支則是擅長經濟理論、實證的經濟統計方面。但互聯網技術之下應運而生的各種新信息和新問題,需要用新技術去解決,遺憾的是這方面的人才相對缺乏,這導致在大數據時代下教師隊伍知識結構不完整。要解決這個問題,可以從兩個方面入手。首先,針對一些數學功底見長,對大數據分析感興趣的教師進行內部培訓。鼓勵他們在全國乃至全球范圍內參加有關大數據學科的培訓、研討等學術交流活動,力求在短期內培養一批在大數據方面有所專長的教師團隊,以彌補整個教師隊伍知識結構的失衡問題。同時加強教師隊伍的自主學習和創新能力,保持他們對新事物、新方法的敏銳嗅覺。其次,在全國范圍內著重關注相關培養單位的博士、博士后等潛在的教師力量。力爭將從事有關數據挖掘方向、大數據分析方向等具有一定大數據分析能力及實戰經驗的博士、博士后納入教師隊伍。此外,還要充分認識到大數據分析工作的交叉性和協作性,它對計算機技術、數學理論方法等都有較高的要求;要著重引進具有上述學科經歷的復合背景人才,力爭將這些新鮮血液融入傳統的師資隊伍當中,以改善教師知識結構的不平衡問題,力爭建設一支專業結構合理、學術素養良好、適應能力強大的統計學教師隊伍。
(作者單位:重慶青年職業技術學院)
作者簡介:顏冀軍,高級講師。
參 考 文 獻
[1] 南江霞.一級學科背景下統計專業建設的探討與實踐[J].數學學習與研究,2015(3):6-7.
[2] 耿直.大數據時代統計學面臨的機遇與挑戰[J].統計研究,2014(1):5-9.
[3] Viktor Mayer·Sch6nberger,Kenneth Cukier著,盛楊燕等譯.大數據時代[M].杭州:浙江人民出版社,2013.
[4] 陳建寶,鞠芳煜,禚鑄瑤.大數據時代下的統計學——第五屆中國統計學年會綜述[J].統計研究,2015(5):106-112.
[5] 朱建平,章貴軍,劉曉葳.大數據時代下數據分析理念的辨析[J].統計研究,2014(2):10-17.
[6] 申廣君.概率論與數理統計課程中反例教學的例證研究[J].大學教育,2013(4):84.