王子甲


摘 要:隨著信息技術等數(shù)據(jù)采集方法的進步,海量數(shù)據(jù)逐漸成為各個行業(yè)的重要資源,被廣泛用于工業(yè)生產(chǎn)和科學研究。對于大學工科專業(yè),無論是培養(yǎng)科研后備力量,還是為工業(yè)界輸送技術人才,都應該拓展大數(shù)據(jù)相關理論方法的教學。該文在論述大數(shù)據(jù)分析方法背景的基礎上,論證了大數(shù)據(jù)教學的必要性,分析了大數(shù)據(jù)教學的特點,提出了數(shù)理統(tǒng)計相關基礎課程由各自學院結合該專業(yè)單獨開設,增加面向大數(shù)據(jù)編程教學的比重等建議。
關鍵詞:大數(shù)據(jù) 教學 工科專業(yè) 數(shù)據(jù)挖掘
中圖分類號:G64 文獻標識碼:A 文章編號:1674-098X(2016)02(a)-0120-04
Abstract:With the advancement of data collection technologies,big data becomes a significant resource in various fields of engineering.It is generally applied both in industrial world and scientific research.To engineering majors,teaching of big data theory and technology should be emphasized either for educating future research staffs or for providing technicians for industry. In this paper,the necessities and key points of teaching big data skill in colleges were discussed after the introduction of the background of big data.It is suggested that mathematic skill of big data should be taught in combination with the corresponding major,and programming skill related to big data should be emphasized.
Key word:Big data;Teaching;Engineering majors;Data mining
信息技術的快速發(fā)展為數(shù)據(jù)采集提供了越來越多的方法和手段。隨著大量實時數(shù)據(jù)的連續(xù)積累,傳統(tǒng)的數(shù)據(jù)存儲和挖掘方法逐漸不能適應現(xiàn)實需求,大數(shù)據(jù)的概念隨之被提出來。大數(shù)據(jù)一般指在因數(shù)據(jù)量巨而無法在可容忍的時間內(nèi)用傳統(tǒng)的軟件工具采集、清洗、管理和處理的數(shù)據(jù)集[1]。具體來講,大數(shù)據(jù)的大,首先,體現(xiàn)在容量上,大數(shù)據(jù)不是樣本,而是事件發(fā)生時積累的全部數(shù)據(jù)。其次,體現(xiàn)在速度上,大數(shù)據(jù)一般都意味著實施連續(xù)的數(shù)據(jù)采集。最后,大數(shù)據(jù)體現(xiàn)在多樣性上,包括文本,圖像,視頻聲音等多種類型。
大量連續(xù)的數(shù)據(jù)集,為更全面深入地認識各種問題提供了豐富的素材,也對原有的數(shù)據(jù)處理和挖掘方法提出了挑戰(zhàn)。大數(shù)據(jù)的機遇和挑戰(zhàn)在互聯(lián)網(wǎng)等相關領域表現(xiàn)的最為突出,尤其是新興的移動互聯(lián)網(wǎng)領域。無論是網(wǎng)絡訪問數(shù)據(jù),還是諸如基于移動互聯(lián)網(wǎng)的叫車、導航和餐飲服務,其本身就是大數(shù)據(jù)來源,為企業(yè)和研究人員研究消費者行為提供了重要資料。在非信息技術領域,比如公共交通行業(yè),大數(shù)據(jù)也逐漸成為政府決策和交通模型研究的重要資源。典型的如北京地鐵交通智能卡數(shù)據(jù),日刷卡量達600萬人,長年的數(shù)據(jù)積累可以被用來研究交通行為、交通政策乃至城市結構的演變。因此,目前在就業(yè)市場上基于大數(shù)據(jù)的分析技能受到越來越多的用人單位的重視,相關科研機構也越來越需要具備大數(shù)據(jù)相關分析方法或編程技能的本科生或研究生。
然而目前的課程大綱中,對于大數(shù)據(jù)相關的理論與方法并沒有給予應有的重視。筆者調(diào)研了海淀區(qū)大部分高校,就本科教學而言,有關數(shù)據(jù)統(tǒng)計分析與挖掘的教學,主要放在大學三年級的數(shù)據(jù)基礎模塊,代表性課程為概率論,開課教師多為理學院老師,帶有通識性教育的特點。就研究生階段而言,大數(shù)據(jù)分析所涉及的基礎理論主要通過數(shù)理統(tǒng)計和數(shù)值分析相關課程來講授。這些教學模塊并沒有對大數(shù)據(jù)及其相關的理論分析與應用技術做充分的強調(diào)。對此,該文在分析大數(shù)據(jù)教學必要性的基礎上,提出大數(shù)據(jù)教學的要點,為工科專業(yè)培養(yǎng)具備大數(shù)據(jù)思維和技術處理能力的人才提供參考。
1 工科專業(yè)大數(shù)據(jù)教學的必要性
隨著信息技術在各個行業(yè)的應用,海量數(shù)據(jù)逐漸被采集和積累,面向大數(shù)據(jù)的統(tǒng)計分析技能需求越來越大。以培養(yǎng)人才為主要目標的高校需要跟上產(chǎn)業(yè)的發(fā)展,因而有必要結合各個專業(yè)的實際需求開設大數(shù)據(jù)相關課程。
1.1 大數(shù)據(jù)已經(jīng)成為各個行業(yè)的重要資源
隨著信息化、自動化程度的提高,各個行業(yè)都開始積累大量連續(xù)且多種形式的數(shù)據(jù)。數(shù)據(jù)的量級是前所未有的。以交通行業(yè)為例,傳統(tǒng)的數(shù)據(jù)采集方法往往采用抽樣調(diào)查的方法,利用問卷獲取居民的出行信息。不僅成本較高,獲取的數(shù)據(jù)量也有限,準確性難以保證。隨著信息技術的進步,尤其是GPS導航的普及,以及公共交通系統(tǒng)自動售檢票設備的應用,為交通行業(yè)提供了大量實時連續(xù)的數(shù)據(jù)。再加上監(jiān)控系統(tǒng)、圖像識別等設備與技術的應用,可以說目前交通行業(yè)已進入大數(shù)據(jù)時代。以北京為例,目前公共交通領域都采用自動售檢票系統(tǒng),日地鐵刷卡量達600萬人,路面公交刷卡量達1 000萬人。公交系統(tǒng)內(nèi)部監(jiān)控視頻系統(tǒng)每日產(chǎn)生萬T視頻數(shù)據(jù)。同時路面交通6.7萬輛出租車GPS數(shù)據(jù),以及地圖搜索引擎積累的導航數(shù)據(jù),共同構成了北京城市交通的大數(shù)據(jù)。
這些數(shù)據(jù)占用了大量的存儲空間,也為我們?nèi)娴胤治鰡栴}提供了寶貴的資源。怎么從如此大規(guī)模的數(shù)據(jù)中挖掘有用信息,引起了行業(yè)人員越來越大的重視。這點從谷歌大數(shù)據(jù)搜索趨勢可以看出。如圖1所示,從2011年開始,大數(shù)據(jù)搜索量開始飛速增長。這說明大數(shù)據(jù)已經(jīng)成為信息化社會數(shù)據(jù)統(tǒng)計和數(shù)據(jù)挖掘的新形式。作為培養(yǎng)創(chuàng)新型人才的基地,高校在這種社會潮流中不能落后。這點不僅要體現(xiàn)在科研上,更要體現(xiàn)在教學上。因此,開設大數(shù)據(jù)教學是大勢所趨。
1.2 企業(yè)需要具備大數(shù)據(jù)處理能力的技術人才
企業(yè)是大數(shù)據(jù)的擁有者。海量的數(shù)據(jù)為各類企業(yè)監(jiān)測設備運行狀態(tài)、識別目標客戶、提升效率和增加利潤提供了潛在途徑[2]。多項研究表明,深入挖掘企業(yè)積累的大數(shù)據(jù),可以優(yōu)化企業(yè)的倉儲、供應鏈管理等環(huán)節(jié),降低成本,提高效益,提升顧客的滿意程度[3]。
一旦大數(shù)據(jù)帶來的實際效益為企業(yè)所充分認識,以追求利益最大化為存在目的的企業(yè)就會成為大數(shù)據(jù)挖掘的第一推動力。隨著近幾年大數(shù)據(jù)技術在經(jīng)濟效益轉化上取得的成果越來越大,更多的企業(yè)開始著手挖掘大數(shù)據(jù),尤其一些互聯(lián)網(wǎng)巨頭,都紛紛成立了大數(shù)據(jù)實驗室。隨著企業(yè)大數(shù)據(jù)相關業(yè)務的拓展,其對大數(shù)據(jù)方面的人才需求就越來越大。根據(jù)華盛頓郵報[4],McKinsey環(huán)球研究所估計截止2018年僅美國經(jīng)濟和商業(yè)領域的大數(shù)據(jù)高級分析人才的市場需求就達4.4~4.9萬,其他大數(shù)據(jù)分析人才需求量達400萬。
如此大規(guī)模的市場需求,如果高校不能及時調(diào)整培養(yǎng)方案,增加大數(shù)據(jù)相關的教學模塊,就不能滿足社會對這方面人才的需求。所以,從人才市場需求的角度,國內(nèi)大學有必要盡快開展大數(shù)據(jù)教學。
1.3 科學研究需要大數(shù)據(jù)人才
大數(shù)據(jù)挖掘在各個領域的需求,最終會反饋到科研領域。這點從近十年SCI論文檢索數(shù)據(jù)庫Web of Science收錄的大數(shù)據(jù)主題相關論文數(shù)量可以看出來。筆者檢索了近些年SCI數(shù)據(jù)庫大數(shù)據(jù)主題相關論文的年收錄量,如圖2所示,以大數(shù)據(jù)為主題的論文在2006年的年收入量是1 000篇左右,而到2014年,年收入量已突破4 500篇。SCI論文數(shù)據(jù)庫代表著高水平的科研成果。以大數(shù)據(jù)為主題的高水平科研成果從2011年開始飛速增長,這點與圖1谷歌搜索服務提供的大數(shù)據(jù)相關熱度基本一致。說明全社會對大數(shù)據(jù)的關注,很快反應到了科學研究領域。
與科研領域大數(shù)據(jù)相關研究需求與研究成果快速增加的情形相悖的是,國內(nèi)高校在本科和研究生培養(yǎng)過程中對大數(shù)據(jù)挖掘理論與方法的教學沒有給予足夠重視,缺乏相關的教學模塊。以交通運輸專業(yè)為例,新入學的碩士生或博士生,在大數(shù)據(jù)處理方面既缺乏課程培訓,也缺乏研究經(jīng)驗,需要團隊從零開始傳授交通大數(shù)據(jù)挖掘相關方法。這種現(xiàn)象在多個專業(yè)都是普遍存在的。因此,從培養(yǎng)科研后備人才的角度,高校有必要開設大數(shù)據(jù)相關課程。
2 大數(shù)據(jù)教學的要點
充分認識了大數(shù)據(jù)教學在工程專業(yè)人才配上上的必要性,下一步就是如何開展好大數(shù)據(jù)教學,使學生通過大數(shù)據(jù)課程的學習,掌握大數(shù)據(jù)挖掘相關的理論與方法,滿足就業(yè)市場與繼續(xù)深造的需求。對此作者走訪旁聽了部分英國大學大數(shù)據(jù)相關的課程,也調(diào)研了國內(nèi)部分高校開展的數(shù)據(jù)挖掘方面的課程,總結了大數(shù)據(jù)教學的兩個要點,以期為大數(shù)據(jù)教學的推進提供參考。
2.1 數(shù)學基礎課與專業(yè)案例相結合
大數(shù)據(jù)處理對機器學習相關的數(shù)學方法,特別是統(tǒng)計分析理論要求較高。目前大多數(shù)高校都在本科及研究生培養(yǎng)的過程中開設了概率論及數(shù)理統(tǒng)計相關課程,然而這些課程一般由理學院數(shù)學系的相關老師講授,具有工科專業(yè)通識教育的特點。這會造成一些突出問題。最主要的是這種模式會弱化案例教學的作用,過于強調(diào)理論,而理論的應用,尤其是理論在各自專業(yè)上的應用,不能被很好地強調(diào)。即使包含了案例教學,但是案例往往是抽象的,或者與各個工科專業(yè)沒有關聯(lián),學生不能意識到教授的理論知識能否能在本專業(yè)應用,應用在什么地方,以及如何應用。這會從根本上影響學生的學習興趣,進而影響到學習效果。
因此,有必要借鑒國外先進的教學理念,在大數(shù)據(jù)理論教學中采用本專業(yè)老師教授大數(shù)據(jù)挖掘以及機器學習相關理論。筆者在英國University College London交通中心旁聽了數(shù)據(jù)采集與分析相關的研究生課程,發(fā)現(xiàn)該課程即由交通中心的老教授主講。其授課內(nèi)容與國內(nèi)研究生數(shù)學基礎課的數(shù)理統(tǒng)計類似,不過適度弱化了理論部分,增加了大量的交通工程數(shù)據(jù)分析案例。從學生的課程參與情況,以及參與科研項目過程中對相關理論的應用效果來看,這種教學模式不僅能讓學生意識到理論方法在本專業(yè)的價值,還能讓學生快速掌握應用的方法。甚至部分教授采用半節(jié)課理論講解,另外半節(jié)課邀請企業(yè)或政府部門相關從業(yè)者針對所講理論在實際中的應用進行演講。這些教學模式都值得在大數(shù)據(jù)教學中加以借鑒。
2.2 著重編程能力的培養(yǎng)
大數(shù)據(jù)對自主編程能力的要求很高。這主要由兩方面決定。其一是數(shù)據(jù)的預處理,由于大數(shù)據(jù)一般涉及繁蕪叢雜的原始數(shù)據(jù)。這些數(shù)據(jù)存儲格式,字段意義,數(shù)據(jù)類型種類較多,使用現(xiàn)成的統(tǒng)計軟件已不能滿足原始數(shù)據(jù)預處理要求,而手工處理也不現(xiàn)實,因此一般需要自主編程,針對數(shù)據(jù)的具體問題設計對應的預處理算法。比如公共汽車網(wǎng)絡一般包含很多線路和車站,線路和車站的名稱、編碼也存在不盡統(tǒng)一之處。體現(xiàn)在公共汽車刷卡大數(shù)據(jù)上就是字段編碼存在混亂,與GIS數(shù)據(jù)上車站的地理位置不能一一對應。對于這種情況,要可視化公交車網(wǎng)絡客流,必須對刷卡數(shù)據(jù)預處理。如北京龐大的公交網(wǎng)絡,手工處理不現(xiàn)實,這就需要研究人員自主開發(fā)對應模塊完成該工作。其二,海量數(shù)據(jù)對計算復雜度提出了新的要求。很多情況下不是傳統(tǒng)算法不可行的問題,而是不能在適合的時間內(nèi)處理完大規(guī)模數(shù)據(jù)的問題。以地鐵網(wǎng)絡客流實時顯示系統(tǒng)為例,如果路徑選擇算法不能在較短的時間內(nèi)給出結果,從實時的角度就其結果就沒有意義。大數(shù)據(jù)處理需要復雜度更低的可行算法,甚至在有些情況下需要設計并行算法,使用多個計算設備同時計算[5]。
所以,培養(yǎng)具備大數(shù)據(jù)思維和能力的人才,必須強調(diào)編程能力的培養(yǎng)。把編程相關課程作為大數(shù)據(jù)培養(yǎng)模塊的基礎課程,并體現(xiàn)大數(shù)據(jù)編程的特色。英國紐卡斯爾大學的Big Data Analytics模塊就是由計算機相關專業(yè)的老師開設。課程大綱中強調(diào)編程能力和算法設計,并專門教授了并行計算相關內(nèi)容。
3 結語
隨著數(shù)據(jù)采集和存儲技術的進步,大數(shù)據(jù)逐漸成為各個行業(yè)尤其是工程相關專業(yè)的熱點。在這種形勢下,本文研究了工科專業(yè)大數(shù)據(jù)教學的問題。首先分析了大數(shù)據(jù)在實踐和科研領域的發(fā)展現(xiàn)狀和未來趨勢,認為無論是生產(chǎn)企業(yè),還是科研相關單位,對大數(shù)據(jù)人才的需求都是迫切和巨大的。因而,從滿足未來人才市場需求的角度,大數(shù)據(jù)教學的問題必須引起國內(nèi)高校的重視。工科相關專業(yè)有必要增設大數(shù)據(jù)培養(yǎng)模塊。基于必要性,總結國內(nèi)外目前在數(shù)據(jù)處理方面的教學經(jīng)驗和問題,提出了開展大數(shù)據(jù)教學的要點。其一,大數(shù)據(jù)理論教學必須與本工科專業(yè)相結合,側重案例的相關性。其二,自主編程能力是大數(shù)據(jù)能力的重要體現(xiàn),因而必須予以重視。目前大數(shù)據(jù)教學在國內(nèi)還處于起步階段,需要各個專業(yè)的同仁結合本專業(yè)的特點展開積極的探索,構建合適的大數(shù)據(jù)培養(yǎng)模塊,成為本科及研究生培養(yǎng)課程體系的重要一環(huán)。
參考文獻
[1] Snijders,C.,Matzat,U.;Reips,U.-D.“Big Data”:Big gaps of knowledge in the field of Internet[J].International Journal of Internet Science,2012(7):1-5.
[2] Stefanovic,Nenad.Collaborative Predictive Business Intelligence Model for Spare Parts Inventory Replenishment[J].Computer science and information systems,2015,12(3):911-930.
[3] Hahn,G.J.;Packowski,J.A perspective on applications of in-memory analytics in supply chain management[J].Decision support systems, 2015(76):45-52.
[4] Steven Overly.As demand for big data analysts grows,schools rush to graduate students with necessary skills[N].Washington Post,2013-09-15.
[5] Bussaban K.,Waraporn P.Preparing Undergraduate Students Majoring in Computer Science and Mathematics with Data Science: Perspectives and Awareness in the Age of Big Data[J].Procedia-Social and Behavioral Sciences,2015,197(25):1443-1446.