何曉聰
摘要:運用大數據思維和技術對研究生培養過程質量進行監測預警,是建設研究生質量內部保障體系的有效手段。本文通過關聯規則挖掘,揭示了研究生入學成績與課業表現、前置學歷畢業院校、圖書借閱情況與學位論文成績之間的關系,證明了通過分析研究生培養過程中產生的各種數據,可以為我們勾勒出研究生個體在學期間已有的學習軌跡,并預測其接下來的學業表現。
關鍵詞:大數據;研究生培養;質量監測;質量預警
中圖分類號:G643 文獻標志碼:A 文章編號:1674-9324(2018)37-0064-02
一、大數據及其相關技術
(一)大數據的內涵
Viktor Mayer-Schoenberge在《大數據時代》一書中指出:大數據不是隨機樣本,而是全體數據,即樣本等于總體。但是,如果簡單地把大數據理解為數量巨大,就容易陷入“只見樹木,不見森林”的膚淺中去。因為大數據既包括了結構化的、可以存儲在關系型數據庫中的數據,更包括了半結構化甚至非結構化的數據。更主要的是,大數據給我們帶來的是思維方式的革命,也就是在模糊、不確定性中聚焦數據之間的關聯,通過數據揭示原先可能并沒有被認識的關系,而非驗證假設?!皵祿寗印痹谶@一分析過程中,大數據的價值被充分地發掘,從而引導決策行為從傳統的“業務驅動”向“數據驅動”轉變。因此,可以毫不夸張地說,大數據引發了核心競爭力關鍵因素的變革。
(二)大數據的技術
1.數據采集與預處理。數據采集是開展大數據應用的第一步。大數據的“大”,往往意味著全面、整體,也代表著數據來源結構和模式的多樣性。文本、音頻、圖片、超鏈接等,都可以成為數據源。對于如此大量的異構數據,必須通過一定的方式進行集成處理或整合處理,通過整理、清洗、轉換后,映射到一個新的數據集中去,為后續存儲和分析處理提供統一的數據視圖。
2.數據存儲與管理。傳統的管理信息系統產生的是結構化的數據,關系型數據庫通過行列二維的表格可以存儲結構化數據。但是對于大數據而言,半結構化數據甚至非結構化數據占比大幅度上升,要對這些數據進行內容檢索、對比、挖掘,是關系型數據庫無法實現的。目前采用的是MPP并行數據庫集群與Hadoop集群混合的方式來實現巨量數據的存儲和管理,這些數據往往達到PB、EB量級。其中,MPP提供強大的SQL和OLTP服務,Hadoop則支持對半結構化或非結構數據進行內容檢索和深度挖掘。
3.數據挖掘與可視化。根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、決策樹、規則推理、模糊集,甚至神經網絡、遺傳算法的方法處理信息,得出有用的分析信息。這也就意味著,在數據挖掘的初始階段,目標并不需要非常清晰,而是要依靠挖掘算法來找出隱藏在大量數據中的規則、模式、規律等。可視化就是把信息映射為可見圖形的過程,它為人類與計算機這兩個信息處理系統之間提供了一個接口??梢暬瘜祿治鲋陵P重要,它可以揭示出數據內在錯綜復雜的關系,在這一點上可視化的優勢是其他方法無可比擬。現在的數據可視化技術的主要攻堅對象是如何在不貶抑數據價值的同時將數據從“數字、文字”轉換為簡潔的圖表,進而方便數據挖掘和數據展示。未來的可視化效果,將繼續在可視化效果上進行深度發展,大數據分析工具也將在數據可視化技術的推動下攀升到一個新的高度
二、基于數據挖掘的研究生培養過程質量監測預警
1.關聯規則挖掘與算法。關聯規則挖掘是從事務集合中挖掘出這樣的關聯規則,它的支持度和置信度大于最低閾值,這個閾值是由用戶指定的。關聯規則挖掘可以大致分為兩步:(1)從事務集合中找出頻繁項目集;(2)從頻繁項目集合中生成滿足最低置信度的關聯規則。最出名的關聯規則挖掘算法是Apriori算法,它主要利用了向下封閉屬性,如果一個項集是頻繁項目集,那么它的非空子集必定是頻繁項目集。它先生成1-頻繁項目集,再利用1-頻繁項目集生成2-頻繁項目集……然后根據2-頻繁項目集生成3-頻繁項目集……依次類推,直至生成所有的頻繁項目集,然后從頻繁項目集中找出符合條件的關聯規則。
2.數據挖掘軟件。WEKA的全名是Waikato Environment for Knowledge Analysis,同時WEKA也是新西蘭的一種鳥名,其主要開發者來自新西蘭。WEKA作為一個公開的數據挖掘工作平臺,集合了大量能承擔數據挖掘任務的機器學習算法,包括對數據進行預處理、分類、回歸、聚類、關聯規則以及在新的交互式界面上的可視化。如果想自己實現數據挖掘算法的話,可以參考WEKA的接口文檔,在WEKA中集成自己的算法甚至借鑒它的方法自己實現可視化工具并不是件很困難的事情。
3.實證分析。(1)數據采集。本文以某財經類高校的經濟類專業研究生為研究對象,采集了2013—2015級研究生的入學信息、必修課期末考試成績、圖書借閱記錄、學位論文盲審成績等數據。其中,入學信息包括學生的前置學歷畢業院校、本科所學專業、專業課初試成績,圖書借閱記錄根據中圖分類號分別統計學生借閱的各學科圖書數量,必修課包括中級宏微觀經濟學、計量經濟學等學位課程。(2)數據預處理。由于基于Apriori算法的關聯規則挖掘以識別離散數據為主,因此要在進行挖掘之前先對原始數據進行離散化處理。考慮到在教務管理中通常將成績分為優、良、中、差四個等級,因此,我們先對成績進行排序,然后將分數排名在前25%的定義為“優”、排名在25%—50%的定義為“良”、排名在50%—75%的定義為“中”、排名在后25%的定義為“差”。對于學生的前置學歷畢業院校也需要進行離散化處理,我們將“985”、“211”院校統稱為“重點院?!保瑢ⅹ毩W院或??圃盒=y稱為“一般院?!保瑢⑵溆嗟墓k本科院校統稱為“省市屬院?!?。將圖書借閱記錄的數據根據借閱圖書所屬學科數量多寡分為“以本學科為主”或“以跨學科為主”,從未借閱過圖書的標記為“零”。(3)數據挖掘結果分析。數據挖掘是依據算法計算得出的,必須結合實際通過人工分析才能得到真正有意義的關聯規則,并用于指導我們的實際工作。經過將離散化的數據輸入WEKA分析軟件,設置好相應的支持度和置信度,得出以下關聯規則。規則1:專業課1初試成績=差→計量經濟學=差。專業課1根據研究生報考專業不同有所區別,經濟管理類的考生專業課1均為數學。由此可見,沒有良好的數學基礎,學習計量經濟學這門經濟學的學位課程還是比較吃力的。因此,對于初試數學成績不理想的學生,我們要在計量經濟學的教學過程中給予重點關注;規則2:前置學歷畢業院校=重點院?!鷮W位論文成績=良。這一規則體現了生源質量的重要性。來自“985”、“211”院校的學生,相對來說在學習習慣、知識掌握、文字表達等方面具有一定的優勢,因而所撰寫的學位論文質量能夠有所保證;規則3:借閱圖書=以跨學科為主→學位論文成績=良。研究發現,廣泛涉獵不同學科的書籍有助于研究生的論文撰寫,這也解釋了跨學科、多學科共同培養的必要性。通過不同學科知識間的融會貫通,有利于激發學生的創新思維。
三、下一步研究展望
從現有的實踐看,異構數據源的采集和存儲將是下一步的研究重點和難點。上面提到的成績、借閱記錄等信息,只是研究生培養過程所產生的數據集合的一小部分,只是露出水面的冰山一角。對于研究生管理部門來說,還有大量異構數據面臨采集難、存儲難的問題。例如,研究生的社交網絡數據,如微信好友、QQ好友,由于涉及個人隱私,難以被管理部門收集利用分析。實際上,社交網絡數據對于分析掌握研究生的思想動態是十分寶貴的第一手資料,例如同一宿舍的研究生之間將對方從好友名單中刪除,這說明兩人的關系趨于緊張,研究生輔導員如果第一時間掌握了這個情況,就可以及時介入進行調解,避免矛盾升級造成更嚴重的問題。在大數據技術日新月異的今天,利用大數據思維和相關技術,整合研究生培養過程中產生的各種數據,可以在個體層面為我們勾勒出研究生在學期間已有的學習軌跡,并預測其接下來的學業表現。這就可以為精準制定符合研究生個人特點的培養方案,實現教學資源的有效推送奠定基礎。
參考文獻:
[1]簡析大數據及其在教育領域的應用.http://fanwen.chazid 2016/10/30.
[2]耿學華,傅德勝.可視化數據挖掘技術研究.計算機應用與軟件,2006,(2).
[3]WEKA操作入門.http://wenku.baidu.c,2017/01/04.
[4]李紅林.基于Apriori算法的高校教學評價數據挖掘.中國科技信息,2010,11(21).