【摘 要】 人才培養工作狀態數據采集平臺是高職院校評估的基礎,在高職院校的管理工作中,發揮著越來越重要的作用。借鑒數據挖掘理論,強化平臺數據分析,使數據轉化成“有效信息”,為高職院校的管理和決策提供依據,是一種切實可行的方法。
【關鍵詞】數據挖掘 狀態數據 采集平臺
【文獻編碼】 doi:10.3969/j.issn.0450-9889(C).2011.02.055
作為高職院校新評估方案的一個重要組成部分,“高等職業院校人才培養工作狀態數據采集平臺”(以下簡稱“數據采集平臺”)自2008年正式公布實施以來,其建設與管理工作一直得到各高職院校的高度重視。許多院校設立了專門的工作機構、出臺了相關的管理制度,甚至開發了網絡版的數據采集平臺。數據采集平臺服務于評估工作,服務于學校管理與教學工作的功能日益凸顯,其管理與建設正在得到越來越多的關注與投入。
但是,數據采集平臺畢竟是個新生事物,理解平臺框架內在的邏輯關系,需要一個過程;聚合平臺相關聯的數據,使之轉化成有助于學院管理與教學決策的有效信息,也需要一種數據分析的新方法。在實際工作中常常可以看到,由于理解的偏差與技術方法的缺失,數據采集平臺在不少高職院校中還只是每年填報時才會用到的一個系統,填報之后往往就束之高閣。其應有的功能,尤其是服務于學院日常管理、教學工作的功能并未得到充分的發揮。而這些功能,卻又恰恰是教育部“高等職業院校人才培養工作評估研究課題組”的專家們設計與推行這一平臺的初衷。不注重這些功能的挖掘與發揮,或者僅僅注重平臺服務于評估工作的功能,對于數據采集平臺的利用,顯然是遠遠不夠的。因此,找到并使用恰當的數據分析的技術與方法,是問題的關鍵與當下迫切需要解決的問題。本文擬就此問題進行初步探索與討論。
一、 數據挖掘理論在數據采集平臺上的應用基礎
所謂數據采集平臺,其實就是一個由海量數據構成的數據倉庫。根據最新的版本,整個平臺采集一次便可產生多達50萬以上的數據量,如果實現網絡版平臺動態采集,則產生的數據還會更多,其“數據倉庫”的特征還會更為明顯。根據知識管理的理論,單純的數據本身是不會提供太多有價值的信息的,要使得“數據”轉化成“有效信息”,就需要找到合適的數據分析方法,聚合相關聯的散見于“數據倉庫”中的各種數據,進行大量的數據分析。筆者認為,在這一過程中,一種新興的、正在各行各業以數據分析為基礎的決策活動中扮演著越來越重要的角色的“數據挖掘”方法,其基本理論與思維方法,在數據采集平臺的建設與管理中,同樣有著廣闊的應用價值與意義。
數據挖掘(Data Mining),就是從大量的、模糊的、隨機的實際數據中,提取隱含在其中的,人們事先不知道的、但又是潛在有用的信息和知識的過程,它是數據庫技術發展到一定階段而應運而生的一種新的信息處理技術,其主要特點就是對數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助決策的關鍵性數據。簡而言之,這是一種深層次的數據分析方法,它的價值就在于,它與傳統的分析方法有著本質區別,傳統的數據分析方法是有著強烈指向性的,其目的是用結果來驗證預設命題的正確與否,或者是對預設模型的作用機理作量化分析;數據分析則是在沒有明確假設的前提下挖掘信息、發現關聯,得出那些不能靠直覺發現,甚至違背直覺的信息或知識。挖掘出的信息越是出乎意料,就可能越有價值。從這個意義上說,數據挖掘是對傳統數據分析方法的革命性創新。
而實際上,經過教育部專家組的不斷完善,數據采集平臺自公布3年以來在結構和采集信息量上也發生了很大的變化,就版本而言,從最初的08c版,升級到09a版,最終發展現在的10a001版,采集字段由最初的594個字段增加到750個字段,匯總部分字段由110個增加到157個,每次采集所產生的數據多達數十萬。采集字段的增加,不但大大擴充了數據采集平臺的信息容量,使之越來越具備“數據倉庫”的特征,更重要的是使得數據與數據之間的關聯度加大,這自然成為數據挖掘的數據基礎,客觀上為使用數據挖掘的理論方法進行數據分析提供了更便利的條件。
二、 數據挖掘理論在數據采集平臺上的具體應用
數據挖掘理論的主要方法,一般有分類、估計、關聯、聚類和細分或預測等,它的很多基礎理論和思維方式在數據采集平臺中有著廣闊的應用空間。其中,關聯規則挖掘理論和聚類分析理論最為簡單可行,易于理解。
關聯規則挖掘理論認為,孤立的、單獨的數據,不形成信息,但將多個相互關聯的數據集中起來,則可以多方位、多角度地呈現某一事物的全貌并對之進行價值判斷。對于初次接觸平臺的人而言,在數據采集平臺的應用中,要依據其中海量的信息去對一所學院的人才培養工作的方方面面作出判斷,往往無從下手;只會割裂地、孤立地看待一個個表格中的數據,找不到數據與數據之間的關聯關系,更不能通過聚合這些相互關聯的數據,全面呈現人才培養工作中的某一個“關鍵要素”的工作狀態,進而分析其存在的問題,為下一步的工作決策提供幫助。這時候,關聯規則挖掘的方法,則可以給我們很多啟示。筆者在應用中發現,數據采集平臺只提供數據,分析任何一個“關鍵要素”的現狀,都需要挖掘出采集平臺中與之相關的每一個數據,呈現數據和指標(項)之間有趣的關聯規則或相關關系。
例如,當分析一所學院“兼職教師隊伍”建設的狀況時,首先接觸的就是“兼職教師的數量”這個數據。孤立地看待這個數據,反映不出太多的信息量,最多就是知道該所學院目前具備多少兼職教師。但是,如果將兼職教師數量與全院的教師總數作比對,就可以知道兼職教師在整個師資隊伍中所占的比例;如果將兼職教師數量與全院的專業設置數作比對,就可以知道每個專業平均的兼職教師數;如果將兼職教師數量與他們任課總量來做比對,就可以知道兼職教師的平均任課量;如果將兼課教師任課總量與全院的總課時量作比對,就可以知道兼職教師在整個教學工作中所占的比重,等等。所有這些拿來比對的數據,分散于平臺的不同部分,但與“兼職教師隊伍”之間,卻又有著很多內在的關聯。對這些有關聯的數據進行挖掘,最終又可以很直觀地反映出某一方面工作的狀態情況。在將這些數據聚合起來后,就能直接地反映諸如“學院領導班子高職教育理念及對師資隊伍建設的重視程度”、“學校師資隊伍建設總體思路及師資隊伍建設規劃是否符合學校建設發展需要,可實施性怎樣”、“校企合作的深度及校企合作的長效機制的建立”等問題。它們的關系如表1所示。
表 1
又如,“校企合作”是高職院校辦學的要求與特色,為此,各高職院校均努力與行業、企業建立合作關系。數據采集平臺中也會呈現每個學院的合作企業數量。但單純地觀察這個數據是無從判斷“校企合作”的深度的。如果利用關聯規則挖掘的思維方法,充分挖掘與“合作企業數”之間存在潛在關系的其他數據,如“共同開發教材數”、“企業提供兼職教師數”、“共同開發課程數”、“接收頂崗學生數”、“接收畢業生就業數”、“學院為企業培訓員工數”、“學院提供技術服務產值”、“教師橫向技術開發項目數”等,將這些不同角度存在于多個位置的關聯數據集中比對,則可以直接得出對該學院“校企合作”深度狀態的一個判斷,為學院的工作決策提供堅實的基礎。
不同的數據,尋找出其潛在的關聯關系,固然能生成很多有效信息;同一類數據,按照“聚類分析”的思路進行整合,也同樣能呈現豐富的信息。這種思維方法,在反映某一方面工作的歷時性狀態或者部門與部門間的差異時,具有較強的可行性。
以某學院為例,我們可以通過表2,來觀察衡量其基本辦學條件的“生師比”情況:
表2
表2很直觀地反映出“生師比”這一數據幾年來的變化情況,表中至少透露出以下幾個信息:一是3個學年度以來,該學院的招生規模是在不斷擴大的;二是隨著招生規模的擴大,教師數量也在不斷增加;三是生師比不斷提高,由最初的超過優秀標準逐漸接近合格標準。不難判斷:該學院的教師增長量跟不上招生規模的增長量,需要強化師資隊伍的建設。
我們可以聚合不同系部的同一類數據,來觀察系部間的差距(見表3)。
表3
單純一個系部的數據,還反映不出太多的信息,但如果將幾個系部的同一類數據進行聚合,則信息可以立即豐富起來,各個系部專業教師能力水平的差距可謂一目了然。各個系部對于專業教師能力水平培養的重視程度與工作效果,也很容易進行判斷。
類似這樣的例子還可以舉出很多,工作實踐表明,廣泛地借鑒“數據挖掘”的相關理論,充分挖掘采集平臺的各類數據,有效地轉化成各種“信息”,使之服務于、作用于高職院校的人才培養評估工作,更服務于高職院校的教學與管理工作,是一條切實可行的路子。隨著采集平臺建設的不斷深入,采集平臺各個方面的數據積累越來越大,數據挖掘將會在高職院校管理的各個領域發揮更大的積極作用。
(責編 吳 筱)
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文