,
國家層面從高等教育發展的戰略高度認為,現代大學的功能已拓展到人才培養、科學研究、社會服務和文化傳承創新4個方面。落實好提高質量的戰略任務,必須以人才培養為核心,四大功能有機互動、相互支撐,為內涵式發展打開更大空間。要加強科學研究,推進協同創新[1]。
美國伯頓·克拉克在《高等教育新論》中認為,學科包括兩種涵義:一是作為一門知識的“學科”,二是圍繞這些“學科”而建立起來的組織。雖然學者對學科的論述有所不同,但在本質上是一致的。“教學的科目”“學問的分支”“學界或學術的組織”是學科的3個基本內涵,只是在不同的場合和時間體現不同的內涵而已[2]。從學科的定義與內涵可以看出,學科是大學的基本組成單位,包括大學的知識與知識組織,因此高校學科的質量決定了高校的質量,學科的好壞直接影響了高校四大功能的發揮,學科的工作也是學校所有部門的工作。為了提高學科的質量,高校必須大力進行學科建設。
目前,高校的信息化工作進展迅速,學校范圍內有辦公系統、一卡通系統等,各個部門有自己的數據庫平臺,信息化覆蓋了很多部門的主要業務流程。例如,首都醫科大學的研究生院有導師數據庫和碩士博士數據庫,人事處有職稱數據庫,教務處有教學管理系統、教務管理系統,科研處有科研項目數據庫,圖書館有學位論文數據庫、數據庫出版商的數據庫等,但是各個數據庫之間沒有關聯,數據格式不一致,未能實現充分的數據共享。當學校的管理者為了決策的需要,利用學科建設的相關數據時,臨時從各個部門收集數據,需要大量的人力來收集和整理數據,過程繁瑣,數據的準確性不夠高。在此基礎上,把各個部門的學科建設數據信息收集整理到一個信息平臺的工作是很重要且關鍵的。國內許多高校都認識到該項任務的重要性,進行了相關的研究,如上海財經大學的學科信息平臺[3]、北京市學位辦委托北京工業大學搭建的“北京市重點學科信息平臺”等[4]。雖然教育部的學科評估有建設學科系統和平臺的要求,但是各個學校如何從各個學院、學系、附屬醫院收集學科信息,并進行全面地分析和數據挖掘等,尚沒有長期有效的推動機制,也缺乏長期的數據采集與維護機制。有些學科信息平臺建設的目的只是為了迎合教育部學科評估,當學科評估結束后,沒有人繼續維護這些平臺。
學科建設數據信息平臺是為制定學校的學科建設政策服務,為高校的學科建設發展指明方向,為學科建設的活動提供指南,為學科資源的配置提供指導。因此,高校學科建設數據信息平臺的研究目標是通過綜合利用多學科的知識和方法,確定高校學科建設數據信息平臺的框架,制定收集、保存、集成、評價、分析學科建設數據的政策與方案,進行可行性論證后嚴密執行學科建設數據政策的各項程序,對這些政策系統進行評價后總結反饋,最終對這些政策進行改進。
為了學科評價的全面性和準確性,在收集之前必須確立學科建設數據收集的范圍。專家認為,學科由學者、知識、資料和場所4個要素構成。學者是學科組織的主體,知識是學者活動的對象,資料是學者進行學術活動的物質基礎,場所是學者開展學術活動的空間[5]。在此基礎上,得到學科建設的基本要素是學科方向、學科梯隊、研究基地、科學研究、學術環境、人才培養等[6],因此數據收集主要圍繞這幾方面進行全面收集,具體數據的范圍見圖1。

圖1 高校學科建設與數據范圍
從圖1可以看出,學科建設的數據范圍非常廣,有各學院的學科簡介與社會服務的文字介紹,有人事處的專任教師與骨干教師、科研團隊的數據,有科技處的支撐平臺、轉化或應用的發明專利、科研獲獎數據,研究生院的學生國際交流、優秀畢業生、在校生等數據,教務處的教學成果、精品課程數據,圖書館的ESI高被引論文數據等。這些部門已經有相關數據庫,因此,數據可以直接從這些部門的數據庫采集,沒有的數據要通過相關的負責人來收集。其中,學術環境-科研人員的研究數據是一類特殊的數據。科研數據(Research Data)是指數字形式的研究數據,包括在研究過程中產生的能存貯在計算機的任何數據,也包括能轉換成數字形式的非數字形式數據[7]。目前,國內外科研管理者越來越關注科研數據,相繼成立了科研數據管理聯盟,出臺了一些科研數據管理的政策。要收集全學科建設的數據,也必須把科研人員的研究數據包括進來。科研數據只能來自從事研究的科研人員,因此這一類的數據要單獨收集與管理。醫學高校的學科數據里包括很多醫學和生物醫學實驗性的數據,必須通過專門的設計來收集齊這些研究數據。
一般高校學科建設的主要責任部門是研究生院,他們進行學科建設的方式是落實到研究生教育體系中,通過加強研究生教育的各個方面來提高學科水平。鑒于學科建設要落實到研究生教育體系工作范圍,高校填報教育部學科評估系統時都是按照教育部的學科分類,所以高校學科建設數據的分類按照國務院學位委員會、教育部頒布的《學位授予和人才培養學科目錄(2011年)》分類體系中的一級學科、二級學科來收集、存儲和整理。學校可以根據自己學科的情況,選取其中的學科類別。
“商業智能”這一術語是1989年由Gartner Group的Howard Dresner首次提出,它描述了一系列的概念和方法,通過應用基于事實的支持系統來輔助商業決策的制定。商業智能系統可以說是一個智能決策支持系統,它以數據倉庫為基礎,通過聯機分析處理和數據挖掘技術幫助領導者針對多變的環境,做出快速、準確的決策。它的核心技術有數據倉庫技術、數據挖掘技術和聯機分析處理(簡稱OLAP)[8]。
由于醫學教育有自己的特點,與其他高校相比,醫學高校有自己獨特的結構與特征。例如有附屬醫院和教學醫院,學科建設也與醫院密切相關,收集學科數據時必須把附屬醫院和教學醫院的數據收集齊全。創建醫學高校學科建設數據信息平臺,就是搭建一個智能管理系統,輔助支持學科建設決策,需要運用數據倉庫技術、數據挖掘技術和OLAP 3種關鍵技術[9]。包含了附屬醫院學科建設數據的醫學高校學科建設數據平臺的體系架構如圖2所示。

圖2 醫學高校學科建設數據信息平臺的體系結構
從圖2可以看出,這個體系結構是基于業務流程創建的,包括源數據到數據倉庫管理、業務層管理、應用層,每一步都包含了大量的工作。其中第一步是源數據的管理,因為數據來源有很多,有來源于各個職能部處業務系統的數據,有來源于各個學院學系、附屬醫院、科研人員的數據;同時數據庫的類型很多,有關系數據庫、文件系統、多媒體系統等;數據庫管理系統很多,如Oracle、SQL Server、MS SQL、ACCESS等。這些數據分布在多種數據庫硬件平臺上,紛繁復雜,能否全面、準確地收集數據直接關系到學科建設數據信息平臺的質量。因此,一定要有強有力的領導政策支持學科檢索數據的收集,有專業的學科建設團隊來研究學科建設數據的來源、特征和分布,從而保證學科建設數據的質量。
數據倉庫就是一個用以更好地支持企業或組織的決策分析處理的、面向主題的、集成的、不可更新的、隨時間不斷變化的數據集合[10],其最主要的特征是面向主題。我們要研究學科建設數據的多個主題,進行數據的抽取、清洗、轉換與裝載,把數據存儲在數據倉庫里。整個數據倉庫的結構由元數據來組織,因此元數據的研究也很重要。
業務管理由業務層與核心業務層組成。學科建設數據平臺的功能是數據管理、學科介紹、統計匯總和學科比較。它的核心業務層如身份認證、數據處理、第三方應用程序接口、日志生成、數據挖掘等由數據庫管理人員管理,保障學科建設數據的安全。
應用層是通過可視化工具、多維分析工具、挖掘工具等一系列的分析工具集,把數據展現給管理者。展示的方式有多種,如OLAP前端、門戶網站、統計圖表和數據模型等。學科建設的數據可以定期或者不定期地統計輸出,還可以根據需要來定制輸出。
高校學科建設數據信息平臺的設計路線圖,即研究如何把不同來源、格式、特點性質的學科數據在邏輯上或物理上(數據倉庫中)有機地收集、集中存儲,從挖掘學科建設數據應用的角度劃分任務,注重數據挖掘模型的質量和學科建設的業務工作相結合,從而確立高校學科建設數據信息平臺的建立模式。學科建設數據平臺設計路線圖分為7步(圖3)。把這7步歸到3個步驟中,從業務理解開始到擴展業務等過程是循環的。因此,要建立好一個數據平臺,必須要經過多次設計與考慮,才能達到最佳效果。

圖3 學科建設數據平臺設計路線圖
數據源管理包含業務理解和數據理解2個步驟。業務理解是從業務的角度理解學科建設數據平臺項目的目標和要求,首先確定學科建設的業務背景、平臺建設的目標,進行高校業務環境評估,列出學科的資源清單,學科平臺的需求、假設和限制、風險與對策和其他考慮的因素,為下一步數據理解和項目計劃提供支持。
數據理解是對學科建設數據的全面調查,具體方法為全面梳理學校所有部門、學院的學科數據信息與數據庫的內容(包括教師、學生、科研項目、論文、專利、獎勵、會議、課程、活動等),檢查數據是否存在噪聲、缺失值、冗余、數據錯誤等情況,根據全校業務特征分析部門之間和系統之間的學科數據信息共享范圍。目前教育部已經頒布了《教育管理信息化標準》,可參照國家標準格式,建立全校學科數據信息統一編碼與標準(包含數據命名的原則等);建立各部門數據獲取與收集的機制,建立關系數據庫與非關系數據庫的數據收集解決方案(如ODBC讀取、文本文件導入、年度申報制度等),保證數據的全面與準確;根據數據收集的機制,制定數據維護、更新的機制;構建學科數據信息平臺的系統框架;明確各個部門和人員的任務分工等。
數據倉庫管理階段實質為數據處理,包括數據選擇、數據清洗、數據構建、數據集成和數據格式化等操作。首先需要按照原則選擇學科建設分析的數據,選擇標準包括與最終的建設目標相關程度,范圍包括表中的字段,也包括數據的記錄。經過研究相關的智能系統,可以選定Pentaho BI這個集成工具來收集、存儲、分析來自各部門的系統數據,選定Dataverse Network平臺來收集與管理科研人員的研究數據[11]。設計數據倉庫的主題有專任教師與骨干教師、科研團隊、支撐平臺、課程教學質量、學生國際交流、優秀在校生、論文、發明專利、國家級規劃教材、科研獲獎等,設計好這些之后,再確定元數據的管理模式。
學科建設的數據應用管理包括建模、評價和擴展3個步驟。從平臺可以選取較多的數據構建數學模型,預測學科的發展等。除了數學模型之外,還可以構建統計報表,用可視化的工具對學科建設的數據進行可視化,更清晰直觀地顯示學科建設的成果。
例如,分析近10年學校各個學科發表高影響力論文數量的數據,構建一元線性回歸模型,可以對比分析多個學校的學科數據,進行聚類分析與主成分分析等。學科建設的數據挖掘可以構建綜合決策支持系統,從數據管理走向知識管理。
國務院2015年11月5日對外發布《統籌推進世界一流大學和一流學科建設總體方案》,自2016年起針對大學以及學科建設明確提出了“雙一流”的任務要求,并分3個階段制定了時間表,為我國建成高等教育強國明確了任務路徑。搭建學科建設數據平臺將為學校創建一流學科的工作提供大力的支持,但是建設好學科建設的數據平臺是一個非常艱苦的工作,需要舉全校之力,需要校領導從學校的戰略高度來整合設計,需要研究生管理部門的牽頭設計與管理,需要多個部門的全力配合。