文/陳翼 宓
煥發(fā)校園沉淀數(shù)據(jù)的活力
復旦大學從1998年至2006年累計共有學生成績記錄193萬條,從諸如此類的沉淀數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,這才是信息系統(tǒng)真正價值的體現(xiàn)
近年來,隨著教育主管部門和高校相關部門對高校信息化發(fā)展的日益重視和關注,校園信息化基礎設施的規(guī)模和水平得到不斷的提高,信息化中長期規(guī)劃也基本制定完成并逐步實施。復旦大學(以下簡稱:復旦)在校園信息化建設中,明確提出“以應用為目標,以服務為過程”,積極推動信息化建設的可持續(xù)發(fā)展,重點構建和完善信息化校園應用系統(tǒng),繼續(xù)保持信息化建設和應用的活力,為學校實現(xiàn)“高水平研究型大學”的戰(zhàn)略目標提供技術支持和服務保障。
隨著應用的深入推廣,很多高校都積累了大量的歷史數(shù)據(jù)。對于復旦來說,數(shù)據(jù)源主要來自三條途徑:首先是信息化部門的IT運維和服務的數(shù)據(jù),其數(shù)據(jù)是基于網絡安全數(shù)據(jù)的攻擊模式和安全監(jiān)測的挖掘、系統(tǒng)日志方面的系統(tǒng)故障分析、綜合全生命周期的軟件可信保障研究等;第二是學校各業(yè)務部門的管理決策方面的數(shù)據(jù),包括人事、學工、財務、科研、教務等核心業(yè)務;第三是全校師生的綜合數(shù)據(jù)。
這些數(shù)據(jù)逐年增加,形成了一個龐大的數(shù)據(jù)體系。比如,復旦大學從1997年的第二學期至2006年的第一學期,就產生了190萬余條選課記錄,而從1998年至2006年累計共有學生成績記錄193萬條;自從建設一卡通系統(tǒng)以來,復旦每年消費的金額都在幾千萬元,交易記錄達到幾百萬條甚至上千萬條。
面對如此巨大的數(shù)據(jù)量,高校不應該只是靜態(tài)地將其存儲在服務器中。事實上,管理者可能還沒有意識到,信息系統(tǒng)中最有價值、最有待發(fā)掘的寶藏就是這些日積月累的數(shù)據(jù)。從沉淀的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,這才是信息系統(tǒng)真正價值的體現(xiàn),而這方面可拓展的空間幾乎是不可限量的。為了更好地利用數(shù)據(jù)的價值,我們可以采取數(shù)據(jù)分析與數(shù)據(jù)挖掘來有效分析數(shù)據(jù)。
在信息管理或計算機科學領域,人們一提到數(shù)據(jù)分析,就會聯(lián)想到數(shù)據(jù)挖掘。但是,如果我們把數(shù)據(jù)分析狹隘地理解為數(shù)據(jù)挖掘,就會忽略其它數(shù)據(jù)分析和利用的形式。事實上,早在計算機出現(xiàn)以前,統(tǒng)計學已經發(fā)展了幾百年,數(shù)理統(tǒng)計學科研究出了一整套數(shù)據(jù)分析的方法;那時候,人們提到數(shù)據(jù)分析,往往指的是數(shù)據(jù)統(tǒng)計。現(xiàn)在,我們應該從更廣泛的角度來思考數(shù)據(jù)分析,特別是在信息系統(tǒng)領域,擴大數(shù)據(jù)分析的外延,利用所有有效的數(shù)據(jù)分析方法真正去發(fā)掘高校信息系統(tǒng)中隱藏的“金礦”。

從廣義上來看,數(shù)據(jù)分析包括了綜合數(shù)據(jù)查詢、數(shù)據(jù)展現(xiàn)、數(shù)據(jù)統(tǒng)計和數(shù)據(jù)挖掘等各種數(shù)據(jù)利用的方式。其中,綜合數(shù)據(jù)查詢是指通過數(shù)據(jù)集成等方式,綜合查詢存在于不同信息系統(tǒng)或不同數(shù)據(jù)庫中的某一相關主題的數(shù)據(jù),其目的是為了方便地獲取分散的但相關的數(shù)據(jù)。數(shù)據(jù)展現(xiàn)則是采用用戶認可的形式,用圖、表等方式把數(shù)據(jù)庫里的數(shù)據(jù)通過用戶可見、可理解的形式展現(xiàn)出來;數(shù)據(jù)不能總是存儲在數(shù)據(jù)庫中,要對數(shù)據(jù)做進一步的分析和利用,就必須要看到數(shù)據(jù)的全貌;數(shù)據(jù)展現(xiàn)也不是簡單的數(shù)據(jù)羅列,良好的數(shù)據(jù)展現(xiàn)方式其實是和其它數(shù)據(jù)分析方式結合在一起的。數(shù)據(jù)統(tǒng)計則是用統(tǒng)計學的方法,計算大批量數(shù)據(jù)的分布以及相關統(tǒng)計指標,并通過圖、表等方式把統(tǒng)計結果展現(xiàn)出來供用戶使用。
數(shù)據(jù)挖掘則是從大量數(shù)據(jù)中自動抽取有趣的知識。其中,“有趣”包括了非平凡的、隱性的、以前不知道的、潛在有用的等含義;“知識”則包括了模式、關聯(lián)、變化、異常和有意義的結構等。應該說,數(shù)據(jù)挖掘是對數(shù)據(jù)的深層次分析,其主要工作包括數(shù)據(jù)的抽取、多層次的數(shù)據(jù)組織、數(shù)據(jù)挖掘算法和決策支持應用、數(shù)據(jù)質量的保證等。
數(shù)據(jù)分析和挖掘的前提是可靠的數(shù)據(jù)質量。數(shù)據(jù)質量是指信息系統(tǒng)表達的數(shù)據(jù)視圖與客觀世界同一數(shù)據(jù)的距離,它包括可獲得度、可理解度、可信度、可用度等四方面。數(shù)據(jù)質量的判斷依賴于使用數(shù)據(jù)的個體,不同環(huán)境下的不同人員對相同數(shù)據(jù)“使用的適合性”不同,因此數(shù)據(jù)質量是相對的,不能獨立于使用數(shù)據(jù)的用戶來評價數(shù)據(jù)質量。較差的數(shù)據(jù)質量會導致應用受限或者得到無價值的結果。
當前,能夠全面開展數(shù)據(jù)分析和數(shù)據(jù)挖掘工作的高校還非常有限,其主要原因有:
1.部分高校領導對信息系統(tǒng)的價值認識不夠,沒有意識到能夠通過數(shù)據(jù)分析和挖掘發(fā)現(xiàn)大量有價值的信息;
2.很多數(shù)據(jù)分析和挖掘工作需要跨領域,要組織不同領域的管理人員、整合分布式應用系統(tǒng)構建上層的綜合應用,其協(xié)調成本和管理難度往往很高,導致工作難以進一步開展;
3.除了要能較好地解決前兩個問題之外,由于高校的很多業(yè)務復雜、不通用,缺乏可直接套用的分析模型,又沒有足夠的研究支持,導致目前很多數(shù)據(jù)分析和挖掘均是零星嘗試,沒有形成大規(guī)模應用;
4.在數(shù)據(jù)分析和挖掘過程中,我們往往會發(fā)現(xiàn)集成的數(shù)據(jù)中有大量的問題,這些質量不高的數(shù)據(jù)導致很多數(shù)據(jù)分析和挖掘得不到有用信息,從而大大削弱了數(shù)據(jù)利用的價值;
5.目前很多數(shù)據(jù)分析和挖掘都是在信息系統(tǒng)付諸使用一段時間后再進行二次開發(fā),數(shù)據(jù)利用與前期信息系統(tǒng)整體規(guī)劃、設計和開發(fā)脫節(jié),而數(shù)據(jù)分析人員也可能不是原來的系統(tǒng)設計和開發(fā)人員,導致在分析過程中發(fā)現(xiàn)的系統(tǒng)設計、數(shù)據(jù)質量等問題無法得到滿意解決,無法形成有效的反饋機制。
盡管數(shù)據(jù)的分析和挖掘工作存在種種制約因素,但是這項工作仍然值得人們去研究和嘗試。目前,復旦在數(shù)據(jù)分析和挖掘方面已經開始進行了一系列的探索。
復旦建立了共享數(shù)據(jù)平臺,它是為實現(xiàn)各業(yè)務系統(tǒng)間信息共享和交互、保證各系統(tǒng)所使用的數(shù)據(jù)的權威性和一致性,并提供全校各類信息查詢和決策分析功能而建的數(shù)據(jù)基礎平臺。它構建了全校各業(yè)務系統(tǒng)引用數(shù)據(jù)的標準規(guī)范以及單位組織結構等數(shù)據(jù)的校級標準,通過從各個應用系統(tǒng)抽取數(shù)據(jù)、與相關應用系統(tǒng)同步數(shù)據(jù),達到全校數(shù)據(jù)的一致、完整和準確。它包含全校各相關數(shù)字檔案,主要有教職工和學生數(shù)字檔案、資產設備、實驗室、經費等多個信息集。
共享數(shù)據(jù)平臺在2003年9月啟動,自正式上線運行以來,它采用星型分布模式的設計架構,各業(yè)務系統(tǒng)都只通過統(tǒng)一的數(shù)據(jù)集成工具與共享數(shù)據(jù)庫進行數(shù)據(jù)交換,實現(xiàn)了共享數(shù)據(jù)與各業(yè)務系統(tǒng)數(shù)據(jù)之間的動態(tài)和同步更新,各業(yè)務系統(tǒng)間則相對獨立,松散耦合。這適應高校信息化階段性建設特點,便于業(yè)務系統(tǒng)的維護和升級,也保障了單個業(yè)務系統(tǒng)面臨運行負載壓力時不會影響其它系統(tǒng)的正常運行。截至目前,該平臺在與人事、學工、教務、科研、研究生、研工、資產、一卡通等管理應用系統(tǒng)的數(shù)據(jù)交換過程中,已積累了數(shù)十萬條的關于人員、教學、資產等方面信息,成為了全校最全面、最權威的數(shù)據(jù)平臺。
為了更好地實現(xiàn)系統(tǒng)數(shù)據(jù)的共享,在實施過程中,我們根據(jù)國家和教育部標準,結合復旦本身的實際情況,征求各部門意見,逐步制定了信息編碼規(guī)范,并確定了各類數(shù)據(jù)的權威數(shù)據(jù)源和跨部門數(shù)據(jù)維護的流程,方便全校的數(shù)據(jù)共享和統(tǒng)計分析,保證各部門業(yè)務系統(tǒng)的數(shù)據(jù)一致性,提高數(shù)據(jù)的有用性和利用率。平臺專門開辟了“公共標準維護”模塊,提供信息編碼規(guī)范的維護功能,能方便快速地展示和管理學校已有并實際執(zhí)行的各項標準。
信息化校園建設的最終目標之一就是實現(xiàn)校內信息方便快捷的交換、共享和利用。復旦選擇了部分核心業(yè)務系統(tǒng)和共享數(shù)據(jù)庫并行實施,并不斷地豐富和完善共享數(shù)據(jù)庫。隨著信息化應用的不斷深入,共享數(shù)據(jù)庫平臺、校園一卡通等成果正逐步推進學校教學、科研、管理和生活等各方面信息的綜合數(shù)據(jù)應用,綜合學工、人事、教務、虛擬校園等應用系統(tǒng)的數(shù)據(jù)信息,逐步為全校人員建立數(shù)字檔案。數(shù)字檔案既為相關業(yè)務部門提供了較為全面的信息,也為師生員工提供了個性化的信息服務。
基于共享數(shù)據(jù)庫平臺和各應用系統(tǒng)中的數(shù)據(jù)的綜合數(shù)據(jù)查詢工具,為校領導、行政部門、院系和個人提供了自定義查詢和統(tǒng)計功能,用戶可通過瀏覽器進行查詢條件和輸出方式的設置,實現(xiàn)靈活、個性化的統(tǒng)計查詢,并通過Excel表格自定義導出數(shù)據(jù)查詢結果;利用OLAP提供的強大查詢、統(tǒng)計和分析功能,為學校管理者提供決策支持,實現(xiàn)教職工、研究生、本科生聯(lián)機分析處理功能,如,本科生OLAP分析包括了本科生基本信息數(shù)據(jù)分析、畢業(yè)數(shù)據(jù)分析、學生干部數(shù)據(jù)分析、協(xié)議書問卷調查分析以及獎、助、減、貸金數(shù)據(jù)分析等學生各方面的數(shù)據(jù)分析。
高校綜合數(shù)據(jù)分析和利用是校園信息化建設的長期工作。一方面,它以信息化基礎設施和應用系統(tǒng)為基礎,需要較長時間的數(shù)據(jù)積累和技術準備;另一方面,數(shù)據(jù)分析、挖掘、利用所需要的背景知識和技術要求與應用系統(tǒng)建設也不完全一樣,需要專門的人才隊伍。盡管這項工作有相當?shù)碾y度,國內高校也沒有太多值得借鑒的經驗,但我們必須勇往直前地去探索和嘗試。
(作者單位為復旦大學信息化辦公室)