朱杰
隨著教育信息化的發(fā)展,產(chǎn)生了越來(lái)越多的應(yīng)用,這些應(yīng)用多種多樣,方便使用的同時(shí)也造成很大混亂,這就需要通過(guò)一定的方式實(shí)現(xiàn)它們之間的清洗融合。本文介紹了智慧校園的發(fā)展現(xiàn)狀、數(shù)據(jù)標(biāo)準(zhǔn)及清洗規(guī)則的建立,以實(shí)例詳細(xì)闡述了數(shù)據(jù)清洗實(shí)現(xiàn)的過(guò)程,并對(duì)標(biāo)準(zhǔn)數(shù)據(jù)的使用及數(shù)據(jù)清洗方式的多樣性給出了提示。
1引言
網(wǎng)絡(luò)信息化建設(shè)發(fā)展到今天,多數(shù)人已經(jīng)熟悉了這樣的環(huán)境,大學(xué)是網(wǎng)絡(luò)信息化應(yīng)用的前沿單位,早就建設(shè)了大量相對(duì)獨(dú)立的應(yīng)用系統(tǒng)如辦公、財(cái)務(wù)管理、教務(wù)管理及資產(chǎn)管理等。由于歷史與技術(shù)的原因,這些業(yè)務(wù)系統(tǒng)的建設(shè)往往是以部門(mén)級(jí)的建設(shè)為主,各業(yè)務(wù)部門(mén)根據(jù)自己的需要進(jìn)行部門(mén)級(jí)的信息系統(tǒng)建設(shè)開(kāi)發(fā),而各部門(mén)的信息化程度各不相同,所用的開(kāi)發(fā)環(huán)境和數(shù)據(jù)庫(kù)也各不相同,造成數(shù)據(jù)信息孤島、數(shù)據(jù)信息的冗余和不一致,很難在這些信息集上進(jìn)行整個(gè)學(xué)校的全面信息查詢(xún)和決策分析等數(shù)據(jù)展示、共享與同步更新。要整合各系統(tǒng)的數(shù)據(jù),首先要建立一個(gè)標(biāo)準(zhǔn)。
2數(shù)據(jù)標(biāo)準(zhǔn)的建立
采用的數(shù)據(jù)標(biāo)準(zhǔn)建立原則是:
①向上靠原則:已有國(guó)家和部委標(biāo)準(zhǔn)的使用國(guó)家和部委標(biāo)準(zhǔn),沒(méi)有國(guó)家和部委標(biāo)準(zhǔn)的使用教育廳或衛(wèi)生廳標(biāo)準(zhǔn),沒(méi)有教育廳或衛(wèi)生廳標(biāo)準(zhǔn)的使用學(xué)校標(biāo)準(zhǔn)。
②繼承性原則:盡量與國(guó)家或上級(jí)主管部門(mén)的標(biāo)準(zhǔn)保持一致性。
③前瞻性原則:以現(xiàn)有系統(tǒng)為基礎(chǔ),著眼于長(zhǎng)遠(yuǎn)的發(fā)展需求,使信息標(biāo)準(zhǔn)具有較長(zhǎng)的生命周期。
數(shù)據(jù)元素的質(zhì)量是建立堅(jiān)實(shí)的數(shù)據(jù)結(jié)構(gòu)基礎(chǔ)的關(guān)鍵。只有對(duì)數(shù)據(jù)正確建立分類(lèi)和編碼,做好標(biāo)準(zhǔn)化工作,確認(rèn)數(shù)據(jù)可信,才能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)有效的管理。
海量數(shù)據(jù)通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化方案,對(duì)不同來(lái)源數(shù)據(jù)進(jìn)行查找、檢索和比對(duì),查找和檢索有關(guān)數(shù)據(jù)對(duì)象及其含義、物理位置、特征和使用情況等方面的信息,幫助企業(yè)建立企業(yè)信息分類(lèi)編碼標(biāo)準(zhǔn),落實(shí)信息化建設(shè)的“統(tǒng)一標(biāo)準(zhǔn)”原則,從根本上解決“信息孤島”問(wèn)題,為后續(xù)的信息系統(tǒng)建設(shè)提供指導(dǎo)標(biāo)準(zhǔn)。
3清洗規(guī)則建立
建立清洗規(guī)則就是確定數(shù)據(jù)分類(lèi)標(biāo)準(zhǔn)的來(lái)源,確定要哪個(gè)系統(tǒng)的哪一部分作為一個(gè)類(lèi)的標(biāo)準(zhǔn),并使用它去處理其他系統(tǒng)中提取的有關(guān)這一部分的數(shù)據(jù)。經(jīng)過(guò)多個(gè)系統(tǒng)多個(gè)部分的處理,把全部的系統(tǒng)數(shù)據(jù)整合到統(tǒng)一的標(biāo)準(zhǔn),使各系統(tǒng)中的數(shù)據(jù)相互關(guān)聯(lián),為數(shù)據(jù)的查詢(xún)、分析等提供基礎(chǔ)數(shù)據(jù)環(huán)境。
4數(shù)據(jù)清洗實(shí)現(xiàn)


按照學(xué)生依教務(wù)為標(biāo)準(zhǔn),職工依人事為標(biāo)準(zhǔn)把教務(wù)、人事、財(cái)務(wù)等數(shù)據(jù)抽取到數(shù)據(jù)中心數(shù)據(jù)庫(kù)。第一次獲取從原始數(shù)據(jù)表獲取,獲取的數(shù)據(jù)全部添加到數(shù)據(jù)中心對(duì)應(yīng)的數(shù)據(jù)庫(kù)表,以后從變動(dòng)庫(kù)獲取數(shù)據(jù),從變動(dòng)庫(kù)獲取的數(shù)據(jù)按照變動(dòng)類(lèi)型(增加、刪除、修改)對(duì)數(shù)據(jù)中心表數(shù)據(jù)進(jìn)行更改。


把非標(biāo)準(zhǔn)數(shù)據(jù)表獲取到的數(shù)據(jù)按照對(duì)應(yīng)關(guān)系表轉(zhuǎn)換標(biāo)準(zhǔn)后,寫(xiě)入數(shù)據(jù)中心相應(yīng)的數(shù)據(jù)庫(kù)表。
5標(biāo)準(zhǔn)數(shù)據(jù)的使用
通過(guò)數(shù)據(jù)中心標(biāo)準(zhǔn)的數(shù)據(jù)可以進(jìn)行關(guān)聯(lián)查詢(xún)、統(tǒng)計(jì)等,形成多種統(tǒng)計(jì)報(bào)表或圖表,產(chǎn)生多種分析數(shù)據(jù)供用戶(hù)使用。
查詢(xún)上面表中某一專(zhuān)業(yè)學(xué)生繳費(fèi)情況:
select * from stud_ major left join staff_pay on stud_ major. stid = staff_pay. sid where stud_ major. major=”1011”;
當(dāng)然根據(jù)服務(wù)器的處理效率,也可以分別查詢(xún)單個(gè)數(shù)據(jù)表的數(shù)據(jù)裝入數(shù)組或向量型變量,通過(guò)程序統(tǒng)計(jì)處理,然后給出結(jié)果。
6結(jié)束語(yǔ)
數(shù)據(jù)清理方式多種多樣,使用時(shí)要結(jié)合具體情況分析。例如上面的“數(shù)據(jù)中心人員編號(hào)對(duì)應(yīng)表”適合接口系統(tǒng)比較少的情況,擴(kuò)展時(shí)需要添加字段,改為只有“標(biāo)準(zhǔn)編號(hào)”“序號(hào)”“原始編號(hào)”3個(gè)字段,擴(kuò)展性有了很大提高,但清洗效率會(huì)比上面差。各種數(shù)據(jù)表可以轉(zhuǎn)換標(biāo)準(zhǔn)后保持字段數(shù)量不變,也可以根據(jù)使用情況進(jìn)行組合建立新的數(shù)據(jù)表,方便后期大量使用,而使用頻率特別高的數(shù)據(jù)建議建立獨(dú)立數(shù)據(jù)表。
基金項(xiàng)目:山東省重大科技創(chuàng)新工程項(xiàng)目(2018CXGC1501)
計(jì)算機(jī)與網(wǎng)絡(luò)2019年13期