999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談高校信息化建設(shè)中的數(shù)據(jù)清洗與數(shù)據(jù)整合問題

2019-07-12 01:18:28陳軍民
魅力中國 2019年9期
關(guān)鍵詞:信息化學(xué)校系統(tǒng)

陳軍民

(江西外語外貿(mào)職業(yè)學(xué)院,江西 南昌 330099)

一、高校信息化建設(shè)的現(xiàn)狀

眾所周知,近幾年高校信息化建設(shè)發(fā)展迅速,業(yè)務(wù)部門根據(jù)各自的業(yè)務(wù)需求建立了很多信息管理系統(tǒng),為業(yè)務(wù)部門的工作提供了很大的便捷,如科研系統(tǒng)、教務(wù)系統(tǒng)、學(xué)工系統(tǒng)等。但這些信息管理系統(tǒng)的數(shù)據(jù)是運行在各自的數(shù)據(jù)庫管理平臺上,有著各自的表格定義、字段定義,和各自的存儲結(jié)構(gòu)。這些信息管理系統(tǒng)形成了一個個的“信息孤島”。

“信息孤島”無法適應(yīng)高校發(fā)展的需要。決策層領(lǐng)導(dǎo)不能及時獲取全校數(shù)據(jù),做出正確的決策;職能部門無法及時掌握本部門員工的科研、教學(xué)、帶班等全面的信息;教師與學(xué)生,也不能通過統(tǒng)一的門戶網(wǎng)站,一鍵登錄查詢自己的各方面信息,或更新自己的信息。

“信息孤島”是高校信息化建設(shè)進一步發(fā)展的瓶頸。現(xiàn)有的信息管理系統(tǒng)數(shù)據(jù)由于運行在各自的數(shù)據(jù)管理平臺上,數(shù)據(jù)存儲結(jié)構(gòu)不同,表格定義、字段定義等也不相同,數(shù)據(jù)不能相互共享,同時由于更新的時間點也不一樣,同一數(shù)據(jù)往往還存在出入,降低了數(shù)據(jù)的信任度。涉及到各部門的數(shù)據(jù),還是需要用傳統(tǒng)的方法,經(jīng)常性地需要重復(fù)收集數(shù)據(jù),按要求制作各種表格,整天忙于這些“雜事”,增加基層班主任、辦公干事等工作人員的工作量,增加學(xué)校的人力成本以致大家都以“表哥表妹”進行互稱調(diào)侃。辦工流程也沒有優(yōu)化,數(shù)據(jù)的審核,提交還是利用傳統(tǒng)方法,需要數(shù)據(jù)錄入口人員簽名,部門蓋章,領(lǐng)導(dǎo)簽字,過程繁瑣,沒有發(fā)揮信息化建設(shè)的應(yīng)有作用。

解決“信息孤島”的唯一途徑就是建立校級層面的,能提供給全校共享的數(shù)據(jù)中心。只有這樣,決策層領(lǐng)導(dǎo)才能通過統(tǒng)一數(shù)據(jù)入口,及時獲取校級層面的統(tǒng)計數(shù)據(jù),做出正確地決策;職業(yè)部門通過統(tǒng)一的數(shù)據(jù)入口查詢本部門員工的完整信息;教師與學(xué)生通過一鍵登錄查看或更新自己的信息。只有這樣,才能保證數(shù)據(jù)的一致性,提高數(shù)據(jù)的信任度,職業(yè)部門的數(shù)據(jù)才能共享,不需要重復(fù)收集數(shù)據(jù),降低了學(xué)校的人力成本。

數(shù)據(jù)中心的建立,應(yīng)基于現(xiàn)有的信息管理系統(tǒng)和其中的數(shù)據(jù)。一方面保護現(xiàn)有信息化建設(shè)的投資,另一方面,充分利用現(xiàn)有的數(shù)據(jù)。調(diào)研學(xué)校現(xiàn)有信息管理系統(tǒng)的數(shù)據(jù)存儲平臺,分析數(shù)據(jù)的存儲結(jié)構(gòu)、表格定義、字段定義,對現(xiàn)有數(shù)據(jù)進行清洗與整合,提供給學(xué)校層面的門戶信息管理系統(tǒng)及后續(xù)可能加入的部門信息管理系統(tǒng)共享數(shù)據(jù)。數(shù)據(jù)中心的建立,還應(yīng)該基于全校的視角,應(yīng)對整個學(xué)校的辦工流程進行優(yōu)化,改變傳統(tǒng)的數(shù)據(jù)收集,處理、分發(fā),審核、簽名等辦公模式,實現(xiàn)“網(wǎng)上辦公”與“無紙化辦公”。

二、數(shù)據(jù)清洗與數(shù)據(jù)整合技術(shù)概述

目前所流行的數(shù)據(jù)清洗與整合的方法是通過數(shù)據(jù)聯(lián)邦技術(shù)進行分布式數(shù)據(jù)訪問,將企事業(yè)單位中各部門業(yè)務(wù)系統(tǒng)需要的數(shù)據(jù)抽取到對業(yè)務(wù)系統(tǒng)更方便、更集中的數(shù)據(jù)端進行統(tǒng)一存儲和管理。分布式數(shù)據(jù)訪問所使用的技術(shù)是企業(yè)信息集成EII(Enterprise Information Integration),數(shù)據(jù)交換使用的則是ETL(Extract Transform Load)技術(shù),ETL是構(gòu)建數(shù)據(jù)倉庫的重要組成部分,EII 是數(shù)據(jù)聯(lián)邦技術(shù)將大量的異構(gòu)數(shù)據(jù)源作為一個單一的、統(tǒng)一的數(shù)據(jù)視圖的方式實時的提供給一個用戶或系統(tǒng)。在目前的高校信息自動化系統(tǒng)建設(shè)的中,ETL和EII技術(shù)通常是放到一起的,這樣才能更好的適應(yīng)高校的信息化建設(shè)數(shù)據(jù)集成要求。

信息化建設(shè)中的數(shù)據(jù)清洗與整合主要是為了實現(xiàn)數(shù)據(jù)共享的目的,建立校級層面共享的數(shù)據(jù)中心,可以用于智能統(tǒng)計決策、業(yè)務(wù)數(shù)據(jù)的管理以及基于數(shù)據(jù)清洗與整合平臺的建設(shè),但是這需要數(shù)據(jù)清洗與整合工具與WebSphereMQ服務(wù)、WebServices服務(wù)等進行對接,這樣才有利于數(shù)據(jù)的共享和實時傳輸。

目前國內(nèi)外已經(jīng)有不少關(guān)于數(shù)據(jù)清洗與整合方面的設(shè)計方案,許多數(shù)據(jù)庫生產(chǎn)廠家也發(fā)布了針對異構(gòu)數(shù)據(jù)清洗與整合的解決方案。如 IBM的 DB2聯(lián) 邦 系 統(tǒng)、Sybase 的 DI(Data Integration)、BEA的DSP(Data Service Platform),SQL Server 的 Integration Services等 都有各自的數(shù)據(jù)集成特點。許多生產(chǎn)數(shù)據(jù)庫管理軟件的供應(yīng)商都提供數(shù)據(jù)抽取工具,這些數(shù)據(jù)清洗與整合工具在一定程度上實現(xiàn)了數(shù)據(jù)的清洗與整合。但這些數(shù)據(jù)清洗與整合工具大多數(shù)都不能實現(xiàn)數(shù)據(jù)集成的自動化,開發(fā)人員還需利用這些集成工具建立相應(yīng)的管理控制程序。

還有其他公司提供的產(chǎn)品,比如IBM公司的WebSphere DataStagel就是一套有比較完善的解決方案的系統(tǒng)。DataStage 提供了圖形框架,可以使用該框架通過可視化圖形界面來設(shè)計和運行用于數(shù)據(jù)清洗與整合的任務(wù),可以從多個不同平臺的數(shù)據(jù)庫中抽取需要的數(shù)據(jù),進行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換,再加載到各個應(yīng)用系統(tǒng)數(shù)據(jù)庫里面。由于每一步操作都是在可視化圖形界面上進行的,所以使用很廣,做設(shè)計人員的技術(shù)要求不需要太高就可以完成。DataStage支持高度復(fù)雜的數(shù)據(jù)規(guī)則和海量數(shù)據(jù)的清洗與轉(zhuǎn)換,以及大量的預(yù)先構(gòu)建好的數(shù)據(jù)集成任務(wù),如排序、合并、連接、過濾等,以便于高效地訪問用于清洗與轉(zhuǎn)換的關(guān)系數(shù)據(jù)庫。

在數(shù)據(jù)清洗與整合方面,國內(nèi)也有不少研究比較完善的成果,例如康賽信息技術(shù)有限公司的DCI數(shù)據(jù)交換平臺,集數(shù)據(jù)抽取、清洗、轉(zhuǎn)換及加載于一體,通過標(biāo)準(zhǔn)化各個業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),向數(shù)據(jù)中心/倉庫提供可靠的數(shù)據(jù),實現(xiàn)部門內(nèi)的應(yīng)用和跨部門的應(yīng)用的業(yè)務(wù)數(shù)據(jù)間單向整合、雙向整合和多級數(shù)據(jù)共享,進而為實現(xiàn)商業(yè)智能、數(shù)據(jù)挖掘、應(yīng)用集成、正確決策分析等提供必要的數(shù)據(jù)支撐。除了支持基礎(chǔ)的數(shù)據(jù)清洗整合工作以外,還結(jié)合實際的問題做了大量的擴展,提供了數(shù)據(jù)整合管理系統(tǒng)(DCI-MS)、智能調(diào)度、可視化設(shè)計等輔助系統(tǒng),以支持業(yè)務(wù)化的數(shù)據(jù)監(jiān)控和管理、數(shù)據(jù)源管理、多引擎管理、問題數(shù)據(jù)管理和可視化業(yè)務(wù)建模等。

在數(shù)據(jù)集成的實際應(yīng)用上,某大學(xué)的信息中心在學(xué)校的教育教學(xué)信息化建設(shè)中使用數(shù)據(jù)聯(lián)邦技術(shù)建立了數(shù)據(jù)集成機制,通過數(shù)據(jù)倉庫對各個業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)清洗與整合進行統(tǒng)一的管理和監(jiān)控。數(shù)據(jù)交換平臺會根據(jù)學(xué)校各部門的數(shù)據(jù)存儲結(jié)構(gòu),建立一個共享數(shù)據(jù)中心,將學(xué)?;A(chǔ)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)存儲標(biāo)準(zhǔn)進行有效的管理,再通過有效的機制及時共享到全校各業(yè)務(wù)系統(tǒng)中。對各業(yè)務(wù)系統(tǒng)中數(shù)據(jù)標(biāo)準(zhǔn)不一致的情況,要經(jīng)過數(shù)據(jù)的清洗與轉(zhuǎn)換,達到數(shù)據(jù)中心的規(guī)范要求才能進行數(shù)據(jù)通信,實時的共享給各個需要的業(yè)務(wù)系統(tǒng)里去,徹底解決高校的“信息孤島”問題。

在數(shù)據(jù)清洗與數(shù)據(jù)整合中,有比較成熟的開發(fā)技術(shù)與工具軟件和可借鑒的其它高校的解決方案。但數(shù)據(jù)清洗與數(shù)據(jù)整合是一個系統(tǒng)工程,每個高?,F(xiàn)有的數(shù)據(jù)庫管理平臺不盡相同,面對的辦公流程不盡相同,利用數(shù)據(jù)的辦公流程不盡相同。本項目以江西外語外貿(mào)職業(yè)學(xué)院為例,在現(xiàn)有業(yè)務(wù)部門的數(shù)據(jù)管理系統(tǒng)基礎(chǔ)上,面對學(xué)校的實際問題,研究數(shù)據(jù)清洗與整合的技術(shù)方案與業(yè)務(wù)優(yōu)化問題,開發(fā)適合本校共享的數(shù)據(jù)中心。

三、高校信息化建設(shè)的技術(shù)路線

江西外語外貿(mào)職業(yè)學(xué)院的信息化建設(shè)發(fā)展迅速,現(xiàn)有科研系統(tǒng)、學(xué)工系統(tǒng)、財務(wù)系統(tǒng)、教務(wù)系統(tǒng)、圖書系統(tǒng)等多個信息管理系統(tǒng),但這些信息管理系統(tǒng)的數(shù)據(jù)管理平臺各不相同,有SQL Server,Oracle,MySql等數(shù)據(jù)庫系統(tǒng),表格的定義,字段的含義,字段等各不相同。為了學(xué)校的長遠發(fā)展,迫切需要對現(xiàn)有的數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)進行清洗與整合,建立一個全校能夠共享的數(shù)據(jù)中心。

為了項目的順利實施,須做好一些前期工作,明確研究內(nèi)容,研究目標(biāo),需要解決的關(guān)鍵問題,然后制定技術(shù)路線。

(一)研究內(nèi)容

1.研究學(xué)?,F(xiàn)有業(yè)務(wù)系統(tǒng)平臺的數(shù)據(jù)結(jié)構(gòu)、表格定義、字段含義,字段長度、數(shù)據(jù)類型、數(shù)據(jù)安全機制等;

2.研究抽取現(xiàn)有業(yè)務(wù)平臺數(shù)據(jù),對數(shù)據(jù)進行清洗,對數(shù)據(jù)進行整合與優(yōu)化的技術(shù)方案;

3.結(jié)合學(xué)校各職能部門及師生員工近期問題與未來對數(shù)據(jù)共享的需求,研究學(xué)校共享數(shù)據(jù)中心的數(shù)據(jù)利用方案等。

(二)研究目標(biāo):開發(fā)對現(xiàn)有管理系統(tǒng)平臺的數(shù)據(jù)清洗與整合的軟件實驗性平臺,建立學(xué)校層面的數(shù)據(jù)共享中心,提出符合學(xué)校實際情況的,切實可行的,適應(yīng)學(xué)校近期與未來長遠發(fā)展的信息化建設(shè)的技術(shù)解決方案與數(shù)據(jù)利用方案,徹底解決學(xué)校的“信息孤島”問題。

(三)需解決的關(guān)鍵問題:

擬解決的關(guān)鍵問題的有三個,第一,在保證數(shù)據(jù)隱私的情況下,盡可能獲取更多的樣本數(shù)據(jù);第二是數(shù)據(jù)抽取的訪問速度與并發(fā)控制問題;第三是數(shù)據(jù)利用如何符合職能部門及師生員工近期與未來對數(shù)據(jù)共享的需求。

(四)項目實施技術(shù)路線

下面以江西外語外貿(mào)職業(yè)學(xué)院為例,介紹高校信息化建設(shè)的技術(shù)路線。見圖1。

圖1 建立校級數(shù)據(jù)中心數(shù)據(jù)清洗與數(shù)據(jù)整合技術(shù)路線

四、數(shù)據(jù)清洗與數(shù)據(jù)整合實驗方案

在上述信息化建設(shè)的技術(shù)路線中,最關(guān)鍵的就是開發(fā)小范圍網(wǎng)絡(luò)數(shù)據(jù)清洗整合實驗平臺,開發(fā)實驗平臺應(yīng)按以下四個步驟進行。

對學(xué)校各部門的業(yè)務(wù)系統(tǒng)及日常辦公數(shù)據(jù)進行調(diào)研分析。

確定需要數(shù)據(jù)清洗的具體范圍、確認各系統(tǒng)的業(yè)務(wù)流程、原系統(tǒng)使用數(shù)據(jù)庫平臺及版本,和數(shù)據(jù)存儲格式。推算出需要清洗數(shù)據(jù)量的多少,需要清洗的數(shù)據(jù)業(yè)務(wù)字典表,需要清洗的數(shù)據(jù)關(guān)聯(lián)關(guān)系,需要清洗的數(shù)據(jù)備份腳本等。

抽取各業(yè)務(wù)系統(tǒng)數(shù)據(jù)與日常辦公樣本數(shù)據(jù),對全校數(shù)據(jù)進行統(tǒng)一管理。

抽取各業(yè)務(wù)系統(tǒng)與日常辦樣本數(shù)據(jù)的數(shù)據(jù)庫數(shù)據(jù)與文件數(shù)據(jù),統(tǒng)一各業(yè)務(wù)部門的業(yè)務(wù)標(biāo)識,制定全校統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)字典,對全校的數(shù)據(jù)庫數(shù)據(jù)與文件數(shù)據(jù)進行統(tǒng)一管理。

對現(xiàn)有數(shù)據(jù)進行清洗。這是項目研究的核心任務(wù),為確保項目順利進行,分三個小步驟進行。首先應(yīng)對現(xiàn)有數(shù)據(jù)進行預(yù)清洗,修改錯誤數(shù)據(jù),補齊缺失數(shù)據(jù),拋棄重復(fù)數(shù)據(jù),統(tǒng)一數(shù)據(jù)格式,刪除正態(tài)分布異常數(shù)據(jù),等。然后對數(shù)據(jù)進行建模。數(shù)據(jù)建模采用PowerdeSigner工具,數(shù)據(jù)模型必須真實反應(yīng)學(xué)校現(xiàn)有業(yè)務(wù)關(guān)系,便于開發(fā)人員理解,數(shù)據(jù)結(jié)構(gòu)精簡有效,符合未來高校信息化的發(fā)展,同時兼容未來大數(shù)據(jù)發(fā)展,人臉識別數(shù)據(jù)特殊存儲等。最后進行數(shù)據(jù)清洗。采用Kettle Spoon工具對數(shù)據(jù)進行清洗,并采用oracle數(shù)據(jù)庫對數(shù)據(jù)進行存儲。ETL開源工具如Kettle是一款開源的ETL工具,純JAVA編寫,可以在Window、Linux、Unix上運行,數(shù)據(jù)抽取高效穩(wěn)定。在Kettle Spoon工具中編寫JAVA代碼進行業(yè)務(wù)控制,并調(diào)用Job實現(xiàn)數(shù)據(jù)的實時清洗。在預(yù)算允許的情況下可申請購買第三方數(shù)據(jù)清洗工具及數(shù)據(jù)中心工具對數(shù)據(jù)進行清洗存儲。第四,建設(shè)統(tǒng)一開放靈活的數(shù)據(jù)傳輸接口。

采用企業(yè)總線ESB(開源框架Mule ESB,或付費ORACLE ESB等架構(gòu)進行設(shè)計)作為數(shù)據(jù)傳輸通訊的開放標(biāo)準(zhǔn)接口。為各業(yè)務(wù)系統(tǒng)提供標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù),達到數(shù)據(jù)清洗后保障現(xiàn)有數(shù)據(jù)的有效性及一致性要求。為今后的系統(tǒng)運營數(shù)據(jù)有效性提供良好的支撐。

具體實驗方案見下圖2:

圖2 數(shù)據(jù)清洗與數(shù)據(jù)整合實驗方案

結(jié)束語:信息化建設(shè)是一個系統(tǒng)工程,它不僅是技術(shù)的問題,更是人的問題與管理的問題,且每個單位所面對的情況都各不相同,所以在項目開始之前,必須做好充分的調(diào)研,技術(shù)上的儲備,建立科學(xué)的方案。建立校級數(shù)據(jù)中心可以解決“信息孤島”所產(chǎn)生的問題。其中的核心技術(shù),就是對現(xiàn)有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進行清洗與整合。

猜你喜歡
信息化學(xué)校系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
月“睹”教育信息化
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
幼兒教育信息化策略初探
甘肅教育(2020年18期)2020-10-28 09:06:02
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
學(xué)校推介
留學(xué)生(2016年6期)2016-07-25 17:55:29
奇妙學(xué)校
信息化是醫(yī)改的重要支撐
信息化
江蘇年鑒(2014年0期)2014-03-11 17:09:40
主站蜘蛛池模板: 日韩经典精品无码一区二区| 久久伊人操| 自拍偷拍欧美日韩| 国产大片黄在线观看| 麻豆精品在线视频| 国产原创自拍不卡第一页| 亚洲国产欧美国产综合久久| 区国产精品搜索视频| 久久伊人色| 亚洲丝袜中文字幕| 在线毛片免费| 国产午夜人做人免费视频中文| 国产一区二区三区在线观看视频| 欧美成人精品在线| 99久久精品国产麻豆婷婷| 欧美黄色a| 香蕉eeww99国产在线观看| 99re视频在线| 亚洲天堂伊人| 国产免费久久精品99re不卡 | 亚洲男人在线| 婷婷激情亚洲| 国产美女无遮挡免费视频网站 | 日韩不卡高清视频| 久久青青草原亚洲av无码| 国产精品第一区在线观看| 亚洲综合激情另类专区| 亚洲 欧美 中文 AⅤ在线视频| 日本午夜在线视频| av天堂最新版在线| 99资源在线| 国产毛片基地| 国产91av在线| 国产aⅴ无码专区亚洲av综合网| 中文字幕免费播放| 欧美一级在线看| 伊人91在线| 国产精品三级av及在线观看| 亚洲综合专区| 萌白酱国产一区二区| 亚洲第一成年人网站| 国产成人免费高清AⅤ| 粗大猛烈进出高潮视频无码| 国产乱子伦视频三区| 亚洲av片在线免费观看| 黄色在线网| 久996视频精品免费观看| 国产玖玖玖精品视频| 日本不卡在线视频| 欧美国产中文| 国产永久在线视频| 久久无码高潮喷水| 国产精品太粉嫩高中在线观看| 久久亚洲精少妇毛片午夜无码| 老司机aⅴ在线精品导航| 国产一区二区三区在线无码| 8090午夜无码专区| igao国产精品| 国产精品露脸视频| 欧美日韩免费观看| 亚洲欧美日韩中文字幕一区二区三区| 欧美成人影院亚洲综合图| 日韩在线中文| 久久青青草原亚洲av无码| 激情无码字幕综合| 亚洲成人在线免费| 亚洲精品卡2卡3卡4卡5卡区| 婷五月综合| 亚洲欧美成aⅴ人在线观看| 国产精品免费入口视频| 国产一区二区福利| 久久婷婷五月综合色一区二区| 在线免费不卡视频| 国产精品片在线观看手机版| 国产在线观看一区精品| 91午夜福利在线观看| 亚洲成人网在线观看| 国产探花在线视频| 天堂网亚洲系列亚洲系列| 国产女人综合久久精品视| 伊人久久精品无码麻豆精品| 色天天综合久久久久综合片|