劉雪芳
(景德鎮學院,江西 景德鎮 333400)
近些年來,隨著信息化的快速發展,傳統的數字校園在數據交換上暴露出一些問題,如數據孤島、數據丟失,以及缺乏統一的數據集成平臺等問題。本文旨在通過異構數據集成技術的研究,助力智慧校園建設。異構數據是指當綜合系統中要完成相應的任務時,需要訪問不同系統模塊的數據。通過異構數據集成技術運用,可以實現數據轉換、處理和共享等目的,進而加快信息化校園建設的步伐。
由于近年來高校的不斷擴招,校園系統資源及龐大信息數據之間的沖突日趨加劇。這就要求學校要不斷改善系統資源和信息數據管理質量,以便更好地服務于師生。中國高校就現階段而言,引進物聯網技術,利用互聯網技術、移動通信網絡技術以及計算機軟、硬件設備等,加快智慧校園數字化步伐,是當前智慧校園建設與發展的必經之路[1]。先進的信息化手段的應用,順應了社會的發展需求,同時也能極大地提升高校的現代化管理水平,從而促進高校各項工作全面發展。
智慧校園建設旨在打造一個靈活、智能、高效的校園系統。其一,校園管理者能夠又快又準地獲悉校園內的物、財、人以及研、學、管等方面的信息,因此在數據方面可以給業務流程的優化以及管理的改進奠定基礎;其二,實現自然、人、設備、社會因素之間的相互聯通,實現這些因素間互動的智能化;其三,經過集成并融合應用服務,校園管理者可以高效獲得校園信息,實現信息共享,加快步伐實現生活、管理、教學、科研以及服務的智慧化發展。
構建基于異構數據集成技術的智慧校園,可以實現智慧校園信息的互聯互通和資源的共享。為更好地推進智慧校園異構數據集成技術研究與構建,筆者認為可依據下列思路,開展相應的研究工作:
第一步,建立數據標準,暢通數據交換渠道。在著手開展數字化校園建設之初時,學校便已架構了包含教務系統在內的諸多業務系統。隨著投入時間的增加,上述獨立的系統會變得越來越成熟,然而各自都有一套自己的數據結構與數據標準,集成要求不一致,很難進行不同系統之間的數據交換。為了確保數據在采集、處理、傳輸以及交換時具備統一、合理、規范的描述與分類,應率先實施數據標準建設,緊接著以數據標準為依據建立數據模型,為數據共享和數據集成奠定基礎。
第二步,構建數據模型,對各種數據形成的權威數據源進行梳理與歸納匯總,保障每個數據都有與其對應的數據源。比如,學生的數據基本上都出自教務系統,教職工的數據則大都出自人事系統,所有數據均有相對應的所有者與生產者,嚴格遵循“誰生成、誰負責”的原則,確保權責清晰。
第三步,尋找數據源,確定需集成至數據中心的數據。所有業務系統內均存在許多數據,其中大多數為業務系統自身產生的相關信息數據,就其本身系統而言意義重大,但是對別的業務系統而言則沒有任何意義與價值,在數據集成時要排除這些冗余信息。實際上數據集成就是以結果數據為導向,具體操作時,要同步進行前三步的工作,確立標準的同時,要對源頭進行梳理,小到字段信息均需實施數據集成確認操作。
第四步,打造數據中心,對數據進行轉換、加載、抽取、清洗。在抽取數據時,應按照數據標準轉換并清洗不規范數據,完全清理冗余數據,然后加載到數據中心。在進行數據轉換時,要刪除標記字段和時間戳字段。
第五步,共享數據,對數據進行高效管理。以服務接口為媒介,數據中心可以提供全天候數據共享,同時立足于共享數據,在充分考慮到學生的學習生涯與學校教職工的任職生涯結束之后,應用全生命周期數據管理方法對數據進行高效管理。例如,依據身份證件號,對學生的發展歷程,教職工的在職、報到、離職等進行全生命周期數據管理。
3.2.1構建數據模型
數據模型的構建要結合學校業務的開展情況,依據國家及行業有關法律法規,著重思考數據的查詢、確立、維護、執行等功能,從而編制合理、統一的數據標準。在智慧校園建設調研過程中,筆者與學校教務管理系統、人事管理系統、財務管理系統以及資產管理系統等部門進行了充分溝通和確認,提出數據標準包含以下兩種類型:
其一,代碼標準。無論哪一個業務系統,其均需用到代碼類數據,使用者統稱其為代碼,比方說籍貫代碼、政治面貌代碼[3]。智慧校園數據代碼標準應當以國際通行的軟件開發規范與標準為參考,依據《中華人民共和國教育行業標準JY/T1001-2012》以及學校的規定及發展情況確立。
其二,元數據標準。元數據,顧名思義指的是與數據有關的數據,是進行數據管理的前提[4]。通過使用元數據,可將數據庫里數據的分布狀況詳細地記錄下來。元數據標準必須符合數據的規范性、嚴謹性等要求,換言之,為降低操作期間出現信息損失的概率,要求元數據必須具有易轉換性、互操作性。在確立元數據標準前,應先將所有元數據的源頭明晰下來,確定屬性。學校元數據標準應當在充分考慮學校業務狀況的前提下確立,并應與學校資源的擴展實際相符。概言之,在進行數據集成建設時,要立足于元數據標準與代碼標準,以數據標準為依據,積極轉換已有系統的非標準數據資源。
3.2.2建設數據中心
以代碼標準和元數據標準為參考依據,確立數據模型,建設數據中心,然后對數據進行清洗、抽取、加載處理。具體流程為:
(1)數據抽取
鑒于異構數據庫在新的業務系統中得到了應用,但是在一些老、舊的業務系統中未得到有效維護,因此,在進行抽取數據的過程中,往往需要采取如下措施[5]:
①使用接口
優勢:無需直接訪問數據庫,較為安全;在開發接口的過程中,可事先轉換代碼、格式,做好數據清洗工作,同時可在清洗、轉換數據期間使用接口。
不足:要求業務系統技術維護人員參與系統研發環節,在字段出現改變的情況下,維護人員一定要積極做出應對,及時更新接口。所以,對于有專業技術維護人員的業務系統,宜采取此方式。
②直接訪問數據庫
優勢:可對數據庫進行直接訪問,獲取到視圖或者數據表信息,無中間過程存在,無需額外開發。
不足:需要直接訪問數據庫,不夠安全;在字段屬性出現改變的情況下,視圖將無法再繼續發揮自己的作用,這種情況下就需要數據庫管理員進行處理。也正因為這樣,對于無技術人員維護的老舊業務系統,宜采取此方式。
(2)數據清洗與轉換
在抽取數據環節,難免會遇到數據質量存在問題的情況,這時則需對數據實施清洗與轉換操作,操作過程中,可考慮采取主鍵重復、格式內容清洗、非空檢查、邏輯錯誤清洗、代碼轉換等方法。如果在實施數據清洗與轉換的過程中,由于數據源內出現了代碼不達標的情況,還需對不達標的代碼等進行轉碼處理。
(3)數據加載
完成以上操作之后,需進行字段選擇和排序,將源頭數據與數據中心的數據進行對比研究。假定從數據中心無法發現某條記錄,然而源頭數據又確實存在,在這種情況下就必須新增操作予以處置。如果某條記錄均出現于源頭數據和數據中心,然而兩者的數據又存在區別,在這種情況下應予以更新處置。
(4)元數據刪除與超長同步時間解決方案
考慮到數據的完整性,存在于數據中心的數據將長久存在。但是在數據源記錄刪除的過程中,數據中心要怎樣才能和數據源保持相同呢?筆者認為,應采用邏輯刪除方案,也就是新增邏輯刪除(SCBJ)字段至所有數據表內。例如,有工作人員刪除掉了某一記錄的數據源,且被檢測到了,這種情況下在進行數據加載的時候必須設置對應的記錄的邏輯刪除字段為1,此外別的字段要設置為0。對于其他同步服務接口,則需予以過濾處置,以免其影響別的業務系統,采取此方式處理數據,可以有效地解決顯示錯誤的問題。
一般而言,每一個業務系統內的數據有多有少,不盡相同,有些系統內含的數據頗多,導致別的系統在與其進行數據共享的過程中需耗費的時長增加。例如,全量同步40余萬條記錄,至少需要消耗100分鐘,會影響到服務器的性能以及用戶操作的滿意度。對此,筆者認為可考慮采用時間戳(SJC)字段方案,也就是將一個時間戳字段增設到所有數據表內。不論是哪條記錄加載至數據中心,若監測到存在變化的情況,那么立馬把時間戳字段賦予當前時間。在進行數據同步處理的過程中,業務系統在初始化環節一次性同步全部數據即可,而在接下來的所有環節里面,均只需要看記錄的數據和歷史記錄時間戳字段值之間的區別,從而判斷是否有必要對此條記錄進行同步處理。
在實踐操作期間,要想使同步時間有所減少,可考慮使用時間戳字段,這樣的話也可以簡化系統運行的流程。結合時間戳字段與邏輯刪除字段,可妥善地處理好歷史數據存儲的問題,所有記錄均會被存儲于數據中心內,不再可能遭到刪除。
3.2.3數據全生命周期管理
數據中心中完成了大量數據的集成,如職稱評審、部門調整、學籍更改等過程的全部數據。此次研究立足于此,提出了全生命周期的定義。不管人員信息發生了怎樣的改變,只需輸入唯一的身份證件號,即可實現對用戶當前身份與狀態進行智能的識別。因為歷史記錄無法徹底刪除,一旦入校,學生與教職工的身份信息均可追溯,即可實現對全部在校人員的信息全生命周期管理。再者,在系統中可依據用戶的狀態信息以及身份信息賦予其對應的權限,這樣就可以對業務系統的角色權限進行控制,實現精準訪問。
隨著各高校的信息化發展,數據集成所起的作用日益凸顯。不論是向用戶提供何種信息化服務,實際上都應以研究數據集成為切入點,此次研究中探討了不同業務系統異構數據之間的數據集成問題。日后,智慧校園建設應需完成數據治理,確保數據的完整度與可用性,并高度重視數據安全管理,對隱私數據進行脫敏、加密、模糊化處置,以確保數據運作的安全性、穩定性,從而達到實現教育信息化的目標。