牛雪飛
(連云港師專,江蘇 連云港 222006)
高校檔案數(shù)據(jù)倉庫設計
牛雪飛
(連云港師專,江蘇 連云港 222006)
摘要:隨著信息化的進一步發(fā)展,高校信息歷史數(shù)據(jù)達到相當規(guī)模,為更方便管理數(shù)據(jù),提供決策支持,提出了數(shù)據(jù)倉庫管理方案,介紹了開發(fā)過程中的開源工具,重點分析了數(shù)據(jù)倉庫中管理平臺的設計。
關鍵詞:信息管理;數(shù)據(jù)倉庫;ETL
在信息技術高速發(fā)展的今天,許多高校都建設了規(guī)模不等的信息管理系統(tǒng),隨著數(shù)據(jù)的不斷增加,歷史數(shù)據(jù)累積越來越多,這就需要一種工具來整合各業(yè)務領域的應用數(shù)據(jù),以充分發(fā)揮歷史數(shù)據(jù)的最大功能。數(shù)據(jù)倉庫能夠處理大量的數(shù)據(jù)資源,通過它的集成管理器能夠將發(fā)展過程中離散的數(shù)據(jù)有效集中[1],為解決上述問題提供了技術上的保證。
2.1系統(tǒng)架構
結合高校信息管理的特點,設計了系統(tǒng)方案如下:
(1)數(shù)據(jù)庫平臺:數(shù)據(jù)庫平臺選擇SQL SERVER數(shù)據(jù)庫,WINDOWS為操作平臺,用于存儲系統(tǒng)所有的數(shù)據(jù),包括業(yè)務數(shù)據(jù)與元數(shù)據(jù)。
(2)管理平臺:管理平臺應用程序部署在WINDOWS操作平臺之上,以JBOSS為應用平臺,JAVA為開發(fā)工具。
(3)開發(fā)平臺:平臺采用MONDIRAN提供OLAP分析服務,JPIVOT提供OLAP展示服務,WEKA提供數(shù)據(jù)挖掘服務。數(shù)據(jù)展示以開源的BI工具為主,通過 BIRT來實現(xiàn)豐富的報表展示。ETL以開源的ETL工具KETTLE為主,并配置適應于SQL SERVER數(shù)據(jù)庫的SQL 腳本做為數(shù)據(jù)抽取、清洗、轉換與加載的工具。
2.2管理平臺設計
數(shù)據(jù)倉庫管理平臺是數(shù)據(jù)倉庫的外圍程序的集合,其中包括元數(shù)據(jù)管理、數(shù)據(jù)質量管理、數(shù)據(jù)采集管理、ETL調度管理、數(shù)據(jù)倉庫監(jiān)控、數(shù)據(jù)安全管理與操作幫助七大子系統(tǒng)。
(1)元數(shù)據(jù)管理模塊。該模塊是存儲數(shù)據(jù)封裝、數(shù)據(jù)敏感度和相關人員隱私信息等相關元數(shù)據(jù)內容的部分,主要功能是擴充元數(shù)據(jù)對外服務接口內容,向外部模塊或子系統(tǒng)提供元數(shù)據(jù)內容和元數(shù)據(jù)分析服務,為數(shù)據(jù)封裝和安全管理等數(shù)據(jù)倉庫管理模塊提供支撐。
元數(shù)據(jù)獲取層位于整個體系架構的最底層,元數(shù)據(jù)獲取層抽象概括了元數(shù)據(jù)獲取的各種途徑。存儲層定義了元數(shù)據(jù)存儲所遵循的元模型,規(guī)范從獲取層得到的各類元數(shù)據(jù)的屬性要求和存儲格式要求,包括業(yè)務元數(shù)據(jù)、技術元數(shù)據(jù)和管理元數(shù)據(jù)。功能層為前端元數(shù)據(jù)應用提供了基本的功能支撐,主要包括元數(shù)據(jù)基本功能、元數(shù)據(jù)分析功能、元數(shù)據(jù)質量管理、元數(shù)據(jù)服務接口和元數(shù)據(jù)權限管理五個部分。在元數(shù)據(jù)管理模塊功能層的支持下,元數(shù)據(jù)應用層通過調用功能層的功能,對元數(shù)據(jù)管理的實際問題提供應用解決方案。
(2)數(shù)據(jù)質量管理模塊。是數(shù)據(jù)倉庫管理平臺的技術支撐平臺,主要對數(shù)據(jù)源接口、數(shù)據(jù)實體、處理過程、數(shù)據(jù)應用和業(yè)務指標等相關內容的管控機制和處理流程,也包括對數(shù)據(jù)質量管控和處理的信息總結和知識應用等輔助內容。數(shù)據(jù)質量管理子系統(tǒng)功能按層次劃分為獲取層、存儲層、功能層和應用層。
獲取層主要實現(xiàn)的是數(shù)據(jù)質量數(shù)據(jù)的采集功能,是數(shù)據(jù)質量功能和應用的基礎。采集的數(shù)據(jù)范圍有:源系統(tǒng)關鍵數(shù)據(jù)、源系統(tǒng)接口信息、數(shù)據(jù)處理過程信息和業(yè)務指標數(shù)據(jù)等。存儲層中存儲的數(shù)據(jù)質量信息主要包括三個部分:數(shù)據(jù)質量規(guī)則庫、數(shù)據(jù)質量信息庫和數(shù)據(jù)質量知識庫。功能層包含了數(shù)據(jù)質量管理模塊的基礎功能,它為數(shù)據(jù)質量管理的前端應用提供了基本的功能支撐。應用層為數(shù)據(jù)質量管理各環(huán)節(jié)管控和處理提供具體應用解決方案,主要包括源系統(tǒng)變更協(xié)同管理、源系統(tǒng)數(shù)據(jù)質量稽核、數(shù)據(jù)質量監(jiān)控知識應用和問題處理知識應用等。
(3)數(shù)據(jù)采集管理。數(shù)據(jù)采集管理為數(shù)據(jù)倉庫數(shù)據(jù)來源的總入口,包括元數(shù)據(jù)采集與業(yè)務數(shù)據(jù)采集,其中元數(shù)據(jù)采集又包括手工數(shù)據(jù)采集與工具或SQL腳本的數(shù)據(jù)自動采集,業(yè)務數(shù)據(jù)采集包括業(yè)務系統(tǒng)的數(shù)據(jù)采集與手工報表的錄入與導入。數(shù)據(jù)采集模塊為數(shù)據(jù)管理平臺與數(shù)據(jù)開發(fā)平臺提供數(shù)據(jù)支持。數(shù)據(jù)采集模塊分為存儲層、功能層和應用層。
數(shù)據(jù)采集的存儲層主要包括元數(shù)據(jù)存儲、業(yè)務數(shù)據(jù)存儲,其中業(yè)務數(shù)據(jù)存儲就是開發(fā)平臺中數(shù)據(jù)接口。按操作方式分可以分為手工數(shù)據(jù)獲取與系統(tǒng)數(shù)據(jù)獲取。從系統(tǒng)工具中獲取元數(shù)據(jù),包括ETL工具與BI工具,主要是獲取ETL工具中的數(shù)據(jù)抽取業(yè)務邏輯與BI工具中的權限與應用元數(shù)據(jù)。應用層主要包括的數(shù)據(jù)采集的設置管理功能、數(shù)據(jù)填報功能、數(shù)據(jù)導入功能、數(shù)據(jù)基本規(guī)范檢查功能與數(shù)據(jù)采集功能提醒功能。
(4)ETL調度管理模塊。該模塊為數(shù)據(jù)的ETL流程提供管理基礎,同時為數(shù)據(jù)倉庫的監(jiān)控提供服務接口。主要進行調度設置,設置各腳本執(zhí)行的先后順序、執(zhí)行時間、執(zhí)行周期,以及各腳本之間的依賴關系。記錄腳本執(zhí)行情況(開始、結束),腳本的出錯記錄等。該模塊分為獲取層、存儲層、功能層和應用層。
(5)數(shù)據(jù)倉庫監(jiān)控模塊。該模塊為數(shù)據(jù)倉庫的運行狀態(tài)監(jiān)控程序,對當前數(shù)據(jù)倉庫的數(shù)據(jù)量、數(shù)據(jù)增量、磁盤容量、磁盤占用量、CPU與內存的使用率、ETL過程的執(zhí)行時間與執(zhí)行效率等做實時監(jiān)控,也包括對監(jiān)控的信息處理與總結,以及監(jiān)控信息的知識形成及應用等功能。
(6)數(shù)據(jù)安全管理模塊。該模塊為數(shù)據(jù)倉庫的權限控制中心,其包括數(shù)據(jù)安全與用戶安全兩類,數(shù)據(jù)安全即對存儲在數(shù)據(jù)集市中的數(shù)據(jù)定義行級與列級權限,用戶安全即用戶對數(shù)據(jù)集市與用戶的訪問權限,數(shù)據(jù)安全管理是將數(shù)據(jù)權限與用戶權限結合集中管理的模塊,使數(shù)據(jù)倉庫的安全管理與BI平臺無關。
(7)操作幫助管理模塊。該模塊為數(shù)據(jù)倉庫平臺的知識管理模塊,其包括應用操作幫助、業(yè)務知識學習、數(shù)據(jù)來源追蹤等,操作幫助管理模塊需求元數(shù)據(jù)的接口支持。
2.3集成訪問門戶設計
主要包括WEB、認證、安全、門戶四方面的服務,提供HTTP Web服務、門戶的用戶登錄、用戶認證、門戶Web應用、并提交用戶層請求到中間展示層,對用戶實施安全策略,為用戶管理報表、查詢文檔,提供個性化定制等。
隨著高校信息系統(tǒng)信息資源的不斷豐富,數(shù)據(jù)倉庫技術在信息管理中的作用會越來越大,它將使高校管理信息系統(tǒng)的信息服務能力、決策支持能力得到進一步增強[3],為高校的信息化管理做出更大的貢獻。
參考文獻:
[1]錢毅.數(shù)據(jù)倉庫在檔案信息管理中的應用[J].北京檔案,2006(04).
[2]李潔,楊金會.滕振芳數(shù)據(jù)倉庫及數(shù)據(jù)挖掘技術在超市中的應用[J].煤炭技術,2012(02).
[3]顧瑞,盧加元.數(shù)據(jù)倉庫技術在檔案資源整合中的應用[J].蘭臺世界,2012(02).