方靜
檔案是一種重要的信息資源,由于目前我國的檔案資源具比較分散,數據的量也和大,檔案的保存形式多種多樣,這樣我國的目前的檔案信息管理的一指比較落后。目前的的數據倉庫技術,可以實對大量的數據驚醒有效的管理和保存,并對數據進行綜合分析管理,挖掘信息的潛在的巨大價值,本文以學生檔案黨員管理為例,詳解如何運用數據挖掘技術來建立數據倉庫,研究并且制定了數據倉庫模型,通過Microsoft SQL Server Integration Services 完成ETL過程并建立數據倉庫。
【關鍵詞】檔安 管理系統 數據倉庫
在現階段,各種檔案管理系統主要是采取交易的方式,主要功能是檢索和統計。后期的數據是沒有任何進一步的開發和利用,隨著數據的積累,數據的的丟失情況會越來越嚴重,而且產生了巨額的維護和維修費用,而且容易造成數據丟失更嚴重。為了更好地利用現有的信息和數據檔案,充分反映這些數據的價值,這些數據被充分挖掘隱性知識,并進一步利用已迫在眉睫。數據庫技術現在已經無法達到完成這個任務,要想對數據進行深入分析,充分發揮技術資料的作用,就要建立數據倉庫,來對數據進行深入的挖掘和處理。采用數據挖掘技術技術,不僅能大大的提高檔案的安全性,而且也使檔案保存更加方便快捷。隨著計算機技術的發展,數據存儲量也快速增長,如何才能從這些隨機的,不完整的,模糊的數據中提取隱含的數據的,數據挖掘技術就能做到。
現以學生黨員檔案管理系統為例,建立數據倉庫,來詳細講解應用數據挖掘技術,如何來建立數據倉庫。
1 學生黨員的管理系統,主要是從以下幾個方面逐步實現
首先,由學校組織,進行基層組織調研,分析學生黨員的基本情況,然后取得的一部分的實際數據,對現有的數據庫表進行分析,以了解該每個字段的意義和作用,進行需求分析和專題設計。接下來從數據庫表結構有用的字段中,選擇合理的事字段信息和三維數據。最后通過數據轉換服務來構建數據倉庫,通過SQL Server2005中分析服務器配置工具來配置基于多維的數據集,在這個過程中,數據處理的過程主要是通過微軟的OLAP功能,通過SQL Server7.0中將數據整合進去,接口的可以選擇OLAP的COM的接口,并通過一系列的服務給數據倉庫的應用提供程序支持,開發人員可以使用Vc或其他語言開發用戶前端客戶端,數據透視表服務還允許在客戶在本地上傳地存儲的數據。MMC提供調度、存儲管理、監控、報警和核心管理服務的功能。在本設計中,我們使用SQL Server 2010作為數據倉庫,可以采用Access和Excel可以作為數據展現工具,除了SQL Server還支持第三方數據展現工具。
2 在數據倉庫的設計階段,我們從以下幾個方面來入手
2.1 確定事實表
事實表分為學生黨員目錄信息表,黨員情況登記表,黨員接收情況登記表表,學生黨員注銷登記表等內容,其中黨員的目錄表根據類別,時間等其他情況又可以具體的細分為若干個表格。
2.2 明確事實表的分割方法
我們的檔案資料,例如,最常見的方式是采用全宗劃分,這樣首先將全年的檔案按年度來劃分,一年內的檔案按檔案形成的部門或檔案使用的單位來進行劃分,在這種劃分條件下,檔案庫中的檔案是按以年度的方式的存放的,一般情況下一個單位的檔案文檔有幾十到幾百卷,一年中卷的文件目錄的記錄條數大概有幾千到幾萬條,這樣我們在數據倉庫中儲存這些數據時,就可以以年度的方式來存儲,在對存儲的數據進行數據挖掘時,就可以只通過年度來進行處理,這樣就提高了處理數據的濕度,對數據在進行更新,添加或刪除等操作時,可以更加方便快捷。
2.3 事實表數據的添加、修改和刪除
事實表里面的數據還應該具備追加、刪除、修改等綜合處理功能,在對數據倉庫更新操作中,添加和刪除數據是一個經常性的工作,這些操作使數據倉庫的質量得到可靠地保證。在進行添加操作時,首先要確保數據倉庫中的數據那些是新的,一般情況下可使用通過時間來進行判斷。刪除操作相對簡單,使用起來也更加普遍,只要通過一些搜索語句就可以實現。數據倉庫中的操作做中,修改數據的功能用的比較少,在修改過程中,應當注意表和其他數據之間的關聯性,保證數據的完整性,注意處理表和表之間的關系。在數據倉庫,在基礎數據的上會形成一些綜合性的數據,在對基礎數據進行操作之后,綜合數據也會產生變化,所以對基礎數據進行添加、修改和刪除等操作之后,對響應的綜合數據也要進行對應的修改,以維持綜合數據的準確性和一致性。
2.4 數據倉庫中維的確定及建立,維是同類數據的集合
維的層次結構很清晰,我們可以很容易地指定規則對數據進行運算,在維內,它的層次結構也是很有順序的,利用維的這種特點,我們在對數據倉庫進行數據挖掘的時候,可以很明顯的提高數據挖掘的速度,質量也能得到大大的提高。以檔案數據倉庫為例,我們可以以文件編號,借閱單位,檔案的文類號這三者建立一個三維立方體,要改變三維立體方的大小,就可以通過上卷或者是下鉆的方式,要顯示三維立體方的一面,就可以通過切邊操作來進行。
完成了以上步驟,就可以著手構建數據倉庫,收集和分析有關具體操作的基礎上來構建數據倉庫的模型,基于該模型的試運行情況,來完善設計方案,然后進入到數據倉庫的物理設計階段,在進行物理設計的時候,要注意選擇安全可靠的硬件平臺環境。
參 考 文 獻
[1]S.Sarawagi,M.Stonebraker.Effieient Organization of Large.
Multidimensional In Proc.of ICDE[J].ACM Record,1994(5):207-208.
[2]http://baike.baidu.com/view/69207.html.
[3]中科永聯高級技術培訓中心,www.itisedu.com.
[4]Oracle.Oracle Warehouse Builder Transformation Guidel0g(10.2)[M].oracle,2005(08).
[5]數據倉庫之路,http://www.dwway.com/html/06/n-4006.html.
[6]Oracle.Oracle 9i/SQL Reference(9.2)[M].Oracle,2002(03).
作者單位
長江大學工程技術學院 實驗實訓中心 湖北省荊州市 434020endprint