隨著國家《文化產(chǎn)業(yè)發(fā)展綱要》的發(fā)布和出版單位改制進(jìn)程的加速,各出版單位信息化建設(shè)也開始從局部信息化向 “編、印、發(fā)、財”同平臺、一體化的出版ERP系統(tǒng)升級換代。同時,有實力的出版社還著手引進(jìn)上線OA協(xié)同辦公系統(tǒng)和數(shù)字出版加工系統(tǒng),在打造業(yè)務(wù)數(shù)字化管理平臺的同時建設(shè)行政網(wǎng)絡(luò)辦公平臺。門戶網(wǎng)站也開始升級改造,增加電子書在線銷售和紙質(zhì)書網(wǎng)上發(fā)行功能。“一網(wǎng)兩平臺,多系統(tǒng)建設(shè)”成了許多出版單位信息化建設(shè)的最新目標(biāo)。
但是,各出版單位局部信息化系統(tǒng)的增加,使得各系統(tǒng)之間不能共享和流通,嚴(yán)重影響了“一網(wǎng)兩平臺”的應(yīng)用性能。原因在于建設(shè)方案忽視了信息化建設(shè)中的另一項重要內(nèi)容:企業(yè)應(yīng)用集成(EAI)。
EAI是通過建立《數(shù)據(jù)交換平臺》來聯(lián)系橫貫整個出版社的異構(gòu)系統(tǒng)、應(yīng)用、數(shù)據(jù)源等,完成在出版社內(nèi)部的ERP、財務(wù)管理、OA、數(shù)字出版系統(tǒng)、網(wǎng)站系統(tǒng)以及其它重要的內(nèi)部系統(tǒng)之間共享和無縫地交換數(shù)據(jù)。數(shù)據(jù)集成則是企業(yè)應(yīng)用集成的重要環(huán)節(jié),出版社實現(xiàn)數(shù)據(jù)集成,可以使更多的人更充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動和相應(yīng)費(fèi)用,提高信息平臺的管理效能。
山東出版集團(tuán)建設(shè)基于WEB平臺的出版業(yè)務(wù)綜合管理平臺時,引進(jìn)了系統(tǒng)集成商。集成商采用.NTE技術(shù)結(jié)合IBM的ETL工具,推陳出新定制開發(fā)了數(shù)據(jù)倉庫系統(tǒng),支持整個平臺各異構(gòu)系統(tǒng)之間的數(shù)據(jù)集成。該系統(tǒng)運(yùn)行三年來,穩(wěn)定性和安全性都比較高,問題是每當(dāng)增加新的集成任務(wù),都需要集成商安排專人修改程序,重新進(jìn)行調(diào)試和部署安裝,擴(kuò)展性較差。
2007年,《平章數(shù)據(jù)交換中心系統(tǒng)2.0》首次將企業(yè)應(yīng)用集成產(chǎn)品化,沿襲了ETL是企業(yè)數(shù)據(jù)集成的主要解決方案的理念,同時開發(fā)了用于集成任務(wù)擴(kuò)展的系統(tǒng)設(shè)置模塊、調(diào)度引擎和消息引擎。
ETL中三個字母分別代表Extract、Transform、Load,即抽取、轉(zhuǎn)換、加載。數(shù)據(jù)抽取,從源數(shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換,將從源數(shù)據(jù)源系統(tǒng)獲取的數(shù)據(jù)按照業(yè)務(wù)需求轉(zhuǎn)換成目的數(shù)據(jù)源系統(tǒng)要求的形式,并對錯誤、不一致的數(shù)據(jù)進(jìn)行清洗和加工;數(shù)據(jù)加載,將轉(zhuǎn)換后的數(shù)據(jù)裝載到目的數(shù)據(jù)源。
ETL原本是作為構(gòu)建數(shù)據(jù)倉庫的一個環(huán)節(jié),負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),如關(guān)系數(shù)據(jù)平面數(shù)據(jù)文件等抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。在《平章數(shù)據(jù)交換中心系統(tǒng)2.0》中,則將ETL應(yīng)用于各分散系統(tǒng)、分散平臺之間的數(shù)據(jù)遷移、數(shù)據(jù)交換和數(shù)據(jù)同步。其工作體系圖如下:

數(shù)據(jù)抽取支持全表和增量抽取;數(shù)據(jù)清洗可以針對各個系統(tǒng)的各個環(huán)節(jié)可能出現(xiàn)的數(shù)據(jù)二義性、重復(fù)、不完整和違反業(yè)務(wù)規(guī)則等問題先行試抽取,將有問題的記錄先剔除出來,根據(jù)實際情況再做相應(yīng)的清洗調(diào)整操作;數(shù)據(jù)轉(zhuǎn)換,支持在ETL引擎中轉(zhuǎn)換和直接使用SQL語句進(jìn)行轉(zhuǎn)換兩種方式,可以針對數(shù)據(jù)交換中心數(shù)據(jù)庫建立的模型,通過一系列的轉(zhuǎn)換來實現(xiàn)將數(shù)據(jù)從業(yè)務(wù)模型到分析模型,通過內(nèi)建的庫函數(shù)、自定義腳本或其他的擴(kuò)展方式,實現(xiàn)了各種復(fù)雜的轉(zhuǎn)換,并且支持調(diào)試環(huán)境,清楚地監(jiān)控數(shù)據(jù)轉(zhuǎn)換的狀態(tài);數(shù)據(jù)裝載也同樣支持SQL語句裝載和批量工具裝載。兩者的區(qū)別在于前者裝載時進(jìn)行了日志記錄,裝載內(nèi)容可恢復(fù),后者易于使用,并且在裝入大量數(shù)據(jù)時效率較高。
為提高交換效率和解決負(fù)載均衡,系統(tǒng)設(shè)計有專門的任務(wù)調(diào)度工作引擎。用以管理數(shù)千個來自不同系統(tǒng)的數(shù)據(jù)交換任務(wù),可以順序排隊,亦可優(yōu)先處理,或者按照更高級的組合策略進(jìn)行。任務(wù)完成情況則通過消息引擎及時反饋、記錄,便于用戶觀測。
系統(tǒng)最為核心的模塊是集成擴(kuò)展模塊。當(dāng)原有集成平臺有新系統(tǒng)增加或需要增加新的集成任務(wù)時,技術(shù)人員只需要按照需求編寫ETL任務(wù)包,并打上規(guī)則標(biāo)簽,通過窗口加載。而企業(yè)人員只需要按照需要定義好任務(wù)執(zhí)行策略,交調(diào)度工作引擎模塊管理即可。
系統(tǒng)采用微軟.NET技術(shù)+SQL2008開發(fā),B/S架構(gòu),目前用于安徽省出版集團(tuán)、廣東省出版集團(tuán)、中國電力出版社有限責(zé)任公司、中國鐵道出版社、黨建讀物出版社等多家出版單位。很好地實現(xiàn)了各單位“一網(wǎng)兩平臺、多系統(tǒng)”的企業(yè)應(yīng)用集成。與傳統(tǒng)的接口程序方式完成相比,采用《平章數(shù)據(jù)交換中心》系統(tǒng)完成應(yīng)用集成,不僅可減少硬件投入,同時保障了整個企業(yè)應(yīng)用集成的安全性、可擴(kuò)展性。
(作者單位系北京平章科技發(fā)展有限責(zé)任公司)