999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ETL的快速數(shù)據(jù)在線比對(duì)設(shè)計(jì)

2014-06-26 20:43:11湯蕾蕾
新媒體研究 2014年10期

湯蕾蕾

摘 要 在大量業(yè)務(wù)型的數(shù)據(jù)倉(cāng)庫(kù)中,存在海量數(shù)據(jù)比對(duì)碰撞的問(wèn)題,如何通過(guò)海量數(shù)據(jù)的比對(duì)碰撞,發(fā)現(xiàn)目標(biāo)結(jié)構(gòu)是當(dāng)前數(shù)據(jù)倉(cāng)庫(kù)中面臨的一個(gè)嚴(yán)峻的現(xiàn)實(shí)問(wèn)題。在許多系統(tǒng)中,通過(guò)消息隊(duì)列的形式進(jìn)行比對(duì)碰撞的實(shí)現(xiàn)。在本文中,我們通過(guò)ETL的方式在抽取的同時(shí)結(jié)合XML的配置完成比對(duì)模塊的直接運(yùn)行。通過(guò)ETL的同時(shí)進(jìn)行比對(duì),達(dá)到數(shù)據(jù)比對(duì)的最大效率,在進(jìn)庫(kù)的同時(shí)就進(jìn)行數(shù)據(jù)的比對(duì)碰撞,及時(shí)的獲取比對(duì)結(jié)果信息。

關(guān)鍵詞 ETL;數(shù)據(jù)比對(duì);XML;數(shù)據(jù)抽取

中圖分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-7597(2014)10-0068-02

1 WEB技術(shù)設(shè)計(jì)

數(shù)據(jù)比對(duì)WEB部分包含兩塊功能,

1)提供界面對(duì)需要參與在線輯控的數(shù)據(jù)源庫(kù)和目標(biāo)庫(kù)已經(jīng)需要相關(guān)的條件進(jìn)行設(shè)置。

2)對(duì)ETL任務(wù)的運(yùn)行時(shí)間參數(shù)和啟、停進(jìn)行設(shè)置。

其中在線輯控的對(duì)需要進(jìn)行輯控的數(shù)據(jù)源庫(kù)和目標(biāo)庫(kù)進(jìn)行設(shè)置將仍然采用XML配置文件方式,如圖1。

說(shuō)明:

basesql字段,為比對(duì)結(jié)果表中固化的字段,如比對(duì)的結(jié)果是人的信息,那么必須有身份證、姓名、性別等,如果是是車輛的話必須有車牌號(hào)碼,車輛名稱等信息。對(duì)于產(chǎn)生這條比對(duì)結(jié)果信息的源庫(kù)和目標(biāo)庫(kù)的信息ID也將保存。

resultsql字段為比對(duì)結(jié)果表中保存的希望關(guān)注源庫(kù)中的一些字段的信息,將會(huì)保存到比對(duì)結(jié)果表的一個(gè)clob字段中。

WEB方面負(fù)責(zé)提供界面供用戶選擇需要進(jìn)行關(guān)注的庫(kù)和相關(guān)的字段,保存后生成對(duì)應(yīng)的sql語(yǔ)句形成一個(gè)在線輯控任務(wù)。用戶可以對(duì)這個(gè)在線輯控任務(wù)進(jìn)行啟動(dòng)、停止設(shè)置。

對(duì)ETL抽取任務(wù)的控制:

ETL的抽取任務(wù)有數(shù)據(jù)組在設(shè)計(jì)、測(cè)試完成后,在數(shù)據(jù)庫(kù)中設(shè)置需要定時(shí)執(zhí)行的任務(wù)屬性,其中設(shè)置定時(shí)執(zhí)行的參數(shù)是保存在一張表中,這張表和字段必須固化下來(lái)。

WEB端提供UI接口供用戶管理ETL任務(wù)的啟動(dòng)、停止,以及相關(guān)的任務(wù)執(zhí)行時(shí)間等參數(shù)的設(shè)定,并且提供任務(wù)的上次運(yùn)行時(shí)間等信息。

對(duì)ETL抽取和比對(duì)過(guò)程中日志控制:

ETL的抽取和比對(duì)過(guò)程需要產(chǎn)生日志,替代現(xiàn)在后臺(tái)采用文件方式保存的日志。

其中ETL日志表需要數(shù)據(jù)組固化表名和字段名;

比對(duì)過(guò)程的日志需要數(shù)據(jù)組固化另外一張表名和字段名;

整體,采用ETL抽取完成后直接執(zhí)行比對(duì)操作,將替代現(xiàn)在后臺(tái)中執(zhí)行的定時(shí)調(diào)度任務(wù),

但定時(shí)調(diào)度對(duì)某些操作任然需要,如案件串并中的查詢,所以這里考慮仍然保留這個(gè)功能。

2 ETL技術(shù)設(shè)計(jì)

此次ETL架構(gòu)主要為了滿足動(dòng)態(tài)數(shù)據(jù)驗(yàn)證,實(shí)現(xiàn)數(shù)據(jù)比對(duì)功能,由前臺(tái)WEB頁(yè)面控制調(diào)度平率等相關(guān)要求而設(shè)計(jì)。(圖2)

1)判斷是否抽取。

設(shè)置標(biāo)志位確認(rèn)數(shù)據(jù)流狀態(tài),當(dāng)數(shù)據(jù)流處于運(yùn)行狀態(tài),那么數(shù)據(jù)流將停止,等待下次運(yùn)行時(shí)間后再次運(yùn)行。

2)加載抽取數(shù)據(jù)。

更具時(shí)間戳判斷,將需要抽取的數(shù)據(jù)加載到TEMP表中,由于使用TEMP表將會(huì)大大提高抽取效率。等加載完后,數(shù)據(jù)抽取的事情基本上已經(jīng)完成,此時(shí)已經(jīng)和源數(shù)據(jù)庫(kù)庫(kù)沒(méi)有任何關(guān)系了。

3)數(shù)據(jù)量計(jì)算。

計(jì)算當(dāng)前批次抽取數(shù)據(jù)總量、更新數(shù)據(jù)總量、數(shù)據(jù)插入總量、數(shù)據(jù)刪除總量。由此來(lái)證明數(shù)據(jù)抽取情況。

4)數(shù)據(jù)驗(yàn)證。

更具前臺(tái)頁(yè)面設(shè)置對(duì)應(yīng)的參數(shù)進(jìn)行數(shù)據(jù)驗(yàn)證,此數(shù)據(jù)驗(yàn)證是逐一驗(yàn)證的方式。所以效率并不是很高。

5)數(shù)據(jù)轉(zhuǎn)換。

更具業(yè)務(wù)要求,將數(shù)據(jù)轉(zhuǎn)換成系統(tǒng)的數(shù)據(jù)。主要是字典表轉(zhuǎn)換。

6)數(shù)據(jù)加載。

將抽取完成的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中。

7)生產(chǎn)新數(shù)據(jù)源。

更具具體業(yè)務(wù)要求,插入到集合數(shù)據(jù)庫(kù)中。

8)判斷比對(duì)任務(wù)。

更具比對(duì)任務(wù)表判斷是否有需要比對(duì)的任務(wù)。

9)獲取比對(duì)項(xiàng)。

循環(huán)獲取比對(duì)項(xiàng)。

10)輸出結(jié)果。

將比對(duì)結(jié)果輸入到比對(duì)結(jié)果表中。

11)第三方擴(kuò)展接口。

開發(fā)第三方組建,例如短信接口。

3 詳細(xì)設(shè)計(jì)

根據(jù)上面的設(shè)計(jì),我們?cè)诖酥饕M(jìn)行詳細(xì)方面的規(guī)劃設(shè)計(jì)。

WEB方面:

1)提供UI列表界面,列出當(dāng)前所有的定義的在線輯控任務(wù)。用戶可以在這個(gè)界面對(duì)在線輯控任務(wù)進(jìn)行啟動(dòng)、停止控制。

2)提供UI編輯界面,根據(jù)配置文件的定義,提供選擇兩個(gè)庫(kù)進(jìn)行比對(duì)的設(shè)置,并根據(jù)設(shè)置提供兩個(gè)庫(kù)中哪些字段進(jìn)行比對(duì)的設(shè)置。在用戶保存后將生成SQL語(yǔ)句保存成一個(gè)在線輯控的任務(wù)。用戶可以在后期對(duì)這個(gè)任務(wù)進(jìn)行修改,修改的內(nèi)容主要是比對(duì)的設(shè)置。默認(rèn)對(duì)于新建立的在線輯控任務(wù)是設(shè)置為活動(dòng)狀態(tài)。

3)提供UI列表界面,列出所有定義的ETL抽取任務(wù)。用戶可以在這個(gè)界面對(duì)ETL抽取任務(wù)進(jìn)行啟動(dòng)、停止控制。

4)提供UI編輯界面,編輯ETL抽取任務(wù)的時(shí)間定義。

5)另外針對(duì)某些操作如案件串并中的案件查詢?nèi)匀恍枰〞r(shí)去執(zhí)行查詢工作,所以這里將實(shí)現(xiàn)一個(gè)獨(dú)立運(yùn)行的服務(wù),已jar 包和腳本配合的形式運(yùn)行在后臺(tái)。定時(shí)執(zhí)行任務(wù)。

6)需要固化的表:

比對(duì)信息結(jié)果表和相關(guān)關(guān)聯(lián)信息字段的保存形式;

ETL抽取任務(wù)表和相關(guān)控制字段的含義;

ETL抽取日志表;

ETL比對(duì)日志表。

4 總結(jié)

本文通過(guò)這種ETL結(jié)合WEB端XML的配置方式,將海量數(shù)據(jù)在線比對(duì)的功能和數(shù)據(jù)抽取集成在一起,通過(guò)前臺(tái)靈活地信息配置,將ETL和比對(duì)抽取配置結(jié)合在一起,實(shí)現(xiàn)數(shù)據(jù)抽取時(shí)靈活地?cái)?shù)據(jù)碰撞和數(shù)據(jù)比對(duì)的功能。大大提升了數(shù)據(jù)比對(duì)的效率和數(shù)據(jù)比對(duì)的靈活度。

參考文獻(xiàn)

[1]Valiant L G.A bridging model for parallel computation[J].Communications of the ACM,1997,33(8):103-111.

[2]盛憲鋒,孫健英,焦文彬.基于數(shù)據(jù)生命周期管理的ARP系統(tǒng)優(yōu)化設(shè)計(jì)[J].計(jì)算機(jī)工程與科學(xué),2011.endprint

摘 要 在大量業(yè)務(wù)型的數(shù)據(jù)倉(cāng)庫(kù)中,存在海量數(shù)據(jù)比對(duì)碰撞的問(wèn)題,如何通過(guò)海量數(shù)據(jù)的比對(duì)碰撞,發(fā)現(xiàn)目標(biāo)結(jié)構(gòu)是當(dāng)前數(shù)據(jù)倉(cāng)庫(kù)中面臨的一個(gè)嚴(yán)峻的現(xiàn)實(shí)問(wèn)題。在許多系統(tǒng)中,通過(guò)消息隊(duì)列的形式進(jìn)行比對(duì)碰撞的實(shí)現(xiàn)。在本文中,我們通過(guò)ETL的方式在抽取的同時(shí)結(jié)合XML的配置完成比對(duì)模塊的直接運(yùn)行。通過(guò)ETL的同時(shí)進(jìn)行比對(duì),達(dá)到數(shù)據(jù)比對(duì)的最大效率,在進(jìn)庫(kù)的同時(shí)就進(jìn)行數(shù)據(jù)的比對(duì)碰撞,及時(shí)的獲取比對(duì)結(jié)果信息。

關(guān)鍵詞 ETL;數(shù)據(jù)比對(duì);XML;數(shù)據(jù)抽取

中圖分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-7597(2014)10-0068-02

1 WEB技術(shù)設(shè)計(jì)

數(shù)據(jù)比對(duì)WEB部分包含兩塊功能,

1)提供界面對(duì)需要參與在線輯控的數(shù)據(jù)源庫(kù)和目標(biāo)庫(kù)已經(jīng)需要相關(guān)的條件進(jìn)行設(shè)置。

2)對(duì)ETL任務(wù)的運(yùn)行時(shí)間參數(shù)和啟、停進(jìn)行設(shè)置。

其中在線輯控的對(duì)需要進(jìn)行輯控的數(shù)據(jù)源庫(kù)和目標(biāo)庫(kù)進(jìn)行設(shè)置將仍然采用XML配置文件方式,如圖1。

說(shuō)明:

basesql字段,為比對(duì)結(jié)果表中固化的字段,如比對(duì)的結(jié)果是人的信息,那么必須有身份證、姓名、性別等,如果是是車輛的話必須有車牌號(hào)碼,車輛名稱等信息。對(duì)于產(chǎn)生這條比對(duì)結(jié)果信息的源庫(kù)和目標(biāo)庫(kù)的信息ID也將保存。

resultsql字段為比對(duì)結(jié)果表中保存的希望關(guān)注源庫(kù)中的一些字段的信息,將會(huì)保存到比對(duì)結(jié)果表的一個(gè)clob字段中。

WEB方面負(fù)責(zé)提供界面供用戶選擇需要進(jìn)行關(guān)注的庫(kù)和相關(guān)的字段,保存后生成對(duì)應(yīng)的sql語(yǔ)句形成一個(gè)在線輯控任務(wù)。用戶可以對(duì)這個(gè)在線輯控任務(wù)進(jìn)行啟動(dòng)、停止設(shè)置。

對(duì)ETL抽取任務(wù)的控制:

ETL的抽取任務(wù)有數(shù)據(jù)組在設(shè)計(jì)、測(cè)試完成后,在數(shù)據(jù)庫(kù)中設(shè)置需要定時(shí)執(zhí)行的任務(wù)屬性,其中設(shè)置定時(shí)執(zhí)行的參數(shù)是保存在一張表中,這張表和字段必須固化下來(lái)。

WEB端提供UI接口供用戶管理ETL任務(wù)的啟動(dòng)、停止,以及相關(guān)的任務(wù)執(zhí)行時(shí)間等參數(shù)的設(shè)定,并且提供任務(wù)的上次運(yùn)行時(shí)間等信息。

對(duì)ETL抽取和比對(duì)過(guò)程中日志控制:

ETL的抽取和比對(duì)過(guò)程需要產(chǎn)生日志,替代現(xiàn)在后臺(tái)采用文件方式保存的日志。

其中ETL日志表需要數(shù)據(jù)組固化表名和字段名;

比對(duì)過(guò)程的日志需要數(shù)據(jù)組固化另外一張表名和字段名;

整體,采用ETL抽取完成后直接執(zhí)行比對(duì)操作,將替代現(xiàn)在后臺(tái)中執(zhí)行的定時(shí)調(diào)度任務(wù),

但定時(shí)調(diào)度對(duì)某些操作任然需要,如案件串并中的查詢,所以這里考慮仍然保留這個(gè)功能。

2 ETL技術(shù)設(shè)計(jì)

此次ETL架構(gòu)主要為了滿足動(dòng)態(tài)數(shù)據(jù)驗(yàn)證,實(shí)現(xiàn)數(shù)據(jù)比對(duì)功能,由前臺(tái)WEB頁(yè)面控制調(diào)度平率等相關(guān)要求而設(shè)計(jì)。(圖2)

1)判斷是否抽取。

設(shè)置標(biāo)志位確認(rèn)數(shù)據(jù)流狀態(tài),當(dāng)數(shù)據(jù)流處于運(yùn)行狀態(tài),那么數(shù)據(jù)流將停止,等待下次運(yùn)行時(shí)間后再次運(yùn)行。

2)加載抽取數(shù)據(jù)。

更具時(shí)間戳判斷,將需要抽取的數(shù)據(jù)加載到TEMP表中,由于使用TEMP表將會(huì)大大提高抽取效率。等加載完后,數(shù)據(jù)抽取的事情基本上已經(jīng)完成,此時(shí)已經(jīng)和源數(shù)據(jù)庫(kù)庫(kù)沒(méi)有任何關(guān)系了。

3)數(shù)據(jù)量計(jì)算。

計(jì)算當(dāng)前批次抽取數(shù)據(jù)總量、更新數(shù)據(jù)總量、數(shù)據(jù)插入總量、數(shù)據(jù)刪除總量。由此來(lái)證明數(shù)據(jù)抽取情況。

4)數(shù)據(jù)驗(yàn)證。

更具前臺(tái)頁(yè)面設(shè)置對(duì)應(yīng)的參數(shù)進(jìn)行數(shù)據(jù)驗(yàn)證,此數(shù)據(jù)驗(yàn)證是逐一驗(yàn)證的方式。所以效率并不是很高。

5)數(shù)據(jù)轉(zhuǎn)換。

更具業(yè)務(wù)要求,將數(shù)據(jù)轉(zhuǎn)換成系統(tǒng)的數(shù)據(jù)。主要是字典表轉(zhuǎn)換。

6)數(shù)據(jù)加載。

將抽取完成的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中。

7)生產(chǎn)新數(shù)據(jù)源。

更具具體業(yè)務(wù)要求,插入到集合數(shù)據(jù)庫(kù)中。

8)判斷比對(duì)任務(wù)。

更具比對(duì)任務(wù)表判斷是否有需要比對(duì)的任務(wù)。

9)獲取比對(duì)項(xiàng)。

循環(huán)獲取比對(duì)項(xiàng)。

10)輸出結(jié)果。

將比對(duì)結(jié)果輸入到比對(duì)結(jié)果表中。

11)第三方擴(kuò)展接口。

開發(fā)第三方組建,例如短信接口。

3 詳細(xì)設(shè)計(jì)

根據(jù)上面的設(shè)計(jì),我們?cè)诖酥饕M(jìn)行詳細(xì)方面的規(guī)劃設(shè)計(jì)。

WEB方面:

1)提供UI列表界面,列出當(dāng)前所有的定義的在線輯控任務(wù)。用戶可以在這個(gè)界面對(duì)在線輯控任務(wù)進(jìn)行啟動(dòng)、停止控制。

2)提供UI編輯界面,根據(jù)配置文件的定義,提供選擇兩個(gè)庫(kù)進(jìn)行比對(duì)的設(shè)置,并根據(jù)設(shè)置提供兩個(gè)庫(kù)中哪些字段進(jìn)行比對(duì)的設(shè)置。在用戶保存后將生成SQL語(yǔ)句保存成一個(gè)在線輯控的任務(wù)。用戶可以在后期對(duì)這個(gè)任務(wù)進(jìn)行修改,修改的內(nèi)容主要是比對(duì)的設(shè)置。默認(rèn)對(duì)于新建立的在線輯控任務(wù)是設(shè)置為活動(dòng)狀態(tài)。

3)提供UI列表界面,列出所有定義的ETL抽取任務(wù)。用戶可以在這個(gè)界面對(duì)ETL抽取任務(wù)進(jìn)行啟動(dòng)、停止控制。

4)提供UI編輯界面,編輯ETL抽取任務(wù)的時(shí)間定義。

5)另外針對(duì)某些操作如案件串并中的案件查詢?nèi)匀恍枰〞r(shí)去執(zhí)行查詢工作,所以這里將實(shí)現(xiàn)一個(gè)獨(dú)立運(yùn)行的服務(wù),已jar 包和腳本配合的形式運(yùn)行在后臺(tái)。定時(shí)執(zhí)行任務(wù)。

6)需要固化的表:

比對(duì)信息結(jié)果表和相關(guān)關(guān)聯(lián)信息字段的保存形式;

ETL抽取任務(wù)表和相關(guān)控制字段的含義;

ETL抽取日志表;

ETL比對(duì)日志表。

4 總結(jié)

本文通過(guò)這種ETL結(jié)合WEB端XML的配置方式,將海量數(shù)據(jù)在線比對(duì)的功能和數(shù)據(jù)抽取集成在一起,通過(guò)前臺(tái)靈活地信息配置,將ETL和比對(duì)抽取配置結(jié)合在一起,實(shí)現(xiàn)數(shù)據(jù)抽取時(shí)靈活地?cái)?shù)據(jù)碰撞和數(shù)據(jù)比對(duì)的功能。大大提升了數(shù)據(jù)比對(duì)的效率和數(shù)據(jù)比對(duì)的靈活度。

參考文獻(xiàn)

[1]Valiant L G.A bridging model for parallel computation[J].Communications of the ACM,1997,33(8):103-111.

[2]盛憲鋒,孫健英,焦文彬.基于數(shù)據(jù)生命周期管理的ARP系統(tǒng)優(yōu)化設(shè)計(jì)[J].計(jì)算機(jī)工程與科學(xué),2011.endprint

摘 要 在大量業(yè)務(wù)型的數(shù)據(jù)倉(cāng)庫(kù)中,存在海量數(shù)據(jù)比對(duì)碰撞的問(wèn)題,如何通過(guò)海量數(shù)據(jù)的比對(duì)碰撞,發(fā)現(xiàn)目標(biāo)結(jié)構(gòu)是當(dāng)前數(shù)據(jù)倉(cāng)庫(kù)中面臨的一個(gè)嚴(yán)峻的現(xiàn)實(shí)問(wèn)題。在許多系統(tǒng)中,通過(guò)消息隊(duì)列的形式進(jìn)行比對(duì)碰撞的實(shí)現(xiàn)。在本文中,我們通過(guò)ETL的方式在抽取的同時(shí)結(jié)合XML的配置完成比對(duì)模塊的直接運(yùn)行。通過(guò)ETL的同時(shí)進(jìn)行比對(duì),達(dá)到數(shù)據(jù)比對(duì)的最大效率,在進(jìn)庫(kù)的同時(shí)就進(jìn)行數(shù)據(jù)的比對(duì)碰撞,及時(shí)的獲取比對(duì)結(jié)果信息。

關(guān)鍵詞 ETL;數(shù)據(jù)比對(duì);XML;數(shù)據(jù)抽取

中圖分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-7597(2014)10-0068-02

1 WEB技術(shù)設(shè)計(jì)

數(shù)據(jù)比對(duì)WEB部分包含兩塊功能,

1)提供界面對(duì)需要參與在線輯控的數(shù)據(jù)源庫(kù)和目標(biāo)庫(kù)已經(jīng)需要相關(guān)的條件進(jìn)行設(shè)置。

2)對(duì)ETL任務(wù)的運(yùn)行時(shí)間參數(shù)和啟、停進(jìn)行設(shè)置。

其中在線輯控的對(duì)需要進(jìn)行輯控的數(shù)據(jù)源庫(kù)和目標(biāo)庫(kù)進(jìn)行設(shè)置將仍然采用XML配置文件方式,如圖1。

說(shuō)明:

basesql字段,為比對(duì)結(jié)果表中固化的字段,如比對(duì)的結(jié)果是人的信息,那么必須有身份證、姓名、性別等,如果是是車輛的話必須有車牌號(hào)碼,車輛名稱等信息。對(duì)于產(chǎn)生這條比對(duì)結(jié)果信息的源庫(kù)和目標(biāo)庫(kù)的信息ID也將保存。

resultsql字段為比對(duì)結(jié)果表中保存的希望關(guān)注源庫(kù)中的一些字段的信息,將會(huì)保存到比對(duì)結(jié)果表的一個(gè)clob字段中。

WEB方面負(fù)責(zé)提供界面供用戶選擇需要進(jìn)行關(guān)注的庫(kù)和相關(guān)的字段,保存后生成對(duì)應(yīng)的sql語(yǔ)句形成一個(gè)在線輯控任務(wù)。用戶可以對(duì)這個(gè)在線輯控任務(wù)進(jìn)行啟動(dòng)、停止設(shè)置。

對(duì)ETL抽取任務(wù)的控制:

ETL的抽取任務(wù)有數(shù)據(jù)組在設(shè)計(jì)、測(cè)試完成后,在數(shù)據(jù)庫(kù)中設(shè)置需要定時(shí)執(zhí)行的任務(wù)屬性,其中設(shè)置定時(shí)執(zhí)行的參數(shù)是保存在一張表中,這張表和字段必須固化下來(lái)。

WEB端提供UI接口供用戶管理ETL任務(wù)的啟動(dòng)、停止,以及相關(guān)的任務(wù)執(zhí)行時(shí)間等參數(shù)的設(shè)定,并且提供任務(wù)的上次運(yùn)行時(shí)間等信息。

對(duì)ETL抽取和比對(duì)過(guò)程中日志控制:

ETL的抽取和比對(duì)過(guò)程需要產(chǎn)生日志,替代現(xiàn)在后臺(tái)采用文件方式保存的日志。

其中ETL日志表需要數(shù)據(jù)組固化表名和字段名;

比對(duì)過(guò)程的日志需要數(shù)據(jù)組固化另外一張表名和字段名;

整體,采用ETL抽取完成后直接執(zhí)行比對(duì)操作,將替代現(xiàn)在后臺(tái)中執(zhí)行的定時(shí)調(diào)度任務(wù),

但定時(shí)調(diào)度對(duì)某些操作任然需要,如案件串并中的查詢,所以這里考慮仍然保留這個(gè)功能。

2 ETL技術(shù)設(shè)計(jì)

此次ETL架構(gòu)主要為了滿足動(dòng)態(tài)數(shù)據(jù)驗(yàn)證,實(shí)現(xiàn)數(shù)據(jù)比對(duì)功能,由前臺(tái)WEB頁(yè)面控制調(diào)度平率等相關(guān)要求而設(shè)計(jì)。(圖2)

1)判斷是否抽取。

設(shè)置標(biāo)志位確認(rèn)數(shù)據(jù)流狀態(tài),當(dāng)數(shù)據(jù)流處于運(yùn)行狀態(tài),那么數(shù)據(jù)流將停止,等待下次運(yùn)行時(shí)間后再次運(yùn)行。

2)加載抽取數(shù)據(jù)。

更具時(shí)間戳判斷,將需要抽取的數(shù)據(jù)加載到TEMP表中,由于使用TEMP表將會(huì)大大提高抽取效率。等加載完后,數(shù)據(jù)抽取的事情基本上已經(jīng)完成,此時(shí)已經(jīng)和源數(shù)據(jù)庫(kù)庫(kù)沒(méi)有任何關(guān)系了。

3)數(shù)據(jù)量計(jì)算。

計(jì)算當(dāng)前批次抽取數(shù)據(jù)總量、更新數(shù)據(jù)總量、數(shù)據(jù)插入總量、數(shù)據(jù)刪除總量。由此來(lái)證明數(shù)據(jù)抽取情況。

4)數(shù)據(jù)驗(yàn)證。

更具前臺(tái)頁(yè)面設(shè)置對(duì)應(yīng)的參數(shù)進(jìn)行數(shù)據(jù)驗(yàn)證,此數(shù)據(jù)驗(yàn)證是逐一驗(yàn)證的方式。所以效率并不是很高。

5)數(shù)據(jù)轉(zhuǎn)換。

更具業(yè)務(wù)要求,將數(shù)據(jù)轉(zhuǎn)換成系統(tǒng)的數(shù)據(jù)。主要是字典表轉(zhuǎn)換。

6)數(shù)據(jù)加載。

將抽取完成的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中。

7)生產(chǎn)新數(shù)據(jù)源。

更具具體業(yè)務(wù)要求,插入到集合數(shù)據(jù)庫(kù)中。

8)判斷比對(duì)任務(wù)。

更具比對(duì)任務(wù)表判斷是否有需要比對(duì)的任務(wù)。

9)獲取比對(duì)項(xiàng)。

循環(huán)獲取比對(duì)項(xiàng)。

10)輸出結(jié)果。

將比對(duì)結(jié)果輸入到比對(duì)結(jié)果表中。

11)第三方擴(kuò)展接口。

開發(fā)第三方組建,例如短信接口。

3 詳細(xì)設(shè)計(jì)

根據(jù)上面的設(shè)計(jì),我們?cè)诖酥饕M(jìn)行詳細(xì)方面的規(guī)劃設(shè)計(jì)。

WEB方面:

1)提供UI列表界面,列出當(dāng)前所有的定義的在線輯控任務(wù)。用戶可以在這個(gè)界面對(duì)在線輯控任務(wù)進(jìn)行啟動(dòng)、停止控制。

2)提供UI編輯界面,根據(jù)配置文件的定義,提供選擇兩個(gè)庫(kù)進(jìn)行比對(duì)的設(shè)置,并根據(jù)設(shè)置提供兩個(gè)庫(kù)中哪些字段進(jìn)行比對(duì)的設(shè)置。在用戶保存后將生成SQL語(yǔ)句保存成一個(gè)在線輯控的任務(wù)。用戶可以在后期對(duì)這個(gè)任務(wù)進(jìn)行修改,修改的內(nèi)容主要是比對(duì)的設(shè)置。默認(rèn)對(duì)于新建立的在線輯控任務(wù)是設(shè)置為活動(dòng)狀態(tài)。

3)提供UI列表界面,列出所有定義的ETL抽取任務(wù)。用戶可以在這個(gè)界面對(duì)ETL抽取任務(wù)進(jìn)行啟動(dòng)、停止控制。

4)提供UI編輯界面,編輯ETL抽取任務(wù)的時(shí)間定義。

5)另外針對(duì)某些操作如案件串并中的案件查詢?nèi)匀恍枰〞r(shí)去執(zhí)行查詢工作,所以這里將實(shí)現(xiàn)一個(gè)獨(dú)立運(yùn)行的服務(wù),已jar 包和腳本配合的形式運(yùn)行在后臺(tái)。定時(shí)執(zhí)行任務(wù)。

6)需要固化的表:

比對(duì)信息結(jié)果表和相關(guān)關(guān)聯(lián)信息字段的保存形式;

ETL抽取任務(wù)表和相關(guān)控制字段的含義;

ETL抽取日志表;

ETL比對(duì)日志表。

4 總結(jié)

本文通過(guò)這種ETL結(jié)合WEB端XML的配置方式,將海量數(shù)據(jù)在線比對(duì)的功能和數(shù)據(jù)抽取集成在一起,通過(guò)前臺(tái)靈活地信息配置,將ETL和比對(duì)抽取配置結(jié)合在一起,實(shí)現(xiàn)數(shù)據(jù)抽取時(shí)靈活地?cái)?shù)據(jù)碰撞和數(shù)據(jù)比對(duì)的功能。大大提升了數(shù)據(jù)比對(duì)的效率和數(shù)據(jù)比對(duì)的靈活度。

參考文獻(xiàn)

[1]Valiant L G.A bridging model for parallel computation[J].Communications of the ACM,1997,33(8):103-111.

[2]盛憲鋒,孫健英,焦文彬.基于數(shù)據(jù)生命周期管理的ARP系統(tǒng)優(yōu)化設(shè)計(jì)[J].計(jì)算機(jī)工程與科學(xué),2011.endprint

主站蜘蛛池模板: 无码免费的亚洲视频| 国产精品女在线观看| 亚洲第一香蕉视频| 女人一级毛片| 欧美日韩国产在线播放| 国产农村精品一级毛片视频| 亚洲色图狠狠干| 四虎成人在线视频| 中文字幕资源站| 91小视频在线观看免费版高清| 国产精品一区二区久久精品无码| 欧美亚洲第一页| 1级黄色毛片| 456亚洲人成高清在线| yjizz视频最新网站在线| 99热最新网址| 尤物精品国产福利网站| 亚洲区第一页| 亚洲精品午夜无码电影网| 免费A级毛片无码无遮挡| 精品国产黑色丝袜高跟鞋| 亚洲精品国产日韩无码AV永久免费网| 国产成人精品免费视频大全五级| 亚洲天堂免费观看| 成人夜夜嗨| 国产一级无码不卡视频| 萌白酱国产一区二区| 91精品国产一区自在线拍| 亚洲无码37.| 免费一级毛片不卡在线播放| 99热这里只有精品久久免费| 欧美成人精品高清在线下载| 成人午夜免费视频| 22sihu国产精品视频影视资讯| 青青草原国产精品啪啪视频| 一级在线毛片| 久久久久中文字幕精品视频| 乱人伦中文视频在线观看免费| AV在线麻免费观看网站| 黑色丝袜高跟国产在线91| 欧美日韩中文国产| 无码专区在线观看| 国产精品微拍| 中文字幕在线一区二区在线| 欧洲欧美人成免费全部视频| 日韩免费无码人妻系列| 99在线视频免费| 2021国产精品自产拍在线| 亚洲日韩精品无码专区97| 亚洲人成网7777777国产| 中文字幕在线播放不卡| 中文字幕精品一区二区三区视频| 国产人成在线视频| 亚洲欧美不卡中文字幕| 狠狠色丁婷婷综合久久| 欧美精品亚洲精品日韩专区| 色婷婷视频在线| 暴力调教一区二区三区| 亚洲欧美激情小说另类| 日韩av高清无码一区二区三区| 免费国产不卡午夜福在线观看| 欧美精品在线视频观看| 亚洲成人福利网站| 国产精品自在在线午夜区app| 国模视频一区二区| 动漫精品啪啪一区二区三区| 国产成人啪视频一区二区三区| 青青草原国产精品啪啪视频| 欧美精品成人| 国产凹凸视频在线观看| 欧美日韩一区二区在线免费观看 | 亚洲国产午夜精华无码福利| 国产91高跟丝袜| 老熟妇喷水一区二区三区| www.精品视频| 久久一级电影| 一区二区偷拍美女撒尿视频| 国产91透明丝袜美腿在线| 欧美一级在线看| 男人天堂伊人网| 亚洲aaa视频| 在线国产欧美|