999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向石油行業(yè)的數(shù)據(jù)治理技術(shù)研究

2021-01-14 00:45:42梁光瑞
現(xiàn)代信息科技 2021年12期
關(guān)鍵詞:數(shù)據(jù)采集

摘 ?要:文章通過對(duì)數(shù)據(jù)治理技術(shù)的研究,從技術(shù)現(xiàn)狀、技術(shù)發(fā)展和數(shù)據(jù)質(zhì)量需求方面剖析了其在設(shè)計(jì)、應(yīng)用方面的瓶頸,提出了一種適用于石油行業(yè)的數(shù)據(jù)模型結(jié)構(gòu)設(shè)計(jì)和管理方式,并基于數(shù)據(jù)模型提供線下數(shù)據(jù)匯總、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)采集配置等數(shù)據(jù)采集方法、數(shù)據(jù)集成方法。最后結(jié)合應(yīng)用場景介紹在應(yīng)用系統(tǒng)實(shí)施過程中遇到的難點(diǎn)與所提出的相應(yīng)解決方案,包括關(guān)系型數(shù)據(jù)庫數(shù)據(jù)及物理文件數(shù)據(jù)的采集域同步。

關(guān)鍵詞:數(shù)據(jù)治理;數(shù)據(jù)采集;數(shù)據(jù)交換

中圖分類號(hào):TP311 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)12-0162-03

Abstract: Through the research on data governance technology, this paper analyzes its bottlenecks in design and application from the aspects of technical status, technical development and data quality requirements, puts forward a data model structure design and management mode suitable for the petroleum industry, provides data collection methods and data integration methods such as offline data summarization, data verification and data collection configuration based on data model. Finally, combined with the application scenario, the difficulties encountered in the implementation of the application system and the corresponding solutions are introduced, including the collection domain synchronization for relational database data and physical file data.

Keywords: data governance; data collection; data exchange

0 ?引 ?言

數(shù)據(jù)治理是企業(yè)步入信息化的基礎(chǔ),研究數(shù)據(jù)治理技術(shù)的目的是為信息應(yīng)用提供安全的數(shù)據(jù)通道,通道的起點(diǎn)是企業(yè)各種業(yè)務(wù)系統(tǒng)自動(dòng)或手工產(chǎn)生的數(shù)據(jù),通道的終點(diǎn)是基于信息的各種應(yīng)用,通道的中間段是數(shù)據(jù)倉庫。當(dāng)前國內(nèi)基于數(shù)據(jù)治理技術(shù)的研究不斷深入,但采集、存儲(chǔ)、集成一直是數(shù)據(jù)治理的核心需求,石油企業(yè)的數(shù)據(jù)管理員在采用通用數(shù)據(jù)處理工具時(shí),常常會(huì)因?yàn)闃I(yè)務(wù)功能不匹配而造成數(shù)據(jù)集成配置任務(wù)非常繁重甚至無法滿足需求,成為數(shù)據(jù)治理的瓶頸。

1 ?數(shù)據(jù)治理技術(shù)

數(shù)據(jù)治理包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)集成三個(gè)關(guān)鍵點(diǎn),管理人員的數(shù)據(jù)轉(zhuǎn)換配置工作主要集中于數(shù)據(jù)采集和數(shù)據(jù)集成,需要解決的突出問題有兩點(diǎn):其一是需要設(shè)計(jì)結(jié)構(gòu)合理的數(shù)據(jù)模型存儲(chǔ)結(jié)構(gòu),方便進(jìn)行集成交換和應(yīng)用;其二是數(shù)據(jù)集成需要兼顧各種數(shù)據(jù)交換的需求,提供充分的數(shù)據(jù)轉(zhuǎn)換方式和便利的人機(jī)交互配置,達(dá)到數(shù)據(jù)倉庫與集成系統(tǒng)轉(zhuǎn)換可配置、管理可分開的目標(biāo)。

1.1 ?數(shù)據(jù)模型管理

構(gòu)建數(shù)據(jù)模型的目標(biāo)是為數(shù)據(jù)倉庫定義一個(gè)大而全的數(shù)據(jù)結(jié)構(gòu),由分類表、屬性表及數(shù)據(jù)表組成,屬性表和數(shù)據(jù)表均通過分類表id尋址類型,數(shù)據(jù)表采用Json格式記錄值,其優(yōu)勢體現(xiàn)在三個(gè)方面:(1)數(shù)據(jù)按調(diào)用頻率分表,前端查看分類和屬性的速度明顯加快;(2)存取數(shù)據(jù)值時(shí)充分利用了根據(jù)Json字段對(duì)數(shù)據(jù)庫進(jìn)行檢索的技術(shù);(3)三個(gè)表僅通過id關(guān)聯(lián),業(yè)務(wù)層對(duì)編碼或名稱修改互補(bǔ)影響,用戶可編輯修改與數(shù)據(jù)表關(guān)鍵項(xiàng)分開,減少對(duì)數(shù)據(jù)庫表的關(guān)聯(lián)修改。

1.2 ?數(shù)據(jù)采集技術(shù)

根據(jù)原始數(shù)據(jù)的多樣性需求設(shè)計(jì)適用的采集方案,將數(shù)據(jù)采集到數(shù)據(jù)倉庫,常規(guī)表數(shù)據(jù)的采集可以基于原值獲取、字典轉(zhuǎn)義、條件取值、自定義值等方法,本文著重介紹對(duì)層級(jí)路徑和文件表的采集方式,以下是解決方案。

1.2.1 ?層級(jí)路徑

例如一個(gè)數(shù)據(jù)源表是一個(gè)樹式表,即下一行數(shù)據(jù)是上一行數(shù)據(jù)的子集,需要采集子集id、父級(jí)id或?qū)蛹?jí)路徑,線下數(shù)據(jù)錄入員習(xí)慣將子集數(shù)據(jù)寫在父集數(shù)據(jù)行的下面,通常不會(huì)特別標(biāo)注第幾行是第幾行的子集,甚至位于同一列的內(nèi)容若與上一行相同則會(huì)省略不寫,將數(shù)據(jù)采集到數(shù)據(jù)倉庫需要將所采集的數(shù)據(jù)自動(dòng)生成編碼id、隸屬的父級(jí)id、層級(jí)路徑,因此在配置層級(jí)路徑采集方式時(shí),需要選中層級(jí)目錄相關(guān)字段作為關(guān)鍵列,程序進(jìn)行采集時(shí)逐行生成id,同時(shí)在內(nèi)存中記錄關(guān)鍵列,以便子集數(shù)據(jù)通過與內(nèi)存中數(shù)據(jù)的對(duì)比找到隸屬的父級(jí)id,構(gòu)造出層級(jí)路徑。

1.2.2 ?文件表采集

基于企業(yè)標(biāo)準(zhǔn)文件編碼規(guī)范(例如文件名由設(shè)計(jì)階段-文件類型-設(shè)備位號(hào)-序號(hào)組成),實(shí)現(xiàn)從一個(gè)物理文件目錄下自動(dòng)提取編碼生成文件表,通過對(duì)編碼的識(shí)別也可對(duì)目錄和文件名進(jìn)行校驗(yàn)。實(shí)現(xiàn)文件表采集,應(yīng)首先保證對(duì)標(biāo)準(zhǔn)目錄樹管理和文檔規(guī)則管理,其中文檔規(guī)則定義了文檔的名稱,包括幾段編碼,例如文件編碼、文件描述、版本號(hào)三段編碼,每段編碼由哪些項(xiàng)和分隔符等組成;目錄樹管理則定義了一棵囊括企業(yè)所有目錄層級(jí)的標(biāo)準(zhǔn)樹,目錄樹節(jié)點(diǎn)與文檔規(guī)則一一對(duì)應(yīng),在采集配置時(shí),只要選擇本地文件夾下的某級(jí)主目錄,其下的子目錄和文件即可以參數(shù)化的方式自動(dòng)提取出分類文件表寫入數(shù)據(jù)模型。

1.3 ?數(shù)據(jù)集成技術(shù)

數(shù)據(jù)集成是通過配置將數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)進(jìn)行轉(zhuǎn)換并提交目標(biāo)系統(tǒng),提供用戶便利的配置源與目標(biāo)的轉(zhuǎn)換關(guān)系。

1.3.1 ?數(shù)據(jù)分組

是指將目標(biāo)表分組,分組的原值包括按導(dǎo)入順序分組、按源相似性分組、按使用性質(zhì)分組。當(dāng)某目標(biāo)表的導(dǎo)入數(shù)據(jù)依賴于或需要查詢其他已導(dǎo)入數(shù)據(jù)表時(shí),因?qū)氪嬖谙群箜樞蚣葱枰M(jìn)行分組,以便用戶在數(shù)據(jù)同步時(shí)可以根據(jù)分組名稱按順序操作;當(dāng)多源導(dǎo)入同一目標(biāo)時(shí),應(yīng)區(qū)分源的多樣性中是否有不同的唯一判定字段或必填字段,系統(tǒng)在同步上傳數(shù)據(jù)時(shí)依據(jù)統(tǒng)一設(shè)定的獲取規(guī)則和校驗(yàn)規(guī)則會(huì)阻斷不符合要求的數(shù)據(jù),所以要求數(shù)據(jù)按源相似性分組后配置不同的規(guī)則;在系統(tǒng)運(yùn)行時(shí),有些目標(biāo)表是為了寫入而進(jìn)行配置,而有些目標(biāo)表用于轉(zhuǎn)換過程中轉(zhuǎn)義或是查表獲取數(shù)據(jù),用戶應(yīng)按使用性質(zhì)進(jìn)行分組管理。

1.3.2 ?導(dǎo)入配置

導(dǎo)入配置是完成對(duì)目標(biāo)選擇數(shù)據(jù)源的工作,選擇匹配的源字段與目標(biāo)字段對(duì)應(yīng),方法包括自動(dòng)匹配和搜索匹配,當(dāng)目標(biāo)與源系統(tǒng)采用統(tǒng)一的名稱編碼時(shí),自動(dòng)匹配功能將有效減少配置時(shí)間,搜索匹配功能用于在源多表中通過關(guān)鍵字獲得匹配項(xiàng);當(dāng)目標(biāo)的獲取方式為條件取值時(shí),需要對(duì)設(shè)置的條件字段逐個(gè)匹配目標(biāo)表中的字段。

2 ?技術(shù)應(yīng)用實(shí)例

數(shù)據(jù)采集工具(DPT)是根據(jù)石油行業(yè)數(shù)據(jù)治理需求而開發(fā)出的一款專用系統(tǒng),如圖1所示,采用node.js框架開發(fā),主要功能包括通用工具、數(shù)據(jù)模型、數(shù)據(jù)采集、數(shù)據(jù)歸檔、同步管理,實(shí)現(xiàn)對(duì)線下數(shù)據(jù)治理、線下數(shù)據(jù)校驗(yàn)清洗入庫、入庫數(shù)據(jù)的后處理、入庫數(shù)據(jù)的集成交換。

2.1 ?數(shù)據(jù)采集系統(tǒng)

用戶首先從系統(tǒng)中下載Excel格式采集模板,例如采集模板分為設(shè)施、設(shè)備、文檔三大類,設(shè)備分類下包含發(fā)動(dòng)機(jī)、注水泵等數(shù)百種設(shè)備的采集模板,在生產(chǎn)過程中可直接對(duì)新建項(xiàng)目應(yīng)用采集模板填寫數(shù)據(jù),對(duì)已建項(xiàng)目,系統(tǒng)提供一系列通用功能將存量數(shù)據(jù)匯總至采集模板。

數(shù)據(jù)采集設(shè)置是對(duì)采集模板數(shù)據(jù)入庫進(jìn)行采集規(guī)則設(shè)置和校驗(yàn)規(guī)則設(shè)置,數(shù)據(jù)采集設(shè)置的方式包括原值獲取、自動(dòng)編碼、條件取值、固定值、當(dāng)前用戶、當(dāng)前時(shí)間等;校驗(yàn)方式包括文本、數(shù)值、百分比、日期、時(shí)間、序列、正則表達(dá)式、數(shù)據(jù)字典、文件路徑、特殊項(xiàng),其中文件路徑驗(yàn)證用于物理文件的采集,驗(yàn)證條件是指定表數(shù)據(jù)內(nèi)的路徑、文件名稱、擴(kuò)展名,驗(yàn)證將要采集入庫的文件是否在指定的文件夾中;特殊項(xiàng)可以指定驗(yàn)證條件為當(dāng)前系統(tǒng)變量,如當(dāng)前項(xiàng)目、當(dāng)前工程等。

2.2 ?數(shù)據(jù)集成與數(shù)據(jù)同步系統(tǒng)

DPT以數(shù)據(jù)倉庫為源負(fù)責(zé)向各種數(shù)據(jù)展示平臺(tái)提供數(shù)據(jù),將數(shù)據(jù)倉庫數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換成目標(biāo)結(jié)構(gòu)傳送,其實(shí)現(xiàn)流程如圖2所示。

2.2.1 ?數(shù)據(jù)連接設(shè)置

數(shù)據(jù)連接設(shè)置支持常用數(shù)據(jù)庫和文件系統(tǒng),包括MsServer、MySQL、Oracle數(shù)據(jù)庫連接參數(shù)設(shè)置,F(xiàn)astDFS、MinIO文件系統(tǒng)參數(shù)設(shè)置,方便用戶對(duì)目標(biāo)連接參數(shù)進(jìn)行集中管理。

2.2.2 ?數(shù)據(jù)分組設(shè)置

數(shù)據(jù)管理員選擇數(shù)據(jù)連接來配置數(shù)據(jù)分組,將目標(biāo)分為寫入表、字典表和Json表三組,將需要同步寫入數(shù)據(jù)的目標(biāo)表歸入寫入表組,將僅用于數(shù)據(jù)轉(zhuǎn)換過程中查詢的表歸入字典表組,將用于讀取目標(biāo)Json數(shù)據(jù)格式的表歸入Json表組,如表1所示。

其后,依次對(duì)寫入表配置獲取方式和校驗(yàn)方式,配置方案如表2所示,其中原值獲取是指從數(shù)據(jù)源提取數(shù)據(jù)無須轉(zhuǎn)換,直接寫入即可;條件取值設(shè)定的條件項(xiàng)是Doc_base表的文檔編碼和文檔名稱,獲取項(xiàng)是文檔ID;文件地址是指定提取物理文件的地址。

Json屬性管理自動(dòng)提取上表Doc_attr中存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)層級(jí)樹,并對(duì)屬性表每個(gè)節(jié)點(diǎn)屬性配置獲取方式和校驗(yàn)方式,配置方式與上表類似。

2.2.3 ?導(dǎo)入配置與數(shù)據(jù)同步

不同于數(shù)據(jù)分組主要面向同步目標(biāo)進(jìn)行配置,導(dǎo)入配置主要面向數(shù)據(jù)源的選擇,例如當(dāng)數(shù)據(jù)分組中對(duì)文檔編碼設(shè)置了原值獲取,則導(dǎo)入配置中通過自動(dòng)匹配或搜索匹配源中的合同、維改項(xiàng)目資料、設(shè)備完工資料中的文檔編碼;表2當(dāng)數(shù)據(jù)分組設(shè)置條件取值時(shí),條件項(xiàng)文檔名稱也應(yīng)選擇數(shù)據(jù)源中合同、維改項(xiàng)目資料、設(shè)備完工資料中的文檔名稱,導(dǎo)入配置完成后,同步操作依據(jù)用戶設(shè)置完成從源到目標(biāo)的提取、轉(zhuǎn)換、校驗(yàn)和導(dǎo)入。

3 ?結(jié) ?論

根據(jù)上文研究可得以下兩點(diǎn)結(jié)論:(1)數(shù)據(jù)治理為企業(yè)的生產(chǎn)經(jīng)營活動(dòng)提供助力,解決方案需要具有通用性和擴(kuò)展性來滿足日益增長的線上信息化需求;同時(shí)系統(tǒng)的設(shè)計(jì)也應(yīng)具有彈性,兼顧到生產(chǎn)經(jīng)營活動(dòng)的現(xiàn)狀,尤其是對(duì)線下數(shù)據(jù)治理的充分支持,從而讓數(shù)據(jù)治理工作在實(shí)施過程中可以從線下到線上循序推進(jìn)。(2)數(shù)據(jù)采集和數(shù)據(jù)集成的功能設(shè)計(jì)中應(yīng)區(qū)別數(shù)據(jù)源與目標(biāo),明確劃分各功能模塊,充分設(shè)計(jì)數(shù)據(jù)獲取、數(shù)據(jù)校驗(yàn)的各種方法,減少人工配置的工作量。

參考文獻(xiàn):

[1] 許可.2020數(shù)據(jù)治理的趨勢與大局 [J].互聯(lián)網(wǎng)經(jīng)濟(jì),2020(Z1):36-39.

[2] 金勵(lì),周坤琳.數(shù)據(jù)共享的制度去障與司法應(yīng)對(duì)研究 [J].西南金融,2020(3):88-96.

[3] 劉俊良.新時(shí)代數(shù)據(jù)中臺(tái)研究與設(shè)計(jì) [J].電子世界,2020(5):119.

[4] 劉童桐.數(shù)據(jù)中臺(tái)建設(shè)中最重要的事 [J].通信企業(yè)管理,2019(7):25-27.

[5] 趙佳鑫.淺談需求元數(shù)據(jù)管理 [J].中國金融電腦,2019(7):80-81.

[6] 安暉.關(guān)于數(shù)據(jù)治理的思考和實(shí)踐 [J].軟件和集成電路,2019(8):68-69.

作者簡介:梁光瑞(1987—),男,漢族,山東泰安人,信息技術(shù)工程師,研究方向:油氣田生產(chǎn)數(shù)字化。

猜你喜歡
數(shù)據(jù)采集
Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)的設(shè)計(jì)與改進(jìn)
CAN總線通信技術(shù)在電梯監(jiān)控系統(tǒng)中的應(yīng)用
基于大型嵌入式系統(tǒng)的污水檢測系統(tǒng)設(shè)計(jì)
社會(huì)保障一卡通數(shù)據(jù)采集與整理技巧
基于AVR單片機(jī)的SPI接口設(shè)計(jì)與實(shí)現(xiàn)
CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應(yīng)用
大數(shù)據(jù)時(shí)代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時(shí)空分布研究綜述
基于廣播模式的數(shù)據(jù)實(shí)時(shí)采集與處理系統(tǒng)
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:52:53
主站蜘蛛池模板: 四虎影视8848永久精品| 久久久精品久久久久三级| 国产情侣一区二区三区| 被公侵犯人妻少妇一区二区三区| 国产产在线精品亚洲aavv| 国产中文一区二区苍井空| 高潮毛片免费观看| 亚洲IV视频免费在线光看| 亚洲无码高清免费视频亚洲| 在线看免费无码av天堂的| 亚洲国产成熟视频在线多多| 啦啦啦网站在线观看a毛片| 99精品福利视频| 国产性猛交XXXX免费看| 91青青草视频在线观看的| 日日拍夜夜操| 欧美成人日韩| 国产毛片基地| 国产自无码视频在线观看| 久久久精品无码一区二区三区| 国产成人夜色91| 亚洲成人精品在线| 欧美亚洲综合免费精品高清在线观看| 国产精品冒白浆免费视频| 欧洲成人免费视频| 2019国产在线| 国产黄色片在线看| 伦伦影院精品一区| 日韩区欧美区| 国产va在线| 国产亚洲欧美日韩在线一区| 久久综合九色综合97网| 国产爽歪歪免费视频在线观看| 天天躁夜夜躁狠狠躁图片| 亚洲A∨无码精品午夜在线观看| 欧美精品v| 亚洲无码高清一区| 凹凸精品免费精品视频| 在线观看免费黄色网址| 国产乱子伦视频在线播放| 亚洲欧美在线看片AI| 免费看一级毛片波多结衣| 欧美日韩亚洲国产主播第一区| 国产高清在线丝袜精品一区| 久久久久国产精品免费免费不卡| 久久婷婷六月| 666精品国产精品亚洲| 亚洲日本精品一区二区| 欧洲高清无码在线| 一区二区日韩国产精久久| 国产精品久久久久久久久久98| 亚洲黄网在线| 免费福利视频网站| 日本黄色a视频| 国产丝袜丝视频在线观看| 成人午夜亚洲影视在线观看| 99精品视频在线观看免费播放| 国产精品部在线观看| 色综合日本| 小13箩利洗澡无码视频免费网站| 四虎永久在线精品影院| 亚洲中文在线视频| 精品久久国产综合精麻豆| 91探花在线观看国产最新| 国产成人精品一区二区秒拍1o| 天天干伊人| 婷婷丁香在线观看| 波多野结衣一区二区三区四区视频| 91久久偷偷做嫩草影院电| 五月婷婷综合色| 老司机精品99在线播放| 欧美在线网| 99人体免费视频| 蜜桃视频一区二区三区| 国产精品嫩草影院av| 免费三A级毛片视频| 不卡色老大久久综合网| 国产玖玖视频| 九色综合伊人久久富二代| 91外围女在线观看| 欧美精品v| 欧美综合一区二区三区|