999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源通用數據標準管理平臺的設計和應用

2018-05-22 07:18:56李雪凝劉豐源李明航
計算機應用與軟件 2018年5期
關鍵詞:標準化單詞標準

李雪凝 劉豐源 王 凌 李明航

(上海計算機軟件技術開發中心 上海 201112)

0 引 言

隨著各行業的信息化進程急速推進,導致底層數據源多樣且復雜、分散而異構。而目前海量的數據缺乏統一的標準,導致數據標準的共享性十分低下。單企業內部分系統由不同開發商開發都會導致數據標準的不統一,行業內更是沒有統一的數據標準,數據標準的管理是實現新共享時代的必經之路。

現在國內外絕大多數的工具和管理方法都是針對單個企業、單個數據源或者單個行業的數據標準的管理。目前比較成熟的管理行業是金融行業,針對金融業的管理工具和方法相對較多[2],但是仍然缺少跨越多種數據源、面向各行各業通用的統一的數據標準管理工具和方法論。

本文提出完整的數據標準制定、管理、維護的理論體系,并采用模板采集或元數據采集雙線采集模式,為使用者提供更豐富的選擇。利用與元數據的交互提升數據采集的自動化程度,同時提供合理的數據標準全生命周期管理流程,使數據的共享程度大大增加[3]。

1 數據標準管理理論體系

1.1 數據標準管理要素

數據標準化是對分散在各系統中的數據提供一套統一的數據命名、數據定義、數據類型、賦值規則等的定義基準[4]。數據標準管理的基本要素包括:

(1) 詞素。詞素是數據標準管理理論體系中的最小組成元素,也是單詞的過渡階段,是尚未申請成為標準單詞的備選單詞,其余所有元素都由多個詞素組合而成,通常由用語分割而來。

(2) 單詞。詞素申請成為標準單詞后成為單詞,也是數據標準管理要素的最小單位,與詞素同級。將詞素中含義模糊、重復、無用的個體剔除掉以后,剩余的詞素經過申請即可成為單詞。

(3) 用語。用語時業務系統中采集而來的最原始的個體,是多個單詞按照一定的規則組合而成的,經過分割可以獲得多個詞素的個體。

(4) 域。域是單詞的一部分特殊的可以表示實體特征和定義的個體。用語被分割為詞素并申請成為單詞后,該組單詞中最后一個單詞就是域,其余的單詞都是普通單詞。域區別于其他普通單詞的屬性在于數據類型和長度,用語的數據類型和長度應當遵從對應域的并保持一致。

1.2 數據標準管理流程

依據國內外現有的數據標準管理方法,可以歸納出通用的流程如圖1所示。數據標準管理的流程可以分為四大部分,涵蓋了四大管理要素在內,按照順序分別是:標準化對象選定、單詞標準化、域標準化、用語標準化[5]。

圖1 數據標準管理流程圖

標準化對象選定主要是對若干企業底層系統進行范圍的選定以及標準化原則的制定,并進行跨越多源底層數據源的采集。其次是對采集的數據進行單詞的標準化,即按照采集的數據分類選取已有的數據標準單詞詞典作為基準,并進行詞素分析,判斷是否為域。對于普通的單詞在與基準詞典比對后,對于不存在的單詞進行補全定義,包括補全邏輯名、英文名、注釋等,并經過申請與審核的流程成為新的標準單詞。對于判斷為域的單詞應當按照域詞典制作流程進行標準,域標準的定義相較于單詞定義需要額外增加數據類型與數據長度等內容。最后,對判斷為用語的數據進行詞素分割,分割后的內容與域詞典和單詞詞典進行比對判斷是否標準,對不標準的進行修改并申請成為新用語。在經過以上四步操作后,最終獲得單詞、域、用語三大詞典,其中標準用語詞典最為重要。

1.3 標準數據定義原則

數據標準化的過程核心在于如何定制數據標準,如何最大限度地符合行業標準的通用性和規范性,以及如何通過規范定義原則來最大程度優化數據的質量。因此數據標準的定義過程需要遵循一定的通用原則,這也是實現共享統一的必經之路。標準數據定義的原則應當包括通用性、實用性及適用性三大原則[6]。

1) 通用性。為保證通用性,應當在標準化過程中優先使用國際通用單詞和用語,保證與國際標準不沖突;優先選用該行業內各企業和組織慣用的業務用語;在同等用語條件下應當優先選用國內語境慣用語;針對不同行業應當使用適當的專業用語;應當結合企業與外部機構合作的情況,考慮到外部合作方企業內部的標準情況,最大化雙方數據標準重合點,便于數據的共享和調用。

2) 實用性。為保證實用性,應當在標準化過程中對實際現行系統進行充分的調研,保證一切標準化工作都是基于現有系統而非理論上的可行性,且保證一切標準化工作在后續系統的持續改進中確實可用;在標準化過程中應當規避一切難以理解、語義模糊、存在歧義的用語成為標準用語;在選定成為標準用語的審核過程中,需要由審核專員審核用語,保證標準用語的直觀可理解,避免出現需要猜測語義的用語。

3) 便利性。為保證實用性,應當在標準化過程中做好已有標準化成果的調研和采集,盡可能直接利用企業現有的運標準化規章制度、方法體系和成果物,因為上述是最適合于企業或組織現有系統運行環境的標準化原則。

2 主要技術原理

基于當前主流技術和框架,本平臺的主要實現技術如下:

1) IKAnalyzer。IK Analyzer是基于java語言開發的輕量級的中文分詞工具包,是結合詞典分詞和文法分析算法的中文分詞組件[7]。它在平臺中主要用于詞素分割,目前最新版的IK Analyze已經獨立的作為了單獨完善的組件面向java使用,由于該組件可以實現160萬字/秒(3 000 KB/s)的效率,因此在追求時效的情況下適合使用。目前的平臺中只單獨應用到了中文分詞功能,而IK Analyzer還支持包含英文字母、數字、韓文、日文在內的多語言的分詞功能,并支持多語言混合分詞。它采用了多子處理器分析模式,實現了簡單的分詞歧義排除算法,采用了特有的正向迭代最細粒度切分算法[8],支持細粒度和智能分詞兩種切分模式[9]。

2) SSM框架。SSM是Spring+SpringMVC+Mybatis的縮寫,是當前Web開發中常用的基礎框架之一。第一部分是Spring,輔助開發人員集合各個層次,進行事務的托管和持久化工作。SpringMVC續寫了Spring,將C、V、M分隔開,即隔離控制器、視圖與業務三大模塊[8]。Mybatis的存在避免了設置參數,跳過JDBC代碼實現,僅通過配置文件的映射實現數據庫的更新。

3) Extjs。Extjs是當前比較流行且效果豐富的Ajax框架,用于客戶端Web應用程序界面的開發,適用于現在多數主流開發語言。Extjs有著良好的互動界面和異常處理機制,且對于跨瀏覽器處理有著極大的優勢,因此在平臺開發的實現上成為首選前端開發框架。

3 數據標準管理平臺設計與實現

3.1 功能流程設計

平臺功能流程的設計符合完整的數據標準管理生命周期,全過程分為兩條支路,一條起源于元數據采集,另一條起源于Excel模板采集。在用Excel模板采集的過程中,先進行詞素分割,以紅黑顏色作為驗證通過與否的標識,若標紅則需要申請成為新的標準用語。申請時需要先驗證是否已經在標準詞典中存在,驗證后自動將驗證反饋信息填入備注欄中,由審核專員手動點擊通過或者不通過,申請者可以在申請頁面刷新查看。元數據采集的支路與上述流程類似,只在采集過后增加補全信息的過程。功能流程設計如圖2所示。

圖2 功能流程設計圖

此平臺系統功能統分為七個模塊,具體如下:

3.1.1 采集信息管理

(1) 從元數據導入。與元數據管理系統交互,可以直接從現有的元數據庫中導入元數據作為原始的備選用語[10]。

(2) 從Excel文件中導入。對于沒有整理完善的Excel文件中,往往只有用語名,可以從采集信息管理模塊導入后手動選擇需要申請成為標準用語的部分。

3.1.2 用語管理

(1) 從Excel文件導入。從整理完整的文件中直接導入成為備選用語。

(2) 從采集信息導入。從采集信息管理模塊中的篩選出來的備選用語導入后,需要在本模塊進行信息補全。

(3) 詞素分割。將已經是信息完整的備選用語選中進行詞素分割,后臺會自動驗證各詞素是否已經在標準單詞詞典中存在,若存在則為黑色,否則標紅,對紅色的可以申請成為新的標準單詞。

(4) 申請成為標準用語。對于分割的各個詞素都是黑色的備選用語可以申請成為標準用語,進入待審核狀態。

3.1.3 標準用語審核

(1) 驗證。待審核用語需要驗證是否已在標準用語中存在,并再次驗證是否每個詞素都是標準單詞,驗證結果會以備注的形式填充。

(2) 通過/不通過。依據驗證結果手動選擇。通過的單詞存儲入標準用語庫,不通過的用語會連帶駁回原因反饋會用語管理頁面。

3.1.4 單詞管理

(1) 單詞定義補全。對于申請成為標準單詞的個體需要將短語名、物理意義、物理名、同義詞等信息補全然后方可提交申請。

(2) 申請成為標準單詞。選中完整的備選單詞進行申請,申請的單詞會轉入待審核狀態。

3.1.5 標準單詞審核

(1) 驗證。待審核單詞需要驗證是否已在標準詞典中存在,驗證結果會以備注的形式填充。

(2) 通過/不通過。依據驗證結果手動選擇。通過的單詞存儲入標準單詞庫,不通過的單詞會連帶駁回原因反饋回單詞管理頁面。

3.1.6 標準體系管理

對于標準分類需要一個單獨的模塊進行管理,標準體系包括行業、企業、公用/專用等分類標準。

3.1.7 標準數據查詢

通過對短語名、物理名、英文名、同義詞、中文名、備注等多種條件的篩選,并輸入關鍵詞和標準分類,進行全局模糊查詢。

3.2 架構設計

多源通用數據標準管理平臺系統架構設計如圖3所示。

圖3 系統架構圖

技術架構分為五個層面,分別是數據源層、數據采集層、數據存儲和管理層、應用服務層和門戶管理與用戶層[11]。其中數據源層主要包括各個數據來源,分別來源于不同的層面,包括業務系統、外部數據、手工補錄三個來源。從這三個來源中,我們主要由兩條途徑可以采集信息,一條是直接從元數據管理系統各種導入現有的元數據作為備選標準,另一條途徑是通過業務人員手工整理以Excel模板的形式采集。然后進入到存儲和管理層,此處的存儲主要是基于DBMS存儲,并合理進行標準的分類管理,在此層主要涵蓋了標準分類信息。應用服務層基于Web服務器和內部服務器,將標準數據檢索信息和審批狀態信息等同步更新到平臺中,提供便捷友好的應用服務[12]。最后通過門戶管理與用戶層將包含安全認證、訪問控制、幫助文檔在內的多種服務部署在門戶服務器上,便于統一把控訪問數據的角色權限信息,并對用戶輔以安全訪問的幫助。

3.3 平臺效果展示

圖4 excel模板導入用語頁面

圖5 數據標準檢索

圖6 元數據導入用語頁面

圖7 標準用語詞典

4 應用案例及分析

在金融行業中數據的共享性和精確性要求較高,而國內的證券金融公司由于數據治理的概念發展較晚,因此缺乏數據標準統一的意識。2017年,上海計算機軟件技術開發中心將數據標準管理平臺應用于某大型證券公司的合作中,通過由該公司按照固定的Excel模板進行備選標準數據的采集,并依據業務經驗進行相應信息的補全。利用本平臺將采集的超過400張的Excel表單后臺調度自動導入系統中,由該公司的業務人員和技術人員共同合作在本平臺上完成數據信息補全,并申請成為數據標準。經過該公司業務專家和技術部門負責人在平臺上在線審核后,形成超過4 000條數據的標準詞典,同時實現了利用本平臺對這4 000余條數據的全局檢索,為該公司日后的新系統的開發工作提供了完整的參考體系,也為同行業的數據標準的制定起到了一定的參考作用。

5 結 語

數據共享是新時代行業發展的必經之路,雖然目前大多數企業的數據標準尚未形成,但是統一數據標準、提升數據的共享能力已成為大數據時代數據管理能力提升的不可回避的問題。多源通用數據標準管理平臺旨在幫助尚未開展數據治理的企業實現治理的根基,即實現數據的標準化建設。這將為后續的數據質量、數據安全等一系列數據治理的工作打下良好的基礎,同時也為新的業務系統的開發和擴展提供了統一的入口和模板規范,對于提高數據共享能力意義非凡。本文通過對數據標準管理的理論體系和技術原理進行了分析,開發了多源通用數據標準管理工具,通過提供統一的管理方法和流程管控,利用分詞技術和表單技術,使得用戶可以與傳統人工梳理工作相結合,大大提高了數據標準制定的規范性和合理性,使標準制定工作從線下轉為線上,從釘在墻上的規章制度轉化為切實可查的標準詞典。對各行業的數據標準管理打開了通用的通道,并為同類產品的設計和實現提供了借鑒。

參考文獻

[1] 朱紅磊.基于節能降耗系統平臺的數據處理中間件的研究[D].河南理工大學,2010.

[2] 陳恒有.中國金融業行政管理制度研究[D].首都經濟貿易大學,2012.

[3] 蔣東興,郭大勇,羅念龍,等.清華大學新一代數字校園建設規劃與實踐[J].廈門大學學報(自然科學版),2007,81(S2):173-178.

[4] 白麗銳,楊友朋,王春新.數據標準化在電力物聯網綜合業務平臺的應用[J].物聯網技術,2013,3(8):41-45.

[5] 萬文琪.裝飾工程施工工藝管理流程標準化研究及其設計[D].東南大學,2014.

[6] 郭曙綸.漢語語料庫應用教程[M].上海:上海交通大學出版社,2013.

[7] 朱潛,吳辰鈮,朱志良,等.Hadoop云平臺下Nutch中文分詞的研究與實現[J].小型微型計算機系統,2013,34(12):2772-2776.

[8] 彭婧.一種用戶交互的智能答疑系統的設計與實現[D].湖南大學,2012.

[9] 黃翼彪.實現Lucene接口的中文分詞器的比較研究[J].科技信息,2012,28(12):246-247.

[10] 朱麗娟.基于空間數據集成共享技術的土地勘測成果管理應用與研究[D].電子科技大學,2012.

[11] 黃小華.基于數據倉庫的稅務風險預警系統設計與實現[D].電子科技大學,2007.

[12] 賀艷偉.基于WebGIS的城鎮地籍管理信息系統的研究與實現[D].河北工程大學,2010.

猜你喜歡
標準化單詞標準
2022 年3 月實施的工程建設標準
標準化簡述
單詞連一連
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
看圖填單詞
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
論汽車維修診斷標準化(上)
交通運輸標準化
主站蜘蛛池模板: 日本高清成本人视频一区| 欧美另类第一页| 91精品久久久无码中文字幕vr| 不卡国产视频第一页| 激情视频综合网| a级毛片网| 久久久波多野结衣av一区二区| AV在线麻免费观看网站| 国产在线麻豆波多野结衣| 国产AV无码专区亚洲精品网站| 欧美精品亚洲日韩a| 三区在线视频| 亚洲国产第一区二区香蕉| 国产91九色在线播放| 久青草网站| 制服丝袜国产精品| 中文成人在线视频| 国产自视频| 亚洲最猛黑人xxxx黑人猛交| 国产精品亚洲一区二区三区z| 色综合天天娱乐综合网| 免费国产黄线在线观看| 丁香婷婷激情综合激情| 国产99视频精品免费观看9e| 国产高清免费午夜在线视频| 欧美日本激情| 综合久久久久久久综合网| 精品一区二区三区视频免费观看| 无码专区第一页| 亚洲综合久久成人AV| 国产成人一二三| 亚洲人成亚洲精品| 成人永久免费A∨一级在线播放| 久久中文电影| 婷婷色在线视频| 暴力调教一区二区三区| 国产爽歪歪免费视频在线观看 | 无码免费视频| 国内丰满少妇猛烈精品播| 99re经典视频在线| 国产免费网址| 国产综合亚洲欧洲区精品无码| 精品国产免费观看| 国产成人精品视频一区视频二区| 最新国语自产精品视频在| 不卡视频国产| 国产小视频在线高清播放| 亚洲三级影院| 18禁影院亚洲专区| 亚洲性日韩精品一区二区| 亚洲综合在线网| 中文字幕久久波多野结衣| 午夜啪啪网| 亚洲欧美日韩动漫| 9久久伊人精品综合| 欧美日韩国产在线观看一区二区三区| 亚洲成人精品| 亚洲高清中文字幕在线看不卡| 国产自在线播放| 丰满人妻一区二区三区视频| 美女无遮挡免费视频网站| 青青青草国产| 久草性视频| 久久毛片网| 992tv国产人成在线观看| 成年人免费国产视频| 国产白浆在线| 99久久亚洲综合精品TS| 九九热免费在线视频| 国产91色在线| 欧美成人免费午夜全| 亚洲区视频在线观看| 免费观看三级毛片| 欧美影院久久| 亚洲自偷自拍另类小说| igao国产精品| 综合色88| 国产精品主播| 91免费国产在线观看尤物| 国产高清色视频免费看的网址| 老色鬼欧美精品| a级毛片毛片免费观看久潮|