999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種標準數據元與數據項匹配算法

2016-03-22 13:29:29李敏
電腦知識與技術 2016年1期

李敏

摘要:目前的數據元與數據項的匹配算法主要思想是基于字面相似程度實現匹配,這種算法對數據項命名結構規范有較強依賴,且大多業務數據庫的數據項沒有加入中文名,故無法實現匹配。該文提出一種數據元與數據項匹配算法,從數據項的歸屬實體名稱、數據項名稱、類型、長度、數據特征等多個角度設計算法,有較強的通用性,能夠在數據項名稱不規范或無中文名的情況下實現有效匹配。

關鍵詞: 數據元;數據項;匹配;特征詞

中圖分類號:TP312 文獻標識碼:A 文章編號:1009-3044(2016)01-0005-02

An Algorithm of Matching Data Elements and Data Items

LI Min

(Public Safety Information Technology Department, China Electronics Technology Company, Beijing 100083, China)

Abstract: The main idea of the current data element matching algorithm and data entry is literal similarity-based matching, this algorithm to the data item specification naming structure has a strong dependence, and the data items are mostly business database did not join Chinese name, so the match can not be achieved . This paper presents a data element and data item matching algorithms from multiple angles ownership entity name data entry, data entry name, type, length, data characteristics, such as design algorithm, there is a strong universal, can not in the name of the data item specification or without Chinese name of the case to achieve effective match.

Key words: data element; data items; matching; feature words

隨著數據元標準的建立,數據元在各行各業的數據集成過程中擔任著重要角色,用于規范數據庫、報表中的數據項。目前數據元標準多以文檔形式出現,主要依靠研發人員自覺遵守數據元標準進行系統設計。在數據大集中體系下,業務系統彼此之間的數據依賴關系日益提高,數據質量關系到業務系統能否正常運行。依據標準數據元對數據質量進行有效核查,能進一步保障數據質量。標準數據元與數據項建立匹配映射關系是數據核查的前提。手工匹配費時費力,采用自動匹配算法可有效提高工作效率。目前的數據元與數據項的匹配算法主要利用字面相似程度實現匹配,這種算法對數據項命名結構規范有較強依賴,且大多業務數據庫的數據項沒有加入中文名,故無法實現匹配。

現有的數據元與數據項的匹配算法主要思想是基于字面相似程度實現匹配,這種算法對數據項命名結構的規范化有較強依賴,另外大多業務數據庫中數據項沒有加入中文名,故采用現有算法無法實現匹配。

現提出一種三級匹配算法,從數據項的歸屬實體名稱、數據項名稱、類型、長度、數據值特征等多個角度進行比對,對數據項命名是否規范性沒有嚴格要求,在數據項無中文名稱的情況下,根據數據特征也可實現有效匹配,通用性較強。

1 類型匹配

從數據類型轉換表中讀取數據元和數據項類型映射信息,在數據項信息上打上數據元類型標識,數據類型匹配運算主要為了縮小運算范圍,提高運算效率,在進行第二級、第三級匹配運算時,只針對某種類型的數據項進行運算處理。數據類型轉換表主要存放了標準數據元與數據項的類型映射關系。數據元一般表示為字符、數字、日期等,數據項表達的是數據庫系統的數據類型,包括varchar、char、int、float等多種類型。

2 語義匹配

語義匹配運算主要從數據元和數據項的語義層進行匹配處理。數據元語義層包括名稱(N)、同義詞(Si)、對象(O)、特征詞(P)、表示詞(E);數據項語義層包括數據項名稱(M)、歸屬實體名稱(T)。在這些信息完整的情況下,本級運算可實現較高比率的匹配效果。未實現匹配的數據項將放入第三級運算中。

公式中,TO表示T是否包含O,則為1,否則為0;ME表示M包含E,則為1,否則為0;MP表示M包含P,則為1,否則為0;MNS表示M包含N或包含Si,則為1,否則為0;本級運算中,如果匹配值Probability大于0.5,可達到很高的有效匹配率。

3 數據特征匹配

第三級運算是針對第二級運算中匹配值小于0.5的數據項。本級運算的主要思想是實現以標準數據元為中心的聚類分析,能夠適用算法的數據元其數值必定是有一定特征的,特征包括:

1) 是否具有特征詞,特征詞是什么。例如姓名,在第一個字符處,必然會出現一些常見姓氏。

2) 是否枚舉值,獲取具體枚舉項。一般引用數據字典的數據項其 值必定是枚舉值。

3) 長度是否有固定范圍,最短值、最長值是什么。例如身份證號有15位和18位兩種。

4) 是否定長值、定長值是什么。

5) 數值是否有取值范圍,最大值、最小值分別是什么。

6) 數據是有有一定格式,例如日期的特殊格式是XXXX-XX-XX。

參見表2,數據元信息表。本步驟對數據元的信息完整性有較高要求,但考慮到如果使用數據元作為標準檢測數據質量,對其約束信息的全面性完整性原本就會提出較高要求。

參見表3,數據項信息處理后如表所示。需要按照以上特征屬性對于已有數據進行預處理,得到數據項信息,標識出其具有的特征和特征值。待處理的數據質量應盡量準確,可以采取異常點檢測和平滑處理方法對數據進行清洗,目前已有很多此類算法,本專利不再贅述。數據項的特征詞不在數據預處理階段檢測,只在與標準數據元進行聚類分析時按照數據元的特征詞進行檢索。

計算方法主要是對特征屬性進行比對,如果數據項特征屬性值在數據元特征屬性值的取值范圍內,則為1,否則為0。公式如下:

[Probability=0.2L+j=160.4Pj]

在數據元信息完整的情況下,匹配值大于0.6的數據項可到達到較高的有效匹配率。

4 總結

本算法通過對數據元類型長度、語義說明、數據特征等信息的充分利用,實現了數據元與數據項的有效匹配;且三級運算架構中每級運算縮小數據范圍,提高運算效率;算法有較強的適用性,對于命名不規范或無中文名的數據項也可實現與數據元的有效匹配。

參考文獻:

[1] 冉婕,孫瑜. 語義檢索中的詞語相似度計算研究[J]. 計算機技術與發展,2011(4).

[2] 文必龍, 任秀英,李乃峰,等. 基于數據元的數據模型語義映射技術研究[J]. 計算機技術與發展,2014(11).

[3] 文必龍,付玥. 數據集成中數據項與數據元匹配算法[J]. 計算機系統應用,2012(3).

[4] 時貴英,文必龍,王志寶. 基于數據元的數據集成技術研究[J]. 科學技術與工程,2011(18).

[5] 文必龍,史春波,關翔瑞. 一種數據元語義描述方法[J]. 哈爾濱商業大學學報:自然科學版,2010(1).

[6] 秦善華,史春波,邵慶. 基于數據元的數據模型語義描述[J]. 大慶石油學院學報,2009(3).

[7] 劉敏超,劉衛東. 數據集成系統關鍵問題研究[J]. 計算機應用,2006(7).

[8] 陶金花,文必龍,張敬波,等. 一種基于元模型的關系數據庫的查詢方法[J]. 大慶石油學院學報,2004(2).

[9]尚云云. IT運維服務管理支撐系統的設計與實現[D].北京:北京交通大學,2009.

[10] 章成志. 一種基于語義體系的同義詞識別研究[J]. 淮陰工學院學報,2004(1).

[11] 魏宏,章建方. 數據元在電子政務標準體系中的概念與實踐[J]. 信息技術與標準化,2004(5).

[12] 王斌君,孫丕龍. 數據元標準在信息化中作用的再認識——標準在信息化中的作用之二[J]. 中國人民公安大學學報:自然科學版,2005(3).

[13] 劉羽飛,李健. 電子政務體系中數據元標準的概念與應用[J]. 微計算機信息,2008(15).

[14] 高貴錦,龍翔. 基于數據元的交換數據標準維護[J]. 吉林大學學報:信息科學版,2005(1).

[15] 劉慶河,郝文寧,韓憲勇,等. 基于數據元的數據交換規范研究[J]. 電腦知識與技術,2010(10).

[16] 趙作鵬,尹志民,王潛平,等. 一種改進的編輯距離算法及其在數據處理中的應用[J]. 計算機應用,2009(2).

[17] 姚遠,李林,馮丹. 數據元管理及其網絡化管理平臺的設計[J]. 中國衛生信息管理雜志,2012(1).

[18] 袁滿,陳永恒. 一種新型的面向信息化應用的數據元支撐元模型[J]. 計算機應用研究,2008(7).

主站蜘蛛池模板: 日本欧美视频在线观看| 国产成人无码AV在线播放动漫 | 国产精品美乳| 国产成人区在线观看视频| 亚洲娇小与黑人巨大交| 中文毛片无遮挡播放免费| 久久国产精品波多野结衣| 精品一区二区久久久久网站| 2020精品极品国产色在线观看| 亚洲成人播放| 国产麻豆精品久久一二三| 欧美黄网在线| 亚洲永久免费网站| 日本国产精品| 毛片一区二区在线看| 九九香蕉视频| 国产精品福利尤物youwu| 久久香蕉欧美精品| 亚洲精品无码AⅤ片青青在线观看| 日韩精品亚洲人旧成在线| 欧美一区二区三区国产精品| 波多野结衣二区| 丁香综合在线| 青青操视频免费观看| 一级一级一片免费| 91亚洲影院| 精品久久人人爽人人玩人人妻| 免费jizz在线播放| 日本高清免费一本在线观看| 国产成人精品一区二区不卡| 亚洲丝袜中文字幕| 熟妇无码人妻| www.亚洲国产| 日本精品中文字幕在线不卡| 国产美女免费| 自拍中文字幕| 性网站在线观看| 亚洲最大情网站在线观看| 国产又粗又猛又爽视频| 小说 亚洲 无码 精品| 国产国产人免费视频成18| 亚洲a免费| 亚洲Aⅴ无码专区在线观看q| 97精品国产高清久久久久蜜芽| 国产一区二区三区夜色| 91区国产福利在线观看午夜 | 国产亚洲视频中文字幕视频| 天天综合色网| 无码啪啪精品天堂浪潮av| 国产精品免费电影| 日韩欧美视频第一区在线观看| 精品欧美视频| 欧美精品H在线播放| 色天堂无毒不卡| 亚洲一区二区成人| 欧美日韩在线观看一区二区三区| 噜噜噜久久| 激情午夜婷婷| 乱人伦中文视频在线观看免费| 精品一区二区三区波多野结衣| 亚洲大学生视频在线播放| 久久综合一个色综合网| 国产免费自拍视频| 熟妇丰满人妻| 一级毛片视频免费| 欧美专区日韩专区| 亚洲欧洲日韩久久狠狠爱| 精品无码人妻一区二区| 国产69精品久久| 精品丝袜美腿国产一区| 51国产偷自视频区视频手机观看 | 拍国产真实乱人偷精品| 亚洲一区二区三区国产精华液| 一本一道波多野结衣一区二区 | 9cao视频精品| 久久国产精品77777| 成人永久免费A∨一级在线播放| 玖玖精品在线| 久久精品日日躁夜夜躁欧美| 国产特级毛片aaaaaaa高清| 一级做a爰片久久免费| 国产高潮流白浆视频|