999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于二進制編碼ERP數(shù)據(jù)質(zhì)量研究

2010-04-12 00:00:00王智永
現(xiàn)代電子技術(shù) 2010年8期

摘 要: 為了快速、高效地評估和解決ERP系統(tǒng)的數(shù)據(jù)質(zhì)量問題,提出一種基于二進制編碼方式的數(shù)據(jù)質(zhì)量評估方法。通過在二進制級別進行概率估計與編碼,有效地降低了計算機對數(shù)據(jù)處理時所面臨的復(fù)雜度問題,提高了運算效率,能有效縮短評估所耗的計算時間。在計算結(jié)果的基礎(chǔ)上,建立隱馬爾科夫模型,并根據(jù)ERP系統(tǒng)的實際業(yè)務(wù)需要,對此模型進行了合理的修改優(yōu)化。運用此模型對ERP系統(tǒng)中數(shù)據(jù)質(zhì)量問題進行了概率統(tǒng)計和預(yù)測,最終在短時間內(nèi)提供直觀準確的數(shù)據(jù)質(zhì)量評估結(jié)果,并對未來數(shù)據(jù)質(zhì)量情況進行了客觀的預(yù)測。

關(guān)鍵詞:二進制編碼; 隱馬爾科夫模型; 數(shù)據(jù)質(zhì)量評估模型; ERP

中圖分類號:TP311文獻標識碼:A

文章編號:1004-373X(2010)08-0059-03

Research on ERP Data Quality Assessment Based on Binary Coding

WANG Zhi-yong

(Maton Information Technology Service (Tianjin) Co. Ltd., Tianjin 300051, China)

Abstract: A data quality assessment model and its solution algorithm based on binary coding mode is proposed in order to assess and solvethe ERP system data quality issues quickly and efficiently. The probability estimation and coding of data on binary level can reduce the complexities faced with the data processing and the time of the estimation. Hidden Markov model based on the results of the calculation was estallished. According to the actual business needs, this model can be amended and optimized to perform the probability statisticsand forecast for the data quality issues in ERP systems. The visual and accurate results of the data quality assessment can be provided in a short time and also its forecast presented.

Keywords: binary coding; hidden Markov model; data quality assessment model; enterprise resource planning

數(shù)據(jù)質(zhì)量是ERP(Enterprise Resource Planning)系統(tǒng)能否有效發(fā)揮作用的關(guān)鍵,對數(shù)據(jù)質(zhì)量進行評估能幫助企業(yè)準確地了解數(shù)據(jù)的內(nèi)容、質(zhì)量和結(jié)構(gòu),所以數(shù)據(jù)質(zhì)量評估是第一個要解決的問題。但評估時如果沒有統(tǒng)一的參照,會使評估具有很大的主觀性和不可度量性,這是由于對數(shù)據(jù)進行質(zhì)量評估時參照標準是難以完美表達的[1]。

本文在數(shù)據(jù)概化(data profiling)、數(shù)據(jù)審計(data auditing)等方法的基礎(chǔ)上,首先采用數(shù)理統(tǒng)計的方法對數(shù)據(jù)的分布進行概化(Profiling),然后對抽樣數(shù)據(jù)進行二進制編碼,建立隱馬爾科夫模型,從而提高了計算機的執(zhí)行效率[2]。通過抽取樣本能夠準確反映出當前數(shù)據(jù)質(zhì)量情況,同時能夠?qū)ξ磥頂?shù)據(jù)質(zhì)量情況進行預(yù)測,降低數(shù)據(jù)質(zhì)量問題的風(fēng)險,最后提出一種基于二進制編碼的數(shù)據(jù)質(zhì)量評估模型。

1 數(shù)據(jù)質(zhì)量問題

1.1 廣義數(shù)據(jù)質(zhì)量的概念

在相當長的時間內(nèi),數(shù)據(jù)質(zhì)量的概念主要指在數(shù)據(jù)生產(chǎn)過程中形成的“質(zhì)量”,如精度、一致性、完整性等,也稱本征質(zhì)量。隨著數(shù)據(jù)資源的積累與廣泛應(yīng)用,數(shù)據(jù)質(zhì)量的概念有所擴展。對用戶要求的滿意程度也已成為衡量數(shù)據(jù)質(zhì)量的重要指標。在這種意義上,數(shù)據(jù)質(zhì)量可以說是滿足使用要求的相對狀態(tài)。這就是廣義數(shù)據(jù)質(zhì)量,要點是從用戶或數(shù)據(jù)共享的角度來描述數(shù)據(jù)質(zhì)量[3]。除本征質(zhì)量外,可得性、滿足用戶要求的程度、表達的是否清晰易懂以及動態(tài)質(zhì)量等也成為衡量數(shù)據(jù)質(zhì)量的重要方面。這種廣義數(shù)據(jù)質(zhì)量的概念在各種數(shù)據(jù)質(zhì)量描述框架中雖然內(nèi)容有差別,但不同程度均有反映。

數(shù)據(jù)異常一般是由兩種原因造成的,其一是系統(tǒng)本身的固有因素造成的,另外一種狀況則可能是臟數(shù)據(jù)造成的。在分析數(shù)據(jù)質(zhì)量問題時,必須對異常數(shù)據(jù)進行關(guān)注,并盡可能自動化地發(fā)現(xiàn)異常[4]。數(shù)據(jù)概化、數(shù)據(jù)審計是解決這類問題的思路。這類方法一般首先采用數(shù)理統(tǒng)計的方法對數(shù)據(jù)分布進行概化(Profiling),然后針對某一特定的數(shù)據(jù)質(zhì)量問題進行挖掘,如采用關(guān)聯(lián)規(guī)則挖掘的方法發(fā)現(xiàn)數(shù)據(jù)異常[1]。

1.2 數(shù)據(jù)質(zhì)量描述的框架

通俗地說,描述數(shù)據(jù)質(zhì)量的框架確定從哪些方面描述數(shù)據(jù)質(zhì)量。建立反映領(lǐng)域特點的數(shù)據(jù)質(zhì)量框架,是數(shù)據(jù)質(zhì)量評價首先要解決的問題。

數(shù)據(jù)質(zhì)量的描述通常分為不同層次,到目前為止,還沒有形成用于表示這種層次性的統(tǒng)一術(shù)語。有的用域及元素表示;MIT使用類和域表示;ISOTC211則用數(shù)據(jù)質(zhì)量元素及子元素表達[5]。不同的領(lǐng)域?qū)?shù)據(jù)質(zhì)量的描述也不同,下面是幾種不同類型的數(shù)據(jù)質(zhì)量描述框架如表1所示。

表1 MIT的數(shù)據(jù)質(zhì)量描述框架

類描述包含域

本征質(zhì)量固有的質(zhì)量可信度、準確度、客觀性、信譽

與應(yīng)用有關(guān)的質(zhì)量與具體任務(wù)的環(huán)境有關(guān)的數(shù)據(jù)質(zhì)量增值、適時、關(guān)聯(lián)、完整合適的數(shù)據(jù)質(zhì)量

可表達性方面的質(zhì)量計算機系統(tǒng)存儲與表達信息的質(zhì)量可解釋性、易懂性、一致性、簡明性

可訪問性方面的質(zhì)量強調(diào)計算機系統(tǒng)必須可訪問,但要安全可訪問性與訪問的安全性

2 基于二進制編碼的數(shù)據(jù)質(zhì)量檢測

二進制化是自適應(yīng)二進制算術(shù)編碼中的重要步驟,在二進制級別進行概率估計與編碼,能有效降低編解碼的計算復(fù)雜度,提高隱馬爾可夫模型的計算效率[6]。

這里以ERP軟件Sage 中L500數(shù)據(jù)庫的Scheme.slcustm表為例,進行試驗。在此,需要檢查Scheme.slcustm中Address 5列聯(lián)系電話格式的數(shù)據(jù)質(zhì)量情況,首先將Address 5的每條數(shù)據(jù)轉(zhuǎn)化為一個二進制列。為處理準確、高效,需做如下優(yōu)化:

(1) 采用隨機抽取方式,抽樣數(shù)據(jù),隨機抽取其中10條干凈數(shù)據(jù)。

(2) 將樣本數(shù)據(jù)的每條數(shù)據(jù)編碼為一個二進制序列。

(3) 將每一個序列劃分為一個二進制塊,寫入二進制文件,運用C#編程方式,將這些二進制數(shù)據(jù)寫入Sample.Data文件,具體算法在此不再贅述。

(4) 運用Matlab,讀取二進制文件Sample.Data,建立Matlab模型,做出模型圖,如圖1所示。

從圖1中不難發(fā)現(xiàn)有5個特征點,現(xiàn)分別加以解釋:

數(shù)據(jù)起始點:由于電話號碼的標準格式必須是以0開頭的,則所有數(shù)據(jù)線必須起始于48這個點,否則為錯誤數(shù)據(jù)。

區(qū)號與號碼連接“-”:根據(jù)中國電話號碼標準,若為直轄市地區(qū),則區(qū)號為3位,故“-”連接符應(yīng)該出現(xiàn)在橫坐標為4的位置上。

同圖中②,若不是直轄市,則區(qū)號為4位,“-”連接符應(yīng)該出現(xiàn)在橫坐標為5的位置上,所以綜合②可知,所有數(shù)據(jù)都應(yīng)該在橫坐標為3或4的位置上,在“-”連接符即編碼值為45的位置處存在交點,否則為錯誤數(shù)據(jù)。

圖1 取樣數(shù)據(jù)的Matlab模型圖

數(shù)據(jù)長度:與⑤對比可知,根據(jù)中國電話標準,直轄市地區(qū)電話號碼長度為11位,其他省為12位,增加“-”連接符后,直轄市地區(qū)電話號碼長度應(yīng)為12位,其他省為13位,故所有數(shù)據(jù)應(yīng)該在13或14位置處存在交點,為電話號碼長度范圍,否則為錯誤數(shù)據(jù)。

現(xiàn)在進行第二項實驗,在此數(shù)據(jù)中加入一條垃圾數(shù)據(jù),為了突出錯誤數(shù)據(jù)的典型性,這里添加垃圾數(shù)據(jù)12345-12312312,重新繪制Matlab模型圖,如圖2所示。

圖2 添加垃圾數(shù)據(jù)后的Matlab模型圖

通過上面的分析及與抽樣數(shù)據(jù)(圖1)對比,在圖2中可以很直觀地看到一條垃圾數(shù)據(jù)L1,這條數(shù)據(jù)符合垃圾數(shù)據(jù)的所有特征。

3 基于隱馬爾科夫模型的數(shù)據(jù)質(zhì)量評估

如果一個過程的“將來”僅依賴“現(xiàn)在”而不依賴“過去”,則此過程具有馬爾可夫性,或稱此過程為馬爾可夫過程[7]。數(shù)學(xué)公式描述是:

X(t+1)=X(t)

隱Markov模型是一個雙重隨機過程,一個是不能觀測到的有限Markov鏈,另一個是與之相關(guān)的可觀測鏈[8]。一個隱馬爾可夫模型是一個五元組[9]:

λ=(Ωx,Ω0,A,B,π)

式中:Ωx為狀態(tài)的有限集合,Ωx={q1,q2,…,qN};Ω0為觀察值(即可見符號)的有限集合,Ω0={V1,V2,…,VM};A為轉(zhuǎn)移概率,A={aij},aij=P(Xt+1=qj|Xt=qi);B為輸出概率,B={bi(k)},bi(k)=P(Ot=Vk|Xt=qi);π為初始狀態(tài)分布,π={πi},πi=P(X1=qi);O(t)為給定觀測序列,t=1,2,…, λ為模型,λ=(Ωx,Ω0,A,B,π)。通過計算P來進行數(shù)據(jù)庫數(shù)據(jù)的(O-A)質(zhì)量評估,并對未來數(shù)據(jù)質(zhì)量進行預(yù)測[8]。在動態(tài)規(guī)劃中向前法和向后法是最有效的解決方法,在此采用向前法解決評估問題,求取P(O|λ0)。對于給定的一個觀察值序列,調(diào)整參數(shù)λ,使得觀察值出現(xiàn)的概率P(O|λ0)最大,將此序列作為初始化序列[10]。BaumWelch算法是解決HMM問題的有效方法,為了提高計算效率,適合系統(tǒng)需求,對Baum-Welch算法做了如下改進[11]:

(1)初始模型(待訓(xùn)練模型)λ0;

(2)基于λ0 以及觀察值序列O,訓(xùn)練新模型λ;

(3) 如果log P(O|λ)-log P(O|λ0)

(4)否則,繼續(xù)第(2)步工作。

4 數(shù)據(jù)質(zhì)量評估模型

綜上所述,建立數(shù)據(jù)質(zhì)量評估模型,如圖3所示。

圖3 數(shù)據(jù)質(zhì)量評估模型

在建立了數(shù)據(jù)庫用戶行為隱馬爾可夫模型之后,就可以利用該模型進行異常檢測,進行異常檢測的原理就是計算P(O|λ), 即在建立完全正常行為的隱馬爾可夫模型條件下,觀測到了行為發(fā)生的概率,如果這個概率比較小,則認為此行為為異常數(shù)據(jù)。

5 結(jié) 語

隨著ERP系統(tǒng)的不斷普及和發(fā)展,各類數(shù)據(jù)日益增多并日益復(fù)雜,二進制編碼是處理海量數(shù)據(jù)的良好手段[12]。本文給出了結(jié)合二進制編碼模式和HMM 的數(shù)據(jù)預(yù)則評估機制,既考慮到數(shù)據(jù)固有標準、人工定義等信息,又利用了HMM 在序列問題概率預(yù)測上的優(yōu)勢,所以具有較好的精確度和召回率。在下一步的工作中,還需要充分利用二進制編碼模式中高效率、高準確度等優(yōu)越性,進一步改進HMM評估模型,提高顧慮預(yù)測精確度,實現(xiàn)數(shù)據(jù)庫未來數(shù)據(jù)質(zhì)量的精確預(yù)測,并對錯誤數(shù)據(jù)進行清洗。

參考文獻

[1]郭志懋, 周傲英. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J]. 軟件學(xué)報, 2002, 13(11): 2076-2082.

[2]陳衛(wèi)東, 張維明. 笛卡爾積運算對數(shù)據(jù)庫數(shù)據(jù)質(zhì)量的傳遞影響[J]. 計算機科學(xué), 2008, 35(6): 210-212, 216.

[3]劉云中, 林亞平, 陳治平. 基于隱馬爾可夫模型的文本信息抽取[J]. 系統(tǒng)仿真學(xué)報, 2004, 16(3): 507-510.

[4]李華. 二進制挖掘算法在空間數(shù)據(jù)挖掘中的應(yīng)用[J]. 現(xiàn)代計算機, 2009(2): 35-37.

[5]王岳斌, 陽國貴, 鄺祝芳. 基于HMM 的數(shù)據(jù)庫異常檢測系統(tǒng)設(shè)計與實現(xiàn)[J]. 計算機應(yīng)用與軟件, 2009, 26(1): 96-99.

[6]SALVATORE Rinzivi, FRANCO Turini. Knowledge discovery from spatial transactions[J]. Journal of Intelligent Information Systems, 2007, 28(1): 1-2.

[7]LI Yu-jian. An analytic solution for estimating two-dimensional hidden Markov models[J]. Applied Mathematics and Computation,2007, 185(2): 810822.

[8]昝俊軍, 李艷斌. 低碼率二進制線性分組碼的盲識別[J]. 信號與信息處理, 2009(1): 19-21.

[9]LIBERTI J C. RAPPAPORT T S. Smart ante for wireless communication:IS-95 and third generation CDMA applications[M]. USA:Prentice Hall PTR, 1999.

[10]劉玉君. 信道編碼[M]. 鄭州: 河南科學(xué)技術(shù)出版社, 2006.

[11]程云鵬. 矩陣論[M]. 西安: 西北工業(yè)大學(xué)出版社, 1999.

[12]睦惠巧. 基于校驗矩陣的卷積碼識別和碼字同步[J]. 無線電通信技術(shù), 2008, 34(1): 26-28.

主站蜘蛛池模板: 无码国产偷倩在线播放老年人| 色偷偷一区| 国产二级毛片| 日本午夜精品一本在线观看| 2021国产精品自拍| 亚洲第一黄色网址| 2020精品极品国产色在线观看| 秘书高跟黑色丝袜国产91在线| 成年看免费观看视频拍拍| 色综合成人| 亚洲av色吊丝无码| 欧美精品成人| 国产福利影院在线观看| 久久国产乱子伦视频无卡顿| 亚洲精品国产成人7777| 国产精品主播| 日韩欧美视频第一区在线观看| 日韩av无码精品专区| 亚洲人成在线免费观看| 青青青视频免费一区二区| 在线观看亚洲天堂| 精品国产福利在线| 精品久久人人爽人人玩人人妻| 欧美一区福利| 日韩在线成年视频人网站观看| 国产亚洲成AⅤ人片在线观看| 伊人国产无码高清视频| 日韩无码黄色网站| 亚洲中文字幕手机在线第一页| 一级全免费视频播放| 偷拍久久网| 国产欧美视频在线观看| 亚洲人成人无码www| 黄色网页在线观看| 成人一级黄色毛片| 99久久精品免费看国产免费软件| 成人免费视频一区| 精品午夜国产福利观看| 亚洲无码91视频| 欧洲亚洲一区| 久久久久久久久久国产精品| 成人免费视频一区二区三区| 真实国产精品vr专区| 91无码国产视频| 中文天堂在线视频| 91精品免费久久久| 亚洲av无码成人专区| 亚洲最新地址| 女人毛片a级大学毛片免费| 久久semm亚洲国产| 精品色综合| 亚洲欧洲日产国码无码av喷潮| 国产黑丝一区| 中文字幕亚洲乱码熟女1区2区| 欧美国产在线精品17p| 日本欧美在线观看| 奇米精品一区二区三区在线观看| 亚洲国产欧美目韩成人综合| 综合人妻久久一区二区精品| 亚洲永久色| 好久久免费视频高清| 在线观看国产小视频| 久久这里只有精品国产99| 小蝌蚪亚洲精品国产| a亚洲天堂| 午夜a视频| 国产欧美性爱网| 国产成人精品午夜视频'| 97色伦色在线综合视频| 99热这里只有精品2| 国产综合色在线视频播放线视| 久久五月天综合| julia中文字幕久久亚洲| 丁香五月婷婷激情基地| 中文字幕久久精品波多野结| 成人国产精品网站在线看| 亚洲天堂自拍| a级毛片在线免费| 97超碰精品成人国产| 国产福利在线观看精品| 免费A∨中文乱码专区| 国产丝袜啪啪|