999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

北京數字檔案館項目數據清理情況分析

2017-04-21 22:26:25尹哲
北京檔案 2017年3期
關鍵詞:數據庫

尹哲

摘要:目前由于數字檔案館的投入運行,各類檔案數據的存儲數量急速增加。與此同時,檔案數據質量隨著臟數據的出現受到很大影響,針對數據質量的清理工作勢在必行。本文根據北京市檔案館的工作經驗整理出檔案數據質量存在的典型問題,提出了數據清理的基本方法和步驟,為今后檔案工作數據清理提供相關經驗和建議。

關鍵詞:數字檔案館數據質量臟數據數據清理

北京市檔案館檔案管理系統經過十余年的應用,目前積累的存儲數據非常龐大,其中檔案機讀目錄1400余萬條,檔案數字化副本7000余萬頁,存儲量達到80TB。由于數據庫設計約束不足、數據錄入錯誤等多種原因導致系統中存在臟數據(dirty data,是指數據集中存在較多相似重復的、不一致的、格式不匹配的、不符合邏輯的、帶有空缺值的以及沒有實際作用的數據)。[1]這些數據直接拉低了檔案數據質量,影響檔案檢索查詢效果。隨著北京市數字檔案館項目的深入推進,為更好地配合北京數字檔案館項目建設工作,北京市檔案館在2016年開展了檔案數據集中清理工作。

一、北京市檔案館現有數據情況

北京市檔案館館藏數據主要包括:各類檔案數字化副本(紙質文書檔案、紙質照片檔案、音視頻檔案等數字化副本)、電子文件(含數碼照片)、檔案機讀目錄數據、檔案系統管理數據等。其中檔案系統管理數據通常包括檔案實體表、檔案存址表、檔案原缺表、利用者信息表、調歸卷信息表等數據。

這些數據可分為結構化數據和非結構化數據兩類。結構化數據是指存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據。非結構化數據無法用數字或統一的結構表示,如文本、圖像、聲音、網頁等,稱之為非結構化數據。結構化數據包括檔案機讀目錄數據和檔案系統管理數據。非結構化數據包括各類數字化副本、電子文件、數碼照片等。兩類數據存在問題和解決的方法不同。結構化數據整體存儲在數據庫中,數據清理依賴數據庫執行指令完成。非結構化數據是以單個文件形式存儲在磁盤驅動器中,可以人工進行清理,但當數據量非常大的情況下,則需依靠定制開發計算機程序完成。在向北京數字檔案館系統遷移數據的過程中,紙質檔案數字化副本和檔案機讀目錄是存在問題最多、清理工作量最大的兩類數據資源。因此,數據清理的重點也集中在紙質檔案數字化副本和檔案機讀目錄數據上。

二、北京市檔案館數據質量存在的典型問題(以機讀目錄和紙質檔案數字化副本為例)

(一)檔案機讀目錄數據存在以下四類問題:

1.重復數據

數據重復主要有兩種情況,一種是在同一個庫表中存在全部字段值完全相同的記錄;另一種是在不同的庫表中存在相同的記錄。產生的主要原因均為數據被重復導入,數據庫沒有唯一性校驗造成的。應保留一份數據,刪除重復數據。

2.缺失數據

數據庫表中很多記錄缺失關鍵字段值,關鍵字段例如“全宗號”“目錄號”“案卷號”“檔號”“題名”“開控狀態”等字段。產生問題的主要原因是目錄在手工錄入過程中遺漏造成的,數據庫在設計上完整性約束不足也是原因之一。這些關鍵字段值應進行補充以保證數據檢索、利用的需求得以滿足。

3.錯誤數據

數據庫表中有的記錄中“檔號”字段值編制錯誤,例如照片檔案檔號結構應該是“全宗號-目錄號-案卷號-張號”,但是實際錄入的是“全宗號-目錄號-案卷號”。有的記錄賦值錯誤,例如有的“張頁數”字段中含有“+”等非法字符,其值域范圍本應僅限于正整數。有的記錄編制位數不足,例如“起始頁號”字段值按照目前標準應該是5位,但是早期的記錄只有3位或4位。這些錯誤的原因有的是由于手工錄入錯誤造成的,有的是由于字段值編制標準發生變化造成的。錯誤的數據應通過數據清理進行修正。

4.無效數據

數據庫表中的歷史測試數據,暫存數據等,應通過清理工作直接刪除。

(二)數字化副本數據存在四類問題

1.數據命名不規范

數字化副本文件命名有如下幾類:3位流水號.tif、4位流水號.tif、5位流水號.tif、a_p流水號.tif、檔號.tif。產生這種情況的原因是由于不同時期數字化加工采用的標準不同,還有一些不符合規范采用手工命名導致的特殊命名方式。不符合命名規范的數字化副本在數據管理和數據掛接中存在隱患,容易產生掛接錯誤等問題,應采用統一的命名標準,保證數據在案卷級和文件級掛接的可靠性。

2.數據質量不可靠

個別數字化副本存在無法打開的情況,屬于數據掃描質量問題。錯誤的數據會導致無法掛接,系統無法正常讀取數據。可以使用軟件檢測圖像的可讀性,保證數據質量。

3.數據保存不唯一

有些檔案的數字化副本在系統中存在兩份,彩色一份、黑白一份,黑白的是早期的數字化成果,彩色的是近期數字化成果。重復數據不利于數據管理,也浪費存儲空間,選取圖像質量好的副本進行存儲即可。

4.存儲方式不統一

數據在磁盤上的存儲方式不同,存在多種形式。有在線存儲管理方式和離線存儲脫機管理方式兩類。在線存儲管理方式使用不同的系統其數據具體存儲方式也不相同。建議將同類型數據集中管理采取統一的數據存儲方式。

三、北京市檔案館數據清理的步驟

檔案數據清理的步驟為:數據分析、確定清理工作流程和清理規則、數據清理驗證、清理臟數據、干凈數據整理和核對。

(一)數據分析

數據分析是整個數據清理流程的第一步。數據分析的作用是在于得到一些數據的特征,根據這些屬性可以確定合適的檢測算法和清理規則,因此,數據分析也是數據清理中的非常重要的一步。檔案機讀目錄采用結構化數據庫管理,因此對數據庫表進行分析是第一步。通過數據庫表的單表查詢和多表查詢功能可以發現重復數據、不完整數據、錯誤數據和無效數據。數字化副本一方面實體存儲在服務器磁盤,另一方面其命名、存儲位置等信息也是由數據庫保存,所以其數據問題可以從文件實體角度發現,也可以從數據表的查詢對比中發現。

(二)確定清理工作流程和清理規則

數據清理工作根據數據分析的結果及數據所屬標準定義清理工作流。數據清理的標準來自于各類數據所對應的數字檔案館標準和規范,這些標準和規范同時也是數據分析問題的來源和依據。由于各類數據存在的問題不同,清理的方法也不一樣,要根據實際數據情況確定需要執行的數據清理的具體流程。

(三)數據清理驗證

這一個階段主要驗證數據清理的正確性、評估工作流程的效率。可以根據數據分析情況和清理規則對部分待清理數據進行測試,通過測試發現問題,提高效率和準確性。

(四)清理“臟數據”

經數據清理驗證無誤后,可以按照數據清理驗證階段制定的規則對數據進行清理。但在這一個階段特別要注意數據的安全性,應首先備份源數據,再對數據源進行數據清理,避免操作不當對數據造成的嚴重損失。清理過程可能持續時間會比較長,應該做好記錄和管理工作。數據的修改有可能需要人工參與,需要相關部門的配合。

(五)干凈數據整理和核對

數據清理工作完成后,將干凈的數據進行整理和核對。可以將干凈的數據集中整理存儲,有必要的話可以再備份一份,可以有效地保障數據的安全性。

四、數據清理工作的經驗總結和相關建議

(一)數據清理工作的幾點經驗

1.控制清理時間。數據集中清理工作盡管工作量很大,但時間不宜過長,一般應控制在4個月以內。

2.做好過程管理。要提前制定詳細的清理計劃,嚴格按照時間進度進行清理,并做好相關工作記錄,清理過程中暫不接收導入新數據。

3.保證清理質量。數據清理工作主要依靠數據庫技術、軟件批量重命名技術、圖形圖像質量查驗技術等,在具體操作之前要進行必要的測試。例如對數據庫值的轉換,從日期型轉換成字符型就有可能出現丟失數據現象。

4.部門協同工作。數據清理是一個復雜的工作,需要多個部門共同實施。以北京市檔案館為例,在數據清理過程中,信息化部門負責牽頭和管理工作,運維公司負責技術支撐工作,檔案館業務處室負責清理標準的提供和特殊數據修改的審核,各部門各司其職,協同工作。

(二)數據清理工作要把好數據入口關

數據清理工作反映出檔案部門對數據應該遵從的唯一性、完整性、準確性問題還要更加重視。一方面在數字檔案館系統建設的時候對數據庫表的設計更加完善,使其具備良好的約束性,例如在系統設計過程中加強對完整性、準確性、可用性和安全性檢測,設計良好的四性檢測方案;另一方面要加強管理,對于錯誤數據或者問題數據要及時發現并糾正,避免臟數據進入系統;第三是要檔案各類數據標準應趨于穩定一致,如果標準發生了改變,原存儲數據需及時修正。

隨著大數據時代的來臨,檔案數據量隨著信息化時代發展已經進入到海量的現狀。期望一次數據清理就能夠解決數十年來的問題也不現實,應該在日常管理中對數據定期進行分析,及時發現、解決問題,為北京數字檔案館項目建設提供優質的數據資源基礎工作。

參考文獻:

[1]蔡鐘杰.數據清理關鍵技術在醫療保險管理系統的應用研究[D].蘭州:蘭州交通大學,2014:7-12.

作者單位:北京市檔案局(館)

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 久久a毛片| 2021国产精品自产拍在线| 一本二本三本不卡无码| 毛片国产精品完整版| 波多野结衣中文字幕一区| …亚洲 欧洲 另类 春色| 精品无码一区二区在线观看| 免费中文字幕在在线不卡| 亚洲无码精彩视频在线观看| 中文字幕永久在线观看| 特级做a爰片毛片免费69| 色成人综合| 国产精品白浆在线播放| 欧美精品导航| 麻豆国产精品| 激情影院内射美女| 呦女亚洲一区精品| 91小视频在线观看免费版高清| 全裸无码专区| 色窝窝免费一区二区三区 | 欧美另类视频一区二区三区| 精品亚洲欧美中文字幕在线看| 日本国产精品一区久久久| 欧美国产日本高清不卡| 日韩黄色精品| 99热这里只有精品2| 国产无码制服丝袜| 五月丁香伊人啪啪手机免费观看| 一本大道东京热无码av| 伊人久久福利中文字幕| 亚洲最黄视频| 国产精品久久久久久久久kt| 伊人婷婷色香五月综合缴缴情| 91国语视频| 国产综合欧美| 亚洲日韩高清无码| 青青草原国产一区二区| 欧美a√在线| 香蕉色综合| 免费毛片全部不收费的| 精品撒尿视频一区二区三区| 免费无遮挡AV| 欧洲亚洲欧美国产日本高清| 欧美有码在线| 欧美一区二区福利视频| 日韩a在线观看免费观看| 成年av福利永久免费观看| 国产欧美又粗又猛又爽老| 久久亚洲国产最新网站| 久久久国产精品无码专区| 国产SUV精品一区二区| 国产成人精品男人的天堂| 亚洲午夜福利精品无码| 国产精品毛片一区视频播| 2024av在线无码中文最新| 欧美国产三级| 亚洲va欧美va国产综合下载| 亚洲无码日韩一区| 亚洲人免费视频| 免费高清自慰一区二区三区| 成年A级毛片| 精品视频第一页| 直接黄91麻豆网站| 一区二区午夜| 中国精品自拍| 蜜桃臀无码内射一区二区三区| 亚洲综合专区| 性网站在线观看| 国产精选自拍| 国产裸舞福利在线视频合集| 一区二区三区四区精品视频 | 手机精品视频在线观看免费| 国产乱人伦AV在线A| 国产精品尤物铁牛tv| 99久久精品无码专区免费| 精品五夜婷香蕉国产线看观看| 特级毛片免费视频| 26uuu国产精品视频| 久久综合丝袜长腿丝袜| 国产成人久视频免费| 2022精品国偷自产免费观看| 欧美成在线视频|