999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智慧檔案館數(shù)據(jù)化管理功能的實(shí)現(xiàn)

2021-03-02 07:51:15陳嘉鈺
檔案管理 2021年1期

陳嘉鈺

摘? 要:本文認(rèn)為數(shù)字技術(shù)為智慧檔案館奠定了數(shù)字化的基礎(chǔ),智慧技術(shù)則能使數(shù)字技術(shù)更加智能化;只有通過(guò)運(yùn)用物聯(lián)網(wǎng)、云計(jì)算、云存儲(chǔ)等技術(shù)來(lái)提高檔案館系統(tǒng)的數(shù)據(jù)傳輸與計(jì)算能力、應(yīng)用擴(kuò)展能力和安全存儲(chǔ)能力,才能促進(jìn)智慧檔案館持續(xù)健康的發(fā)展。

關(guān)鍵詞:智慧檔案館;數(shù)字檔案館;數(shù)據(jù)化

Abstract: This article believes that digital technology has laid the foundation for digitization of Intelligent Archive, and smart technology can make digital technology more intelligent; only through the use of Internet of Things, cloud computing, cloud storage and other technologies to improve the data transmission and computing capabilities of the archives system, Application scalability and secure storage capabilities can promote the sustainable and healthy development of Intelligent Archive.

Keywords: Intelligent Archive; Digital Archives; Digitalization

檔案館是各類信息資源的主要保存和服務(wù)機(jī)構(gòu),長(zhǎng)期致力于數(shù)字記憶保護(hù)工作,其中既包括文本內(nèi)容的長(zhǎng)期保存,也包括元數(shù)據(jù)的有效獲取。[1]面對(duì)大數(shù)據(jù)時(shí)代這一新型學(xué)術(shù)需求,智慧檔案館數(shù)據(jù)化管理應(yīng)當(dāng)借助數(shù)字技術(shù),提高資源的語(yǔ)義化、智慧化水平,擴(kuò)大信息共享的范圍和深度,積極創(chuàng)新服務(wù)方式和方法。

1 智慧檔案館數(shù)據(jù)化管理的必要性

1.1 檔案數(shù)據(jù)化轉(zhuǎn)型。檔案館收藏和保存了社會(huì)活動(dòng)中的各政府機(jī)構(gòu)和職能機(jī)構(gòu)的重要文件、特殊手稿以及具有文化、歷史和文學(xué)意義的珍貴資料。檔案通常屬于未公開(kāi)發(fā)表的唯一版本資料,更具有珍貴性與稀缺性的特點(diǎn)。另外,檔案的史料價(jià)值和證據(jù)價(jià)值也決定了其必然成為網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)中的主力軍。新環(huán)境下,檔案館必須轉(zhuǎn)換思路,變藏為用,變被動(dòng)為主動(dòng)。

檔案數(shù)據(jù)化轉(zhuǎn)型指的是在檔案中,以數(shù)據(jù)作為載體和表現(xiàn)形式的那部分檔案,其外延既包括檔案內(nèi)容、結(jié)構(gòu)、背景數(shù)據(jù),也包括非檔案內(nèi)容本身但檔案產(chǎn)生的軟硬件環(huán)境數(shù)據(jù)、檔案業(yè)務(wù)活動(dòng)過(guò)程中產(chǎn)生的數(shù)據(jù)以及應(yīng)該歸檔但未進(jìn)行歸檔的政務(wù)數(shù)據(jù)等,既具有檔案性也具有數(shù)據(jù)性。

1.2 做好數(shù)據(jù)的前端控制和版本的永續(xù)存儲(chǔ)。對(duì)于數(shù)據(jù)的質(zhì)量控制和長(zhǎng)期存儲(chǔ)來(lái)說(shuō),檔案館具有理論和經(jīng)驗(yàn)優(yōu)勢(shì)。檔案專家應(yīng)該積極加入數(shù)據(jù)的前端控制和版本的永續(xù)存儲(chǔ)方案設(shè)計(jì)、實(shí)施和維護(hù)的各個(gè)階段中,幫助實(shí)現(xiàn)數(shù)字環(huán)境下的動(dòng)態(tài)、原生數(shù)字?jǐn)?shù)據(jù)進(jìn)行實(shí)施數(shù)據(jù)采集、質(zhì)量監(jiān)控和版本的永續(xù)存儲(chǔ),以備后期人文研究查考、利用。[2]因此,必須保證數(shù)據(jù)安全、可靠、完整。可讀的措施付諸數(shù)據(jù)“采集-處理-呈現(xiàn)”的全過(guò)程中,才可以有效防止數(shù)據(jù)的丟失和損壞。檔案專家應(yīng)該積極介入專題數(shù)據(jù)庫(kù)及服務(wù)平臺(tái)的建設(shè),在系統(tǒng)設(shè)計(jì)階段實(shí)行前端控制,對(duì)數(shù)據(jù)生成和管理質(zhì)量進(jìn)行監(jiān)控,保證項(xiàng)目的后續(xù)實(shí)施效果和版本的永續(xù)存儲(chǔ)。

2 智慧檔案館數(shù)據(jù)化管理功能的實(shí)現(xiàn)路徑

2.1 數(shù)字技術(shù)支持讓檔案數(shù)字資源有了更為寬廣的生存空間。盡管網(wǎng)絡(luò)技術(shù)和數(shù)字技術(shù)飛速發(fā)展,讓檔案數(shù)字資源有了更為寬廣的生存空間,存儲(chǔ)技術(shù)、搜索技術(shù)、編目技術(shù)的出現(xiàn)使檔案數(shù)字資源各個(gè)管理環(huán)節(jié)更加趨于自動(dòng)化、智能化、高效化,并且管理成本也在大幅降低。但對(duì)于其中檔案內(nèi)容的數(shù)字化來(lái)說(shuō),智慧技術(shù)并不能取代數(shù)字技術(shù)。智慧檔案館對(duì)實(shí)體檔案可以運(yùn)用射頻識(shí)別標(biāo)簽實(shí)現(xiàn)泛在感知,可以運(yùn)用3D庫(kù)房技術(shù)實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè),但將實(shí)體檔案轉(zhuǎn)化成為不受時(shí)空利用限制的數(shù)字化資源則需要數(shù)字技術(shù),數(shù)字技術(shù)將傳統(tǒng)載體檔案進(jìn)行掃描、轉(zhuǎn)錄等,以數(shù)字信號(hào)形式保存在計(jì)算機(jī)中,同時(shí)還可以結(jié)合數(shù)字技術(shù)實(shí)現(xiàn)聲影檔案展示,為用戶提供虛擬體驗(yàn)。如果沒(méi)有數(shù)字技術(shù)實(shí)現(xiàn)的數(shù)字化館藏,那么智慧檔案館的智慧將要大打折扣。

2.2 數(shù)字技術(shù)將人工智能與傳統(tǒng)文字識(shí)別技術(shù)進(jìn)行結(jié)合。傳統(tǒng)的文字識(shí)別技術(shù)是將圖像進(jìn)行二值化和灰度化后,將文字作為前景信息,其他部分作為背景信息,通過(guò)區(qū)分兩者的明暗不同來(lái)判別哪些是識(shí)別區(qū)域,再對(duì)文字識(shí)別區(qū)域進(jìn)行切割和分類,最后基于統(tǒng)計(jì)模型進(jìn)行糾錯(cuò)和識(shí)別。但傳統(tǒng)識(shí)別方法在面對(duì)復(fù)雜的識(shí)別環(huán)境時(shí)難以提高識(shí)別準(zhǔn)確率,如多語(yǔ)言混合、低分辨率、非均勻光照、藝術(shù)字體、復(fù)雜版式等情況,研究人員為了克服這些難點(diǎn),嘗試了很多種方法。近年隨著深度學(xué)習(xí)的興起,打破了傳統(tǒng)OCR的技術(shù)瓶頸。傳統(tǒng)的機(jī)器學(xué)習(xí)需要先確定特征和標(biāo)簽,然后用一系列算法對(duì)這些數(shù)據(jù)進(jìn)行計(jì)算,然后保存模型,最后對(duì)分類的準(zhǔn)確性進(jìn)行預(yù)測(cè)。這種方法有其缺點(diǎn),如果提取的特征數(shù)量過(guò)多,可能會(huì)因?yàn)槠蛴谀硞€(gè)特征而出現(xiàn)過(guò)擬合的情況,如果提取的特征數(shù)量過(guò)少,則可能沒(méi)辦法進(jìn)行精確分類,出現(xiàn)欠擬合的情況。

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法采用全連接的網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)28×28的矩陣可能需要11萬(wàn)多個(gè)參數(shù),參數(shù)實(shí)在太多,計(jì)算量巨大,在圖像識(shí)別中顯然不是很適合。于是開(kāi)始考慮卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)的思想是在識(shí)別一個(gè)物體時(shí),通常通過(guò)某個(gè)局部特征就能識(shí)別出該物體為何,并不需要全部識(shí)別,所以也可以通過(guò)局部特征識(shí)別整體而不是全連接的方式。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積神經(jīng)元提取上一層圖像的局部特征在自身所在隱層單元上映射成一個(gè)平面,并通過(guò)同平面層具有同一神經(jīng)元權(quán)重值來(lái)保證特征映射具有位移不變性和旋轉(zhuǎn)不變性,同時(shí)特征提取后還有一個(gè)亞取樣層或稱下采樣層,用來(lái)求局部平均和二次特征提取,以提高神經(jīng)網(wǎng)絡(luò)的畸變?nèi)萑棠芰Α5]這種方法的優(yōu)點(diǎn)是,只需對(duì)初始值進(jìn)行設(shè)置,隨后機(jī)器通過(guò)自適應(yīng)和自學(xué)習(xí)的過(guò)程不斷調(diào)整卷積核的數(shù)量和滑動(dòng)步長(zhǎng),而且參數(shù)數(shù)量可以減少幾個(gè)量級(jí)。

2.3 數(shù)字技術(shù)實(shí)現(xiàn)智慧檔案館管理功能的全面感知。智慧檔案館在檔案實(shí)體、檔案內(nèi)容信息和檔案管理信息上具備全面感知特點(diǎn),在數(shù)據(jù)運(yùn)算和存儲(chǔ)方面采用“自有”和“云”的雙模模式,能通過(guò)利用移動(dòng)數(shù)字信息查閱服務(wù)中心等現(xiàn)有信息發(fā)布利用平臺(tái)和三網(wǎng)融合實(shí)現(xiàn)泛在應(yīng)用,最后從上到下,從內(nèi)到外,全面運(yùn)用所有技術(shù)進(jìn)行綜合管理。

智慧檔案館期望通過(guò)運(yùn)用物聯(lián)網(wǎng)、云計(jì)算、云存儲(chǔ)等技術(shù)來(lái)提高檔案館系統(tǒng)數(shù)據(jù)傳輸與計(jì)算能力、應(yīng)用擴(kuò)展能力和安全存儲(chǔ)能力,但由于沒(méi)有相關(guān)成功案例參考,建設(shè)過(guò)程中遇到資金不足、人才短缺、技術(shù)難關(guān)、政策支持和法律規(guī)范缺失等問(wèn)題,需要長(zhǎng)期的建設(shè)和研究,才能促進(jìn)智慧檔案館持續(xù)健康發(fā)展。[6]

3 智慧檔案館數(shù)據(jù)化管理功能的實(shí)現(xiàn)價(jià)值

3.1 智慧檔案館數(shù)據(jù)化實(shí)現(xiàn)檔案的“活化”。智慧檔案館館藏?cái)?shù)據(jù)化管理功能的價(jià)值主要體現(xiàn)在兩個(gè)方面[3]:一方面體現(xiàn)在檔案數(shù)據(jù)中,檔案數(shù)據(jù)這一部分本身即具備數(shù)據(jù)特征,是智慧檔案館館藏的數(shù)據(jù)基礎(chǔ)。另一方面是對(duì)數(shù)字化館藏進(jìn)行數(shù)據(jù)化,通過(guò)將數(shù)字態(tài)檔案轉(zhuǎn)變?yōu)閿?shù)據(jù)態(tài),實(shí)現(xiàn)檔案的“活化”,使檔案可以被計(jì)算機(jī)檢索、組織、復(fù)用等,從而進(jìn)行內(nèi)容管理和智能分析。

在智慧檔案館的建設(shè)中,物聯(lián)網(wǎng)的應(yīng)用是其中一大創(chuàng)新,其前端設(shè)備層承擔(dān)整個(gè)檔案館環(huán)境內(nèi)的各類信息感知服務(wù),包括射頻識(shí)別、傳感器、視頻監(jiān)控系統(tǒng)等,這些前端設(shè)備每時(shí)每刻都在與周?chē)h(huán)境交互,產(chǎn)生實(shí)時(shí)數(shù)據(jù)。相比于數(shù)字檔案館的數(shù)字化特征主要體現(xiàn)在數(shù)字態(tài)館藏上,智慧檔案館的數(shù)據(jù)化特征已不僅體現(xiàn)在館藏層面上,還體現(xiàn)在管理過(guò)程中的各個(gè)方面,包括了檔案與檔案之間、檔案與人之間、人與人之間交互的所有數(shù)據(jù),數(shù)據(jù)化特征已經(jīng)滲透到智慧檔案館管理的方方面面。

3.2 實(shí)現(xiàn)數(shù)據(jù)化帶來(lái)了智慧檔案館管理理念的改變。數(shù)字檔案館的館藏主要有傳統(tǒng)載體檔案、數(shù)字化館藏以及原生電子文件等三種類型。原生電子文件種類很多,包括文本文件、圖形文件、數(shù)據(jù)文件、圖像文件、聲音文件、影像文件和命令文件等,[4]涵蓋了非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化三種類型文件,其中對(duì)文本文件的管理相比于數(shù)字檔案館的紙質(zhì)數(shù)字化檔案來(lái)說(shuō),減少了圖像轉(zhuǎn)變?yōu)槲淖值倪^(guò)程。

數(shù)字化館藏則多以PDF、JPEG、MP3等數(shù)字態(tài)形式存儲(chǔ),針對(duì)不同格式進(jìn)行數(shù)據(jù)化轉(zhuǎn)換的方式不盡相同,其中紙質(zhì)檔案的內(nèi)容除了文本,可能還包含圖像信息,在對(duì)此類檔案的數(shù)字態(tài)成果進(jìn)行數(shù)據(jù)化時(shí),關(guān)鍵在于將圖像形式的檔案轉(zhuǎn)變?yōu)槲谋疚募Mǔ2捎肙CR技術(shù)對(duì)圖像內(nèi)容進(jìn)行文字識(shí)別,隨著多年的發(fā)展,OCR識(shí)別的準(zhǔn)確率不斷提高,有些公司的OCR產(chǎn)品聲稱可達(dá)到99%的準(zhǔn)確率,但運(yùn)用OCR并不是一勞永逸的,還需要后期進(jìn)行人工核對(duì)和糾正,成本較高。經(jīng)過(guò)OCR識(shí)別后,可采用PDF雙層格式存儲(chǔ)來(lái)避免后續(xù)轉(zhuǎn)換的麻煩,PDF雙層格式是將圖像層置于上層,而文本置于底層,這樣既能保證用戶對(duì)檔案內(nèi)容進(jìn)行文檔操作,又能保證檔案的傳輸安全。OCR是全文檢索的基礎(chǔ),但如果想要實(shí)現(xiàn)檔案內(nèi)容智能服務(wù),還遠(yuǎn)遠(yuǎn)不夠。

經(jīng)過(guò)OCR識(shí)別后的文本內(nèi)容多為非結(jié)構(gòu)化或半結(jié)構(gòu)化,原生電子文件的類型更加多樣化,為了有效利用不同結(jié)構(gòu)類型的檔案,首先應(yīng)對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化的文檔進(jìn)行結(jié)構(gòu)化處理,處理的顆粒度可以根據(jù)需要按照章節(jié)、段落或句子等來(lái)拆分,拆分后形成一個(gè)個(gè)XML片段,再對(duì)這些片段打上標(biāo)簽,目的是為多維度檢索做鋪墊。標(biāo)簽的另一個(gè)作用是為人工智能打下基礎(chǔ),利用海量檔案內(nèi)容對(duì)機(jī)器進(jìn)行訓(xùn)練,使機(jī)器能夠?qū)?nèi)容分類做出判斷,將分類結(jié)果與人工標(biāo)識(shí)的標(biāo)簽進(jìn)行抽樣檢查,計(jì)算出人工智能分類的準(zhǔn)確率,再進(jìn)行調(diào)整。人工智能分類只是檔案內(nèi)容智能管理的一個(gè)部分,還需利用其他技術(shù),如知識(shí)挖掘技術(shù)對(duì)檔案內(nèi)容進(jìn)行深度分析和總結(jié),才能實(shí)現(xiàn)檔案內(nèi)容的智能知識(shí)推送。

檔案從傳統(tǒng)介質(zhì)到數(shù)字態(tài),再到數(shù)據(jù)態(tài)的轉(zhuǎn)變,體現(xiàn)了管理顆粒度由粗到細(xì)的不斷深入。每次轉(zhuǎn)變都離不開(kāi)技術(shù)的進(jìn)步,同時(shí)也帶來(lái)了管理理念的沖擊和改變。

參考文獻(xiàn):

[1]劉瀟.檔案信息化與數(shù)字化的發(fā)展趨勢(shì)分析[J].陜西檔案,2020(08): 35-37.

[2]盧鈺.電子文件管理的前端控制原則[J].蘭臺(tái)世界,2016(12): 52-56.

[3]趙躍.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)化的前景展望:意義與困境[J].檔案學(xué)研究,2019(10): 52-60.

[4]王英,蔡盈芳,黃磊.電子文件管理[M].清華大學(xué)出版社,2016.

[5]尹文楓,梁玲燕,彭慧民等.卷積神經(jīng)網(wǎng)絡(luò)壓縮與加速技術(shù)研究進(jìn)展[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020(09): 16-25.

[6]李樺.談智慧檔案館建設(shè)的認(rèn)識(shí)誤區(qū)及對(duì)策[J].北京檔案,2020(06): 33-35.

(作者單位:鄭州輕工業(yè)大學(xué) 來(lái)稿日期:2020-10-04)

主站蜘蛛池模板: 国产在线视频自拍| аv天堂最新中文在线| 婷婷在线网站| 3p叠罗汉国产精品久久| 国产高清在线精品一区二区三区 | 国内精自视频品线一二区| 亚洲精品视频免费观看| 欧美亚洲国产一区| 一区二区三区在线不卡免费| 日韩无码真实干出血视频| 2020精品极品国产色在线观看 | 欧美国产日韩在线播放| 欧美激情二区三区| 久久久国产精品无码专区| 日韩小视频网站hq| 青青草国产免费国产| 国产精品自在拍首页视频8| 免费毛片a| 亚洲第一成年免费网站| 91成人在线观看| 国产成人精品一区二区三在线观看| 久久精品免费看一| 99精品久久精品| 久久a毛片| 丰满的熟女一区二区三区l| 国产精品视频白浆免费视频| 2021最新国产精品网站| 国产欧美精品一区二区| 在线无码九区| 在线观看亚洲成人| 久久伊人色| 国产伦精品一区二区三区视频优播 | 伊人久久久久久久| 在线观看无码av五月花| 暴力调教一区二区三区| 欧美日韩午夜视频在线观看| 九九热视频精品在线| 日本高清成本人视频一区| 88av在线播放| 成人综合久久综合| 永久免费AⅤ无码网站在线观看| 亚洲国内精品自在自线官| 国产成人亚洲无吗淙合青草| 免费无遮挡AV| 欧美激情视频一区二区三区免费| 一级毛片免费不卡在线视频| 免费在线a视频| 亚洲欧美在线综合图区| 婷婷色中文| 精品无码一区二区三区电影| 国产免费福利网站| 免费在线色| 国产亚洲第一页| 国产H片无码不卡在线视频| 欧美亚洲一二三区| 欧美97色| 国产成人久久综合777777麻豆 | 国产成人AV综合久久| 国产在线观看99| 无码'专区第一页| 精品国产成人a在线观看| 青青青草国产| 久久99国产综合精品1| 国产成人免费观看在线视频| 国产国语一级毛片| 久久夜色精品| 99九九成人免费视频精品| 国产成人高精品免费视频| a在线亚洲男人的天堂试看| 国产精品大尺度尺度视频| 在线观看视频99| 国产免费久久精品99re丫丫一| 国产综合精品一区二区| 91精品国产一区| 国产成人精品高清在线| 亚洲精品色AV无码看| 亚洲国产av无码综合原创国产| 69国产精品视频免费| 免费午夜无码18禁无码影院| 97国产精品视频自在拍| 国产视频一区二区在线观看| 日日噜噜夜夜狠狠视频|