999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子文檔長(zhǎng)期保存格式分析

2009-08-17 05:25:58
檔案管理 2009年4期
關(guān)鍵詞:標(biāo)準(zhǔn)

趙 芳

摘要:文章從分析目前文檔格式現(xiàn)狀入手,在綜合國(guó)內(nèi)外研究成果的基礎(chǔ)上提出長(zhǎng)期保存文檔格式選擇的標(biāo)準(zhǔn),并對(duì)PDF格式與基于XML的格式進(jìn)行了比較,認(rèn)為基于XML的格式更適合作為長(zhǎng)期保存文檔的格式,

關(guān)鍵詞:長(zhǎng)期保存;文檔格式:標(biāo)準(zhǔn)

1文檔格式現(xiàn)狀

長(zhǎng)期以來(lái),文檔格式因微軟公司最早占領(lǐng)辦公軟件領(lǐng)域而被“.doc”、“.xls”和“.plat”等事實(shí)標(biāo)準(zhǔn)所壟斷,目前全球大概90%以上的文檔都是采用微軟Office的格式存儲(chǔ),微軟的Word成為最為常見(jiàn)的電子文檔格式。但由于該格式屬微軟公司私有,其隱患是該格式文檔擁有者有可能因版本升級(jí)或其他原因,喪失對(duì)自己文檔的處理能力,這對(duì)文檔擁有者甚至政府部門(mén)都存在著喪失讀取和修改的安全隱患。為此,國(guó)際上改變前辦公軟件相互封閉、文檔格式互不兼容的努力如火如荼開(kāi)展起來(lái),由Sun、IBM等36個(gè)成員創(chuàng)建的ODF fOpen Document Format)聯(lián)盟在全球推廣ODF文檔格式。2006年5月初,ODFJE式被國(guó)際標(biāo)準(zhǔn)化組織(簡(jiǎn)稱(chēng)ISO)認(rèn)可為文檔格式的國(guó)際標(biāo)準(zhǔn)。Word因其應(yīng)用的廣泛性,ODF因其的開(kāi)放性,這兩種文檔格式目前成為電子文檔的主要格式。然而,這兩種格式并不適于長(zhǎng)期保存。

Word格式不適于長(zhǎng)期保存主要原因有二:其一,Word是二進(jìn)制的,即人不可讀的形式。沒(méi)有匹配的讀取軟件不能把文件內(nèi)容從Word文檔中提取出來(lái)。其二,Word是私有格式,前邊已經(jīng)談過(guò)私有格式的危害。盡管后來(lái)的ODF格式克服了Word格式的上述兩個(gè)缺點(diǎn),但作為文檔處理軟件生成格式的固有弱點(diǎn),它仍不適于長(zhǎng)期保存。究其原因,也主要有二:其一。該格式主要是描述文件外觀而不是結(jié)構(gòu)。對(duì)于長(zhǎng)期保存來(lái)說(shuō),文件的紙張大小、頁(yè)面、字體等外觀問(wèn)題不甚重要,而對(duì)于文件被劃分為幾個(gè)部分、各部分之間的關(guān)系等結(jié)構(gòu)問(wèn)題對(duì)理解文件內(nèi)容來(lái)說(shuō)很重要:其二,該格式是扁平式的,即文件由標(biāo)題和段落按順序構(gòu)成。而長(zhǎng)期保存需要保存每個(gè)章節(jié)段落的深層次結(jié)構(gòu)以及內(nèi)部嵌入的內(nèi)容。因?yàn)檫@種深層次的結(jié)構(gòu)有助于結(jié)構(gòu)檢索和查詢(xún)及文檔格式轉(zhuǎn)換。

鑒于此,為了長(zhǎng)期保存這些電子文檔,我們需要把它們轉(zhuǎn)換成適于長(zhǎng)期保存的格式。

2選擇文檔長(zhǎng)期保存格式的標(biāo)準(zhǔn)

長(zhǎng)期保存文件不管是因其情報(bào)價(jià)值還是因其憑證價(jià)值,總而言之是為了利用。所以,要從利用的角度來(lái)分析保存文件的要求。另外,我們要利用的是真實(shí)可讀的文件。這里的利用不僅是單純的使用文件,它還應(yīng)該包括文件的真實(shí)性、可讀性的維護(hù)。所以我們?cè)谟懻摫4娓袷絾?wèn)題要以保護(hù)文件的真實(shí)性和可讀性人手。

Jacqueline Slats在“辦公格式數(shù)字保存實(shí)踐”中提到了保存文檔的五個(gè)基本需求:其一,在背景方面,要求記錄組織背景,如名稱(chēng)、活動(dòng)過(guò)程、日期、與其他文檔的關(guān)系、保存日志、原始文檔與現(xiàn)存文檔的關(guān)系、版本及名稱(chēng)、保護(hù)過(guò)程:其二,在內(nèi)容方面,所有文檔內(nèi)容都要保存下來(lái),純文本內(nèi)容要保持永久可讀:其三,在結(jié)構(gòu)方面,為重現(xiàn)文件內(nèi)容間的邏輯聯(lián)系必須保存文檔的結(jié)構(gòu),如章、節(jié)、段落的次序,包括評(píng)論和腳注及插圖的正確位置:其四。在外觀方面,在不影響表達(dá)原始文檔意思的前提下,保存的外觀可以不必與原始外觀完全相同:其五,在效用方面,對(duì)有效連接的著錄必須要保存下來(lái),現(xiàn)行效用和內(nèi)容的更新部分不必保存但致使內(nèi)容變化的效用的證明必須要保存下來(lái)。

Frank Moehle對(duì)數(shù)字保存提出下列五項(xiàng)要求:一是整體性(無(wú)損壞、安全存儲(chǔ));二是可理解性(能理解文件背景和內(nèi)容);三是原始性(數(shù)據(jù)結(jié)構(gòu)和外觀);四是真實(shí)性(作者、來(lái)源和證據(jù)的真實(shí));五是可利用性(可讀、可利用)。

除了上述保護(hù)文件本身特點(diǎn)的需求外,還需要考慮為了應(yīng)對(duì)技術(shù)挑戰(zhàn)帶來(lái)的軟硬件升級(jí)更新文檔格式需要進(jìn)行不斷地轉(zhuǎn)換問(wèn)題。所以,長(zhǎng)期保存格式必須選擇能夠而且易于轉(zhuǎn)換的文檔格式。

面對(duì)紛繁復(fù)雜的文檔格式,到底應(yīng)該如何選擇長(zhǎng)期保存的文檔格式呢?Frank Moehle在“文檔格式在數(shù)字保存的角色”中對(duì)文檔格式提出的八項(xiàng)要求是:(1)格式所用的語(yǔ)言及語(yǔ)法規(guī)范是公用的:(2)得到類(lèi)似ISO這樣標(biāo)準(zhǔn)化組織認(rèn)可:(3)已被廣泛地認(rèn)可及使用;(4)免費(fèi)的使用權(quán);(5)無(wú)加密技術(shù);(6)無(wú)壓縮技術(shù);(7)自帶說(shuō)明書(shū);(8)不依賴(lài)任何存儲(chǔ)介質(zhì)。

Micheal Lesk在“數(shù)字化保存——新的需求及挑戰(zhàn)”一文中也闡述了選擇保存格式的一些標(biāo)準(zhǔn):(1)內(nèi)容層而非顯示層的描述,這會(huì)簡(jiǎn)化轉(zhuǎn)換工作:(2)足夠的解釋空間,提供檢索和分類(lèi)所需的信息;(3)開(kāi)放的,任何人都可以免費(fèi)使用;(4)可解釋性,任何時(shí)候人都可讀。

劉家真教授也曾論述過(guò)文件保存格式的選擇問(wèn)題,她提出了9條原則:(1)該格式能在不同的環(huán)境下使用;(2)該格式應(yīng)是通用的、非專(zhuān)用的格式;(3)支持?jǐn)?shù)據(jù)從專(zhuān)用格式的環(huán)境中移出;(4)最好選用標(biāo)準(zhǔn)格式;(5)挑選被業(yè)界或用戶(hù)廣泛支持的格式;(6)可擴(kuò)展性:(7)可真實(shí)完整地被用戶(hù)讀出并理解;(8)具有自身的可證明性;(9)具有可評(píng)價(jià)性。

以上學(xué)者都從不同角度、側(cè)重點(diǎn)提到了或簡(jiǎn)單或詳細(xì)的文檔保存格式選擇的原則。為了正確或是輔助選擇長(zhǎng)期保存的文檔格式,荷蘭國(guó)家圖書(shū)館進(jìn)行了文檔保存格式選擇的標(biāo)準(zhǔn)研究。該研究中提到了7條評(píng)價(jià)文檔長(zhǎng)期保存格式的標(biāo)準(zhǔn),按其權(quán)重排列:(1)開(kāi)放性(24%);(2)依賴(lài)性(24%);(3)采用性(21%);(4)復(fù)雜性(10%);(5)技術(shù)保護(hù)機(jī)制(10%);(6)耐久性(7%);(7)自我記錄性(4%)。

綜合以上觀點(diǎn),我認(rèn)為長(zhǎng)期保存文檔格式選擇標(biāo)準(zhǔn)可從以下幾個(gè)方面考慮:

(1)開(kāi)放性。包括公開(kāi)源碼、免費(fèi)使用。只有開(kāi)放的文檔標(biāo)準(zhǔn)才能實(shí)現(xiàn)不同版本間文檔格式的互通,確保文檔在不同系統(tǒng)之間有效、自由地實(shí)現(xiàn)互操作,更適合長(zhǎng)期保存文檔的轉(zhuǎn)換格式需要。

(2)廣采性。即保存格式應(yīng)是被廣泛采用且得到標(biāo)準(zhǔn)組織認(rèn)可的。這樣的格式有利于推廣,并且為多種軟件開(kāi)發(fā)商所采用,使文檔很容易制作和保存。從長(zhǎng)期保存的觀點(diǎn)來(lái)看,也易于為其編寫(xiě)轉(zhuǎn)換格式,集體轉(zhuǎn)換文檔,這樣一方面減輕長(zhǎng)期保存的經(jīng)濟(jì)壓力,另一方面還能減少文檔格式轉(zhuǎn)換造成丟失數(shù)據(jù)的風(fēng)險(xiǎn)。

(3)無(wú)依賴(lài)性。即保存格式不依賴(lài)任何軟硬件。這樣可大大減少管理程序與管理費(fèi)用,便于資源共享,更重要的是有利于減少文件長(zhǎng)期保存中數(shù)據(jù)丟失的風(fēng)險(xiǎn),不依賴(lài)任何加密、壓縮等技術(shù)。換句話說(shuō),格式中不允許有加密和壓縮這樣的設(shè)置,因?yàn)榧用?/p>

的文檔在長(zhǎng)期保存過(guò)程中不利于轉(zhuǎn)換;壓縮的文檔容易損壞,且一旦損壞無(wú)法彌補(bǔ),因而也不利于長(zhǎng)期保存。

(4)可解釋性。即保存格式不應(yīng)該是二進(jìn)制的,而是人可讀的純文本形式。這樣即使格式軟件不存在了,原始文件內(nèi)容和標(biāo)記也仍然可被人識(shí)讀。且有足夠的解釋空間,能允許提供大量的元數(shù)據(jù)來(lái)滿足說(shuō)明文檔的需求,也方便以后的格式轉(zhuǎn)換。

(5)結(jié)構(gòu)化描述性。也可以稱(chēng)作立體式描述。也就是說(shuō),格式要盡量揭示文件內(nèi)容,而不僅是顯示文件的外觀。這樣既可以反映文件內(nèi)容間的邏輯聯(lián)系,又便于格式的轉(zhuǎn)換。

3長(zhǎng)期保存文檔格式的選擇

目前各檔案館及圖書(shū)部門(mén)選擇的長(zhǎng)期保存文檔格式主要有兩種:即PDF格式與基于XML的格式。

PDF(Portable Document For,mat、文檔是Adobe公司開(kāi)發(fā)的一種文檔格式。該格式的最大優(yōu)點(diǎn)在于能如實(shí)地保留原有文件的內(nèi)容與外觀。而且容易生成,既可用Adobe Acrobat軟件,也可用MicrosoK Word和OpenOffice.orgWriter,它們都具有PDF的輸出功能。此外,PDF還具有支持聯(lián)機(jī)、安全、交互式使用等優(yōu)點(diǎn)。這些優(yōu)點(diǎn)足以促使那些文檔保管單位積極采用PDF作為主要的文檔保存格式。

XML(Xtensible Markup Language)“可擴(kuò)展標(biāo)識(shí)語(yǔ)言”,是一套定義語(yǔ)義標(biāo)記的規(guī)則,這些標(biāo)記將文檔分成許多部件并對(duì)這些部件加以標(biāo)識(shí)。它也是元標(biāo)記語(yǔ)言,即定義了用于定義其他與特定領(lǐng)域有關(guān)的、語(yǔ)義的、結(jié)構(gòu)化的標(biāo)記語(yǔ)言的句法語(yǔ)言。XML最大的優(yōu)勢(shì)在于對(duì)各種數(shù)據(jù)的管理。任何系統(tǒng)都可以通過(guò)XML的解析器來(lái)讀取XML數(shù)據(jù),因此它的數(shù)據(jù)可以通行各處,而不用擔(dān)心系統(tǒng)不支持的問(wèn)題?;赬ML的格式也是一種理想的文檔保存格式。首先它是開(kāi)放的標(biāo)準(zhǔn);其次,它使用標(biāo)準(zhǔn)的文字編碼,能描述任何語(yǔ)言、任何事物;再次。它基于純文本。這使它能長(zhǎng)期被識(shí)讀。XML的這些優(yōu)點(diǎn)均有利于真實(shí)可靠地長(zhǎng)期保存文檔。

到底哪種格式更適合文檔的長(zhǎng)期保存,Jacqueline Slats對(duì)這兩種格式的優(yōu)缺點(diǎn)進(jìn)行了如下比較:

兩者相比較而言,在長(zhǎng)期保存文檔方面,PDF不如XML適合保存文檔,因?yàn)樗娜?xiàng)缺點(diǎn)對(duì)文檔的長(zhǎng)期保存來(lái)說(shuō)都是致命的。此外,PDF的缺點(diǎn)還包括版本間的不兼容問(wèn)題。

雖然PDF/A是基于PDF1.4開(kāi)發(fā)的,它試圖通過(guò)一系列規(guī)定限制來(lái)克服PDF的上述缺陷,并已成功地躋身國(guó)際標(biāo)準(zhǔn)成為電子文檔長(zhǎng)期保存格式標(biāo)準(zhǔn)。一方面,這是Adobe公司在開(kāi)放性方面取得的進(jìn)步:但另一方面,從根本上來(lái)說(shuō),PDF的公司所有的私有屬性并不能改變。而且,如果把PDF中的一些特性如禁止加密、批注、禁止植入其他類(lèi)型文件等通過(guò)限制的政策而剔除的話,PDF本身所特有的優(yōu)勢(shì)也就大打折扣了。此外,其版本兼容問(wèn)題仍然成為它繼續(xù)發(fā)展的桎梏。

可以與PDF/A競(jìng)爭(zhēng)的另一格式是基于XML的XHTML和DocBook。

熟悉XHTML的人很多,這里只簡(jiǎn)單介紹一下DocBook。它是一個(gè)由SGML或者XML文檔類(lèi)型定義(DTD)的標(biāo)記語(yǔ)言。簡(jiǎn)單地說(shuō),DocBook是一套描述文檔結(jié)構(gòu)的標(biāo)簽,它能將文件內(nèi)容與文件樣式信息分開(kāi)處理(如字體,顏色)。DocBook從1991年開(kāi)始創(chuàng)建,目前經(jīng)歷了四個(gè)主要的版本,已成為OASIS采納的標(biāo)準(zhǔn)。除了擁有XML所有的優(yōu)點(diǎn)外,DoeBook的可移植性非常值得稱(chēng)道,而且是一次輸入、多種輸出。一個(gè)用DocBook標(biāo)記語(yǔ)言寫(xiě)的文檔能夠快速簡(jiǎn)單地轉(zhuǎn)換為HTML、PostScript、PDF、RTF、DVI以及ASCII純文本。DocBook以及所有配套DocBook使用的工具都是在開(kāi)源授權(quán)下供自由使用的。DocBook的另外一個(gè)優(yōu)勢(shì)是能把作者從對(duì)文檔的排版和格式的擔(dān)心中解脫出來(lái)。所以,DocBook不僅適于長(zhǎng)期存儲(chǔ)文檔,也適合編輯文檔。

綜上,在電子文檔長(zhǎng)期保存格式的選擇時(shí),我們要從保存需求分析人手,根據(jù)保存格式的選擇標(biāo)準(zhǔn),綜合分析各種格式的利弊,最終選擇最適于長(zhǎng)期保存的文檔格式,以保證電子文檔的真實(shí)性和長(zhǎng)期可利用性。

參考文獻(xiàn):

[1]BARNES,L.Preservation of wordprocessing documents.

Australianartnership for Sustainable Reposi-tories,2006.URL:http://www.apsr.e-du.au/publications/preservation ofword_processing_documents.html.

[2] Jacqueline Slats,Practical expe-riences of the digital preservationtestbed:Office formats in Proceed-ings of the conference "File formatsfor

preservation" ,Vienna (2004).URL:http://www.erpanet.org/event s/2004/vierma/presentations/erpaTr-ainingVienna_Slats.pdf.

[3]Frank Moehle, The Role of FileFormats in Digital

Preservation:Opportunities and Threats,http://www.erpanet.org/events/2004/vien-na/index.php.

[4]Michael Lesk,Preserving digitalobjects:Recurrent needs and chal-lenges in Proceedings of the 2ndNPO Conference on MultimediaPreservation,Brisbane (1995).URL:http://www.lesk, comJmlesk/auspres/aus.html.

[5]劉家真,文件保存格式與PDF文檔[J],檔案學(xué)研究,2002(2)。

[6]Caroline van Wijk Judith Rog,Evaluating file formats for long-term preservation.URL:http://rdd.sub.uni -goettingen.de/conferences/ipres07/.

[7]ERPANet,ERPA Advisory(2004).URL:http://www.erpanet.org/adviso-ry/list.php.

[8]宛玲,電子文檔長(zhǎng)期存取的跨媒體開(kāi)放文件格式[J],中國(guó)圖書(shū)館學(xué)報(bào),2007(3)。

猜你喜歡
標(biāo)準(zhǔn)
2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
忠誠(chéng)的標(biāo)準(zhǔn)
標(biāo)準(zhǔn)匯編
上海建材(2019年1期)2019-04-25 06:30:48
美還是丑?
你可能還在被不靠譜的對(duì)比度標(biāo)準(zhǔn)忽悠
一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長(zhǎng)中的煩惱”
2015年9月新到標(biāo)準(zhǔn)清單
標(biāo)準(zhǔn)觀察
標(biāo)準(zhǔn)觀察
標(biāo)準(zhǔn)觀察
主站蜘蛛池模板: 亚洲人成影视在线观看| A级毛片高清免费视频就| 国产免费久久精品99re不卡| 国产成人禁片在线观看| 色妞永久免费视频| 亚洲一区毛片| 亚洲日本一本dvd高清| 精品在线免费播放| 无码精品一区二区久久久| 国产大片喷水在线在线视频| 欧美日韩成人| yjizz国产在线视频网| 中文字幕天无码久久精品视频免费| 国产精品19p| 国产日产欧美精品| 婷婷综合在线观看丁香| 欧美精品二区| 青草视频网站在线观看| 久草视频精品| 国产真实乱子伦视频播放| hezyo加勒比一区二区三区| 国产精品永久不卡免费视频 | 中文字幕乱码中文乱码51精品| 精品福利国产| 色屁屁一区二区三区视频国产| 另类重口100页在线播放| 日韩福利在线视频| 亚洲成a人片77777在线播放| 中文毛片无遮挡播放免费| 中文字幕日韩欧美| 国产va在线观看免费| 精品国产成人av免费| 高清无码手机在线观看| 色悠久久久久久久综合网伊人| 日韩欧美国产三级| 天天色天天操综合网| 成人欧美在线观看| 久久精品aⅴ无码中文字幕| 精品成人一区二区| 国产一级一级毛片永久| 97综合久久| 亚洲国产成人精品一二区| 日韩毛片免费| 国产成人精品无码一区二| 九九免费观看全部免费视频| 国产美女无遮挡免费视频| 国产手机在线ΑⅤ片无码观看| 国产日本欧美在线观看| 91精品国产麻豆国产自产在线| 亚洲有无码中文网| 99久久国产综合精品女同| 69视频国产| 国产成人av大片在线播放| 精品久久香蕉国产线看观看gif | 亚洲中文在线视频| 国产区成人精品视频| 欧美翘臀一区二区三区| 国产理论最新国产精品视频| 久久国产精品国产自线拍| 米奇精品一区二区三区| 日本道综合一本久久久88| 好紧好深好大乳无码中文字幕| 91毛片网| 久久国产拍爱| 国产精品伦视频观看免费| 亚洲狠狠婷婷综合久久久久| 992tv国产人成在线观看| 国产亚洲欧美另类一区二区| 亚洲另类国产欧美一区二区| 色综合成人| 就去色综合| 国产高清不卡| 国内精品久久久久久久久久影视| 女人18毛片一级毛片在线| 欧美啪啪精品| 国产最爽的乱婬视频国语对白| 视频二区国产精品职场同事| 国产女人在线观看| 欧美无遮挡国产欧美另类| 久久不卡国产精品无码| 国产福利一区视频| 人妻出轨无码中文一区二区|