趙玉琴(江蘇省五臺山體育中心,江蘇南京,210029)
圖像轉(zhuǎn)PDF的問題與解決方法
趙玉琴(江蘇省五臺山體育中心,江蘇南京,210029)
檔案數(shù)字化就是將大量紙質(zhì)檔案電子化,實(shí)現(xiàn)電腦存儲與在線查詢。由于PDF文件本身的標(biāo)準(zhǔn)化、方便性,目前的應(yīng)用越來越多,一種比較流行的方法是將掃描好的圖像文件最后合并成TIFF文件,然后轉(zhuǎn)換成PDF文件。但是由于有關(guān)部門對如何轉(zhuǎn)換成PDF文件沒有一個(gè)統(tǒng)一的規(guī)定,每個(gè)掃描公司基本上都是依據(jù)自己的想法或經(jīng)驗(yàn)進(jìn)行掃描轉(zhuǎn)換,因此轉(zhuǎn)換流程與方式以及軟件也五花八門。
轉(zhuǎn)換成PDF文件的原理有兩種,一是基于虛擬打印原理。虛擬打印原理的軟件開發(fā)需要提供打印驅(qū)動程序,這種軟件通用性較好,除圖像文件外還可以將Word等所有可打印格式轉(zhuǎn)換成PDF。二是直接將圖像嵌入PDF文件。直接將圖像嵌入PDF文件的軟件實(shí)現(xiàn)相對簡單。無論采用那一種方法都存在著圖像數(shù)據(jù)流重新壓縮造成的問題和對特殊圖像格式的支持問題等。
對基于虛擬打印原理實(shí)現(xiàn)的轉(zhuǎn)換軟件來說,其工作過程為:轉(zhuǎn)換工具提供一個(gè)虛擬打印機(jī)。如Acrobat 提供的打印機(jī)名為Adobe PDF。看圖軟件打開圖像文件,在接到打印命令后,像在真實(shí)打印機(jī)上打印一樣,將圖像每個(gè)像素描繪到虛擬紙上,形成發(fā)送給虛擬打印機(jī)的數(shù)據(jù)流。虛擬打印機(jī)收到數(shù)據(jù)流后,根據(jù)圖像的色彩空間等信息,選擇合適的壓縮算法,對數(shù)據(jù)流再次進(jìn)行壓縮以減小文件長度,然后將壓縮后的數(shù)據(jù)流存入PDF。
對于基于虛擬打印原理實(shí)現(xiàn)的圖像轉(zhuǎn)PDF 工具,可能會有如下問題:對于有損壓縮的JPG 文件,轉(zhuǎn)換成PDF 后的質(zhì)量與發(fā)出打印命令的軟件密切相關(guān)。像ACDSEE 這樣先解碼再打印,必然會因?yàn)閳D像的再壓縮而造成質(zhì)量衰減或文件膨脹。像Word 這樣直接將JPG 數(shù)據(jù)流發(fā)送到虛擬打印機(jī),則與軟件內(nèi)部的打印設(shè)置有關(guān),設(shè)置好了可以直接將數(shù)據(jù)流完整嵌入PDF 而不造成損失或膨脹,設(shè)置不好則同樣可能造成像素?fù)p失。另外,打印機(jī)對JPG 數(shù)據(jù)流的支持受平臺限制,一般來說包括ACDSEE 在內(nèi)的大多數(shù)軟件都是先解碼成bitmap,這樣就可以不受平臺限制。而對于無損壓縮的圖像文件,如GIF、PNG、BMP 等,真彩色圖像往往會被轉(zhuǎn)換成有損壓縮的JPG數(shù)據(jù)流,造成圖像質(zhì)量損失;灰度、索引色圖像往往會被解碼后再壓縮成某種無損壓縮數(shù)據(jù)流,如果虛擬打印機(jī)所選壓縮算法的壓縮效率低于原圖像壓縮算法,則可能造成PDF 文件的膨脹。
直接將圖像嵌入PDF的轉(zhuǎn)換軟件工作原理與基于虛擬打印機(jī)的轉(zhuǎn)換軟件不同,其工作過程是,用戶在轉(zhuǎn)換軟件中選擇需要轉(zhuǎn)換的圖像文件后,轉(zhuǎn)換工具按照PDF文件規(guī)范創(chuàng)建PDF文件,寫入文件頭信息,再逐一從圖像文件中抽取圖像數(shù)據(jù),根據(jù)需要對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,然后將數(shù)據(jù)打包成PDF對象,寫入PDF文件。直接讀取圖像數(shù)據(jù)的轉(zhuǎn)換工具,由于可以從原始圖像文件中獲取豐富的圖像信息,包括原始數(shù)據(jù)壓縮算法等,可以針對不同的文件格式或不同的圖像情況做出選擇。基于虛擬打印原理實(shí)現(xiàn)的轉(zhuǎn)換工具,如果打印機(jī)只能得到解碼后的數(shù)據(jù)流,選擇的余地就會小一些,是從bitmap數(shù)據(jù)流中獲取顏色深度等信息,再選擇算法重新壓縮數(shù)據(jù)。
總之,只要對圖像數(shù)據(jù)流重新壓縮就有會產(chǎn)生問題,差別在于問題的大與小、重與輕,將無損壓縮轉(zhuǎn)換成有損壓縮,或?qū)τ袚p壓縮解碼后再次有損壓縮,必然造成圖像質(zhì)量下降。改變文件數(shù)據(jù)流的壓縮方法,某些情況下可以減小文件長度,在某些情況下則相反,會引起文件長度加長,甚至膨脹,關(guān)鍵是看數(shù)據(jù)與壓縮方法的搭配是否合適。
這里說的特殊圖像格式,主要是指TIFF 格式。在常見的圖像格式中,JPG、GIF、BMP 等都有嚴(yán)格的格式規(guī)定,可能出現(xiàn)的情況較少。但是對于TIFF 來說,由于TIFF 標(biāo)準(zhǔn)本身希望能夠包容盡可能多的東西,又對實(shí)現(xiàn)細(xì)節(jié)也沒有具體的規(guī)定,所以各家軟件生成的TIFF 圖像種類繁多。
國內(nèi)專業(yè)掃描外包公司中,他們?yōu)榱藴p少數(shù)據(jù)處理量,對TIFF 采用有損壓縮是常有的事,這些圖像多半就連libtiff也解不開,ACDSEE 更是想都不用想,有些甚至連專門顯示TIFF 文件的MicrosoftOffice Document Imaging (微軟Office 2003 所帶附件之一)也打不開,而只能用他們自己的軟件才能閱讀。
除TIFF 外,PNG 文件也是一種可能會造成潛在麻煩的格式。但是與TIFF 不同,PNG 的麻煩不在于文件格式本身或數(shù)據(jù)壓縮算法,而在于它豐富的色彩表示。
解決以上問題的建議是,對有損壓縮的圖像數(shù)據(jù),應(yīng)盡量將原始數(shù)據(jù)流嵌入PDF文件,避免重新壓縮造成圖像質(zhì)量衰減。對無損壓縮圖像數(shù)據(jù),可以根據(jù)圖像特征選擇合適的無損壓縮算法重新壓縮圖像數(shù)據(jù),以節(jié)省存儲空間,也可以直接將原始圖像數(shù)據(jù)嵌入PDF,以節(jié)省重新壓縮所需的時(shí)間。在數(shù)字化過程中TIFF文件的生成最好規(guī)定一到兩種壓縮算法,生成PDF文件的軟件或最終文件要通過一定的檢測。