摘要:在當今的計算機世界里,Microsoft Word的Doc格式和Adobe Acrobat的PDF格式是使用率最高的兩種文檔格式,其中PDF是Internet上進行電子文檔發行和數字化傳播的理想格式。文章介紹了一些日常使用PDF文檔的體會,希望有助于讀者更好地應用PDF文檔。
關鍵詞:PDF;Word;OCR;Acrobat;應用
0 引言
PDF是英文Portable Document Format的縮寫,意為便攜式文檔格式,其突出優點是“將PDF文件格式的文字、字型、格式、顏色及獨立于設備和分辨率的圖形圖像等封裝在一個文件中”,從而保持源文檔排版風格和字體格式不變(這樣就不用擔心其他電腦上的字體不全了)。我們都知道,一種軟件一般只編輯特定格式的文檔,如果計算機里沒有相應軟件,則文檔就無法打開。而若把這種格式的文檔轉換成PDF格式,則只要電腦里裝有PDF瀏覽器,就可以閱覽到這些文檔的內容,(PDF文檔的優點還有很多,具體可參見文[1-2])。所以很多產品說明書、技術文檔、大量電子版書籍、學術論文以及相關文件等資源均以PDF文件為主流的電子圖書格式存儲于互聯網之中,它已成為了互聯網中電子文檔分發廣泛使用的格式。
1 PDF文檔瀏覽
我們平常看PDF文件的軟件是Adobe Reader,這是Adobe公司免費提供的用于閱讀PDF文檔的軟件,相信很多人對它并不陌生。此外,有個軟件似乎也并不遜色,它就是Foxit Reader(福昕閱讀器)。該軟件支持Adobe Reader的所有功能,它具有令人非常小的體積,安裝空間比Adobe Reader小得多,只有區區幾個MB,而Adobe Reader比較龐大,安裝后甚至多達190MB。而且Foxit Reader也有一些常用的編輯功能,比如可以制作書簽,在PDF文檔上輸入字符、對內容進行標記等等,這對于普通用戶來說,已基本可以滿足日常辦公和學習需求。
2 PDF文件編輯
Adobe公司的Acrobat軟件,是一款用來創建、編輯、審閱、批準、在線共享PDF的軟件,功能非常強大。比如要編輯PDF文檔里的文字,可以選擇“視圖一工具欄一打字機工具”,打開工具箱,便可以對文字進行編輯。此外還有注釋工具、文本框、頁眉頁腳的添加等等。Acrobat的許多功能,如PDF文件分割與合并、Word格式轉換成PDF格式、PDF頁面順序調整、頁面管理等,基本上都可以用其他的專門軟件來替代實現。網上有不少這類的專門工具(這些工具小巧玲瓏,啟動速度快捷,有的還是綠色版,根本無需安裝),可以在百度里搜索下載。Acrobat的不足之處也是體積過于龐大,因此,我們有時可用FoxitPDF Editor取而代之。Foxit PDF Editor同樣具有所見即所得的編輯功能,其中,“快速導出電子書特定頁面”更為突出。對于一本擁有數十甚至數百頁的PDF電子圖書,一般的常規作法可能很難將其中某些頁面提取出來單獨作為資料進行保存,但這款軟件卻很容易做到。用戶在Foxit PDF Editor中打開PDF電子圖書,然后在軟件的“文檔”菜單中選擇“導出頁面”選項,在打開的“導出頁面”對話框中,只要指定導出頁面保存路徑和導出頁面的范圍,軟件即可進行自動導出了。在默認的條件下,軟件導出的是“當前頁面”,但這款軟件還可以進行批量導出,只要在該“導出頁面”對話框的“原始頁面范圍”中先選中“頁面”,然后指定需要導出的頁面頁碼或頁面頁碼范圍即可。但是,FoxitPDF Editor不支持為PDF文檔添加頁碼。
3 PDF文檔應用的常見情況
3.1 從PDF文檔中提取文字和圖片
從PDF格式的資料文件中提取文字內容拷貝到Word文檔中,方法很簡單:在PDF瀏覽器(如Foxit Reader)中打開該PDF文檔,然后用鼠標選取,右擊“復制”命令(放到了剪切板上),再切換到Word或記事本程序中,“粘貼”即可(或者選用“選擇性粘貼”中的“無格式文本”復制到Word)。問題是,有些PDF格式的文檔,我們卻不能拷貝其文本內容,原因可能是:1,文本身里面的內容是圖片格式的,整個文件由bmp格式的圖像組成;2,這個PDF文檔是加密的,需要破解。如果是圖片格式的PDF,只能通過一些OCR識別軟件(例如Office自帶的OCR識別軟件)來進行識別,即從圖中抓取文字,通俗地說,就是“摳字”。
OCR是英文Optical Character Recognition的縮寫,即采用各種光學設備識別手寫或打印的字符。使用OCR技術,可通過掃描儀、數碼相機等光學輸入設備將報刊、書籍、文稿、票據以及其他印刷品的文字轉化為計算機的圖像信息,然后再轉化為計算機的內碼,也就是計算機的文本。OCR技術功能強大,可以識別數字、標點符號、中英文字符,可以識別中英文混排文稿,還具備版面分析和識別功能,無論橫版、豎版、中文表格、圖文混排文件都能識別。需要注意的是,在識別之前,應首先把PDF文件轉換成tIf或jPg格式的圖像頁。
還有一種情況非常特殊(但也比較少見),PDF文檔里的文本雖然可以復制,但粘貼到Word后竟全是亂碼。這時候,只有把文檔按圖片格式輸出,再進行文字識別(OCR)了。提取PDF文檔中的圖片的方法是:在Foxit Reader中打開PDF文件,點擊“工具一快照”,或者直接在工具欄點選“框選某視區范圍并復制為圖片”按鈕,當光標變成十字型,拖動鼠標將要復制的圖片選中,系統會自動將圖片復制到剪貼板中,再將其粘貼到Word等軟件中即可。
值得指出的是,把PDF數學公式復制粘貼到Word、記事本等程序中顯示的都是不規范的符號、結構甚至亂碼。文獻[4]雖然也提出基于OCR技術的解決方法,但只是理論上的,不具有可操作性和適應性,對一般用戶意義不大。
3.2 在PDF文檔里添加頁碼
如前所述,Acrobat軟件相關功能都可以用其他軟件替代,但經筆者多年實踐認為,若要對PDF文檔添加頁碼,似乎只有Acrobat,可以勝任。添加頁碼的方法很簡單,在Acrobat中,選擇“文檔一頁眉和頁腳”,在彈出的“添加頁眉頁腳”對話框中作相關設置即可,這里不多作贅述。但要注意幾點:選擇好某種字體,一定要注意下面的預覽,看看其能否顯示和顯示效果;在“添加頁眉頁腳”對話框的右邊可以設置一些其他要求,比如奇偶頁什么的,最后點“確定”就行了;如果確定之后對之前設置的頁碼什么的不滿意或者要修改,可以重新執行“文檔一頁眉和頁腳”,點擊“替換跏有的”,重新彈出“添加頁眉頁腳”對話框,就可以直接設置為新的格式,當然,如果頂上的三個框框里都是空白的話,那就是刪除了頁眉頁腳,那頁碼也就沒了。
3.3 Word文件轉PDF格式
前面提到Acrobat軟件具有PDF文件轉換的功能,但是如果僅僅用它來轉換,顯然是大材小用,盡管如此,我們還是有必要知遭轉換的方法,這主要是考慮到轉換的方法有其相通性,即能虛擬打印就能轉換。安裝好Acrobat,系統會自動生成兩個PDF虛擬打印機(Acrobat Distiller和Acrobat PDFWriter)。轉換PDF格式正是借助Acrobat Distiller或Acrobat PDFWriter實現的。打開源文檔,然后執行“文件一打印”命令調出打印對話框,在打印機名稱下拉列表中選擇AcrobatDistiller或Acrobat PDFWriter,再像平時真正打印一樣作一些設置,然后單擊“確定”按鈕,隨后就會彈出一個另存為PDF的對話框,輸入文件名并單擊“確定”按鈕即可。其實有些轉換PDF文件的小工具更好用,如著名的CutePDF Writer等,其轉換的方法與之如出一轍,都是用“虛擬打印”的方法實現,過程、途徑與上面相似。
3.4 PDF文件轉Word格式
PDF格式雖然能用Acrobat編輯但畢竟不方便,因此很多時候,需要將它們轉換為DOC文檔后再編輯。對此,微軟的Word字處理軟件是可以采用的工具。PDF文檔轉換成Word文檔,與Word轉換PDF格式不同,相對比較難,容易出現亂碼、格式版式丟失等等情況。網上PDF轉Word的工具軟件也很多,如PDFFactory Pro、Converter for Microsoft Word等,但功能似以Solid PDF Converter最好。其最值得稱道的地方在于:當轉化PDF文件為Word格式時,用其“全真頁面模式”轉化Word文件,轉化的效果非常好,在編排上不出現任何變化,尤其是在Word文檔含有圖片、表格時。具體的操作很簡單:安裝Solid PDF Converter后,Word中會出現一個“Open PDF”按鈕。在Word中點擊這個按鈕,會出現PDF Converter的對話框。在“PDF File To”中選擇要轉換的PDF文檔,然后點擊“OPEN”,會在PDF文檔所在的目錄下生成同名的DOC文檔,同時Word會自動打開轉換后的DOC文檔。雖然有時還是有亂碼產生,但實踐表明它在同類軟件中仍然是最好的。由于轉換DOC文檔目的是為了更方便編輯,所以對于那種圖片格式的PDF,盡管可以用Solid PDF Converter將其轉換為Word格式,但轉化后的Word文檔圖片還是圖片,無法對其作文字編輯。所以還是要借用OCR軟件來處理(前面已有闡述)。
值得一提的是,若用Acrobat將PDF文檔轉換為Word文檔,應首先打開一篇PDF文檔,再選擇“文件一另存為”,選擇“保存類型”為rtf格式,以最大限度地減少亂碼的產生。
3.5 PDF文檔書簽
文檔書簽是一項非常實用的功能。下面簡單介紹一下Acrobat的書簽功能。首先進,kAcrobat的主界面,然后在菜單欄中依次選擇“編輯一首選項一文檔”,并選中右側的“重新打開文檔時恢復上次視圖設置”選項,這樣設置后的PDF文檔,即可在每次打開時自動定位到上次關閉的頁面位置。使用這個無形的書簽,減少了不必要的反復尋查,為我們具體內容的記憶提供極大方便,特別是對頁面較多的PDF文檔,特殊書簽的記憶功能顯得尤為重要。
4 結束語
PDF是一種全球通用的文件格式,在網絡信息中,越來越多的人使用這種格式,PDF正越來越普及和受到青睞。本文探討了普通用戶相對比較關心的以及在具體使用中可能會碰到的問題,基于筆者多年的經驗和心得,提出了參考意見,期待對大家有所啟發和幫助。PDF更多的特色和功能,還有待讀者自己去挖掘和體會。