你有多久沒好好讀過一本實體書了?有沒有整天拿著平板電腦和手機過日子?我們越來越貼近電子閱讀的時代,手機里的TXT,筆記本上的DOC和HTNL,還有iPad和電紙書上的EPUB以及最常用的PDF。在所有這些格式里,PDF有著最接近實體書的閱讀體驗,但也有實體書一樣的問題——在電腦上不能方便地進行編輯。想必大部分同學畢業論文時都檢索過不少PDF格式的期刊和論文,每當你想摘錄這些珍貴文件的某些段落時,就會發現一般的PDF太不給力了,閱讀軟件自帶的文字識別功能基本不堪大用,之后校對需要花的時間比重新輸入一遍也差不了多少,真是讓人內流滿面。
有沒有什么方法讓PDF既保留出色的閱讀感,又讓它能方便編輯呢?這就是咱們今天要說的雙層PDF了。所謂雙層PDF自然是指有兩層文件的PDF了,其中一層是從普通紙質文件掃描出來的原始圖像,也就是咱們看到的那些東西;另一層就有些門道了,這一層在內容上沒有變化,但是它支持選擇、復制、檢索等編輯功能。使用這樣的PDF文件時,我們看到的是與紙質書毫無區別的第一層,編輯的是與TXT,DOC等性質相似的第二層。美中不足的是這種閱讀與編輯統統完美解決的好東西在國內資源并不豐富,本著一個Geek人吃不飽也要找事兒干的精神,今天咱就來跟大家研究研究一下怎樣自己手動制作簡易的雙層PDF。
俗語說得好:沒有好工具,再好的創意也出不來。制作雙層PDF不需要什么鋸、刀、斧,只需要有一臺能夠正常運行的電腦就行。有了硬件,還要準備軟件,office和PDF閱讀軟件是不能缺少的,另外還要準備一個OCR(光學字符識別)軟件。一切都準備妥當后,兄弟們就可以開始挽起袖子大干一場了。
要制作雙層PDF,首先得要有圖層。也就是說,不管你是掃描也好,拍攝也好,或者直接在網上下載也好,反正首先要搞到你要做這本書的圖片,然后我們才能對圖層進行OCR識別。正如陳老師說的,攝影的境界,你們這些玩器材的永遠都不懂,方塊字的境界,外國佬也永遠都不懂。所以我們放棄了臃腫不堪且不符合咱們天朝上邦國情的OCR界大佬ABBYY FineReader,而選擇使用漢王PDF OCR和清華紫光OCR軟件,這兩個土貨雖然簡陋了些,但勝在夠簡單易用,特別對于方塊字的識別,效果杠杠的。以漢王PDF OCR 8.1版本為例,在這兒文字內容選用村上春樹老師的《遇見百分之百女孩》。
Step1
先聲明咱教的這個技術不是電腦基礎操作,僅適合對電腦操作熟練的兄弟把玩。切回正題,先在OCR軟件中打開掃描書后得到的圖片文件,然后選擇“識別”菜單內選擇“版面分析”命令,軟件開始對當前圖片進行版面構成分析,也可以按快捷鍵“FS”:版面分析后就可以在編輯框內看到文章內容被劃分區域、并按照閱讀順序排列并編號。如果發現區域切分不對,可拉動框邊調整大小,改動編號等方式調整得與原文一致。如果原文的版面確實太復雜,就需要我們進行手動版面分析了。手動版面分析也不復雜,無論左右切分還是混合排版,只要移動光標箭頭按照閱讀順序框選圖像上的內容即可。遇到豎寫文字或者表格和圖像,使用“自定義”版面屬性就可以解決。
Step2
版面分析過后,就要正兒八經地來用OCR提取文字了。選中要識別的圖片頁,使用“識別”菜單上的“開始識別”命令或者快捷鍵“F8”對所選圖像進行版面識別,稍等片刻后識別出的文字會在上方識別窗口中出現。
Step3
即便是最牛哄哄的OCR軟件也不能保證百分之百的識別正確率,這時候就要對識別出的內容進行校對了。識別窗口同時也是一個文字編輯區,可以對照下方的原始文檔對其進行“剪切”“復制”“粘貼”以及文字修改增減等等各種常見的文字編輯。在這大家就要做一次文字校對,對著正文內容好好地找找茬吧!
Step4
校對完成后的圖像文件可以保存成Word、WPS等軟件直接處理的RTF文件(富文本格式),也可以保存成TXT、HTML以及XLS等幾種常用文檔格式。在此建議各位,保存一份RTF作為接來雙層PDF制作用,另保存一份TXT文件備用。
將OCR掃描出來的圖片的文件保存為TIF圖片格式,只需要在“漢王FPDF OCR”軟件中選擇“換名保存圖像”就可以將掃描文件保存為TIF圖片格式。怎么樣,這個雙層PDF制作用到的軟件真的很省吧,很多操作都可以在一個軟件中完成。
Step1
OCR識別結束后,只要將圖像層和文字層合體就能生成雙層PDF了。包括AdobeInDesign在內的很多制作PDF的軟件都能夠實現這個步驟。本著安裝最少軟件的“簡單”的原則,在這里隆重向大家推薦使用Word實現圖像層與文字層合體的方法。
Step2
新建一個Word文檔,把OCR軟件識別出的文字內容復制到到其中。建議采用前面保存的RTF格式中的文字最佳,細心的童鞋還可以再次校對一下。
將TIF圖片插入到文檔,選擇“設置圖片格式”對話框的“版式”頁面,文字環繞選擇為“襯于文字下方”。OK,一層圖片一層文字,雙層PDF的雛形這就出現了。
Step4
下面就到了需要非常非常有耐心的處理,調整Word文件內文字的排版和圖片大小,讓文字和圖片重合一致。如果你對Word文檔操作相當熟練,那么這一步就不會顯得太難。
Step5
保存文件,并將文件格式轉換為PDF。如果你的Word沒有直接另存為PDF的功能,建議安裝Adobe Acrobat ProfessionaI插件。有了它不光可以制作雙層PDF,今后你手中不必編輯但需要長期存留的Word文檔都可以用PDF的格式好好地保存起來,那是相當實用。