999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用Acrobat軟件生成文本型PDF文件

2013-12-31 00:00:00馬云彤
今傳媒 2013年12期

摘 要:我國網絡期刊文獻大都采用PDF格式,且以文本型(矢量模式)為主,但也有部分為圖片型(光柵模式)PDF文獻。圖片型PDF文獻無法復制、搜索、取詞,也不支持在線實時檢索、學術不端檢測等功能。利用Adobe Acrobat Professional 10.0可對掃描或其他方式生成的圖片型PDF文獻進行頁面裁剪、OCR文本識別及頁面校正,從而可以獲得頁面整潔、端正的文本型PDF文獻。

關鍵詞:Adobe Acrobat Professional 10.0;OCR文本識別;文本型;圖片型

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1672-8122(2013)12-0105-02

我國網絡期刊出版采用的文件格式主要有CAJ、PDF和HTML三種[1],其中大多數為PDF格式[2]。PDF是世界上期刊網絡版通用格式[3],我國的中國知網(CNKI)和國家科技圖書文獻中心(NSTL)也都提供PDF格式的期刊文獻。生成PDF文檔的常用方法包括通過其他軟件中轉和通過虛擬打印機。目前期刊編輯部廣泛使用北大方正書版排版軟件,可以直接或間接生成文本型PDF文獻,其文字為矢量模式,可以進行選擇復制、搜索查找、金山詞霸取詞等操作。但在缺少原始電子文件時,則需以掃描樣刊的方式生成圖片型PDF文獻。圖片型PDF文件整個頁面為一個光柵圖像,其中的文字不能被選中 [4-5],不僅無法復制、搜索、取詞,也不支持在線實時檢索、學術不端檢測等功能,也常會出現邊緣有多余文字以及頁面不正等情況,從而影響到讀者對文獻的閱讀利用和數據庫系統的正常運行。本文利用Adobe Acrobat Professional 10.0,以自國家科技圖書文獻中心(NSTL)下載的英文文獻“Relative measure index: a metric to measure the quality of journals”作為示例,對掃描(也可以是其他方式轉換)生成的圖片型(光柵模式)PDF文獻進行裁剪,通過OCR文本識別轉換為文本型(矢量模式),并同步對頁面進行校正。

一、PDF文件頁面裁剪

用Adobe Acrobat Professional 10.0打開所處理文獻,首先對頁面進行裁剪,裁剪需要逐頁進行,而對于文本識別、啟動注釋等,可以整篇同時完成。

圖1為所處理文獻的首頁,該文獻為掃描生成的圖片型PDF文件,無法進行文字選中、復制、搜索(查找)、翻譯取詞等操作,整篇文獻頁面橫置,頁面邊緣有多余文字。

點擊右上角“工具”按鈕,打開“工具”窗格,選擇“頁面”→“裁剪”路徑(如圖2所示)。用出現的十字形光標選擇裁剪區域(如圖3所示),在選擇區域內雙擊鼠標右鍵,出現“設置頁面框”對話框(如圖4所示),確定即可完成裁剪;這一步也可以單擊鼠標右鍵,點擊“設置頁面框”命令,這時即直接將裁減框外的頁面裁剪掉。

圖1 所處理的掃描生成PDF文獻(首頁)

圖2 工具—頁面—裁剪 圖3 選擇裁減區域

工具窗格也可以通過菜單欄中的“視圖”→“工具”路徑打開,但不如通過工具窗格打開操作便捷、界面友好。

圖4 “設置頁面框”對話框

二、將圖片型PDF文件轉換成文本型PDF文件

打開“工具”窗格,通過“識別文本”→“在本文件中”路徑(如圖5所示),打開“識別文本”對話框(如圖6所示),點擊“編輯”按鈕,出現“識別文本-一般設置”對話框(如圖7所示),設置OCR識別的主要語言,根據筆者觀察選擇中文或英文對識別效果沒有影響,識別準確率都很高,但對生成的文本型PDF進行復制、粘貼操作中,如果設置語言與轉換語言不一致,則可能出現亂碼。分辨率選擇300dpi,設置完成后確定,即可將圖片型轉換為文本型,并同步進行頁面校正,將傾斜的頁面轉正,也可將橫置頁面轉換為豎立;通過菜單“文件”→“另存為”→“PDF”,設置路徑、重命名后加以保存。

圖5 工具窗格—識別文本 圖6 “識別文本”對話框

圖7 “識別文本-一般設置”對話框

將圖片型PDF文件轉換生成文本型PDF文件還可以通過 “工具”→“文檔處理”→“優化掃描的PDF”路徑實現,并可進行應用自適應壓縮、小文件/高質量、濾鏡、OCR識別等各項設置(如圖8所示)。經嘗試,利用默認設置即可取得良好效果,與采用“文本識別”方法基本等效,而采用多種不同設置生成的文本型PDF顯示效果差別也不明顯。

圖8 “優化掃描的PDF”對話框

圖9顯示新生成的文獻首頁的完整頁面,頁面端正、整潔,可進行文字選中、復制等操作(如圖10所示),也可用金山詞霸取詞(如圖11所示)。

圖9 新生成的文本型PDF文獻頁面

圖10 選中和復制

圖11 金山詞霸屏幕取詞

三、結 語

通過大型網絡數據庫下載已成為讀者獲得所需文獻的主要途徑。網絡期刊文獻大多采用PDF格式,以文本型為主,但仍有部分為圖片型PDF文件。圖片型PDF文件不支持以文字屬性為運行基礎的功能,例如復制、搜索、取詞以及文獻檢索、學術不斷檢測,等等。采用Adobe Acrobat Professional 10.0將圖片型PDF文件轉換為文本型PDF文件,對于讀者充分利用文獻資源和數據庫良好運行具有一定的實用意義。

筆者在閱讀PDF格式英文文獻時,習慣于采用金山詞霸屏幕取詞和翻查字典結合的方式,但是從網上獲得的PDF文獻,常為光柵模式無法取詞;將PDF文件由圖片型轉換為文本型,可以有效解決這一問題。

參考文獻:

方寶花.期刊網絡出版中的文件格式比較[J].情報技術,2005(2).

周雪瑩.采用雙層 PDF 形式將方正書版文件制作為可檢索式 PDF 文件[J].編輯學報,2012(6).

陳莊.網絡科技期刊插圖圖像質量調查與分析[J].科技與出版,2011(6).

李宗紅.利用Adobe Acrobat Professional 8.0軟件實現圖片型PDF文件到文本型PDF文件的轉換[J].中國科技期刊研究,2010 (l).

周雪瑩.對“利用Adobe Acrobat Professional 8.0軟件實現圖片PDF文件到文本型PDF文件的轉換”一文的質疑——與李宗紅老師商榷[J].中國科技期刊研究,2011(6).

主站蜘蛛池模板: 久久伊伊香蕉综合精品| 日本日韩欧美| 日韩免费毛片| 色综合手机在线| 91久久精品国产| 日韩视频免费| 欧美在线伊人| 国产日韩精品欧美一区喷| 亚洲一级色| 美女被躁出白浆视频播放| 88国产经典欧美一区二区三区| 国产av一码二码三码无码| 欧美精品v欧洲精品| 亚洲首页在线观看| 大学生久久香蕉国产线观看| 日韩在线影院| 欧美69视频在线| 国产亚洲高清视频| 91视频区| 人妻丰满熟妇av五码区| 国产91小视频| 久久国产黑丝袜视频| 最新加勒比隔壁人妻| 国产尤物视频在线| 99精品国产自在现线观看| 四虎综合网| 亚洲水蜜桃久久综合网站| 亚洲无线观看| 亚洲成网站| 少妇精品网站| 成人在线观看一区| 国产a v无码专区亚洲av| 日韩亚洲综合在线| 99久久精彩视频| 麻豆国产在线观看一区二区| 国产成人高清精品免费| 99色亚洲国产精品11p| 日韩视频免费| 亚洲无码91视频| 婷婷六月激情综合一区| 国内精品自在欧美一区| 她的性爱视频| 色婷婷综合激情视频免费看| 伊人91视频| 国产免费久久精品99re不卡 | 欧美综合在线观看| 免费观看无遮挡www的小视频| 亚洲国产成人精品一二区| 欧美久久网| 国产日韩欧美中文| 制服无码网站| www.91在线播放| 亚洲精品第1页| 日韩123欧美字幕| 中文纯内无码H| 色婷婷亚洲综合五月| 日韩天堂在线观看| 一级毛片在线播放| 夜夜操国产| 亚洲一本大道在线| 亚洲aaa视频| 在线va视频| 夜色爽爽影院18禁妓女影院| 高清免费毛片| 亚洲欧美不卡| 麻豆精品在线| 婷婷激情五月网| 国产成人91精品| 国产三级毛片| 久996视频精品免费观看| 亚洲码一区二区三区| 无遮挡一级毛片呦女视频| 丝袜亚洲综合| 狠狠亚洲五月天| 亚洲国产欧洲精品路线久久| 国产精品香蕉| 亚洲国产无码有码| 亚洲国产欧洲精品路线久久| 内射人妻无套中出无码| 91破解版在线亚洲| 精品无码一区二区三区在线视频| 日本高清成本人视频一区|