魏永生
大港油田勘探開發研究院,天津 300280
當今世界,越來越多的年輕人已經成為“低頭族”之列,即從手機或iPad等移動電子設備上獲取信息或者閱讀。這標志著一種全新的閱讀模式正在被很多人選用,這就是電子閱讀。與傳統的書籍、報紙等紙質閱讀相比,電子閱讀具有很多突出的優點:第一,容量大。第二,攜帶方便。第三,閱讀方便。一般書本的寬度遠遠大于手機等電子閱讀設備的屏幕寬度,如果將書本上的每一頁內容按比例直接顯示到屏幕上,則會出現字體太小、不清晰,或者需要通過不停的縮放來閱讀,嚴重影響了閱讀效果。如何獲得最佳閱讀效果,是電子出版業的當務之急。基于圖像分析的文字排版技術很好的解決的這些問題,是的電子閱讀也能取得紙質閱讀的效果。
文字圖像的獲取過程很簡單,在計算機上打開書本的電子文檔,選擇所需要的文字區域的圖像,可以通過截屏或快照等方式保存下來,以備后續處理適用。在理論上,閱讀者在源圖像選擇時,可以選擇出一片只包含自己所需文字內容的區域。但在實際操作過程中很難做到,總會或多或少地在文本四周留下空白區域,如圖1所示。這些空白區域對文字的重新排版的最終效果影響很大。由于計算機圖像分辨率高,圖像寬度遠遠大于手機等移動閱讀設備,如果不能有效清除空白區域,則可能出現頁面過小或者頁面某一側文字內容顯示不全的不良閱讀效果。因此,必須把空白區域清除掉。除了一般的圖像信息需要重排以外,還有一些文本累的附加信息也需要重排,例如PDF、word等文檔里文字都具有一定的格式,有時還有附注等。如果將文本信息直接存儲到閱讀設備上,會造成一些重要附加信息的漏失或丟失,給客戶的閱讀理解造成極大的影響。因此,也需要進行文字重排。基于圖像分析的文字排版技術可以很好的解決問題。

圖1 源圖像imagesrc
基于圖像初步分析的文字重排可以通過三步實現,即源圖像分析、文字分割和重新排版。
源圖像分析主要是為了獲得圖像的四個關鍵的參數值:左側寬度Wl、右側寬度Wr、上側高度Ht以及下側高度Hb。用戶可以通過像素統計方法獲取相關參數,即通過對除去空白的源圖像進行掃描,從一個方向向另一個方向掃描每一個像素,并對垂直方向的像素值進行統計,記錄像素值。最后對像素值進行處理,為文字分割和重排做好準備。
要實現圖像文字的重排,就必須對源圖像文字進行合理的分割。根據掃描結果計算出每一行文字的寬度,再結合移動閱讀設備的屏幕像素進行分割。處理過程:第一步,按照目標閱讀設備的屏幕分辨率設置目標圖像的高度H和寬度W;第二步,設置文字排版后放置的起始位置變量P1;第三步,利用自動程序將源圖像中的每行文字進行圖像信息賦值,并利用變量轉換找到每行換行處的變量Pn,即分割點位置。分割完以后,把目標圖像保存到內存磁盤中。
將每一行的源圖像文字進行分割以后,將相鄰兩個分割點間的文字放到同一行,進行文字重排。p1與p2之間的文字為第一行,p2與p3之間為第二行,一次類推,得到重排后的版式效果,如圖3。重排后,閱讀效果良好。

正當電子閱讀以極快的普及速度沖擊廣大閱讀愛好者閱讀習慣的時候,文字重新排版成了急需解決的問題。基于圖像分析的文字排版技術很好的解決的這個問題,并使電子閱讀也能取得紙質閱讀的效果。同時,通過該技術在文字內容上打上版權水印,能夠有效解決盜版問題,使得電子出版業侵權、盜版等版權現象也得到很好的緩解,起到了維護版權的目的。
[1]鄧連瑾,尤德祥,李瑞.基于圖像分析的文字排版技術的深入研究[J].科學時代,2013(3):5-8.
[2]鄧連瑾,尤德祥.文字排版技術的初步圖像分析研究[J].天津市財貿管理干部學院學報,2010,12(4):51-54.