圖像識別系統在鑒定盜版圖書中的應用

2009-07-16 09:33:54林小玲

新媒體研究 2009年8期

關鍵詞：特征

林小玲

中圖分類號：TP2文獻標識碼：A文章編號：1671－7597（2009）0420026－01

一、盜版圖書概述

盜版是我國圖書市場乃至世界圖書市場的一個頑疾。圖書市場盜版、盜印活動的猖獗，已到了無孔不入的地步。幾乎所有的暢銷圖書或教材教輔，甚至權威工具書《新華字典》，都無法擺脫被盜版的命運。盜版行為嚴重損害了出版社和著作權人的利益，侵害了廣大讀者閱讀正規、高品質圖書的權利，貽害無窮。

盜版圖書主要有以下幾種形式：

1．通過掃描的電子文件輸出膠片印刷，其清晰度、色彩等都會與原版書不同。此類盜版書很容易判斷，錯別字多，紙張粗劣，印刷模糊，偏遠地區的出版社，版權頁前后不符等等。但現在的盜版書商越來越專業，上述問題他們也在逐漸改善，判斷也越來越難。但狐貍終究會露出尾巴，一般封面的原文件他們是搞不到的，只能掃描正版書的封面。受目前印刷技術的限制，掃描后再制片、印刷的封面在色澤上一定會有偏差，如偏暗、偏艷、明暗變化突然等等，而且里面的圖紋細節也會很模糊。不同印刷廠提供的紙張常常有差異，主要是質地手感上有區別。另外，盜版書的內容文字，要么是掃描后重新識別成文本文件再出片，那么它的錯字率較高；要么是掃描成圖片文件直接出片，那么文字的邊角就會有些模糊。

2．直接使用電子文件，甚至正版膠片印刷，質量能夠以假亂真，這是對排版和印刷環節管理不嚴所造成的。例如在出版社方面，內部參與編校排人員私下將書稿盜出，盜印發行。

3．不法書商與印刷廠勾結，私自加印圖書。印刷廠方面在制版印刷時，主要會采取如下盜版手段：（1）文件另存；（2）另拷照排版；（3）加曬PS版；（4）私自增加印數等等。

這些盜版書，有些假冒出版者名義出版，有的盜用出版社已出版圖書的書號，有些甚至自己亂編書號。越來越多的出版社和著作權人意識到，打擊盜版不僅是政府的事，更是出版社自身的事。有些出版單位設置了專門的“打盜”機構和專人，從當初單純投訴和一般化調研的被動狀態，到積極調查、主動介入，有組織、有計劃地開展工作，并就某些案件提起民事訴訟。因此，做好出版物盜版鑒定工作成為必不可少的一道程序。出版社希望通過有效的、系統的手段，清晰地鑒別出盜版書，分析其盜版根源，通過整理、分析，形成盜版信息分析報告，便于執法部門有重點地打擊盜版行為。現今，鑒別工作的所有工序都是通過人工處理的，都是靠出版界專業人士或印刷行業協會專家的個人經驗做技術鑒定，缺乏軟硬件系統作為科學有效的工具使用。圖書盜版是一種專業性很強的犯罪，涉及出版業的一些專門知識，一般非業內人士所知，傳統的司法物證鑒定部門要完成此種鑒定有困難。在以往司法實踐中，曾以被盜版的正版出版社或其下設的出版部有關人員為鑒定人，出具鑒定結論，作為法庭證據。這種情況下的鑒定注重正版書的特征，用正版與盜版比較得出結論。

每個出版社的圖書都有其獨特之處，一般只有該出版社的出版部人員最了解。其常規鑒別方法如下：正版圖書的用料，包括正文用紙、內封或環襯用紙、封面用紙或其他用料是國產的還是進口的；圖書的裝訂方式是膠訂聯動裝訂還是人工素線裝訂；圖書是否含防偽水印；水印是否真實等等。隨著出版社內部管理系統如ERP（Enterprise Resource Planning，企業資源管理計劃）的完善，鑒別方法也有了進一步的發展，可以先針對圖書身份驗證的重要信息數據書名、書號進行數據排查，初步確定是否為假冒出版者名義，或已出版圖書的書號，或是自己亂編書號出版等的盜版方式。

雖然由出版社內部人員鑒別正版與盜版最直截了當，但是被盜版的出版社是此類案件的利害關系人，由他們做鑒定往往不符合鑒定結論的法定條件，在司法實踐中常被詬病。因此，仍然需要有第三方參與的科學的鑒定結論，這就需要有一套相對完善的系統支持。本文結合圖像識別技術，以圖書封面、內文數字圖像為對象，綜合運用圖書出版制作管理技術、數據庫技術、圖像處理、模式識別原理，設計一套專供出版社或鑒定單位進行基于圖像識別的盜版圖書鑒定系統。

二、核心技術及設計思路

一直以來，國內外出版社和發行單位防止和鑒別盜版圖書工作大多集中在印前工藝和印刷工藝上，如反盜版專用標識、新式防偽紙、在圖書上粘貼激光防偽、數碼防偽標貼等方式。最近，一項物品身份信息管理新技術“S－DNA元素標記信息技術”的問世，為打擊盜版增添了新武器。中國版權協會反盜版委員會近期還推出了“反盜版短信防偽信息系統”，該系統是通過推出全國統一的反盜版短信防偽標識，利用現有短信息防偽技術結合反盜版工作的特點和需要，集數據庫技術、遠程訪問技術、安全技術于一體的新型電子防偽反盜版系統。目前尚沒有專供出版社進行盜版圖書鑒別用的基于圖像識別的系統，但該系統綜合采用的核心技術模式識別、圖像特征識別技術等早被廣泛應用于其他領域。

模式識別（Pattern Recognition）就是機器識別、計算機識別或機器自動識別，目的在于讓機器自動識別事物。模式識別研究的內容是利用計算機對客觀物體進行分類，在錯誤概率最小的條件下，使識別的結果盡量與客觀物體相符合。模式識別中的一個基本概念是相似度（similarity），這和已知的其他一些學科方法都不相關。一般認為兩個對象相似是因為他們具有相似的特征，相似度經常被描述成更加抽象的概念，它并不是在幾個對象之間衡量，而是在一個對象和一個目標概念之間進行衡量。讓機器辨別事物的最基本的方法是計算待識別事物與標準模板之間的相似度。

圖像識別也屬于模式識別，是數字圖像處理的一個新興的研究方向。首先，經過深入分析，不同的印前制作過程、不同的印刷工序印出來的印刷網點是有區別的。因而，同一個文字及圖像中打出來的黑點均不相同。文字圖像的描述依靠黑色像素點，這樣，可以選灰度值為第一個特征向量。計算機將封面及內文處理成黑白圖像時，認為灰度值為0就是全黑，灰度值為255就是全白，在本系統中，選取灰度值為少于122的像素點為黑點。其次，整個版面內容的面積和周長也會有所區別，這樣可以選取包含整個字體的最小的矩形作為一個特征。本系統設定以面積灰度值為第二個特征向量，周長灰度值為第三個特征向量，所設的灰度值是該矩形面積中少于122的像素點的總數等。簡單來說，首先將出版社的正版圖書作為樣本，建立正版圖書圖像數據庫；其次對待查圖書數字化，經過一系列的識別過程，分析鑒別圖書的真偽。系統操作流程設計如圖1。

其中，核心部分的操作分為幾個步驟：封面數字化圖像處理、版面分析、數字圖像識別、統計分析。封面數字化圖像處理是將紙質文稿、圖像輸入計算機的過程。為了提高識別率，要對獲得的圖像信息進行預處理，包括濾去干擾、噪聲等，這樣可提高信噪比。版面分析是把印刷品上同一版面中的圖像分割成一些圖像塊，每一圖像塊大小不等，但都含有相對獨立、完整的內容。如標題、圖、作者、其他文字內容等等。這些內容在版面上的安排有一定的、但不是固定不變的順序和規則。對于豐富多彩的印刷版面，人們在閱讀時大都能一目了然，理解其中的含義及相互連接的關系。然而，如果我們不賦予電腦必要的功能，它將無法處理這樣復雜的排列組合，這種特殊功能就是對版面的分析與理解。數字圖像的識別有四個步驟，包括圖像預處理（如二值化）、圖像分割、特征提取和圖像分類。最后，統計分析是在版面標識的錯誤及差異經過特征提取后，通過分類器與特征庫進行匹配，然后分別以不同的算法比較，找出與特征值最相似的結果，分析其情況并輸出報告。

總之，在圖像識別中，特征量的選擇及優化組合是設計識別系統的關鍵，它強烈地影響到分類器的設計及其性能。特征提取階段主要是對物體進行度量從而通過度量值識別物體。計算特征是為了對物體的一些重要特征進行定量估計。特征抽取過程產生了一組特征，把它們組合在一起，就形成了特征向量。常用于特征提取的方法有尺寸測量、形狀分析和紋理分析。其中紋理是一種反映一個區域中像素灰度級的空間分布的屬性，紋理特征是從物體的圖像中計算出來的一個值，它是對物體內部灰度級變化的特征進行量化。特征提取后要在這些特征中選出最適合分類器設計的特征。本研究用的是基于最小距離的模板匹配法，首先確定圖像的具體特征，哪些特征可作為鑒別使用特征，哪些特征可以忽略。其次是以這些特征為參數，在樣本與檢材間進行距離的對應計算，統計取樣后以某值為界，大于該值則可以確定為盜版。

該系統的設計思路主要基于圖像、文字等特征的相似度識別圖像處理，涉及圖像的二值化處理，圖像、文字特征的提取，模式匹配算法的實現，OCR技術的應用等，從而設計出最優的圖書封面等數字圖像的特征及提取方法，并把這些功能模塊集成在系統中，最終實現基于圖像、文字特征的圖書盜版識別系統。

參考文獻：

[1]王蘭萍，圖書盜版案件中鑒定結論的使用辨析[M].《中國版權》，2002年第2期.

[2]王秀珍，圖像識別技術淺論[M].內蒙古電大學刊，2008年第8期.

[3]章毓晉，圖像處理和分析基礎[M].北京：高等教育出版社，2002.

[4]章毓晉，圖像分割[M].北京：科學出版社，2001.

[5]莊軍、李弼程，一種基于灰度共生矩陣的文本圖像識別方法[M].《計算機工程》，2006年2月第3期.