徐艷云 郭 佳 李怡偉,3 孫德剛
1(中國科學院信息工程研究所 北京 100093)2(國家保密科技測評中心 北京 100044)3(中國科學院大學 北京 100049)
?
信息設備電磁泄漏還原圖像的文本識別研究
徐艷云1郭 佳2李怡偉1,3孫德剛1
1(中國科學院信息工程研究所 北京 100093)2(國家保密科技測評中心 北京 100044)3(中國科學院大學 北京 100049)
(xuyanyun@iie.ac.cn)
信息設備電磁輻射產生的信息泄漏是信息安全中的重要隱患,隨著信息設備廣泛使用,電磁泄漏信息重建技術也引起了國內外學術界的廣泛關注,然而重建信息中文本的自動識別技術并未引起人們的注意.人工識別重建文本的方法耗時耗力,而且圖片信息不便于保存及實現檢索自動化,因此不能快速及時發現有用信息.基于模板匹配方法,提出一種針對計算機視頻電磁泄漏文本“橫”缺失特點的自動識別方法,實驗證明該方法適用于電磁泄漏文本信息特點,可自動快速地識別電磁泄漏,還原圖像的文本信息.
電磁泄漏;重建圖像;字符識別;閾值投影法;模板匹配
隨著信息、網絡、通信技術等的飛速發展,計算機已廣泛應用于國防、科技、工業等眾多領域,各種信息被送入計算機進行處理、存儲和傳遞.而計算機、傳真機、打印機等應用廣泛的通信設備,在工作過程中均會產生不同程度的電磁泄漏[1-3],這些泄漏信號存在于開放的空間中,偵聽者可以利用特定的設備截獲該泄漏信號,通過技術手段還原、重現信息設備正在處理的信息.該技術可以用于情報獲取,在未來電子戰、電子對抗領域具有不可忽視的作用.因此國內外學術界對計算機視頻泄漏信息的重建和還原做了大量的研究工作[4-6].
由于信號處理能力限制和電磁泄漏信號自身特征,信息設備電磁泄漏還原圖像質量差別較大,文本信息模糊,目前主要通過人工方式識別字符,費時費力.直接保存圖片不僅占用空間大,也不便與其他檢索技術結合,不能及時發現敏感或感興趣的信息.因此,實現電磁泄漏還原圖像中文本信息的自動識別、存儲,對于提高電磁泄漏還原設備的性能和實用能力具有重要意義.
本文以計算機視頻電磁泄漏信號為研究對象,針對其還原圖像中文本信息“橫”缺失的特點,提出了一種基于模板匹配的文字識別算法,實現了對計算機視頻電磁泄漏還原圖像中文本信息的自動快速識別.
以計算機為例,計算機顯示的視頻信息是活動的圖像信息,圖像信息是與時間相關的2維信息,而視頻信號及其電磁泄漏信號是與時間相關的1維信號,下面首先闡明1維視頻信號和2維圖像信息的關系,并分析視頻電磁泄漏信號的產生過程,最后說明電磁泄漏還原圖像中文本“橫”缺失的原因.
圖片是由一系列像素點構成的,1幅1 024×768分辨率的圖片,包含768行,每行有1 024個像素點.視頻信號的形成過程與顯示器掃描顯示圖像的過程一致,即從左上角第1個像素開始,從左到右,自上而下,逐個像素掃描顯示,每個像素點對應視頻信號的1個梯形脈沖.對于黑白視頻信號,高電平表示白色,低電平表示黑色.對于彩色視頻信號,電壓值受像素點對應的RGB灰度值控制,不同灰度值對應不同電壓.
根據電磁泄漏發射特點,遠區輻射場時域波形近似正比于電流波形的時間導數,見式(1).當水平方向相鄰像素灰度值不同時,視頻信號產生電壓跳變,引起電流變化并輻射出電磁能量,形成電磁泄漏信號.當水平方向相鄰像素灰度值相同時,不存在電壓跳變和電流變化,沒有能量泄漏.因此,當電磁泄漏信號被接收并進行2維重建后,在水平方向像素灰度值變化的位置呈現白色,灰度值不變的地方呈現黑色.


(1)
以圖1(a)中的“十”字為例,圖中每個方格為1個像素,圖中只包含黑白像素,圖1(b)是圖1(a)第1行像素形成的視頻信號及其泄漏信號的示意圖,由視頻信號波形可知白色像素處為高電平,黑色像素處為低電平,由泄漏信號波形可知在視頻信號電平跳變處產生泄漏信號.圖1(c)是圖1 (a)的電磁泄漏重建文本圖像理想圖,可見水平方向跳變點,即字符筆畫的豎直邊緣為白色,電磁泄漏還原圖像中文字整體表現為“橫”缺失,“豎”存在空心的現象.

圖1 電磁泄漏還原圖像形成示意圖
由于目前計算機視頻信號多為彩色視頻信號,分256級灰度級,所以電壓跳變程度不同,電流變化有大有小,輻射能量大小不一,因此還原文本沒有圖1(c)中那樣明顯的分界線,而是存在模糊現象.
圖2為斯諾登事件披露的代號為DROPMIRE的內容[7],從中可見黑底白字圖片,該圖極可能為電磁泄漏發射的接收還原圖像,從截取放大的黑底白字圖片“EC NCN”可以看到一些細節,字母的垂直邊清晰可見,而水平邊部分“橫”缺失,存在空心現象.

圖2 斯諾登事件披露內容圖片

圖3 還原文本圖像文字識別流程圖
針對上述電磁泄漏信號還原圖像中文本“橫”缺失且存在模糊的特點,本文提出了一種基于模板匹配的文本信息自動識別方法,該方法的流程圖如圖3所示:
首先利用專用接收機對計算機視頻電磁泄漏信號進行還原重建得到文本圖像.之后對含噪的彩色文本圖像進行灰度化、二值化、濾波去噪等預處理操作.經過預處理,圖像變為字符較清晰的二值圖,此時通過行列投影實現對文本圖像中每個字符的切割提取,后續對每個字符進行建庫和識別.其中,學習階段實現對每個待識別字符建立模板庫,測試階段將待識別字符與模板庫中字符進行匹配,最后輸出識別結果.下面對識別算法中的關鍵技術和原理進行詳細介紹.
2.1 預處理
通過專用接收機獲取的文本圖像是彩色圖像,并且含有噪聲,因此首先要對文本圖像進行灰度化、二值化、濾波去噪等操作.
二值圖表示簡單,計算復雜度低,常被用于文字識別算法.假設圖像的2維函數表示f(x,y)的灰度值范圍為G,t為選取的閾值(t∈G),則圖像二值化過程[8]可表示為:
(2)
其中(b1,b2)是二值化對,一般取為0和1.式(2)中如果t選取過大,則會把部分目標點歸類為背景點,可能造成斷筆等現象.如果t選取過小,會將背景點歸類為目標點,造成字符筆畫粘連或出現偽影等,所以對閾值t的選取是二值化算法研究的關鍵.
二值化算法大致可分為全局閾值法和局部閾值法2類[9],本文采用Otsu[10]于1979年提出的最大類間方差法,該方法屬于全局閾值法,基本思想是設閾值將圖像分割成2組,一組灰度對應目標,另一組灰度對應背景,則這2組類別的灰度值應該達到類內方差最小,而類間的方差最大.Otsu算法計算簡單,速度較快,在圖像目標區域和背景區域灰度相差較明顯時效果突出.
中值濾波是基于排序統計理論的一種能有效抑制噪聲的非線性信號處理技術,基本原理是把數字圖像或數字序列中1點的值用該點鄰域中各點值的中值代替,讓周圍的像素值接近真實值,從而消除孤立的噪聲點.具體方法是選擇一種2維滑動模板,將模板內像素按照像素值大小進行排序,生成單調上升(或下降)的2維數據序列.2維中值濾波輸出為
g(x,y)=med{f(x-k,y-l),(k,l)∈W},
(3)
其中f(x,y),g(x,y)分別為原始圖像和處理后圖像.W為2維模板,可以是矩形、線狀、圓形、十字形、圓環形等.
2.2 字符投影切割
經過預處理,文本圖像變為較清晰的二值圖,此時利用閾值投影法,切割提取出每個字符.
投影方法的實質是把復雜、不利于分析的高維信息轉化為低維[11],從而便于人們分析和把握.由于版面信息是較復雜的2維信息,不便于分析,可采用投影法將其轉化為1維信息.對1幅經過二值化處理、大小為M×N的圖像,若背景為黑色像素點,目標為白色像素點,那么1行或1列的白色像素點總和就是該圖像的行列的投影值.把所有行或列的投影值統計起來,即可得到這幅圖像的水平或垂直投影.
經過投影之后,2維文檔圖像上的文字像素分布特征被轉換為2個1維的函數,設圖像的2維函數表示為:
f(i,j) (i=1,…,M,j=1,…,N),
(4)
行、列分別投影為H(i)和V(j):

(5)
因此在行間和列間空白處會存在谷值,可以依次將每行和每個字符分開.但由于電磁泄漏信號還原圖像中文本信息“橫”筆畫嚴重丟失,這些字符本身的垂直投影會出現空白間隙,因此直接用投影分割時會產生誤切分,將1個字切分成多個.
本文引入列數閾值p,當相鄰p列像素值和均為0時,判定此處為字符間的空白處,并予以切分,否則,認為是字符內空白,不予以切分,此即閾值投影法.
2.3 模板建立和匹配
在對文本圖像進行文字識別過程中,模板庫的建立尤為重要,模板的質量決定了識別正確率的高低.本文利用信噪比較高的計算機視頻泄漏信號還原文本圖像,經過二值化、中值濾波、字符切分及規整處理,在學習階段對部分漢字進行模板庫的建立.
在測試階段,將待識別字符與已建立的模板庫中的字符進行模板匹配.本文采用相關系數來度量字符的匹配程度,相關系數計算公式如下:
(6)

取相關性最強的字符作為結果輸出,當相關系數小于經驗閾值時,認為匹配失敗,輸出空格.
3.1 實驗場景
實驗利用圖4所示的專用采集平臺對電磁泄漏信號還原圖像進行采集.被測計算機位于1 m高的平臺上,顯示Word文本.電磁泄漏信號接收天線采用對數周期天線,高度為1.5 m,距離被測計算機水平3 m處,經射頻電纜與專用接收機相連.專用接收機對計算機電磁泄漏信號進行采集和圖像重建.

圖4 計算機電磁泄漏還原圖像采集專用平臺
3.2 結果分析
首先對文字進行建庫.被測計算機顯示Word字體為宋體,字號為初號,專用接收機采集并存儲重建圖像,篩選出信噪比較高的文本圖像,經二值化、中值濾波、字符切割和規整處理,建立漢字字符模板庫.
當計算機顯示Word文本時,通過圖4的專用采集平臺得到的計算機視頻電磁泄漏還原文本圖像,如圖5所示,圖中文字存在“橫”缺失、“豎”空心特點,灰度值為多級變化,黑白分界線模糊.

圖5 計算機視頻電磁泄漏還原文本圖像
圖5中2側的白色豎線是Word的邊框線和行消隱引起的,在預處理過程中可利用垂直投影法去除,對圖5進行灰度化、二值化、濾波去噪等預處理操作,得到圖6所示的圖像:

圖6 預處理后的圖像
利用閾值投影對圖像從上向下進行行切割,得到每1行字符,如圖7所示,清晰可見分割出的1行字符.再對1行字符從左到右進行列切割,得到每個字符,如圖8所示.對切割得到的字符作歸一化處理,并利用模板匹配算法對字符進行匹配識別,將識別結果輸出到txt文檔中.所有文本信息的識別結果如圖9所示.

圖7 行切割得到一行文字

圖8 列切割得到一個字符

圖9 識別結果
對圖9的識別結果進行統計,待識別字符為45個,正確識別41個,識別正確率為91.1%.由圖9可以看出,識別結果出現許多空行,這是由于電磁泄漏信號中的噪聲會在還原文本圖像中形成散粒和白點,在閾值投影切分時形成行,但識別過程中,由于沒有與其匹配的字符模板,因此輸出空格,形成許多空行.
此外,“一”和“目”字未能正確識別,其中,“一”字由于“橫”缺失嚴重,識別時將其識別為散粒噪聲,導致匹配失敗.“目”字由于“橫”缺失造成字符切分錯誤,識別時將其切分為2個字符,導致匹配失敗.因此,對于全由“橫”筆畫組成或者“橫”筆畫較多為主體結構的字符,其電磁泄漏信號重建的文本信息無法識別.
3.3 算法性能分析
以圖5去除白色豎線后的圖像為參考圖像,通過對其加入不同程度的高斯白噪聲,并以峰值信噪比衡量加噪后的圖像質量,分析噪聲對本文識別算法性能的影響.峰值信噪比PSNR(peak signal to noise ratio)的計算公式如下:

(7)
(8)
其中,I(x,y)為參考圖像灰度值,f(x,y)為加噪圖像灰度值,二者大小均為M×N.
峰值信噪比與文字識別正確率的關系如表1所示:

表1 峰值信噪比和識別正確率關系
由表1可見,當峰值信噪比在30 dB以上時,識別正確率在80%以上.因此在噪聲沒有對圖像造成嚴重失真的情況下,本文算法是可行有效的.
由以上分析知,該方法可快速自動地實現計算機視頻電磁泄漏信號還原圖像中文本信息的識別.
本文提出了一種自動快速識別和存儲計算機視頻電磁泄漏信號還原圖像中文本信息的方法.針對電磁泄漏信號還原文字“橫”缺失的特點,設計了閾值投影分割法和模板匹配法,建立了部分漢字的模板庫,通過實驗驗證,該方法識別正確率可達91.1%,在圖像質量失真不嚴重情況下識別正確率在80%以上,證明了該方法的可行性和有效性,后續將對識別算法進行優化,利用上下文關系,對“橫”筆畫為主要結構的字符進行有效識別.
[1]Kuhn M G. Compromising emanations eavesdropping risks of computer displays, UCAM-CL-TR-577[R]. Cambridgeshire: United Kingdom, University of Cambridge, Wolfson College, 2003
[2]Kuhn M G, Anderson R J. Soft tempest: Hidden data transmission using electromagnetic emanations[G]LNCS 1525. Berlin: Springer, 1998: 124-142
[3]Tosaka T, Taira K, Yamanaka Y, et al. Feasibility study for reconstruction of information from near field observations of the magnetic field of a laser printer[COL]Proc of the 17th Int Zurich Symp on EMC. 2006: 630-633 [2014-04-20]. http:ieeexplore.ieee.orgxplarticleDetails.jsp?arnumber= 1629703&newsearch=true&queryText=Feasibility%20study%20for%20reconstruction%20of%20information%20from%20near%20field%20observations%20of%20the%20magnetic%20fie
[4]Zhang Hongxin, Lü Yinghua, Qiu Yuchun, et al. Study of threshold effects of information leakage arising from computer[J]. Journal of China Institute of Communications, 2003, 25(10): 88-92
[5]楊文翰. 實用化的計算機輻射信息截獲技術研究[D]. 北京: 北京郵電大學, 2011
[6]熊偉, 呂英華. 視頻紅信號頻譜識別中波峰搜索算法研究[J]. 軟件, 2012, 33(11): 190-193
[7]徐艷云, 張萌. 從“棱鏡門”事件看電磁信息安全[J]. 保密科學技術, 2013 (7): 19-21
[8]梁涌. 印刷體漢字識別系統的研究與實現[D]. 西安: 西北工業大學, 2006
[9]Sahoo P K, Soltani S, Wong A C K, et al. A survey of thresholding techniques[J]. Computer Vision Graphics and Image Processing, 1988, 41(2): 233-260
[10]Otsu N A. A thresholding selection method from gray-scale histogram[J]. IEEE Trans on System, Man, and Cybernetics, 1979, 9(1): 62-66
[11]李俊. 印刷體文字識別系統的研究與實現[D]. 成都: 電子科技大學, 2011

徐艷云
高級工程師,主要研究方向為電磁信息安全、信號處理、信息特征提取和檢測.
xuyanyun@iie.ac.cn

郭 佳
博士研究生,主要研究方向為信號處理、模式識別.
m13581902161@163.com

李怡偉
碩士研究生,主要研究方向為電磁檢測與防護、圖像處理.
liyiwei@iie.ac.cn

孫德剛
碩士,正研級高級工程師,博士生導師,主要研究方向為高安全等級系統防護技術、電磁泄漏與發射技術、無線通信安全.
sundegang@iie.ac.cn
Research on Character Recognition of Reconstructed Image from Electromagnetic Emanation of Information Equipment
Xu Yanyun1, Guo Jia2, Li Yiwei1,3, and Sun Degang1
1(InstituteofInformationEngineering,ChineseAcademyofSciences,Beijing100093)2(NationalSecrecyScienceandTechnologyEvaluationCenter,Beijing100044)3(UniversityofChineseAcademyofSciences,Beijing100049)
The information leakage caused by electromagnetic emanation of information equipment is a great hidden danger in information security. With information equipment widely used, the technology of information reconstruction from electromagnetic emanation of information equipment has been paid widespread attention. However, the Automatic recognition technology of reconstructing text in the information equipment has not aroused people’s attention. Artificial recognition method of reconstructing the text is time-consuming, and images are not facilitate to save and realize automatic retrieval. So it is unable to find useful information quickly. This paper proposes an automatic character recognition method based on template matching to fit the "horizontal" lack property of reconstructed image from electromagnetic emanation of computer video. Experiments show that this method is suitable for the characteristics of the electromagnetic leakage text information, which can automatically and quickly identify the text information of the electromagnetic leakage reduction image.
electromagnetic emanation; reconstructed image; character recognition; threshold projection; template matching
2016-01-08
中國科學院信息工程研究所“優秀青年人才”專項基金項目(1104008004)
TN918