999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種利用OCR技術進行互聯網涉密檢查的方法

2014-06-18 02:30:53陸春祥王偉
中國科技縱橫 2014年4期
關鍵詞:互聯網

陸春祥 王偉

【摘 要】 近年來,互聯網泄密事件逐漸增多,傳統人工檢查方法難以應對海量信息的合規審查,本文通過一種基于圖文識別OCR的方法,通過分布式部署互聯網檢查設備,可以快速發現互聯網違規發布的涉密文件,大幅提升互聯網涉密信息檢查能力。

【關鍵詞】 互聯網 海量信息 OCR

1 引言

近年來,在各級機關的保密檢查中發現通過互聯網違規發布涉密文件資料的案件逐年增多。其中涉密文件為圖片格式的案件比例呈現更加明顯的上升趨勢。相關人員通過截圖等形式,便可輕易的傳遞一些不合規的信息,而不被現有的設備檢查出來,致使互聯網信息管控存在嚴重的漏洞。

如何才能堵上這一傳播不合規信息的漏洞呢?依靠傳統的方法即采用人工查看的方式在互聯網上搜索到圖片格式的涉密文件,費時費力,無異于大海撈針。利用圖文識別技術,又稱為OCR(Optical Character Recognition,光學字符識別),則能夠較好地解決該問題。 OCR的原理主要是指利用各種識別算法分析圖像中包含的文字形態特征,判斷出文字的標準編碼,并按通用格式存儲在信息化設備中。

2 方法介紹

下面結合實例,對利用OCR技術進行互聯網涉密檢查的技術方案進行描述。場景為采用分布式部署實現互聯網檢查設備中對圖片中文字內容的審計。互聯網檢查設備由2臺設備組成,一臺負責對內部網絡連接到互聯網的數據流進行采集、分析和識別,并將采集的圖片文件,通過網絡發送給單獨部署的另一臺OCR服務器進行圖片檢查,以實現對圖片中文字的內容審計。

(1)互聯網檢查服務器(簡稱“檢測器”)。

互聯網檢查服務器負責對內部網絡連接到互聯網的數據流進行采集、分析和識別,并將采集到的圖片文件,發送給后端的互聯網檢查OCR服務器。

(2)互聯網檢查OCR服務器(簡稱“OCR服務器”)。

互聯網檢查OCR服務器負責接收前端互聯網檢查服務器傳送來的圖片,并使用其上的OCR組件解析出圖片上的文字信息。而后,對照用戶設定的關鍵詞策略,判斷該圖片是否含有不合規的信息。

(3)以下以BDOCR協議舉例說明互聯網檢查服務器與互聯網檢查OCR服務器之間的通信。1)BDOCR:指藍盾互聯網檢查設備中互聯網檢查服務器與互聯網檢查OCR服務器之間的TCP通信協議。2)前端互聯網檢查服務器負責從交換機抓取數據包,而后將采集到的圖片文件傳送給后端互聯網檢查1)OCR服務器,由其負責進行圖片所含文字部分的檢查。3)報文規格。BDOCR協議為TCP協議的載荷,協議包包含兩部分,頭部及BDOCR協議的載荷部分。

下面給出BDOCR協議包的封裝格式(如圖1):

各字段的含義如下:

版本:2字節,表示BDOCR協議版本。其中高8位為主版本號,低8位為次版本號。

流程ID:2字節,標示該BDOCR數據包的類型及具體的請求動作。其中:

關鍵詞策略下發報文: 0x01

圖片下發報文: 0x02

中標回復報文: 0x04

異常通報報文: 0x08

ID:4字節,事務標志,同一事務的所有通信包其ID保持一致。可以使用一個無符號整數表示,每構建一個事務,該值加1,保證在4G個包內其ID值是唯一的。

時間:4字節,構造、發送數據包時的時間,標示從1970年1月1日0時0分0秒至今的秒數

載荷長度:4字節,標示該BDOCR數據包載荷部分的數據長度。

載荷:根據報文類型具備不同的長度。

關鍵詞策略下發報文:由檢測器向OCR服務器下發關鍵詞策略。載荷內容如圖2所示:

策略ID:4個字節。各策略的ID互不相同,用于標示各策略。策略名長度:4個字節。標示策略名部分的數據長度。策略名:不定長。用于在界面上顯示策略,策略名也是唯一的。策略長度:4個字節。標示策略內容部分的數據長度。策略內容:不定長。用戶設定的關鍵詞策略,用于匹配信息(圖片所含文字部分)是否合規。

圖片下發報文:由檢測器向OCR服務器下發圖片文件。載荷內容如圖3所示:

圖片ID:4個字節。各圖片的ID互不相同,用于標示各圖片。圖片類型:4個字節。標示圖片的不同類型,如JPEG、BMP、TIFF、GIF、PNG等。文件長度:4個字節。標示圖片文件部分的數據長度。

圖片文件:不定長。需要進行內容檢查的圖片文件。

中標回復報文:當OCR服務器檢查發現有不合規的圖片文件,向檢測器回復中標信息。載荷內容如圖4所示:

圖片ID:4個字節。各圖片的ID互不相同,用于標示各圖片。中標策略數:4個字節。標示該圖片匹配到的策略個數。中標策略ID:4個字節。各策略的ID互不相同,用于標示各策略。

異常通報報文:當某設備本身發生異常,向另一臺設備通報自身異常。如設備發生多類異常,則都需一一進行通報。載荷內容如圖5所示:

異常ID:4個字節。用于標示各類異常。異常情況:4個字節。0x0000:標示設備已恢復正常;0x0001:標示設備發生異常。

3 結語

本文實現的互聯網檢查方法,除了可以監控一般的文字信息外,還可以對以圖片形式出現的文字內容進行檢查。可以快速發現互聯網違規發布的涉密文件,大幅提升互聯網涉密信息檢查能力。當然,這些方法只是治標之策,唯有增強相關人員保密意識,加強信息公開保密審查,實現辦公網絡與互聯網物理隔離等措施多管齊下,才能及時發現和有效防范互聯網泄密行為,保護國家秘密。

參考文獻

[1]蔣俊杰.身份識別與接入控制系統的研究與應用[J].信息與電腦(理論版),2010年12期.

[2]孫羽菲.低質量文本圖像OCR技術的研究[D].中國科學院研究生院(計算技術研究所),2005年.

[3]閻彩英.淺析電子政務外網互聯網出口的安全技術構架[J].中國信息界.2011年02期.

[4]劉海波,顧國昌,張國印.Internet信息涉密檢查系統的設計與實現[J].計算機工程與應用,2004年09期.endprint

猜你喜歡
互聯網
互聯網+背景下數學試驗課程的探究式教學改革
科技視界(2016年21期)2016-10-17 18:47:55
基于“互聯網+”的京東自營物流配送效率分析
科技視界(2016年21期)2016-10-17 18:37:15
互聯網+醫療保健網的設計
科技視界(2016年21期)2016-10-17 17:07:28
試論網絡大環境下音樂作品的法律保護問題
商(2016年27期)2016-10-17 06:43:49
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
淺析互聯網時代維基百科的生產模式
今傳媒(2016年9期)2016-10-15 22:51:03
“互聯網+”環境之下的著作權保護
今傳媒(2016年9期)2016-10-15 22:15:57
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
從“數據新聞”看當前互聯網新聞信息傳播生態
今傳媒(2016年9期)2016-10-15 22:06:04
互聯網背景下大學生創新創業訓練項目的實施
考試周刊(2016年79期)2016-10-13 23:23:28
主站蜘蛛池模板: 日本一区二区三区精品国产| 99久久国产综合精品女同| 国产精品冒白浆免费视频| 无码国产伊人| 国产成人你懂的在线观看| 国产男女免费完整版视频| 精品国产美女福到在线不卡f| 国产精品高清国产三级囯产AV| 久久久亚洲色| 污网站免费在线观看| 亚洲av片在线免费观看| 黄色免费在线网址| 亚洲日韩在线满18点击进入| 一本大道东京热无码av | 精品综合久久久久久97| 精品国产一区二区三区在线观看| 欧美在线黄| аⅴ资源中文在线天堂| 日韩欧美中文字幕在线韩免费 | 999精品视频在线| 亚洲国产综合精品一区| 色吊丝av中文字幕| 亚洲国产天堂久久综合| 中文无码伦av中文字幕| 久久精品亚洲中文字幕乱码| 国产成人做受免费视频| 香蕉久久国产精品免| 久久成人国产精品免费软件| 老熟妇喷水一区二区三区| 亚洲黄色网站视频| 亚洲天堂成人在线观看| 精品日韩亚洲欧美高清a| 亚洲精品国产精品乱码不卞| 亚洲人成网18禁| 欧美一级一级做性视频| 久久综合色视频| 欧美色99| 亚洲成a人片7777| 黄色成年视频| 永久免费av网站可以直接看的 | 亚洲精品动漫| 午夜毛片免费观看视频 | 亚洲国产欧美国产综合久久| 国产精品自拍合集| 真实国产乱子伦高清| 国产区精品高清在线观看| 美女无遮挡被啪啪到高潮免费| 国产精品一线天| 亚洲欧美一级一级a| 欧美日本在线播放| 99成人在线观看| 午夜久久影院| 国产精品第页| 国产真实乱人视频| 高清视频一区| 在线国产资源| 台湾AV国片精品女同性| 色婷婷丁香| 日本免费精品| 一级毛片免费高清视频| 2020最新国产精品视频| 91精品国产自产在线老师啪l| 亚洲综合精品第一页| 久久久国产精品无码专区| 91福利片| 国产日韩丝袜一二三区| 亚洲视频免| 欧美成人一级| 国产福利免费在线观看 | 日本爱爱精品一区二区| 蜜臀AVWWW国产天堂| 亚洲成人网在线观看| 伊人激情久久综合中文字幕| 天天做天天爱夜夜爽毛片毛片| 91国内视频在线观看| 亚洲综合在线最大成人| 国产欧美精品午夜在线播放| 色老头综合网| 沈阳少妇高潮在线| 在线看片免费人成视久网下载| 国产永久在线视频| 伊人成人在线视频|