廣州市公安局 呂益民
北京仿真中心 湛浩旻 馬 川
北方工業大學 戴 瀾
面向公安大數據的特征搜索原型系統設計
廣州市公安局呂益民
北京仿真中心湛浩旻馬川
北方工業大學戴瀾
本文對大數據應用的發展現狀和廣州公安視頻數據進行分析,發現在進行特征搜索時,主要是通過人工手段,并且在遇到模糊圖像時無法人工辨別,造成特征搜索的誤判斷。針對此問題,本文從公安大數據入手,使用圖像超分算法、并行處理技術以及數據倉庫技術,完成了面向公安大數據的特征搜索原型系統設計。該原型系統設計能夠滿足日常特征搜索的環境假定,并對系統的實際建設起到規劃和指導作用。
公安大數據;特征搜索;原型系統;Hadoop;圖像超分辨率
美國互聯網數據中心研究指出,近年來互聯網數據以年增長50%的速度快速增長,并且目前世界上90%以上的數據是近幾年才產生的,數據增長呈現爆照行增長趨勢,面對如此海量數據,如何提高數據分析和處理能力極為迫切。在國家“十三五”規劃綱要中明確提出全面實施促進大數據發展行動,把大數據作為基礎性戰略資源,加快推動數據資源共享開發和開發利用,助力產業轉型升級和社會治理創新。
作為大數據應用的重點領域,大數據在公安系統的審計[1]、情報[2,3]以及警務平臺[4]方面都有應用,公安大數據的數據分析和數據應用,對社會穩定和治安。公安業務領域中治安系統、智能交通視頻數據呈爆發性增長,具有非結構化等大數據典型特征,也是政府部門重要的信息資源。各類視頻監控系統仍在進行補充建設及高清化處理能力,預計未來廣州市公安業務領域每天將產生PB規模的視頻及圖像數據。面對海量的公安業務數據,面臨以下難題:⑴從海量數據中獲取支持公安業務的關聯特征;⑵對公安視頻類大數據進行高效組織、智能分析處理;⑶如何應用大數據輔助公安人員快速開展治安防控、警情研判及指揮決策;同時,如何發掘公安信息資源價值,提高公安大數據的利用率也是當前公安大數據應用關注的重點問題。
目前公安大數據處理方式采用的方式一般是人工比對圖像特征,工作量大,容易產生視覺疲勞,遺漏數據;對于清晰度不高等圖像質量差的影響無法進行比對;數據搜索效率不高。鑒于此,針對公安領域視頻、圖像數據規模大、數據關聯性強等特點,亟需構建公安大數據的特征搜索系統。本課題組從廣州市公安大數據入手,采用圖像超分算法,結合數據倉庫技術以及面向多數據類型的Hadoop和MapReduce的并行處理技術,完成了面向公安大數據的特征搜索原型系統設計。
2.1大數據
大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合[5]。業界將其歸納為4個“V”——Volum、Variety、Value、Velocity,即具有4個典型特征:第一,數據大體量巨大,從TB級別躍升到PB級別;第二,數據類型繁多,網絡日志、視頻、圖片、位置信息等等;第三,價值密度低,以視頻為例,連續不間斷監控過程中,可能有用數據只有幾秒;第四,速度快,俗稱“秒級定律”,即速度要求很高,一般要在秒級時間給出分析結果,時間太長就失去價值[6]。目前大數據的研究和應用已成為各行業數據研究的重點。
2.2Hadoop和MapReduce
大量的并行處理并非新概念,但隨著低沉本的中心處理器和個人電腦出現后變得可行。這種方式之前無法廣泛運用是因為技術實現的局限性。針對集中處理模式,設計分布式的算法和解決方案是困難的。然而,“搜索”將在這個問題拋向了分布式處理。例如Google、Facebook以及Yahoo之類的社會化媒體組織所要面對的互聯網數據量需要使用分布式文件系統(例如Hadoop),可以將跨物理設備的數據識別為一個數據集,同時仍知道數據所在的位置以便于分發處理。
Hadoop和MapReduce解決方案也需要將處理的請求分解,然后重組各個結果。這些分解和合并步驟由MapReduce完成,MapReduce也可以歸類為業務流程甚至數據整合工具。由某個程序員定義需要在所有分布式數據服務器上執行哪個功能,MapReduce擅長執行功能的分配以及結構的配合。Hadoop和MapReduce通常以批處理模式來實現。實施搜索和分析是基于預處理結構集進行的,而不是絕大的原始數據。經常使用Hadoop文件架構的是網絡日志和網絡數據,這些被認為是非機構化的數據。
2.3超分辨率重建
目前,數字圖像采集技術已被廣泛應用于公安、軍事與醫療等領域。由于價格成本因素限制,獲取的圖片質量與分辨率較低,往往不能滿足實際的要求。超分辨率重建就是利用一系列相似的低分辨的圖像,經過超分辨率技術的處理,可以得到一幅分辨率較高、包含信息較多的圖像的過程。采用超分辨率技術可以在不更換原有設備的前提下,提高圖像的分辨率、改善圖像的質量。超分辨率技術用途較為廣泛。在數字電視領域,可以利用超分辨率重建技術將數字電視信號轉化為與高清晰度電視接收機相匹配的信號,提高觀眾的體驗。在醫療領域,提高醫學圖像的分辨率,可以幫助醫生做出正確的診斷。在軍事、氣象領域,通過偵查衛星與氣象衛星獲得圖片的分辨率通常難以達到人們期望的分辨率級別,使用超分辨率技術,通過對觀測結果做后期處理,可以更好地識別目標,更好地服務于軍事安全和日常生活。
超分辨率重建的核心思想就是用時間帶寬(獲取同一場景的多幀圖像序列)換取空間分辨率,實現時間分辨率向空間分辨率的轉換。超分辨率重建通過融合多幀相似的低分辨圖像提高分辨率。多幀的低分辨率圖像是對同一場景偏移一定角度或位置采樣的結果。對超分辨率的理解,首先從圖像的成像模型去考察。假設原始圖像可以看作高于奈奎斯特頻率采樣的結果,得到的低分辨率圖像,低分辨圖像是高分辨率經過降采樣,模糊,變形后加上噪聲的影響的結果,這樣超分辨率重建可以總結為圖像復原模型,因此超分辨率重建本質上是圖像復原問題。
2.4ODDS數據搜索引擎
搜索引擎(Search Engine)是指根據一定的策略、運用特定的計算機程序從本地或異地網絡上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶建設相關的信息展示給用戶的系統。搜索引擎一般包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。ODDS搜索是當前新興起的搜索產品,具備廣泛搜索、絕對匹配、結果中搜索、拼音搜索和邏輯所有等功能。此外,還具備按權限搜索、結果評估、基于Web的管理界面、分布式處理能力、智能搜索框以及分布式處理能力。
3.1架構設計
面向公安大數據的的特征搜索演示系統采用大數據技術、圖像超分技術以及數據倉庫技術,以公安大數據為核心開展案件偵破輔助工作,并在此基礎之上運用有關數據挖掘技術實現數據分析工作。該演示系統由基礎平臺層、數據支撐層、服務支撐層以及數據應用層四部分組成,如圖1所示。

圖1 公安大數據特征搜索演示系統設計
基礎平臺層:系統賴以運行的基礎軟硬件平臺,包括網絡資源,硬件資源,中間件,搜索引擎等,為結構化、半結構化以及非結構化數據的運行提供支撐。
數據支撐層:包括數據倉庫,將視頻圖像數據利用超分技術進行數據預處理,構建數據倉庫和數據集市,為決策支持提供數據分析。
服務支撐層:為系統提供統一的數據分析功能,功能包括關聯分析、多維分析和軌跡分析等,并提供數據交換和查詢接口。
數據應用層:主要提供面向公安大數據有關特征搜索的各項應用,人員活動軌跡繪制,車輛行駛軌跡,以及輔助案件偵破的決策支持。
總體架構設計依照SOA的架構設計思想,以服務為核心,提供標準化的服務接口、服務組件和服務訪問方式,以重用為原則,盡可能的實現服務在整個大數據平臺所承載的各類應用中的重用;面向部門和個體提供不同的數據服務需求。
3.2數據倉庫設計
3.2.1數據分類與處理
根據數據來源對數據進行分類,將來源于關系數據庫的數據和各種視頻數據進行分開處理。對于模糊的視頻圖像數據還需要額外進行超分處理。
3.2.2數據抽取
將出入境系統、普通人員管理系統、特殊人員管理系統、賓館住宿系統、卡口系統、證照管理系統以及車輛管理系統等應用系統的數據,通過ETL工具抽取到數據倉庫中,其中,在數據抽取過程中,為了提高數據質量,會進行大量的數據清洗和轉換工作。
3.2.3數據建模
根據不同的主題對數據進行分類建模,根據應用將數據倉庫的分為各類票務主題數據、普通人員主題數據、特殊人員主題數據、賓館住宿主題數據等多個主題數據。數據建模如圖2所示。

圖2 數據倉庫設計
3.3數據查詢設計
3.3.1結構化數據查詢
⑴主鍵查詢
大數據系統中,數據量巨大,不能用關系型數據庫的方式隨意做二級索引,表關聯。大數據最常用的方式是主鍵查詢。對于千億規模的大表,主鍵點查詢應該是豪秒級響應。
⑵主鍵掃描查詢
主鍵也可以批量查詢,就是主鍵掃描查詢。給出一個主鍵的范圍,可以迅速的查詢到結果。對于千億規模的大表,主鍵掃描查詢應該是豪秒級響應。
⑶組合條件查詢
對于不是太常用的非主鍵查詢,可以通過兼容SQL語法的方式來查詢。查詢效率不是太高,響應時間為幾十分鐘,甚至幾個小時。
3.3.2結構化數據查詢
⑴支持分布式搜索引擎
輸入服務器可以根據輸入壓力動態增加和刪除,也可以在線維護故障服務器。
⑵自動鏡像查詢服務器
當查詢和分析壓力很大的情況下,增加鏡像節點,系統可以自動的擴展性能。
⑶支持各種搜索方式
搜索方式包括關鍵詞搜索、按時間段搜索、自動摘要、自動分類、自定義相關度。
⑷支持搜索框智能
關鍵詞推薦、同義詞和替代詞搜索、拼音搜索、多種搜索框分詞方式、人工排名。
3.3.3分析算法
⑴關聯規則發現
運用FP-Growth算法,根據一批事件數據發現其中目標的關聯關系,或者根據歷史數據發現一個事件發現后另外一個事件發生的概率。
⑵相似度關聯分析
通過向量相似度計算,實時發現相似數據,經常應用在語義去重等方面。
⑶自學習分類系統
運用Bayes分類算法,通過已知樣本集確定分類規則,建立實時分類引擎,并且不斷的自動優化樣本集,分類引擎會越來越精確。在數據語義分析方面有非常多的應用。
⑷用戶行為分析系統
通過Taste推薦引擎,運用預先定義的用戶行為模型,在海量數據中找出符合行為模型的信息。
基于已知情報信息和視頻大數據,搜索和發現案件嫌疑人通過在案發前后時間的行為軌跡和線索,輔助提高民警借助大數據平臺的辦案能力。
4.1環境假定
⑴系統。卡口系統,嫌疑人管理系統,人員管理系統,出入境管理系統,車輛管理系統;
⑵設備,卡口攝像頭、治安攝像頭逃逸車輛;⑶事件,抓捕逃逸車輛的司機。
4.2事件假定
⑴逃逸車輛行駛路線被監控攝像頭采集到;
⑵可以根據監控信息反應逃逸車輛的行駛軌跡;
⑶監控攝像頭采集到了不同角度、不同清晰程度的逃逸車輛和車輛乘客的圖像信息;
⑷可以根據車上乘客的圖像信息在嫌疑人管理系統或人員管理系統中找到體貌體征類似的嫌疑人群。
4.3應用技術
數據檢索,圖像比對,圖像超分辨率,機器學習、系統辨識和訓練模型理論,實現特征的快速定位。
4.4應用場景
⑴辦案人員在搜索框中輸嫌疑車輛的車牌號(結構數據)、車形特征(非結構化),檢索出該車輛在一段時間內出現的地點以及該車輛的卡口圖像信息(按清晰度排列);
⑵辦案人員通過搜索得到了嫌疑車輛的圖像資料集合,同時找到了可能是該車輛的正面圖像,辦案人員查看該圖像時,系統將默認對圖像資料進行超分辨率處理;
⑶為辦案人員提供更清晰的車上人員圖像,辦案人員截取車上人員圖像并在搜索器中通過該圖像搜索并鎖定嫌疑人范圍。
本文提出面向公安大數據的特征搜索原型系統設計,有利于特征提取、人車分離、特征比對、內容檢索等功能,提高業務人員的工作效率;為案件流程管理、物證分析等提供有效手段,從日常事件管理到立案、偵查取證、分析案件、確定偵查方向、制定偵查方案、認定犯罪嫌疑人、破案,對這一系列業務流程及業務中所產生的相關物證、信息進行管理。將圖像數據的超分算法、數據搜索引擎工具和數據倉庫技術進行了有機集合,設計出的演示系統針對性強,可靠性高。
下一步工作,依據公安實際問題的處理,構建面向公安大數據的特征搜索演示驗證系統,經過演化個改進,最終形成一個能夠真正使用的應用系統,大大提高案件偵破效率和成功率。
[1]張永春,等.大數據背景下公安審計增加組織價值研究——以江蘇省公安審計部門為例[J].中國內部審計,2015(03).
[2]李建輝,陳俊旭與單一唯.大數據對公安情報流程影響研究[J].湖北警官學院學報,2015(03).
[3]李毅,劉興川與孫亭.基于大數據的公安情報分析系統研究.2014第二屆中國指揮控制大會,2014.
[4]劉軍與張暉.公安大數據技術應用研究——以山東公安警務云平臺建設為例[J].警察技術,2015(03).
[5]James Manyika,Michael Chui.Big data: The next frontier for innovation[J].competition,and productivity.2011.
[6]維克托·邁爾-舍恩伯格,肯尼思·庫克耶,著.盛楊燕,周濤,譯.大數據時代:生活、工作與思維的大變革[M].浙江人民出版社,2012.1.