崔濤 于忠 楊志清 劉昱曉 山東省青島市公安局
從公安信息化的發展歷史看,圍繞治安防控、打擊破案、勤務指揮及行政執法過程中對信息的搜索、查詢是公安應用信息化手段的主要方式[1],同時隨著4G、5G移動網絡及智能手機技術的發展,攜帶便捷的移動警務終端搭載的信息搜索查詢功能,更是成為了民警喜歡使用的警務信息化工具。
從實際的信息化發展情況看,搜索系統是信息檢索的核心工具[2],因此警務搜索系統的建設一直是全國各省市公安機關信息化建設的重點。但受限于技術的發展和數據處理能力,常規的搜索系統存在搜索結果不準確、搜索效率低、只能搜結構化數據等缺點,尚不足以有效支撐民警充分使用大數據,造成了很多民警不想用或者用不了的局面。同時,近年來數據量和業務量的高速發展,使得滿足大規模高并發場景的搜索需求日益旺盛,為此本文重點研究基于知識圖譜和語義識別技術的新一代警務搜索系統,力圖可以保障海量數據下的高并發快速檢索,使得大數據成果可以充分賦能全體民警。
從使用模式上來說,警務搜索系統主要可以分為獨立信息檢索系統、信息綜合查詢系統、網站信息搜索系統和多媒體信息搜索系統。從技術角度看,警務搜索系統的發展歷程已經歷了兩代。
第一代搜索系統主要以單詞、分詞的形式進行檢索,如圖1所示,需手動進行數據關聯,無任何聯想功能。

第二代搜索系統立足于技術的發展,能夠基于字符串匹配搜索,如圖2所示,查詢內容主要集中在證件和車牌等號碼、姓名、出生年份等少數字段,在實現邏輯上屬于單表類搜索,底層數據和查詢語句中的字符串要精確才能查出結果,無法進行跨表搜索。

隨著云計算、大數據、語義分析、知識圖譜等創新技術的成熟應用,以知識圖譜和語義搜索為核心特點的新一代智能搜索系統正逐步走入實戰。
從公安實戰業務場景看,搜索系統需要對匯聚的所有數據資源進行檢索和查詢,同時在結果呈現上需要展示的是經過收集、解析及處理過的數據資源。這就意味著滿足警務大數據場景的搜索系統將面臨如下挑戰:
(1)PB級別數據資源搜索能力
近年來各地大數據建設成果顯著,筆者所在地市局經過多年的信息化發展,已經匯聚了以萬億為計算單位的大體量數據資源,且每天以千億條規模體量進行增加。如何實現對如此規模體量的數據資源進行快速搜索,是當前面臨的首要挑戰。
(2)高并發穩定使用能力
筆者所在地市有超過一萬名的民警數量,作為高頻使用對象的搜索系統必須要有能夠支撐全市所有民警的高并發搜索能力,尤其在安保、疫情防控等關鍵任務保障期間,全市所有民警都會使用搜索系統進行業務的開展,這就對整個系統及相應支撐平臺的高并發能力提出了更高的要求。
(3)具備語義理解搜索能力
受限于業務的復雜性和多樣性,基層民警在案件偵破、治安防控及疫情流調等一系列警務實戰工作中,往往無法能夠精確搜索出目標,需要綜合各式信息進行綜合性、模糊式的搜索。
(4)具備跨模態式搜索能力
經過近幾年感知設備的大跨步建設,各地基本建成了海量的視頻監控體系,積累了大量的視頻、圖片及結構化數據[3],這類數據資源對于公安業務有著非常重要的意義,但是無統一的平臺能夠實現對跨模態資源的統一查詢和搜索,迫切需要通過建設新型搜索系統實現多維度數據的價值發揮。
基于上文的需求分析,筆者結合當前相關技術發展趨勢和所在地市局的實際情況,對該搜索系統的架構進行設計,系統主要包含數據接口服務、智搜應用服務、智搜引擎服務、全息檔案服務、語義搜索引擎、多模態搜索、全文搜索引擎等內容。其中,智搜應用服務是用戶進行查詢搜索的直接交互界面,通過調用智搜引擎服務實現對語義搜索和全文搜索;語義搜索引擎實現用戶通過自然語言方式進行搜索;全文搜索引擎實現對全局所有數據資源的每個字段都被索引并可被搜索;MaxCompute實現對搜索系統的底層大數據組件支撐。
區別于前兩代搜索系統的實現方式,新一代警務搜索系統的核心關鍵技術點包括交互式分析能力大數據組件、全文搜索引擎、語義搜索引擎、知識圖譜和多模態搜索五個方面內容,如圖3標色內容所示。

新一代搜索系統的大規模高并發要求需要依賴底層云計算大數據組件的強有力支撐。在設計中,筆者選擇MaxCompute作為系統底層核心的大數據支撐組件。全局多種數據源同步到大數據計算服務,在此基礎上進行全局所有數據資源的大規模和高并發計算分析,為搜索系統能夠從全局億萬級數據資源中進行查詢、分析,提供離線、實時的查詢計算支撐。從實際的運行結果分析,選擇的大數據組件能夠快速上手、服務穩定、安全可靠,且能夠同時處理搜索系統涉及到的結構化數據和非結構數據計算要求。

針對搜索系統低延時、高并發要求的場景,通過使用MaxCompute高效低延遲的資源調度策略,如圖5所示,并且使用獨立執行資源池,實現了秒級查詢響應計算能力。

針對搜索場景涉及到的對語義處理需求,使用MaxCompute對非結構化語音、自然語言文本進行語音識別、語義分析和數據處理,如圖6所示。

在全文搜索引擎方面,采用能夠處理PB級結構化或非結構化數據的Elastic Search引擎,構建了分布式、多用戶的全文搜索引擎能力,借助引擎強大的分布式實時分析檢索性能、實現ms級數據全文查詢時效性。在具體研究和實現的核心內容上,一是通過引擎構建索引庫,承接全局所有民警警務實戰過程中查詢流量;二是針對全局新增的數據資源,進行實時全增量同步,全量通過標準JDBC協議獲取數據,通過Binlog訂閱同步增量,如圖7所示;三是用戶在查詢過程中通過調用全文搜索引擎服務進行結果的生成。

在實際搜索系統使用過程中,全文搜索引擎能夠實現分布式的實時文件存儲和搜索,每個字段都被索引并可被搜索,整體上保障搜索穩定、可靠、快速[4],滿足全局警務實戰需求。
為充分提升搜索引擎的交互智能化,特設計語義搜索引擎(NLS)作為智能搜索的重要組成部分。該引擎可以提供對以自然語言形式表述的查詢語句進行語義分析、查詢語句轉化,最終提供查詢結果的能力。通過深度學習語義解析模型得到自然語言查詢中獨立、明確的語義信息,結合元數據知識圖譜在語義信息和目標數據之間建立關聯[5],完成查詢語句的生成,然后由查詢執行模塊完成數據庫查詢,實現搜索結果的輸出。語義搜索引擎(NLS)功能包括語義解析模塊(QP)、元數據知識圖譜管理模塊(MKG)、查詢語句生成模塊(Analyzer)、查詢執行模塊(Executor),如圖8所示。

語義解析模塊通過調用深度學習模型的在線服務,解析流程如圖9所示,提供對用戶輸入的自然語言查詢進行分詞、分段、命名實體識別、語義標注、意圖識別等功能。其輸出內容作為下一階段“查詢語句生成模塊(Analyzer)”的輸入。

知識圖譜在語義搜索引擎中不可或缺,它將查詢數據的元數據信息以及用戶查詢內容進行分類、抽象、依賴關系梳理,以不同類型節點的形式進行保存,在語義搜索中起到輔助解析、查詢生成重要作用,是連接用戶查詢Query和查詢數據之間的的橋梁。在研究和實現過程中,結合當前主流的技術體系,把知識圖譜按照搜索的業務邏輯分為三個流程內容,分別是圖譜應用、圖譜存儲&編輯以及圖譜生成。圖譜應用立足語義解析結果,通過查詢字段、取值及操作,實現對表的中間結果查詢,通過查詢適配器形成最終的查詢語言生成邏輯內容;圖譜存儲&編輯對圖譜應用的語義解析結果和知識圖譜內容進行存儲,同時按照圖譜生成器進行標準格式的存儲和展示,并進行實時的修改和反饋。圖譜生成立足圖譜生成器的存儲和展示內容進行元數據信息選擇、修改操作,詳細管理流程如圖10所示。

基于自然語言理解和圖像識別,對人的屬性(含標簽)、行為、關系和體貌特征進行組合搜索。適用于沒有ID類信息,也沒有人員信息,僅有視頻監控類信息,通過其體貌特征對人員身份進行快速落地。
在實際研究和建設過程中,通過使用文本Query對圖像內容屬性抽取檢索,包括語義解析模型升級和知識圖譜更新配置;對于識別不出人員ID的圖片,根據Reid對結果進行Grouping。語義解析模塊會判別搜索Query的搜索意圖,判斷需要對單主題域進行搜索,還是對多主題進行跨模態搜索,進而根據知識圖譜中虛擬實體->實體表的映射關系,生成針對不同主題域的SQL,召回搜索結果。詳細技術流程如圖11所示。


結合筆者所在地市局當前的信息化建設水平以及視頻監控建設規模體量,目前已圍繞一線警務實戰過程中需求比較迫切的功能內容,初步實現了圍繞性別、著裝、體態等共計40多類的多模態搜索能力。
警務搜索系統屬于智慧警務中必建且高頻的基礎應用軟件,支撐著各類數據資源系統對外的呈現。本文在搜索技術上開展了大膽的創新嘗試,以滿足大規模和高并發為核心需求,在交互式分析能力大數據組件、全文搜索引擎、語義搜索引擎、知識圖譜和多模態搜索這五個方面進行創新探索,架構了新一代警務搜索系統,為某市公安局乃至全國公安機關進行大數據下的全警賦能提供了豐富的寶貴經驗。實戰驗證數據基本上反映了民警的搜索目標,滿足低門檻普適性需求。本文所研究之內容可以作為搜索技術在公安警務大數據建設中相關研究的理論基礎,也可以為大數據智能應用規劃設計提供一定的參考價值和工程意義。