陳 銳,華 東,桑朝陽
(浙江省公安廳,浙江 杭州 330100)
知識圖譜是基于大數據的智能化自然語言信息分析技術,實質上屬于信息分析工具中的一種,能夠把抽象冗雜的信息通過采集處理、融合計算、可視映射及繪制等過程以基于易理解的形象化的方式顯示出來,已被廣泛應用于電商、農業、工業、醫療、軍事、治安、教育等領域。谷歌、亞馬遜、騰訊、Facebook、阿里、奈飛、PayPal、華為、蘋果、百度等諸多企業紛紛探索拓展其在金融、電商、醫療多個領域的相關應用,推廣前景被一致看好[1]。對于警務工作而言,經過十余年的“基礎工作信息化,信息工作基礎化”的快速發展,特別是近2年云計算技術的賦能,知識圖譜關系網絡越來越多地在該領域被應用并取得實效。
知識圖譜通過將可視化技術與數學、圖形學、信息科學等學科理論及方法結合,把抽象冗雜的信息通過采集處理、可視繪制等圖形化方式直觀顯示出來。在現代警務模式中,人與人之間關系聚類的挖掘計算更加亟需知識圖譜的應用。現實生活中,知識圖譜應用在關系聚類的挖掘計算基礎是人的基本屬性、行為指數和信息交互(實體、關系、屬性以及語義描述)等,但因為數據規模巨大、結構異樣、質量不一,需要充分使用機器學習、自然語言處理等技術進行自動化的圖譜構建。知識圖譜關系網絡可以通過對錯綜復雜的實體、關系、屬性以及語義描述數據(包括結構化、非結構化和半結構化)進行高效準確的加工處理、整合清洗,轉化為海量的實體元素與關系數據,知識匯聚融合后對數據進行邏輯歸屬和冗雜錯誤數據過濾。
簡單來說,知識圖譜應用于關系聚類分析主要具有以下3種特點。
(1)可以通過圖數據庫比對算法進行效率極高的數據檢索,檢索訪問次數越多、范圍越廣,就能比中越多信息和內容,效率越高。
(2)圖數據庫面向的數據量是數十到百億級,甚至更多。它使用圖的方式有效地存儲數據和知識之間的內在關聯關系,可以實現系統化而非凌亂分散地展示相關知識體系。
(3)具備人類自然語言智能識別和推理能力,從整理出的數據中自動識別和推斷出多維度關系與知識,可以模擬人腦思維方式去總結、證明和推測,脫離專業知識和業務經驗制約而獨立完成全部過程。
傳統人物關聯分析存在的痛點難點主要表現在以下方面。
一是分析過程耗時耗力,整體效率不高。傳統分析主要采用“查詢+比對”分析方法,即使查詢檢索也是單因子單表查詢檢索,復合因子、交叉因子或多表交叉查詢檢索效率很低,且由于分析對象及與其關聯的對象數量龐大、系統獨立分散、數據種類繁雜、基礎信息重復、標準不一、共享不足等原因,查詢耗時長,分析效率不高。使用傳統方式的查詢分析操作無法在最短時間內高效率針對某些特定的應用場景挖掘出分析對象的關聯特征。
二是基礎數據缺失不全,結果不夠準確。傳統的人物關聯關系分析通常需要借助多個部門警種、多個信息系統、多類數據資源,將查詢到的零散數據進行整合,梳理內在邏輯,組合人物畫像,形成關系鏈條[2]。分析人員的專業水平參差不齊會導致結果出現偏差。多個部門、系統和資源中的數據質量參差不齊,結構異樣、缺失甚至錯誤,導致分析人員初期的數據檢索、收集、清洗和整理的難度極大,需要長期、重復、機械地處理相關數據,最終因為各種客觀原因影響得到的結果往往與事實背道而馳。
三是綜合信息多元混雜,挖掘提煉不強。人物關系可通過多維行為(線上或線下、物流交易、社交通訊、交通住宿、人力資源與招聘、金融投資理財、保險零售、通信傳媒、醫療繳費、電子商務等)或是與內在聯系的對象來表現。但由于人的行為具有多元復雜性、個體傾向差異性,且隨著社會進步,各種新型的行為層出不窮,需對多種行為或多個對象進行綜合信息分析,目前采取的傳統方式挖掘分析難以滿足現代多行為數據分析挖掘的實際需求[1]。
關系圖譜泛指基于綜合利用各類數據可視化分析軟件,通過機器人流程自動化(RPA)等完成特定需求的集數據搜集、清洗、打標、建庫、建模、分析及展現等功能于一體,根據數據是維度還是度量,是離散還是連續,選取與其相匹配的圖形元素以及圖形屬性進行映射,進而達到傳遞想表達信息的目的。關系數據關聯研究對象包含的范圍越廣,表面上好像沒有相關性,但是底層具有潛在內關聯價值的事物就越多,分析人物關聯關系也就需要將海量龐雜的單維或低維數據拆解清洗,量化為對現代警務工作有用的指標指數,繼而開展后續數據關聯分析。這個過程也可以描述為通過定義的最小支持和最小置信度來尋找強關聯規則、描繪關系圖譜的過程。
通常來說,利用關系圖譜進行人物關聯分析的流程如下,這些流程步驟并非固定的,可根據研究對象和目標有選擇性地省略、新增或重復。
直接決定數據維度、格式、顆粒度、精確度等,很大程度上決定了輸出結果質量和最終分析準確性。行業關系圖譜構建更需要帶著專業特色的目的進行數據采集,盡量摒棄明確與關聯分析無關的數據采集。
支持各類結構化、半結構化、非結構化海量數據的低成本存儲,為超長時間的海量歷史數據存儲和使用提供基礎支撐[3]。在數據存儲層中,將會按照存儲數據量、計算能力、計算速度進行分主題存儲。因為圖數據庫在關聯查詢的效率上遠遠高于傳統的關系數據存儲,所以對大量數據應用圖數據庫來存儲較好。
標準處理包括噪聲去除、數據清洗、標簽分類、特征提取、信息抽取、建庫建模、分析研判等內容。對臟數據和噪聲進行去除,對散亂無序數據進行整合清洗,保留有價值數據,對多源異構數據進行清洗匯聚,建立基于專家系統、模式識別、機器學習等相關技術的數學處理模型,利用大數據、云計算技術實現數據快速標準的處理。
通過標準處理后的數據,獲得了結構統一、真實表達的實體、關系等數據后,再經過知識融合步驟對數據進行邏輯歸屬和冗雜錯誤數據過濾,將實體與實體進行對應、鏈接,最后合并外部知識庫和數據庫。
以上步驟實現的基本事實表達數據再通過實體并列關系相似度計算、位置順序關系排列完成本體構建,將數據歸類成人、案(事)、物、地址、組織機構等人腦概念。在此基礎上不斷反復數據或概念更新、質量評估和糾正等環節。
按照可視化技術要求,將處理后的數據按照數值、時間、空間、數據聯系等方面映射成為可視化直觀元素,映射后的元素可以直接被可視化技術使用。
利用數據可視化結果進行分析,建立人物關系圖譜。在實踐中更多地利用可視化軟件對數據進行交互式展現,利于人腦直觀感知和結果表示[4]。
當前關系圖譜應用無所不在,幾乎覆蓋所有行業和領域,包括教育、醫療、金融、商業、法律、行政等,前提是要像警務分析人員關系聚類一樣,在每個行業都要建立起特有的具有業務屬性的知識圖譜,并不斷完善和更新。當前已有很多行業開展了較為深度的應用,也取得了較為明顯的成效。
降低了司法理論和實踐中的應用難度,可以將司法工作中所涉及的法律法規、條例規范、經驗做法、司法主體和對象等相互關聯起來,形成具有較強邏輯性和結構性的司法關系圖譜。通過關系圖譜還可以方便快速地調用到關聯得更形象直觀的文本圖形、語音視頻等數據。
農業關系圖譜可以極大程度累積和利用農業常識、規律、經驗、關聯行業知識等相關知識。深入挖掘分析相應的實體之間內在的關聯關系,并用關系圖譜進行表達,構造全面的農業知識庫,直觀地預測和指導農業領域發展趨勢及輔助決策。
挖掘遺傳基因,降低診療成本,在醫療行業,發現和診療遺傳性疾病的成本高、周期長。醫療關系圖譜的數據組成包括臨床數據、實驗數據、理論研究成果以及各類共享數據,構建遺傳學醫療關系圖譜,加大遺傳性疾病的診療精準性和降低治療難度,節約治療成本。例如“IBM登月計劃”,對臨床醫療做出了臨床輔助診斷和安全治療手段建議等方面的貢獻,其背后就是醫療關系圖譜基于海量臨床經驗數據、實驗數據和理論研究數據相互關聯的實戰應用。
這是警務工作中關系圖譜眾多應用中的一種。最近幾年,電信詐騙的形式多種多樣,涉案金額巨大,造成惡劣的影響。仿冒身份、購物詐騙、利誘詐騙、消費詐騙、釣魚木馬病毒詐騙等,騙子越來越多,手段越來越具有迷惑性,被害者防不勝防,甚至很多被害者都是高級知識分子,也在不知不覺中受騙上當。在這種情況下,原來通過個案攻堅、串并案偵查等傳統方法進行反詐偵查已經遠遠不夠,需要建立一個反詐關系圖譜來積極應對。電信詐騙的核心是人,在金融投資詐騙的偵查分析研判中,需要對接涉及電詐的所有相關數據源,對多源異構數據清洗整理后構建對應的關系圖譜,建設標準統一的結構化數據庫供機器學習、理解和分析研判。這樣不僅可以整合涉案人員的基本信息,還可以把涉案人員的消費記錄、行為記錄、關系信息、線上日志信息等整合到反電詐知識圖譜里,從而進行分析和預測,最終得到電詐犯罪團伙成員的真實身份信息及內在關聯信息,為打擊電詐案件高發態勢提供直觀的決策指引及偵破方向。此外,通過構建海量的歷史電詐元素的關系圖譜,實現高風險數據的分析研判和機器學習,按電詐主題元素計算風險結果反饋,構建特征專題數據庫,提煉固化分析規則,完善預警分析模型,可以有效進行電詐案件的前期干預,避免電詐案件的發生和終止現發電詐案件的發展。
擁有海量數據的互聯網電商行業,當前在關系圖譜應用方面處于世界前列。各大互聯網巨頭,通過構建自身電商生態閉環,讓電商數據在整個閉環中產生、消化、再產生,反復地完善其關系圖譜和知識庫,讓搜索引擎擁有了更精準的分析能力和更智能的推薦能力,能夠更好的為客戶提供關鍵和滿意的電商產品信息,從而引導消費。例如淘寶的商品關系圖譜背后有著商品標準化、結構化這一個基礎性和根源性的過程。淘寶關系圖譜以商品名稱、商品分類、商品參數、商品品牌、標準條碼、熱門標簽等為核心,利用自然語言識別和分析技術,整合關聯了成千上億的用戶興趣屬性,形成了龐大的關系網。能夠分析全平臺數據,對違禁貨物和違法交易行為進行預警及干預,也可以幫助用戶迅速準確從海量產品中篩選出適合的商品,提高用戶購物體驗和交易安全等。
大數據時代背景下,隨著物聯網、云計算等技術運用于各個行業部門,數據呈現出融合交叉的特點。知識圖譜可以幫助人物信息模塊化利用,將各種類型的數據進行規范整理和分類存儲。在檢索輸出結果階段,用戶可以通過關鍵字檢索等方式輸入內容,系統會解析分析,將關聯內容篩選排序,結構化輸出結果[5]。例如“人員綜合畫像”模塊輸入關鍵字,系統通過對已有數據的清洗、關聯、分類,將人員基本情況、關聯人基本情況、所屬物品情況、人員行業特征信息及人員行為信息在同一界面多維度直觀展示。
關系圖譜是從海量數據資源中清洗出符合條件的信息,可以實時快速地深度分析大數據中的實體與關聯關系,利用已知內在聯系或具體特征推斷出與之有關聯的新的聯系。除此之外,關系圖譜的推斷并不僅僅局限于通過人物對象的行為或通過內在邏輯這些傳統的單一思維方式,而是從數據出發,構建關系網絡,多種因素綜合考慮推斷,相較于傳統的方式,利用關系圖譜能夠對數據進行深度分析、精準研判和及時的預測[6]。比如關系圖譜的推斷,在警務工作中,為快速準確鎖定目標人員、物品、地址、案事件和背景信息,民警的任何操作都是圍繞該特定的工作意圖和目的進行的,建立并應用該圖譜,民警能實現快速精準偵查工作,這對于警務決策的精準性和全面性而言至關重要。
在人物關聯領域運用關系圖譜,可以將來源于不同數據庫系統、不同部門的數據信息進行整合,理清人物相關聯的內在邏輯,構建關系標簽脈絡,將冗雜的人物對象數據有序化[2]。例如,構建“人員矩陣”,使被分析對象的“標簽關系人或物”通過縱橫排列的二維數據表格或三維立體模型展示,并利用數據特性,按條件排列,有效打通人與人、人與物之間的關系脈絡,幫助分析人員在最短時間內了解對象群體特征及內在關聯性。
關系圖譜可以讓當前應用在多種場景下的警務AI更智能更安全。它能應用于當前各個層級公安機關及警種條線的各類警務工作,可以讓基層民警從枯燥無味的數據分析中解放出來,快速梳理嫌疑對象關系脈絡,找到關鍵目標,發現活躍在本地的犯罪團伙,實現人案關聯,最終落地打擊。關系圖譜不僅適用于破案追逃,還能在反恐維穩、社會治安治理和行政審批等公安工作各個領域發揮重要作用。未來,傳統的調查、研究,甚至訊問、勘查、分析研判等警務工作將被關系圖譜賦能的警務AI代替,警力資源得到極大程度釋放。
綜上所述,利用關系類知識圖譜系統進行人物關聯分析,有以下幾個方面的優勢。一是能夠滿足更高層次的數據服務需求。關系圖譜系統立足于大數據資源,深入挖掘提煉數據信息,建設“要素關聯、融合共享、智能分配、全域一體”數據資源池,使人物關聯分析從簡單的“信息查詢”轉變為高效的“智能應用”,打通了人物相關聯的數據脈絡[2],實現基礎數據對行業需求的更有力支撐。二是助推行業信息質量提檔升級。在系統應用過程中,通過對已采集數據進行標簽化、規范化、結構化的處理,去除噪聲數據和臟數據, 提升知識質量[3],從而優化數據庫結構,有力提升行業基礎數據的質量,為行業需求滿足夯實基礎。三是顯著提升分析效能。通過對綜合畫像、關系網絡和人員矩陣分析等專業功能模塊的構建,不僅能夠建立“人+行為+軌跡+關系”人員多維信息檔案,通過關系拓展、對象關聯,還能實現從“單人檔案”向“群體檔案”、從“單一關系”向“多重關系”、從“基本分析”向“深度挖掘”轉變,滿足了可視化分析、直觀化分析等高階需求,有力提升了大數據環境下人物關聯分析效能。