999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

顧及時空特征的海關緝私數據抽取模型

2023-09-02 19:30:22李效峪邱明月潘汝佳孫古月李林繁
法制博覽 2023年13期
關鍵詞:文本信息

李效峪 邱明月 潘汝佳 孫古月 李林繁

南京森林警察學院,江蘇 南京 210023

一、研究背景

全國各地海關緝私在情報研判模型建設過程中,圍繞情報研判建模和實際應用前途,針對模型內容都作了一些探索實踐,也取得了較為明顯的初步實戰應用成效。但經初步分析,目前情報研判建模仍以顯性的“點對點”比對建模為主[1]。可歸納為以下四方面:

第一,缺少對象的匹配多元化,且模型容錯率較低,綜合深度挖掘分析潛在關聯少;第二,個人或部門的分離研判占較大部分,缺少配合機制的健全和普及,進而導致分析研判結果缺乏實際操作性及實戰指導前瞻性;第三,傳統的情報研判模型基于協同的“技戰流”實戰研判少;第四,依賴研發人員的手動開發操作,這便對現有的技術人才的業務能力有較高的需求,倘若具有優秀建模能力的專業警力技術資源有限,在實戰中會大大限制情報研判模型的操作潛力。

此外,現行數據分析提取模型還存在“數據共享難、信息關聯性差、缺乏跨地域情報信息的協作”的信息孤島問題,各地海關緝私部門信息化、智能化發展情況差別較大,在數據庫的建設和使用領域開發程度較淺,基本停滯在亟待開發的階段,運用和推廣較難,開發潛力較大。因此緝私情報之間難以實現高質量、有關聯的互通,較深層次的海關緝私非結構化專業數據的開發更是少之又少。面對數量龐大、結構化程度低的緝私信息數據,海關緝私部門要如何正確地進行儲存和處理是情報能否實現價值的關鍵所在。海關緝私專業非結構化數據的利用率低,主要體現在其無序性、雜亂性、復雜性,而多數海關緝私部門在面臨工作量大而復雜的海關緝私業務的現實情況時,對此類信息類型大都選擇棄置,不愿耗費有限的優質警力進行深度的信息挖掘提取。

二、研究思路

針對當下的走私犯罪案件,利用傳統的信息抽取方法難以適應其智能化、高科技化和共享化的特點,若僅靠傳統的坐等報案、調查訪問等按部就班的工作模式已難以勝任日益發展的緝私工作和履行打擊、服務、參謀三大重要職能[2]。隨著信息社會的發展和網絡的普及,情報信息工作在偵查辦案中的重要性必將更加明顯、突出,偵查工作對它的依賴程度亦將越來越大[3],由線索到人、由人到案的偵查工作思路和以情報信息工作為核心[4],依托高效能的信息處理模型主導案源及偵辦緝私工作,已成為緝私工作發展的迫切要求。

知識圖譜作為邏輯推理智能中認知領域的核心技術,本質上是一種揭示各種概念實體之間聯系的語義學習網絡,是一種結構性的語義學習知識庫,用于將各種事物及其相互關系信息進行形式化的描述、集成并聚合大批的知識,從而更好地實現對知識的快速反饋和推理。知識圖譜及相關技術能有針對性地解決上述問題,但就實際情況而言,公安知識圖譜的構建方法基于但不等同于其他類型知識圖譜的構建方法,它依托于實戰性強、專業性強的公安信息,效能和使用也應傾斜于公安機關和海關的業務領域。本研究從處理公安機關和海關部門案件過程中收集的信息情報出發,進行公安領域知識圖譜的本體建模,并研究出可實現基本信息共享,根據案件類型智能化生成知識圖譜的文本系統。通過構建知識圖譜這種方式,應用在緝私案件文本挖掘和抽取實戰方面,從而達到從海量案件文本庫中挖掘非結構數據、隱藏性數據等信息,進而組織關聯形成有效的情報線索的研究目的。

三、研究意義

海關緝私情報知識來源于對每一個案例的攻克、打磨與總結,無論是基于主觀歸納還是機器學習方法,這都是一種從信息到情報知識的抽象過程。這些情報知識再經過儲存、管理、共享組成知識庫,最后按決策需求被檢索和應用于個案推理。在情報知識的生命周期中,海關緝私信息抽取模型在公安情報工作中的研究與應用意義在于情報知識抽取自動化。將目前人工為主機器為輔的情報過程升級為機器為主人工為輔的情報過程,助力深化可解釋、大規模、統一集約的海關緝私情報智能化體系。

(一)信息抽取

信息抽取是一種數據從非結構化到結構化的組織過程。海關緝私數據中存在著大量的非結構化數據,如何將這些數據結構化以利用現在的結構化數據處理生態是海關緝私業務中一個重要需求。情報概念下的信息抽取需要將非結構化的數據抽取轉化為“人、事、物、時間、地點、組織、關系”等情報要素的結構化數據,以形成情報研判的信息集合,這是傳統關系型和非關系型數據庫無法做到的。

(二)數據整合

海關緝私數據來源廣泛、種類繁多,文本、圖像、視頻、音頻、地理信息數據等紛繁復雜的數據都需要存儲在信息系統中,這些數據數量巨大而且質量良莠不齊、數據結構大多不同。傳統列式、行式關系型儲存技術無法高效合理組織這種多模態數據,而以多模態非關系型圖數據庫為首作為NewSQL 存儲方案,則能很好地對這些信息進行管理和存儲,極大地加快檢索查詢的速度。

(三)聯合作戰

海關緝私部門中單方偵破在案件偵破中發揮的功能有極大的局限性,例如一個走私保護動物的案件可能涉及刑偵、網安、地方打私等多部門的信息。在情報主導的警務模式中,知識圖譜能夠很方便地通過后臺接口共享各部門的數據、共享情報研判知識,融合各部門的知識情報,便于案件線索的深度挖掘,讓各部門的協作發揮“1+1>2”的作用。

四、緝私案件數據抽取設計路線

(一)路線設計

海關緝私工作在落地偵辦前通常需要厘清幾大基本問題,我們可以概括為“5w+1h 疑問”,分別是:在哪里發生、何時發生的、為何發生、走私何物、走私行為人如何走私及走私動機。海關緝私信息抽取受緝私案件性質所限,時空要素的不同對案件走向和情報經營方式存在較大影響。故海關緝私信息在提取各要素時,所需要參照的時間、空間要素所占比重更高。沿用普通的刑事案件信息抽取分析模型效果不佳,而時空的信息是串聯起緝私個案甚至是系列案件的關鍵。緝私信息提取是在計算機環境下,將緝私知識及緝私專業信息要素表現為計算機可以接受的符號以及能夠存儲的結構形式。在數據世界中,緝私知識的主體對象——走私現象或事物,將抽象為緝私實體,而其具有的各種特征則抽象為時間、空間、屬性、狀態、過程、關系等關鍵信息要素。

總體上,根據知識的類型、特征及其邏輯關系,緝私知識可以劃分為三個層次:概念層、實體層和關系層。其中,實體知識可以分為三個子層次,包括基本特征(時間、空間、屬性、行為)、狀態特征和過程特征;關系知識可以分為兩個子層次:概念關系和特征關系。按照知識的層次劃分,可以形成不同粒度的緝私知識語義單元[5]。通過分層、分維度對所有相關信息進行整合,以便于情報研判部門對案件的下一步進行研判。

(二)數據來源

本模型實驗數據主要來源于專門機關、社會部門和互聯網輿情等幾大方向。數據樣本涉及刑事案件上百宗,案值近百億元,涉稅金額超數十億元,數據統計指標結果均排在全國前列。專門機關數據是本文本信息提取模型的核心實驗數據。此次文本信息提取模型的未來展望就是為海關總署打擊走私專項情報中心提供全方位的數據支撐和情報抓手,為情報主導警務提供更廣闊的實踐平臺和更多元的拓展思路。

(三)設計路徑

目前,非結構化的文本、語音、圖像、視頻和音頻等各類型的數據抽取有待進一步深挖研究。為了貼合實戰單位信息處理簡易化需求,并將所得緝私案件文本內容物盡其用,模型以文本數據為主,針對緝私案事件文本中時間、地名、關系、屬性、人物、事件等關鍵要素的自然語言描述特點,實現海關緝私文本信息抽取方法。

本模型擬進行緝私案事件的信息抽取,主要研究內容包括以下幾個方面:一是選取不同類型、不同內容和不同形式的緝私案件文本信息,構建緝私案件樣本庫;二是將案件中的文本信息進行分詞與詞性標注;三是實現實體識別、特征信息抽取,如圖1 所示。通過與海關系統、公安系統等緝私案事件相關結構化數據的信息融合,實現緝私案事件信息的多層次、多粒度語義集成。

1.文本信息預處理

將數據中的走私地點、走私時間、走私物品、走私人員、走私動機、主要走私方法按照一定標準進行提取并標注詞性,提取標準根據海關緝私部門實戰中常見案件特征并參考相關國家標準制定。

2.模型構建

本實驗知識本體基于文本結構化后的數據依據“循環法”構建,具體步驟如下:

(1)本體需求分析并考查可復用本體。公安專業本體構建領域,針對海關查獲對走私類案件文本數據進行本體建模。在進行了相關文獻調研之后,在公安海關緝私方面并無相關構建的本體。但是公安領域本體能基于通用領域的本體知識庫進行拓展。本研究基于百科知識樹TermTree 進行拓展。

(2)建立領域核心概念。對文本結構化后的數據按照走私物品的不同進行匯總統計,記錄每一個字段中詞項的詞頻,篩選出詞頻中的高頻詞,得到該走私物品下案件的核心概念。基于這些核心概念來搭建本體模式層中的知識節點。

(3)建立概念分類層級并定義知識節點。將這些核心概念要素根據走私地點、走私時間、走私物品、走私人員、走私動機、主要走私方法進行分類,對象的屬性層級參照OpenSchema 的語義描述構建。

(4)本體評價與進化。本體在應用中需要根據實際需求進行不斷更新維護,針對新的案件信息重新回到第一步進行需求分析,重新運行本體構建的生命周期,本研究通過設立開源倉庫,以開源協作的方式進行領域本體構建的生態循環。

這種可根據案件文本生成圖譜的方法,首先通過知識標注來將緝私知識數據庫中的知識信息映射到案件文本信息上,然后通過解析文本中的實體關系繪制文本語義所描述的圖譜。這種方法能為緝私案件文本挖掘提供一種創新的文本結構化途徑,有助于從龐大的案件文本庫中挖掘隱藏的實體關聯,形成情報線索。

五、前景展望

傳統的緝私情報分析結果展示主要是依靠文字描述、表格和簡單的統計圖,情報分析人員難以從中發現情報串并與研判的依據和規律。隨著信息技術的進步和情報分析需求的不斷增長,對于大型的緝私情報素材集合,迫切需要一種能夠確定緝私情報素材之間的關系和蘊含的知識,并表示為相關人員可以方便理解的可視化形式的技術[6]。實現海關緝私數據自動化抽取,為各地不同海關緝私部門信息化發展不平衡導致的數據分析能力落差,提供了現實的解決方案,節省了大量警力資源的同時,深度挖掘數據的價值,并為各種大數據智能應用持續賦能,為后續緝私情報抽取、關聯、研判的計算與應用提供基礎,對于大型的緝私情報素材集合,實現一種能夠描述情報的特征維度和各特征之間關系的情報要素表達模型將成為可能。

猜你喜歡
文本信息
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美日韩国产在线人成app| 国产免费福利网站| 国产女人在线视频| 日本精品视频| 欧美无专区| 久久毛片免费基地| av一区二区三区在线观看| 色综合热无码热国产| 国产精品粉嫩| 国产极品嫩模在线观看91| 免费在线视频a| 亚洲最大情网站在线观看| 亚洲全网成人资源在线观看| 国产成人精品一区二区| 91久久夜色精品国产网站| 男女男精品视频| 亚洲a免费| 国产xx在线观看| jijzzizz老师出水喷水喷出| 成人日韩视频| 精品视频一区二区三区在线播| 国产xx在线观看| 国产日韩精品欧美一区灰| 欧美综合一区二区三区| 国产亚洲精| 在线精品视频成人网| 丁香婷婷激情网| 日本精品αv中文字幕| 一本大道香蕉久中文在线播放| 亚洲综合激情另类专区| 亚洲欧美自拍一区| 美女国产在线| 亚洲综合色在线| 免费一看一级毛片| 直接黄91麻豆网站| 欧美区国产区| 伊人五月丁香综合AⅤ| 在线观看国产精品一区| 欧美日韩专区| 亚洲欧洲日产国产无码AV| 色首页AV在线| 久久久久无码国产精品不卡| 亚洲欧美精品一中文字幕| 久久久久无码国产精品不卡| 亚洲中文字幕97久久精品少妇| 最新精品久久精品| 国产爽歪歪免费视频在线观看| 精久久久久无码区中文字幕| 成人自拍视频在线观看| 日本一本在线视频| 91久久夜色精品| 亚洲91在线精品| 一级做a爰片久久免费| 欧美激情视频一区二区三区免费| 色综合成人| 国产女人在线| 97在线视频免费观看| AV不卡国产在线观看| 日韩精品亚洲人旧成在线| 免费大黄网站在线观看| 日韩高清无码免费| 最新亚洲人成网站在线观看| 亚洲AⅤ无码国产精品| 青青国产视频| 女同久久精品国产99国| 国产女人18水真多毛片18精品 | 国产黄在线观看| 婷婷99视频精品全部在线观看| 亚洲av无码久久无遮挡| 久久精品中文字幕少妇| 国产综合在线观看视频| 伊人色天堂| 国产一区二区人大臿蕉香蕉| 自拍中文字幕| 亚洲国产天堂久久九九九| 久久人与动人物A级毛片| 热99精品视频| 青青极品在线| 久久福利片| 国产成人精品免费av| 国产亚洲欧美日韩在线一区二区三区| 亚洲av成人无码网站在线观看|