999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NLP的多維數據深度挖掘分析服務在公安行業的應用

2023-10-22 01:45:38王鑫公安部第一研究所
警察技術 2023年5期
關鍵詞:語義分類文本

王鑫 公安部第一研究所

引言

隨著當前社會動態化、信息化的深入發展,社會形勢日益復雜,各種重大突發案事件時常發生,而公安機關的實戰警力不足、部門各自為戰、信息閉塞滯后等問題也日益突出,傳統的單打獨斗式警務模式已經難以滿足各地公安保衛政治安全、打擊違法犯罪、維護社會穩定的實戰需求。作為社會治安“晴雨表”的警情數據明顯增多,積累了大量反應社會治安情況的信息,亟需以科技信息化手段作為支撐,為合成作戰指揮提供有針對性和有效性的決策信息。本文基于NLP(Natural Language Processing)自然語言處理技術,構建多維數據深度挖掘分析服務在公安行業的應用,實現自動提取結構化要素、挖掘海量數據潛在信息、多維度關聯分析等功能,推動NLP技術與公安信息分析研判業務深度融合。

一、業務需求

國內各級公安指揮中心目前已經形成了長期、廣泛和有價值的數據。隨著科學技術的發展,已經開始對各類數據進行整合和相應的分析,但目前主要還是以數據的匯聚、類別、時間段等傳統方式進行統計分析。為了深挖數據中關鍵的信息,建立多維數據深度挖掘分析服務,將自然語言分析技術應用于公安信息分析研判,并支撐合成作戰業務落地應用,有效將公安業務工作與通用技術相結合的方式,將是未來發展趨勢。

利用NLP技術對公安數據進行深度挖掘和分析,主要滿足如下實戰需求:

一是探索數據隱性關系,基于文本記錄信息,全量解析各類信息中實體和主題詞,發現不同信息間的人物關聯、地點管理、組織機構關聯等隱性特點,并與相關聯的應急預案匹配。

二是發現時間聯動規律,提供時間維度的數據細節統計,呈現按照年、月、日、時段等不同粒度時間周期上,全量數據的分布情況,提供按照關鍵字、主題詞、區域等維度的篩選。

三是發現數據聚類特點,針對不同分類的信息,以類型為單位探索挖掘此類數據在時間、地點、關鍵要素等方面的特征。

二、構建多維數據深度挖掘分析服務的重點內容

通過梳理公安信息分析研判業務,基于NLP對數據進行句法分析、中文自動分詞、詞性標注、文本分類、信息檢索、信息抽取等關鍵技術,建立文檔語義向量化模型和分類語義模型。本文著重論述語義標注訓練方法管理、分析服務處理流程制定、語義關鍵詞自動提取、分類模型訓練等重點內容,實現多維數據深度挖掘分析服務對海量數據快速、準確的全量解析,確保對每一個事件進行準確、高效的指揮調度。

(一)語義標注訓練方法

為進一步提高準確度,除了對模型進行調優外,人工糾偏是一個重要的環節。通過數據信息標注管理,監督機器學習,在人工干預下為機器提供樣本參考,樣本越準確、越多,機器進行學習后的效果就越好、準確度更高。在人工進行類別選擇糾偏標注后,被糾偏事件進入事件訓練庫成為樣本,提升事件分類的準確性。語義標注管理需包括:

(1)隨機聚類標注管理:在所有的數據中隨機選取可用戶自定義數量條數提供給用戶,并提供與該事件信息相近的多個分類類別,用戶可以單一或者批量提交數據分類類別進行糾偏標注。

(2)分類聯想標注管理:通過分類類別進行數據聯想聚類糾偏標注。

(3)反向剔除標注管理:對數據的分類類別進行反向選擇,通過反向選擇提高數據信息分類的準確性。

(二)NLP多維數據深度挖掘分析服務處理流程

多維數據深度挖掘分析服務通過接口管理模塊實時接入各類信息,語義提取案事件要素信息、日期時間、地址信息等,同時智能匹配對應預案,交由預案分類模型進行案事件分類分級。

NLP多維數據深度挖掘分析服務提供歷史數據查詢和日志查詢接口,通過數據分析管理、多維數據查詢管理模塊進行可視化呈現;對于新類型、未識別、識別不準的數據,通過語義標注接口,作為優化模型自學習的輸入,持續提升模型準確性和完備性。

(三)NLP數據語義關鍵詞提取與預案匹配原理

首先對數據文本進行關鍵詞語義提取,涉及到熱詞識別/文本聚類,命名實體識別(包括日期時間、地址)。

其次根據數據信息分詞結果進行特征語義提取,計算特征權重,輸入訓練好的預案匹配分類器模型,選擇最高匹配度預案以及關聯預案。對于預案中涉及案事件定級的關鍵詞與數字,比如傷/亡人數、是否有外籍、事發區域、事發時間等,通過正則表達式技術進行規則語義提取,使用決策樹模型對案件進行定級。

(四)案事件處置預案分類模型訓練

為實現案事件處置預案精準匹配,利用機器學習技術,對預案中關鍵名詞、數字、規則進行標注,制定標簽模板,輸入訓練文本進行分詞,自行標注或基于規則的自動標注。完成數據準備后進行特征提取,輸出特征權重,通過權重與標簽模板的運算,調整分類器的參數,形成案事件處置預案分類模型。

三、多維數據深度挖掘分析服務在公安行業的應用

通過構建多維數據深度挖掘分析服務,對多年的警情歷史數據進行訓練,并在某地市級公安機關成功應用。

(一)文本檢測類服務接口

1.文本多標簽分類

將文本輸入機器學習流程之前,確保文本清洗和向量化步驟已經完成,使用NaiveBayes分類器和支持向量機分類器來輔助完成分類任務。自動甄別基于多個分類樹形成的訓練語料,結合使用SVM、DT、Xgboost等算法,一條數據可能有多個標簽,每個標簽可能有兩個或者多個類別,對每一類警情訓練一個文本分類模型。

2.文本多級分類

根據用戶歸類匯總形成的分類樹,系統利用訓練警情數據在不同類別分支之間的關聯關系,拆分成特征工程和分類器兩部分,在訓練和推理過程中feed模型需要的數據,在學習層級信息的時候使用fine-tuning微調技術,將上層標簽信息微調的方式傳到下層標簽的學習中。輸入沒有標簽的新數據后,將新數據的每個特征與樣本集中數據對應的特征進行比較,然后算法提取樣本集中特征最相似數據(最近鄰)的分類標簽,從而實現在分類預測結果結合輸出類別的路徑類別,例如預測類別為Y,如果C同時隸屬X類,則預測結果同時包括X類和Y類。

(二)實體識別類服務接口

1.地址詞識別

訓練地址識別語義模型,將識別粒度從“省市區街道地點”的5級體系擴展到“省市區、商圈、街道、地點、樓層門牌號、方位距離”的8級體系,通過多子任務共同約束的方式,濾掉非法字符,根據分詞后的詞性得出概率以及詞典元數據對地址文本進行地址切分。對切分結果進行地址標注,并獲得最優的地址等級標注序列。同時根據上下文校正標注序列,并輸出最優標注結果。

2.時間詞識別

基于語義模型對輸入文本進行語義分析識別技術,從文本數據中析取帶有時間類語義的文本數據,輔助識別各種時間表示格式,推斷不同場景下的時間語義詞匯。

3.名詞識別

名詞識別模塊包括分析主題模塊、關注詞匯模塊、分詞服務模塊、索引服務模塊以及名詞分析模塊。分析主題模塊,用于確定分析數據源、定義分析主題、定義分析字段的域以及定義每個域的數據類型,產生主題數據結構;關注詞匯模塊,用于確定需要關注的潛在名詞,形成關注詞匯表列;分詞服務模塊用于根據主題數據結構語義提取相應域中的數據信息,并根據關注詞匯表序列對數據信息進行分詞,產生詞元序列;索引服務模塊中的索引關系生成單元用于記錄詞元序列中每個詞元在對應域中的索引位置和記錄每個詞元對應的數據信息,生成詞元索引文件;名詞分析模塊根據詞元索引文件生成名詞關聯信息,且根據每個詞元的協同概率生成置信度。

4.單位名稱識別

分類利用地域識別模型、行業特征詞識別模型以及CRF模型組合形成單位名稱識別模型,提供單位名稱識別接口服務。

5.實體詞使用分析

對臨時提供的實體詞進行使用次數統計,根據使用或出現頻次變化對實體詞的數量進行管理,統計分析不同實體詞在不同數據分類的應用場景下的適配性,避免無效數據對系統性能造成負面影響。

(三)趨勢分析類服務接口

1.關鍵詞識別

本服務采用三種識別模型:

有監督模型:作為二分類問題進行處理,判斷文檔中的詞和短語,提供已經標注好的訓練語料,利用歷史語料訓練關鍵詞語義提取模型,對文檔進行關鍵詞抽取。

半監督模型:只需要少量的訓練數據構建關鍵詞抽取模型,然后使用模型對新的文本進行關鍵詞語義提取,對于這些關鍵詞進行人工過濾,將過濾得到的關鍵詞加入訓練集,重新訓練模型。

無監督模型:不需要人工標注的語料,利用機器學習方法發現文本中比較重要的詞作為關鍵詞,進行關鍵詞抽取。

2.關鍵短語識別

提取典型的、有代表性的短語可代表文本的關鍵內容。先利用停用詞表生成候選詞,再計算各個候選詞和短語的得分,基于序列標注模型的方法,轉換成核心成分識別問題。通過觀察到的文檔集合,基于按不同應用場景的語料數據使用無監督的聯通權重的圖神經網絡訓練方法形成模型,利用所提的完整性篩選和排序函數對候選短語進行篩選和排序,加入利用詞語在文章中首次出現的位置作為特征,分析當前輸入數據的可表示主題的最佳短語。

3.熱詞關聯識別

基于歷史警情數據進行語義分析,以30日為時間窗口,連續滾動建立每周關鍵詞和停用詞庫,對獲取的實時文本內容進行自動分詞,解決新詞和不規則詞在警情中口語化表達的問題。根據關鍵詞出現的頻率和時間遠近程度計算其熱度值,之后依照該詞的熱度值,利用貝葉斯多維分類模型對比每周熱詞排行榜,獲得熱詞的關聯趨勢。

在實戰中通過真實數據對該模型進行迭代驗證和糾偏,其文本標簽分類準確率達95%,對地址、時間、名詞、單位名稱等實體識別準確率達97%以上,為上層警情研判系統提供穩定、可靠的多維數據分析服務。

四、結語

本文將NLP技術運用在公安研判分析工作中,根據業務實戰需求,構建基于NLP的多維數據深度挖掘分析服務,首次提出并定義了地址、時間、名詞、單位名稱等實體識別類服務接口,并在實戰中得到較好的驗證結果。同時,逐步建立了數據中關鍵信息要素標簽體系,推動NLP技術在公安實戰中的深度應用,為偵查破案、維穩處突、服務民生等工作提供強大的技術支撐,有效提升公安工作效能,不斷助力智慧警務建設。

猜你喜歡
語義分類文本
分類算一算
語言與語義
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产免费人成视频网| 福利在线不卡一区| 国产一区二区网站| 色135综合网| 色婷婷综合在线| 日本在线亚洲| 五月婷婷丁香综合| 国产精品手机在线播放| 最新国产午夜精品视频成人| 国产亚洲男人的天堂在线观看| 亚洲精品制服丝袜二区| 国产特级毛片| 最新亚洲人成无码网站欣赏网| 国产色伊人| 国产日韩久久久久无码精品| 日韩精品一区二区三区swag| 国产网友愉拍精品视频| 视频国产精品丝袜第一页| 国产精品片在线观看手机版 | 亚洲精品波多野结衣| 成人在线观看不卡| 午夜啪啪网| 免费一极毛片| 久久综合九九亚洲一区| 伊人久久大线影院首页| 伊人色综合久久天天| 毛片国产精品完整版| 亚洲人成影视在线观看| 亚洲免费黄色网| 精品99在线观看| 美女被躁出白浆视频播放| 尤物成AV人片在线观看| 亚洲欧美国产视频| 91外围女在线观看| 国产综合欧美| 欧美视频在线播放观看免费福利资源 | V一区无码内射国产| 无码内射在线| 精品少妇人妻一区二区| 国产精品综合久久久| 亚洲资源站av无码网址| 国产尤物jk自慰制服喷水| 国产麻豆永久视频| 国产免费羞羞视频| 人妻21p大胆| 亚洲天堂网2014| 在线观看国产黄色| 国产成本人片免费a∨短片| 欧美高清三区| 欧美日韩免费| 狠狠做深爱婷婷久久一区| 国产精品粉嫩| 一本久道久久综合多人| 91精品国产综合久久不国产大片| 拍国产真实乱人偷精品| 国产精品久久自在自2021| 亚洲天堂区| 午夜视频日本| 伊人久久综在合线亚洲2019| 极品国产在线| 91综合色区亚洲熟妇p| 2021国产乱人伦在线播放| 无码日韩精品91超碰| 玖玖精品视频在线观看| 国产成人精品视频一区二区电影| 免费看a毛片| 久久久噜噜噜| 在线综合亚洲欧美网站| 99re在线视频观看| 中文字幕日韩欧美| 免费A级毛片无码免费视频| 伊人大杳蕉中文无码| 亚洲无码精彩视频在线观看| 国产精品亚洲一区二区在线观看| 免费观看无遮挡www的小视频| 999精品免费视频| 色综合天天综合中文网| 精品国产成人高清在线| 女人天堂av免费| 无码专区在线观看| 欧美劲爆第一页| 欧美专区日韩专区|