999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于python中文分詞的卷宗信息邏輯研究

2021-04-20 14:38:32裴炳森張新宇邢欣濤王銘杰
網絡安全技術與應用 2021年3期
關鍵詞:文本分析信息

◆裴炳森 張新宇 邢欣濤 王銘杰

基于python中文分詞的卷宗信息邏輯研究

◆裴炳森 張新宇 邢欣濤 王銘杰

(中國人民公安大學信息網絡安全學院 北京 102623)

詢問/訊問筆錄是公安工作目前使用較多的文本材料,然而在實際調研和實習中發現卷宗有錄入筆誤和不合邏輯等問題。卷宗送交至檢察院時往往被駁回數次修改,除了送檢程序等問題外,由于一些主客觀因素,導致筆錄信息需要經常性的反復查驗,輕則增加了工作量,嚴重則造成案卷信息錯誤。本文基于python中文分詞的Jieba組件對筆錄內容進行文本分析,提取時間、地點、事件等關鍵詞,并與標準庫進行比對,提示并糾正錯誤并生成流程圖,有效減少了民警工作量,對一線執法有較好的實際作用。

筆錄卷宗;文本分析;Jieba組件;一線執法

在文本分析方面,國外對英文文本提取信息的研究較為成熟,例如STALKER、WHISK、SRV等系統,對英文文本信息提取效率較高。與英文文本信息提取技術相比,由于漢語語法復雜,中文文本分析技術相對滯后。但是近年來中文互聯網文本數據指數上升,針對其的文本分析也漸漸發展并應用。文獻[1-2]利用python研究了中文文本分析以及構建了可視化平臺,文獻[4-5]使用Python中的結巴工具進行了分詞研究和技術實現。

隨著文本分析在各個領域逐漸應用,如文獻[6]在教育領域進行了文本情感分析探索,文獻[7]將文本分析服務于疫情防控。然而在公安工作的應用較少。隨著數據警務的發展,應該充分利用公安筆錄這一數據以更好的打擊辦案。為使公安工作更加高效準確,結合實際調研發現公安工作卷宗筆錄仍需人工多次反復審核。受主客觀不同因素影響,會有“犯罪發生時長”錄入錯誤,“距離”與“時間”不匹配等信息錯誤問題,例如某兩地之間相距20公里,駕車大概20~30分鐘,而筆錄中卻出現5min的現象。本文針對現存問題首先設立自己的標準比對條件,著眼于訊問/詢問筆錄中的關鍵詞,基于python環境的Jieba工具進行中文分詞和關鍵詞提取,通過事先爬取的知識庫與筆錄信息進行比對,智能檢測,最后根據筆錄內容生成流程圖,自動提示錯誤信息,以達到避免重復核查的目的。

1 卷宗信息分析原理

1.1 中文分詞和關鍵詞提取

本文基于python的Jieba組件利用隱馬爾卡夫模型(HMM),TF-IDf和TextRank算法,構建VSM向量空間模型,實時計算并智能核對,是針對案件信息的大膽嘗試。對于地理位置信息,首先依據圖1所示的 Viterbi 算法,通過訓練出隱馬爾科夫(HMM)相關的模型,然后進行求解,得到最優的狀態序列,最后通過深度學習輸出分詞結果。同時融合基于頻率的TF-IDF算法和基于排序的TextRank算法綜合運用提取關鍵詞,構建VSM向量空間模型。Jieba庫提供了三種模式的分詞方式,針對筆錄的特征,本文主要采用精確模式進行分詞,如下所示為“從南城縣家園小區110號樓出來,通過駕車至天天市場在李翠花家盜竊得到的手機”的分析源碼。

import jieba.analyse

#導入自定義詞典

jieba.load_userdict("./dic.txt")

#精確模式

text="從南城縣家園小區110號樓出來,通過駕車至天天市場在李翠花家盜竊得到的手機"

seg_list = jieba.cut(text, cut_all = False)

print(u"分詞結果:")

print(",".join(seg_list))

#獲取關鍵詞

tags = jieba.analyse.extract_tags(text,topK=5)

print(u"關鍵詞:")

print(" ".join(tags))

圖1 Viterbi 算法處理流程

1.2 知識庫搭建

公安工作筆錄分析需要極其豐富的知識庫,在對地理位置分析中通過Python爬蟲工具首先向“高德地圖”發送Request,申請”Web服務API”密鑰,拼接HTTP請求URL;然后正常獲取到Response后接收HTTP請求返回的數據響應體,轉化為Json格式。如下為解析數據部分源碼。利用網絡爬蟲將整個目標數據獲取后轉化為文本信息,形成一個可進行比對的信息庫,并進一步對數據進行挖掘處理,為數據提供最為基本的支撐[9]。如圖2、圖3所示為獲取的縣級行政區域點狀圖和詳細信息。將含有更詳細的地名信息、距離信息、往返時間信息的知識庫應用于筆錄處理。知識庫的構建對于筆錄錯誤信息有重要的參考作用,在依據地理位置和時間信息做出分析時,要考慮客觀實際因素于案情實際狀況。后續再根據實際工作需要和以往的筆錄信息構建出“交通工具庫”、“作案類型庫”、“作案工具庫”等知識庫便于進一步文本分析。

def get_json(url):

# 讀取數據

uh = urllib.request.urlopen(url)

data = uh.read().decode()

# 解析數據

try:

json_data = json.loads(data)

except:

json_data = None

if not json_data or 'status' not in json_data or json_data['status'] != 0:

print('json數據獲取失敗')

else:

#輸出Json數據

print(json.dumps(json_data, indent=4, ensure_ascii=False))

return json_data

圖2 點狀圖

圖3 縣級行政區域信息

1.3 被訊問人行動流程可視化

在生成流程圖時,引入wordcloud和matplotlib庫、安裝Graphviz[10]賦予關鍵詞相應的節點屬性、連接線屬性等屬性信息。根據提取到的地理、時間信息等關鍵詞,由地理信息知識庫分析兩者距離,通過時間智能校對檢測。后續需要對交通工具、作案手段等關鍵詞同時提取并分析。根據筆錄內容生成被詢問/訊問人活動流程可視化報告,將有助于理清案件線索,檢查是否出現不匹配問題,并且幫助后期糾錯。如圖4所示為可視化處理流程。

圖4 可視化處理流程

1.4 卷宗智能比對

根據實際案件要素與筆錄中的錄入信息進行比對,發現錯誤并且提示。并由關鍵要素(時間,事件,地點,交通工具)生成流程圖。例如:計算A地到B地的距離,依據程序依賴的知識庫,統計不同交通工具時間范圍,與筆錄中獲取的作案工具關鍵詞和時間關鍵詞進行比對,若不在合理范圍內,提示錯誤信息,并提示合理的時間范圍。最后完成中文分詞,作案信息提取,錯誤信息提示,并生成流程圖。如圖5所示為智能比對流程。

圖5 處理流程

2 實驗

2.1 數據源

結合實際調研與實習經驗,數據源以模擬的公安工作筆錄進行訓練,數據都經過處理不涉及任何公安秘密。本文以強奸、盜竊為作案類型,汽車為作案交通工具以及構造的地理位置為模型進行分析。

2.2 實驗環境

實驗環境為Windows10操作系統、4G運行內存、Python環境。導入Jieba、tkinter、python_docx-0.8.10-py2.py3-none-any.whl、wordcloud、matplotlib等庫并安裝Graphviz。

Python提供IDE工具,Jieba作為第三方中文分詞庫,tkinter庫用于程序窗口化,docx庫引入文本文件,wordcloud、matplotlib和Graphviz用于生成流程圖并且展示。

2.3 實驗方法

首先加載程序打開需要的分析筆錄,根據應用的知識庫,使用Jieba工具進行分詞,完成了分詞檢測后提取作案信息。根據知識庫比對完成了錯誤信息提示,最后根據筆錄信息生成了流程圖得到了智能分析結果。根據比對信息,一線民警能夠快速知曉被訊問/詢問人言語間的邏輯漏洞,使案件進展相對較為清晰,從而做出正確的預測和判斷,同時避免了人為錄入錯誤,減小了工作量。

2.4 實驗結果

對筆錄進行Jieba分詞檢測后如圖6所示。其中根據分詞結果提取到的作案信息和錯誤信息如表1和表2所示。最后生成的流程圖如圖7所示。

圖6 筆錄分詞結果

圖7 流程圖生成

表1 作案信息

表2 錯誤信息

3 結語

本文基于Python中文分詞的Jieba工具對公安工作筆錄進行了分析,結合部分加載的知識庫,經過實驗驗證,有效完成了分詞,作案信息提取,錯誤信息提示,并生成流程圖等功能。公安工作是一項嚴謹且工作量巨大的任務,該項目提供了筆錄智慧分析的設想和雛形。為更好全面應用于公安實戰,還需要用大量的數據進行訓練。同時出于公安工作的特殊性,完備知識庫的建立應該基于公安內網PGIS[11]的信息以及實時或定期的數據更新。

[1]宋永生,黃蓉美,王軍.基于Python的數據分析與可視化平臺研究[J].現代信息科技,2019,3(21):7-9.

[2]祝永志,荊靜.基于Python語言的中文分詞技術的研究[J].通信技術,2019,52(07):1612-1619.

[3]李澤,古超,龍政.基于Python的文本分析方法研究[J].電腦編程技巧與維護,2018(04):25-26+51.

[4]曾小芹.基于Python的中文結巴分詞技術實現[J].信息與電腦(理論版),2019,31(18):38-39+42.

[5]徐博龍.應用Jieba和Wordcloud庫的詞云設計與優化[J].福建電腦,2019,35(06):25-28.

[6]歐陽元新,王樂天,李想,蒲菊華,熊璋.教育領域反饋文本情感分析方法及應用研究[J].計算機教育,2020(06):80-84.

[7]李燕萍,陳文.后疫情時代我國人力資源服務業發展轉型:基于疫情防控常態化下人力資源服務政策文本分析[J].中國人力資源開發,2020,37(10):18-32.

[8]謝春艷.基于python的Flickr地理標簽照片信息的爬蟲[J].電腦與信息技術,2019,27(06):39-41.

[9]繆治,任敏敏.基于網絡爬蟲的地理空間信息采集方法[J].電腦知識與技術,2019,15(18):9-10.

[10]張偉欣. 基于Graphviz的ProM模式提取插件圖形系統的設計與實現[D].哈爾濱工業大學,2015.

[11]田野,楊帆,胡磊,易民盛.大數據環境下警用地理信息系統運維方案的研究[J].科學技術創新,2019(30):69-71.

猜你喜歡
文本分析信息
隱蔽失效適航要求符合性驗證分析
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲国产中文精品va在线播放 | 日韩福利在线观看| 久久精品视频亚洲| 亚洲一区二区三区香蕉| 日韩国产黄色网站| 四虎影视8848永久精品| 亚洲成人www| 91久久夜色精品国产网站| 精品偷拍一区二区| 久久免费成人| 国产成人亚洲毛片| 国产一区二区精品福利| 91色爱欧美精品www| 亚洲成人黄色网址| 日本免费新一区视频| 中文字幕乱码二三区免费| 在线精品视频成人网| 99免费在线观看视频| 亚洲综合一区国产精品| 亚洲天堂2014| 免费不卡视频| 久久精品国产一区二区小说| www亚洲精品| 97色婷婷成人综合在线观看| 蜜臀AV在线播放| 久久综合九色综合97婷婷| 制服无码网站| 婷婷色中文网| 最近最新中文字幕免费的一页| 无码综合天天久久综合网| 国产九九精品视频| 99视频在线观看免费| 欧美翘臀一区二区三区| 成色7777精品在线| 国产手机在线小视频免费观看| 亚洲综合色区在线播放2019| 国产国模一区二区三区四区| 在线色综合| 四虎国产在线观看| 亚洲av无码久久无遮挡| 免费人成网站在线观看欧美| 2021国产乱人伦在线播放| 亚洲色图欧美一区| 538精品在线观看| 亚洲天堂伊人| 亚洲乱码视频| 亚洲精品人成网线在线| 99爱视频精品免视看| 97se亚洲综合在线韩国专区福利| 伊人天堂网| 色天堂无毒不卡| 国产精品亚洲欧美日韩久久| 色综合激情网| 欧美国产综合色视频| 亚洲精品你懂的| 91美女视频在线观看| 国产精品网址你懂的| 国产自在自线午夜精品视频| 色窝窝免费一区二区三区| 久久频这里精品99香蕉久网址| 激情午夜婷婷| 激情网址在线观看| 在线国产91| 国产区人妖精品人妖精品视频| 午夜啪啪福利| 国产va欧美va在线观看| 日韩精品成人在线| 欧美无专区| 91成人试看福利体验区| 欧美精品伊人久久| 国产夜色视频| 爆操波多野结衣| 谁有在线观看日韩亚洲最新视频| 在线欧美国产| 爱色欧美亚洲综合图区| 久久精品国产精品青草app| 亚洲日韩精品欧美中文字幕| 欧美日韩理论| 亚洲视频四区| 亚洲中文字幕手机在线第一页| 天天综合网亚洲网站| 成年片色大黄全免费网站久久|