甄沐華 陳鵬 王坤 范子楊 王者



摘要:[目的/意義]針對公安業務中對熱線文本數據犯罪線索關鍵信息識別與篩查時存在的信息化分析能力不足問題,提出一種基于關鍵詞挖掘的熱線文本數據犯罪線索篩查方法,幫助業務部門提高相關情報研判效率,使得犯罪線索篩查工作更加信息化和科學化。[方法/過程]考慮到直接采用文本類等算法方法或因有效信息樣本量占比過小使得模型訓練不充分,本文首先對已知犯罪線索進行基于文本相似度的種子詞集抽取,然后采用Word2Vec對種子詞匯從同類詞、替代詞兩個角度擴展構成專業詞庫,最后使用基于語義的積分篩查模型實現對熱線文本數據中犯罪線索篩查。[結果/結論]對濟南市1 050條先驗熱線文本數據作犯罪線索篩查實驗,并進行實際比對與結果指標分析,得到結果召回率86%,可以認為本文所述基于語義的積分篩查方法對濟南市熱線文本數據內犯罪信息具體性識別達到預期效果并實現犯罪線索有效篩查。
關鍵詞:熱線文本? ? 專業詞庫? ? 文本相似度? ? 犯罪線索篩查
分類號:TP391;G250
引用格式:甄沐華, 陳鵬, 王坤, 等. 基于關鍵詞挖掘的熱線文本數據犯罪線索篩查方法研究[J/OL]. 知識管理論壇, 2022, 7(5): 539-548[引用日期]. http://www.kmf.ac.cn/p/313/.
1? 引言
電話熱線是便民服務的重要舉措,同時,熱線文本數據往往因潛藏著一些犯罪線索(指可供偵查、調查和控制的有關犯罪活動的情報信息)而成為公安機關犯罪線索排查的重要數據來源。目前,公安機關在處理熱線文本數據時,多采用“標簽體系+人工篩查”的方法,即執法人員首先通過分類標簽定位至可能出現犯罪關鍵信息的數據類目,再快速瀏覽數據詳情內容字段并根據經驗知識識別事件關鍵信息,最后研判該數據是否作為犯罪線索輸出。但由于詳情內容字段數據多以大段落文本形式呈現,且其中包含的有效關鍵信息詞匯單元占比較小,在提取和挖掘關鍵信息時具有相當的困難,使得傳統人工篩查模式中存在有效研判效率較低、數據利用不充足等問題[1-2]。
熱線文本數據犯罪線索篩查工作的關鍵在于對數據文本內容中代表犯罪語義關鍵信息的識別和提取。目前,在文本內容關鍵信息抽取方面,研究人員進行了大量的研究,其中基于詞頻的關鍵詞提?。═F-IDF、LDA等)是一種常用的方法,但是當關鍵信息詞匯單元數量在文本中占比較小時,基于詞頻的關鍵詞提取方法不能夠滿足文本分析的需求,與此同時,在中文文本分析時,基于詞頻提取的關鍵詞還存在著語義歧義問題[3]。對此,一些研究人員提出通過詞向量技術(Word2Vec)構建關鍵信息詞庫,結合關鍵詞抽取、文本相似度計算等文本分析方法以解決關鍵信息詞匯單元占比小及語義歧義問題對文本分析的影響。例如,彭云等利用基于語義關系約束的SRC-LDA主題模型對商品評論文本進行了主題詞提取,實現了對商品評論主題詞的有效提取[4];劉耕等利用關聯詞和Jaccard系數擴展規則設計了敏感詞庫并對網絡輿情敏感文本進行了敏感信息檢索和提取,實現了網絡敏感信息可靠率10%以上的提升[5];劉亞橋等利用詞向量模型構建的攝影領域評論情感詞典對攝影評論數據進行了攝影情感信息提取并做進一步語料分類,實現了基于情感詞典下對攝影領域評論語料分類[6];譚敏博等對谷類作物病害數據進行了谷類作物病害特征信息提取,實現了對谷類作物病害特征屬性識別的精準查詢[7];夏松等利用基于Word2Vec技術的語義近似匹配對微博類社交平臺短文本構建了網絡謠言敏感詞庫,實現了基于網絡謠言敏感詞庫的網絡謠言有效識別[8];唐曉波等聯合TF-IDF方法與詞向量特征擴展方法對醫療問答社區健康問句短文本提取了健康信息關鍵詞并集合作為健康問句關鍵信息詞庫,實現了基于健康問句關鍵信息詞庫的健康問句文本的有效分類[9];姜天宇等利用詞向量構建和TF-IDF加權方法對新華社不同類別郵件進行了郵件主題信息關鍵詞提取,進一步結合改進的樸素貝葉斯樹方法實現了對新華社郵件的文本分類[10]。
從目前研究進展來看,關鍵詞、特征詞提取等自然語言處理技術已在新聞學等諸多領域得到了應用,并達到了較好的應用效果。但在當前,各類公安業務處理線索數據文本工作時受限于信息表達規范化不足、有效信息分散等問題而仍采用傳統人工篩查模式,缺少針對特定類型犯罪線索的有效信息化挖掘方法。為此,本文以熱線文本數據為例,立足犯罪線索文本特點,設計了抽取其中犯罪線索關鍵信息的方法,并根據公安機關情報研判邏輯設計了基于語義的積分篩查模型[11],從而提升公安機關文本數據中信息化獲取犯罪線索的能力。
2? 關鍵詞抽取
在“標簽體系+人工提取”篩查方法廣泛、成熟的應用背景下,熱線文本數據同樣根據事件所涉政府業務領域不同而被賦予以業務領域相應粗粒度標簽,事件詳情內容則不做標簽處理。而熱線文本數據中的犯罪線索往往從事件詳情內容字段中挖掘分析得到,且代表犯罪線索語義的關鍵信息在詳情內容文本中位置分散、數量較其他信息占比小、不具有明顯文本句式結構化特征,常見表達形式有單詞匯表達、短語句式表達兩種,如“偵查”“予以/取締”。與此同時,構建專業詞庫時不可避免地對短語句式進行再分詞處理,若采用文本類等自動化算法直接對文本進行處理,則再分詞后存在的大量無獨立語義詞匯將對結果準確性有明顯影響。
目前,公安機關民警對熱線數據中犯罪線索的排查和識別主要通過關鍵詞來進行判定,但由于來電人表達方式和習慣的不同,一些涉嫌犯罪的表述可能存在著句式結構和語義歧義等問題。因此,要盡可能地達到對熱線文本數據中犯罪線索的排查和識別,首先需要確定數據中已有的代表犯罪語義關鍵信息詞匯(種子詞集),并在此基礎上關聯相關的同義詞和近義詞(擴展詞集),最終實現熱線文本數據犯罪線索的關鍵詞庫的構建。
2.1? 種子詞集構建
詞向量技術(Word2Vec)是一種基于上下文分布表示詞義的技術方法,其專注于無標注數據,利用神經網絡語言模型從大量文本中學習語義信息。詞向量技術常常用于計算詞語間、句子間或者其他長文本間的相似度,并具有良好效果[12-16]。
在種子詞集構建上,本文首先收集執法部門的犯罪信息詞匯作為經驗知識詞集,隨后以全量數據語料作為訓練語料庫,得到全量數據Word2Vec詞向量模型、已知屬性(普通事件/疑似犯罪線索事件)的數據語料Word2Vec詞向量、經驗知識詞集基于全量語料上下文語義的詞向量,最后,以已知屬性數據語料詞向量作為種子詞集識別抽取的數據基礎,以經驗知識詞匯集詞向量為對照匹配變量集,通過向量間映射計算得到二者文本相似度,實現對已知屬性數據中符合相似度要求的信息詞匯抽取并集合得到種子詞集,其流程如圖1所示:
抽取得到的種子詞匯分為兩類:代表疑似犯罪線索事件語義的詞匯Word_T(下同),代表普通事件語義的詞匯Word_F(下同)。此處所指“疑似犯罪線索事件”即可根據相關法律規定屬于公安機關犯罪活動偵辦的事件,包括可判定為有違法行為但未達犯罪標準的、需要進一步確認的及已立案需督辦的線索事件;普通事件即根據相關法律規定不屬于公安機關管轄的事件,包括經有關辦理單位確認后反饋為惡意、重復撥打的無效熱線事件。
為確定抽取得到的種子詞匯在犯罪線索篩查中的可靠性,通過回溯已知屬性數據本身,定義回溯值為某種子詞匯所屬數據屬性為犯罪線索的數據數量(回溯數)與其在全量數據中出現次數(詞頻)的比值,代表了該詞匯在犯罪線索篩查過程中的可靠性,公式(1):
其中,P(word)代表種子詞匯回溯值,n(word)代表種子詞匯回溯數,N(word)代表種子詞匯在全量數據中詞頻。將得到的回溯值作為對應種子詞匯在犯罪線索篩查模型中的權重系數。
2.2? 擴展詞集
考慮到同一語義的表達會以不同的詞匯和句式結構呈現,為了實現專業詞庫的有效覆蓋和擴展,從種子詞集的同類詞、替代詞2個方面進行詞庫的擴展,另結合輿情領域公開敏感詞庫共同構成擴展詞集。擴展詞集的詞匯可靠性由擴展詞匯與種子詞匯的文本字面距離相似度確定,本文采用余弦距離相似度(Cosine Similarity)計算得到,如公式(2)所示:
對于同類詞集擴展,Word2Vec方法計算所得詞向量能夠反映出詞匯所處上下文和語義關系。首先通過全量語料的Word2Vec詞向量模型得到種子詞集的詞向量,再以全量數據語料庫構建的Word2Vec詞向量模型為同類詞集識別抽取的數據基礎,以種子詞集詞向量對照匹配變量集,計算得到二者文本相似度,實現在全量語料庫中基于上下文語義關系的關鍵信息同類詞匯的抽取,并將相似度作為對應詞匯在犯罪線索篩查模型中的權重系數,其流程如圖2所示:
對于替代詞集擴展,考慮到同一語義可由不同詞匯表達,以種子詞集在中文表達中的近義詞作為其替代詞。利用種子詞集基于全量語料的Word2Vec詞向量模型的詞向量,結合近義詞查找工具,在以開源維基百科中文語料庫中尋找近義詞并計算二者文本相似度,實現基于公開中文語料庫的關鍵信息替代詞匯的抽取,將相似度作為對應詞匯在犯罪線索篩查模型中的權重系數,其流程圖如圖3所示:
3? 犯罪線索篩查模型
3.1? 犯罪線索積分預警模型
積分預警模型是基于大數據背景下的情報主導警務模式應運而生的公安數據挖掘手段[11]。該模型方法以某事件發生為預警對象,將可能影響該事件發生的因素羅列出來,并按照因素的影響性程度賦予相應的權重分值,每當某個因素出現時,都會以和的形式計算出相應分值,直到所有的因素都被積分出來。積分分值代表事件發生的定量描述,可表示為:
其中,i為影響因素,y為分值設定,p為該因素權重系數。針對本文研究熱線數據,單條待篩查數據積分總值由其與各類型詞集匹配后產生的各積分值構成。各類型詞集積分值由分屬兩個不同屬性的詞集積分值構成。各個詞集的積分值影響因素為符合條件的單一詞匯的相似度、該單一詞匯權重值及與詞集詞匯匹配到相同詞匯的個數。除此之外,輿情領域公開敏感詞集只做相同詞匯計數積分處理。單條數據于詞集的積分值計算規則如下:
其中,S(dic)代表某類型詞集(種子詞集、同類詞集、替代詞集)的積分值,S(Word_T)及S(Word_F)代表某類詞集中代表疑似犯罪線索事件語義的詞集(T)或代表普通事件語義的詞集(F),a、b為該詞集的權重系數,SUM代表總積分結果,Counts(internet)代表匹配過程中出現的輿情領域公開敏感詞集中不重復計數的詞匯數目。
3.2? 犯罪線索篩查算法
在采用“標簽體系”對數據已做粗粒度分類背景下,本文研究文本數據中包含事件詳情內容信息和標點符號、語氣詞等無效信息。據此,在匹配篩查之前需要對待篩查數據作預處理:通過中文分詞工具Jieba對待篩查數據進行分詞處理,為避免分詞粒度不同造成后續匹配失敗,在精確分詞模式基礎上設計自定義分詞標準;對分詞后數據,使用自定義停用詞表去除標點符號、干擾詞等無效文本。
本文采用基于語義的積分預警模型實現對熱線文本中犯罪線索篩查,即專業詞庫中詞匯的可靠度(權重值)與匹配時的文本相似度共同控制篩查結果。對于單條待篩查數據,篩查流程主要從3個層次循序進行:待篩查數據詞匯與某詞集詞匯匹配相似值計算、單條數據與專業詞庫中某詞集匹配積分值運算、單條數據與專業詞庫積分值運算。
對于待篩查數據詞匯與某詞集詞匯匹配相似值計算(match(seg,word)),即單條待篩查數據中某詞匯(seg)與專業詞庫中某詞集中某詞匯(word)的相似值計算,具體步驟如下:①判斷輸入的兩詞匯是否相同,若相同則相似值記為1,否則進行②;②判斷兩詞匯是否同時存在于已訓練好的Word2Vec詞向量模型中,若存在則計算兩詞匯文本相似度后進行④,否則進行③;③在基于維基百科語料的詞向量模型中得到seg的詞向量,進而計算兩詞匯文本相似度,后進行④;④判斷相似度是否大于或等于設定閾值,若滿足則記錄該相似度,否則結束本次相似值計算;⑤將記錄的二者文本相似度與本次匹配的word對應權重值p作乘積運算,結果作為兩詞匯的相似值。
對于單條待篩查數據與某詞集的相似值運算(sim(data,dic)),以分詞后的待篩查數據、專業詞庫中某詞集作為輸入項目。遍歷輸入數據集合中元素并做碰撞匹配,結合match(seg,word)模塊,對每次遍歷產生相似值作求和運算。與此同時,計算某詞集中詞匯在待篩查數據中相同個數,再將求和運算結果與詞匯相同個數求和得到該待篩查數據與某詞集的相似值。
對于單條待篩查數據與專業詞庫相似值積分運算與結果輸出(sim(data,all)),待篩查數據經上述處理后,分別得到該待篩查數據與所有詞集的相似值。根據2.1設計的積分運算規則計算該條數據與專業詞庫相似值積分運算結果并輸出。單輪待篩查數據集篩查完成后,可將此輪數據加入數據庫中實現數據動態更新。
4? 實驗驗證
4.1? 數據來源及示例
本文主要采用依托于Python3.0編程語言環境的gensim.Word2Vec詞向量模型工具構建Word2Vec詞向量模型。實驗數據來源于濟南市公安局食藥環支隊提供的12345市長熱線數據;時間跨度為2020年1月至2021年3月;數據分別涉及食藥安全、醫藥監督、環境保護、疫苗注射4個領域,共8萬多條;參考實際公安工作業務流程,研究數據字段為已由相關行政單位核實的熱線事件回復內容,旨在發現線索、督辦線索,實驗數據語料部分示例及數據屬性如表1所示:
4.2? 專業詞庫構建
4.2.1? 種子詞集
根據1.1所述種子詞集構建方法,通過遍歷學習集中經驗知識詞匯,對預處理后的已知屬性數據采用Word2Vec詞向量工具與經驗知識詞集中詞匯作文本相似度計算,將相似度高的詞匯集合,并入經驗知識詞集后作為種子詞集。基于不同屬性的數據得到種子詞集分為兩類:以seed_T指代代表疑似犯罪信息語義的詞集,以seed_F指代普通事件信息語義的詞集。實驗中,共得到94個種子詞匯,如表2,其中seed_T詞集55個,seed_F詞集39個。
進一步地,對生成的種子詞匯通過公式(1)并結合分層抽樣方法計算詞匯回溯值。圖4為seed_T詞頻和回溯數關系圖,圖5為seed_T回溯值趨勢圖。對于seed_T中詞匯,詞匯的回溯數在詞頻占比中呈現明顯不均衡態勢,回溯值與詞頻關系以無規律波動呈現。整體來看,回溯值與詞頻無明顯伴隨關系,但是各詞匯回溯數與詞頻占比體現了犯罪信息在文本中占比小的特點。分析可知,由于seed_T中疑似犯罪語義多為短語句式,分詞后存在3種性質詞匯,根據詞頻的排序為:連詞(如“已經”)、中立語義詞匯(如“拍照”“調查”)、術語詞匯(如“取證”“嫌疑人”)。此3種詞匯共同作用于對文本中犯罪信息的判定,連詞和中立語義詞匯單獨出現時難以判斷語義性質且常與不同的術語詞匯搭配出現,而術語詞匯單獨出現時則需要結合語境判斷是否為犯罪語義,以詞頻作為犯罪線索關鍵信息識別標準會對結果有較大影響。圖6為seed_F詞頻和回溯數關系圖,圖7為seed_F回溯值趨勢圖。對于seed_F詞集,回溯數與詞頻成正比,也即n(word)N(word),回溯值趨于穩定,多集中于區間[0.8,1)。與seed_T中短語形式信息不同,seed_F為表達普通事件語義的信息,其短語形式的信息(如“不/列入/考核”“超出/管轄范圍”)大多由否定性連詞詞匯和術語構成,當二者同時出現將該條數據判定為普通事件的概率幾乎為1,即具有獨判性。同時,多數具有否定性的術語詞匯亦具有獨判性(如“駁回”“惡意投訴”),因此,一些否定性質詞匯的回溯值會接近于1,也即依據該詞匯判定數據為非犯罪線索可靠性極高。圖8展示了種子詞集中分詞后各字詞有向網絡
關系圖,以各字詞作為節點,節點大小由詞頻確定,帶有箭頭的節點間連邊為詞匯組成短語的句式結構聯系,邊長由詞匯的回溯數確定??梢园l現,圖中較大節點為詞性是連詞或語義中立性質的詞匯,進一步說明了此兩類詞匯的可靠性較低;反之,能夠明確表達疑似犯罪語義的詞匯在圖中表現為較小的節點,句式結構多與較大節點詞匯聯系,說明此類詞匯的可靠性較高。本文以字詞的回溯值為其在積分篩查模型中的影響因子權重系數,能夠縮小使用字詞一致規則或詞頻系數規則作為篩查識別標準時出現結果誤差。
4.2.2? 擴展詞集
同類詞集擴展。利用Word2Vec工具得到94個種子詞集在全量語料庫中的均值向量,繼而通過文本相似度計算得到種子詞集在全量語料庫中的同類詞集。實驗中共取到與種子詞集同類的480個詞作為擴展的同類詞,如表3,其中seed_T同類詞集(seed_T_similar,下同)中251個,seed_F同類詞集(seed_F_similar,下同)中229個:
替代詞集擴展。對種子詞集經過Word2Vec工具作詞向量處理后,結合Synonyms中文近義詞查找工具,產生種子詞集的替代詞集,如“勸誡”的替代詞有:告誡、責備等。實驗中共取到506個詞作為擴展的替代詞,如表4,其中seed_T替代詞集(seed_T_synonym,下同)271個,seed_F替代詞集(seed_F_synonym,下同)235個:
4.3? 犯罪線索篩查結果
犯罪線索篩查實驗中使用未參與模型訓練的1 050條數據,其中普通事件屬性數據(F類數據)1 000條,疑似犯罪線索屬性數據(T類數據)50條。根據本文所述基于語義的篩查方法對樣本數據進行犯罪線索篩查積分運算,得到F類數據997條、T類數據53條;經與實際數據比對,實際為T類且判定為T類的數據有43條,結果統計指標如表5所示。由于T類數據占全部待篩查數據比例較低,實驗期待較高的結果召回率。從實驗結果的指標來看,召回率86%,精確率81.13%,可以認為本文所述基于關鍵詞挖掘的積分篩查模型在對熱線文本數據中犯罪線索篩查時達到了預期的效果。
5? 結論
對熱線數據中的犯罪信息做到有理、有據、科學的抽取是執法部門處理文本信息數據、確定犯罪線索的重要環節。本文提出了一種基于關鍵詞挖掘的熱線文本數據中犯罪線索自動化篩查方法,首先通過詞向量模型及文本相似度計算等方法建立專業詞庫,然后設計了基于專業詞庫的犯罪線索積分篩查模型,并以濟南市熱線文本數據進行實證分析。經過與數據實際情況比對,該方法能夠對濟南市熱線文本數據中的犯罪信息具體性識別并實現犯罪線索有效地篩查,使得犯罪線索篩查工作更加信息化和科學化。同時,該方法也適用于其他公安業務中文本數據目標信息識別及數據篩查,如輿情監測業務。本文也存在一定的局限,如在專業詞庫構建方面,詞向量模型訓練時需要一定數量的經驗知識詞匯及已知目標數據樣本用于構建專業詞庫;在線索篩查算法方面,未來可引入基于doc2vec的段落向量模型的文本分類方法,結合本文所述專業詞庫做定性加權分析。
參考文獻:
[1] 王勇.大數據在我國食藥智慧監管中的應用[J].中國食品藥品監管, 2018(5): 44-47.
[2] 袁猛, 劉文杰, 胡建華, 等.“昆侖2020”:全方位構筑食藥環安全防線[J].人民公安, 2020(16): 30-33.
[3] 徐建民, 王金花, 馬偉瑜.利用本體關聯度改進的TF-IDF特征詞提取方法[J].情報科學, 2011, 29(2): 279-283.
[4] 彭云, 萬常選, 江騰蛟, 等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學報, 2017, 28(3): 676-693.
[5] 劉耕, 方勇, 劉嘉勇.基于關聯詞和擴展規則的敏感詞庫設計[J].四川大學學報(自然科學版), 2009, 46(3): 667-671.
[6] 劉亞橋, 陸向艷, 鄧凱凱, 等.攝影領域評論情感詞典構建方法[J].計算機工程與設計, 2019, 40(10): 3037-3042.
[7] 譚敏博.基于知識圖譜的谷類作物病害識別及個性化推送研究[D].長沙:湖南農業大學, 2018.
[8] 夏松, 林榮蓉, 劉勘.網絡謠言敏感詞庫的構建研究——以新浪微博謠言為例[J].知識管理論壇, 2019, 4(5): 267-275.
[9] 唐曉波, 高和璇.基于關鍵詞詞向量特征擴展的健康問句分類研究[J].數據分析與知識發現, 2020, 4(7): 66-75.
[10] 姜天宇, 王蘇, 徐偉.基于樸素貝葉斯的中文文本分類[J].電腦知識與技術, 2019, 15(23): 253-254, 263.
[11] 吳紹忠.重點人員積分預警模型建設基礎問題研究[J].中國人民公安大學學報(自然科學版), 2012, 18(2): 76-79.
[12] 涂銘, 劉祥, 劉樹春. Python自然語言處理實戰核心技術與算法[M]. 北京:機械工業出版社, 2021:120, 129.
[13] 嚴紅.詞向量發展綜述[J].現代計算機(專業版), 2019(8): 50-52.
[14] CHEN K J, MA W Y. Unknown word extraction for Chinese documents[C]// Proceedings of international conference on DBLP. Taipei: Morgan Kaufmann Publishers, 2002:169-175.
[15] PEDERSEN T, KULKARNI A. Identifying similar words and contexts in natural language with sense clusters[C]//Proceedings of the 20th national conference on artificial intelligence. Pittsburgh: AAAI Press, 2010:1694-1695.
[16] NEVIAROUSKAYA A, PRENDINGER H, ISHIZUKAM. SentiFul: a lexicon for sentiment analysis[J].IEEE transactions on affective computing, 2011, 2(1): 22-36.
作者貢獻說明:
甄沐華:設計研究方法,完成實驗,起草論文,修改論文與定稿;
陳? 鵬:提出研究思路,修改論文;
王? 坤:提供數據,提出研究問題;
范子楊:采集數據,進行實驗;
王? 者:采集數據,進行實驗。
Research on Hotline Text Data Crime Clue Screening Method based on Keyword Mining
Zhen Muhua1? Chen Peng1? Wang Kun2? Fan Ziyang1? Wang Zhe1
1School for Informatics and Cyber Security, Peoples Public Security University of China, Beijing 100038
2Jinan Public Security Bureau, Jinan 250099
Abstract: [Purpose/Significance] Aiming at the problem of insufficient information analysis ability in the current public security business about identification and screening of crime clues in hotline texts, a method of hotline text data crime clue screening based on keyword mining is proposed to help business departments improve relevant intelligence and judgment [Method/Process] Considering that algorithms such as automatic text classification are subject to the problem of sample size, this paper firstly identified the key information of the known attribute data and established a seed lexicon, and then used Word2Vec to expand the seed vocabulary from the perspectives of similar words and synonym words to form a professional thesaurus, and finally used a semantics-based integral screening model to screen criminal clues in the hotline text data. [Result/Conclusion] This paper conducted a crime clue screening experiment on 1 050 priori hotline text data in Jinan City. After actual comparison and index analysis, the recall rate reached 86%. The specific identification of crime information in the text data of the city hotline achieved the expected effect and realized the effective screening of crime clues.
Keywords: hotline text? ? professional thesaurus? ? text similarity? ? crime clue screening