999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM的犯罪類型預測模型研究

2023-03-11 04:59:06錢芳慧
計算機仿真 2023年1期
關鍵詞:特征模型

錢芳慧,蔡 競

(1. 浙江警察學院刑事科學技術系,浙江 杭州 310053;2. 浙江警察學院教務處,浙江 杭州 310053;3. 基于大數據架構的公安信息化應用公安部重點實驗室,浙江 杭州 310053)

1 引言

犯罪類型的準確預測是精準快速打擊犯罪行為的前提,為預防犯罪提供有效決策信息,實現警力資源配置優化,提高警務工作效率。當前,我國犯罪數量呈爆炸式增長[1],犯罪形勢愈發復雜多變,但警方對于犯罪數據的應用大多局限于一般定性和宏觀分析,缺乏實務性的定量及微觀分析[2],無法滿足公安業務部門尤其是警務指揮與情報研判對犯罪預測的巨大需求[3]。而機器學習算法在不同領域展現出了良好的預測分析能力[4],為犯罪數據的微觀預測分析提供了有力支撐。

研究表明,犯罪類型的發生很大程度上與犯罪時間、地點等特征相關,這些特征對于犯罪類型預測具有重大意義。隨著機器學習性能得到普遍認可,國內外眾多學者以機器學習算法為基礎,將犯罪數據諸多特征聯系起來,進行犯罪類型預測。Alves等[5]利用隨機森林(RandomForest,RF),選取童工人數,國內生產總值,文盲人數,家庭收入,人口,衛生設施和失業率為特征值對巴西城市兇殺案的發生進行分析預測,準確率高達97%;Babakura等[6]分別利用樸素貝葉斯算法(NaiveBayes,NB)和反向傳播算法(Back Propagation,BP)對美國不同州的犯罪類別進行分析,發現NB效果優于BP最優準確率為94%;Almanie等[7]利用關聯規則算法(Apriori)、NB、決策樹(Decision Tree,DT)等對美國丹佛及舊金山犯罪數據進行分析并預測特定時間特定區域未來的犯罪類型,發現NB效果更好并取得54%的準確率;Nitta等[8]利用NB和支持向量機(SupportVectorMachine,SVM)算法對芝加哥門戶網站犯罪數據進行分析,預測了某一地可能發生的犯罪類型,發現NB效果優于SVM,最優準確率為90%。Wang等[9]利用套索算法(Least Absolute Shrinkage and Selection Operator,LASSO),極度隨機樹算法(Extremely Randomized Trees,Extra-tree)及RF算法對中國某地級市犯罪風險進行分析研究發現地理,經濟,教育,住房,城市化和人口結構及生活用地面積,手機用戶數量,就業人口對犯罪發生具有一定影響,發現就犯罪類型預測而言,Extra-tree效果優于LASSO回歸但不如RF。Kang[10]等利用基于DNN的特征級數據融合預測模型對芝加哥犯罪數據進行了給定日期和位置犯罪發生的可能性預測,準確率為84%。

綜上,現有研究大多集中于隨機森林及樸素貝葉斯算法,且少有關于國內犯罪數據研究。輕量級梯度提升機(Light Gradient Boosting Machine,LightGBM)是微軟2015年提出的新的Boosting框架模型[11],作為梯度提升數(GradientBoostingDecisionTree,GBDT)的改進模型,具有更高運算效率及準確性優點,在多類分類[12]、單擊預測[13]、學習排序[14]等方面展現較優性能,已被用于交通[15]、電力[16]、醫學[17]、媒體[18]、金融[19]等領域。

本文基于LightGBM算法,利用中國某市110接處警數據及美國舊金山開源犯罪數據,建立犯罪類型預測模型。LightGBM模型在犯罪預測中的應用較之隨機森林、樸素貝葉斯、邏輯回歸、支持向量機等模型表現出更好準確性。

2 基本原理

LightGBM在傳統的GBDT基礎上引入了兩個新技術: 梯度單邊采樣(Gradient-based One-Side Sampling,GOSS)和獨立特征合并(Exclusive Feature Bundling,EFB)。GOSS對小梯度樣本點進行隨機采樣,保留對信息增益影響更大的梯度大的樣本,在保持信息增益評估的精度前提下,大大提高了模型學習速率,且在采樣率相同情況下,梯度單邊采樣的結果比隨機采樣準確率更高。EFR則實現了互斥特征的捆綁,達到減少特征維度的目的,提高了模型運算效率。另外,相較于傳統GBDT算法使用pre-sorted算法以精確分割數據,LightGBM使用了直方圖算法,即將連續浮動的特征離散成k個離散值,并構造寬度為k的直方圖,大大降低了內存消耗以及數據分割復雜度。對于給定數據集:D={(Χi,Yi),i=1,2,…,n,Χi∈Rp,Yi∈R},其中n為樣本個數,每個樣本有P個特征。給定損失函數L(y,(x)),輸出回歸樹(x),具體算法步驟如下

(1)

計算損失函數的負梯度作為殘差估計,即

(2)

擬合殘差樹,計算損失函數最小值,即

(3)

更新回歸樹,即

(4)

3 實驗數據

3.1 中國某市犯罪數據集

該數據表示某市現實犯罪情況,某市位于中國長江三角洲地區某市,市區面積700.5km2。截至2018年末,該市戶籍人口69.77萬人,常住人口85.85萬人,城市現代化及警務信息化程度較高,犯罪數據較全面,能較好反應新形勢下犯罪新趨勢,具有良好代表性。研究區選擇該市15個派出所下轄的8個鎮、4個街道區域。

該數據集為2013年1月至2016年3月該市各派出所以及刑偵支隊等部門在內的35個部門110接處警數據。案件數據由10個屬性和369930個實例組成,提供的關鍵屬性有報警時間、案件類型、案發具體地點以及所屬管轄機構等,具體關鍵屬性及其內容值如下表所示。

表1 中國某市數據集關鍵屬性表

3.2 美國舊金山犯罪數據集

該數據集表示舊金山真實犯罪情況,舊金山位于美國加利福尼亞州太平洋沿岸,總面積600.6平方千米,截止2018年7月,全市人口約88萬。數據集包括2003年-2015年共10個警區內犯罪數據,共9個屬性約88萬條實例,提供的關鍵屬性有報警時間、案件類型、案發具體地點以及所屬管轄機構等,具體關鍵屬性及其內容值如下表所示。

表2 舊金山數據集關鍵屬性值

4 相關工作

4.1 特征分析

相關分析發現,案發時間、所屬部門、案發地址均與案件發生類型具有相關性,因此在構建預測模型時,需要將所有特征參與模型訓練。

4.1.1 犯罪類型時間分布規律

將2013-2015年中國某市及2012-2014年美國舊金山犯罪數據分別按照每年12個月、每周7天、每天24小時的時間維度進行統計分析,發現犯罪類型在每天時段內、每年月份上具有明顯規律。中國某市以交通類犯罪為例,圖1可以看出每年12月是一年中案件數量的最高峰,該時段為傳統節日春節前夕,人口流動量大,犯罪風險增加。每年2月犯罪量最少,除受春節影響外,2月天數本身比另外月少也是一個影響因素。圖2顯示不同時刻與案件發生的關系,可以看出每日凌晨4-5時左右案件數量最少,此時人們大多處于休息狀態,犯罪概率較小;早晨7-8時、傍晚17-18時案件數量最多,此時正處上下班高峰期,人員流動,犯罪概率增加。

圖1 某市不同年份間月份與案件數量的關系

圖3、4以舊金山暴力類犯罪為例,顯示了舊金山犯罪發生類型在時間段內也呈現了一定的規律性且區別于某市犯罪發生類型規律:每年3月份案件發生類型最少,10月份最多,區別于某市受傳統節日影響舊金山犯罪數量主要受天氣影響,10月天氣怡人,人們戶外活動增加,犯罪數量也隨之增加;每日犯罪趨勢與中國某市大同小異,凌晨5時左右案件數量最少,傍晚17-18時案件數量最多。由此可見,不同區域犯罪趨勢有相近點但受風俗習慣、地域特征等影響也有所不同,所以在犯罪類型預測中要結合實際情況。

圖2 某市不同星期間時刻與案件發生的關系

圖3 舊金山不同年份間月份與案件數量的關系

4.1.2 犯罪類型空間分布規律

圖4 舊金山不同星期間時刻與案件發生的關系

犯罪發生類型在空間上同樣具有一定聚集性,通過實驗分析發現案件空間重復性高,主要以市中心、城鎮、交通要道為中心呈現一定的聚集性。圖7為2013-2015年某市交通類犯罪數量熱力圖,圖8為2012-2014年舊金山暴力類犯罪數量熱力圖,從兩圖中可以看出三年中犯罪熱點地區幾乎無太大的空間轉移,證明案件高發與所處地理位置高度相關。

圖5 某市案件發生空間熱力圖

圖6 舊金山案件發生空間熱力圖

4.2 數據預處理

在瀏覽數據時,可以發現某些屬性存在屬性值缺失問題。針對不同特征屬性值缺失,對案件類型缺失的根據案件描述判斷案件類型進行填補處理;對管轄派出所缺失的根據案發地點推出管轄派出所進行填補處理;對案發時間及地點等無法進行填補的特征屬性值缺失的進行刪除數據條處理。刪除案件編號、處警時間等與犯罪類型關聯性較小的非關鍵屬性以及經緯度明顯超出某市地域的數據條。原數據集犯罪類型分類較細導致犯罪類型較多且有交叉分類情況,為獲得更高頻率的數據提高模型準確率,實驗對犯罪類型進行重新組合分類,例如,將盜竊、搶奪、搶劫、獲得了新的較少的大類以便模型運算。

4.3 特征編碼

在選取原有報警時間、案件類型、經緯度、派出所等特征基礎上對特征進行重新編輯以便用做模型輸入計算。原犯罪數據集中報警時間、案件類型、處警派出所等特征列為文本格式,首先對報警時間進行時間格式化處理,提取年、月、日、星期單獨作為特征項,對其中文本格式的星期進行特征標簽數字化編碼。案件類型作為模型的輸出項,也對其進行標簽數字化編碼。處警派出所是為定類類型數據,數據間無邏輯關系所以對其進行獨熱編碼。原數據集經緯度特征雖為數值類型,但與編碼數據非同一數量級所以對其進行歸一化處理,并新增經緯度之差及經緯度之和兩個特征向量。再者在前文數據分析基礎上,新建特征列區分時間是否處于12-1月份及傍晚17-18時這些犯罪發生較為集中的時間段,分別以“0”、“1”表示。編碼后特征屬性值如表3所示。

4.4 模型訓練及測試

本次實驗利用python構建LightGBM、RF、NB、邏輯回歸(Logistic Regression,LR)、SVM等模型進行特定地點特定時間的犯罪類型預測。設定目標輸出項為犯罪類型,整合選取所有編碼特征項為輸入,從中國某市及舊金山數據集中分別隨機選取百分之八十數據作為訓練集,剩余百分之二十為測試集,進行模型訓練并預測結果。LightGBM參數設置學習步長為0.9,學習速率為0.4,葉子數量20,最大樹深為10;隨機森林參數設置樹的樹木為10,最大樹深10,最小葉子數1;支持向量機參數設置錯誤項懲罰參數為1,算法使用內核類型為“rbf”,概率估計為False。

5 實驗結果與分析

5.1 模型評估指標

本次研究采用準確率(accuracy)、精確度(precision)、召回率(recall)及f1分數(f1_score)對模型進行評估。將真實值為正確,模型預測為正確的數量記作TP;真實值為正確,預測為錯誤的數量記作FN;真實值為錯誤,預測為錯誤的數量記作TN;真實值為錯誤,預測為正確的數量記作FP。準確率=(TP+TN)/(TP+TN+FN+FP),指正確預測的樣本數占總預測樣本數的比值;精確度=TP/(TP+FP),指正確預測的正樣本數占所有預測為正的樣本數的比值;召回率=TP/(TP+FN),指正確預測的正樣本數占真實為正樣本數的比值;f1分數=(2*precision*recall)/(precision+recall),是精確度和召回率的調和平均值,介于0-1之間,最佳值為1。

5.2 算法對比

實驗中,因SVM算法復雜度較高,當訓練樣本數量過多時,所消耗的時間過長,故在模型對比評估中忽略支持向量機評估。圖7顯示了不同預測模型對某市犯罪類型預測結果評估值的對比,從圖中可以看出雖然RF及NB雖然在個別案件類別中有較高精度,但在召回率方面從圖7(c)中可以看出LighGBM具有更高的召回率,說明對于犯罪類型的發生,LightGBM比之兩三種模型具有更高的覆蓋率。一般而言,精度與召回率呈負相關關系,但LightGBM在兩方面都具有較為良好表現,從圖9(a)中可以看出LightGBM模型取得的f1分數高于其余模型。

圖8顯示了不同模型舊金山預測結果的評估值對比,評估值對比情況與某市大致相同,但是具體來看,不同模型對于舊金山的預測結果并不如某市。

圖7 某市預測結果對比圖

表4顯示了各模型總體預測準確率及精度、召回率和f1分數結果對比,可以看出不管在某市還是舊金山數據集中LightGBM的各項指標都是最高的,所以可以得出結論LightGBM在犯罪類型預測中具有較優性能。

圖8 舊金山預測結果對比圖

表4 預測結果準確率對比

6 結語

本文針對中國某市及美國舊金山犯罪數據集,首先進行了犯罪數據的分析與預處理,然后選取特征向量并對特征向量進行編碼,最終建立了基于LightGBM的犯罪類型預測模型,并利用準確率、精度、召回率、f1分數等進行評估,將評估參數與RF、NB、LR、SVM等模型進行對比,驗證了LightGBM模型在給定時間、地點的犯罪類型預測方面具有一定的優勢。隨著警務數據質量的提高以及治理的推進,該算法預測結果將為未來警力提供有效的數據支撐。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久99国产乱子伦精品免| 国产尤物在线播放| 国产精品流白浆在线观看| 色悠久久久| 2021亚洲精品不卡a| 中文字幕无码制服中字| 国产精品亚洲五月天高清| 亚洲天堂视频在线观看免费| 在线看免费无码av天堂的| 激情综合网址| 欧美a级完整在线观看| 日本精品一在线观看视频| 国产精品林美惠子在线播放| 免费观看亚洲人成网站| 超清无码熟妇人妻AV在线绿巨人| 在线观看av永久| 色综合久久久久8天国| 亚洲美女一级毛片| 国产成人精彩在线视频50| 久热精品免费| 久无码久无码av无码| 亚洲性视频网站| 五月丁香伊人啪啪手机免费观看| 日韩精品免费一线在线观看| 成人精品亚洲| 亚洲69视频| 欧美黄色a| 亚洲精品亚洲人成在线| 午夜在线不卡| 久久网综合| 色婷婷视频在线| 永久成人无码激情视频免费| 亚洲一区二区约美女探花 | 十八禁美女裸体网站| 999精品视频在线| 久久semm亚洲国产| 日韩天堂网| 日韩免费毛片视频| 日韩毛片免费| 一区二区三区高清视频国产女人| 中文字幕免费视频| 在线视频亚洲欧美| 麻豆国产精品视频| 国产18在线播放| 老熟妇喷水一区二区三区| 任我操在线视频| av性天堂网| 国产高清国内精品福利| 日本爱爱精品一区二区| 九九久久精品免费观看| 欧美日韩一区二区三区四区在线观看 | 欧美亚洲香蕉| 中国一级毛片免费观看| 国产内射一区亚洲| 国产无码高清视频不卡| 亚洲天堂高清| 成人午夜久久| 亚洲精品欧美日本中文字幕| 色悠久久久| 性喷潮久久久久久久久| 国产精品妖精视频| 大学生久久香蕉国产线观看| 久久综合丝袜长腿丝袜| 久久婷婷人人澡人人爱91| 在线不卡免费视频| 99re在线免费视频| 亚洲国产成人在线| 色天堂无毒不卡| 日本久久免费| 久久综合干| 永久在线精品免费视频观看| 亚洲国产精品日韩欧美一区| 伊人久久青草青青综合| 国产精品视频a| 19国产精品麻豆免费观看| 国产精品一区在线麻豆| 亚洲看片网| 亚洲女同欧美在线| 久久久久久国产精品mv| 国产在线日本| 91av国产在线| 久久精品免费看一|