999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖數據庫與機器學習的業務安全風控平臺

2020-03-07 06:44:10
網絡安全技術與應用 2020年2期
關鍵詞:數據庫用戶模型

(中國移動通信集團浙江有限公司 浙江 310000)

1 引言

隨著互聯網服務的快速發展,越來越多的業務服務從傳統的線下渠道遷移到在線、實時的平臺上。業務方為了培育市場,在運營和推廣方投入大量資金,取得巨大的經濟效益和用戶體驗。但是,這也給互聯網“黑色產業”提供了滋生的土壤,各類風險問題層出不窮。不法分子不僅批量在線申請號卡、以團伙形式進行薅羊毛行為,同時利用辦理的號碼進行套利、詐騙等危害社會行為。此類行為對中國移動造成營銷資金的損失,也對企業形象產生不良影響。

2 用戶業務行為數據處理

首先將對用戶的屬性信息及歷史行為數據,利用規則匹配、統計分析等方法進行用戶業務行為特征刻畫,形成高度概括的自然特征和行為特征,為異常行為識別和基于圖數據庫異常“黑產”群體識別分析提供基礎數據支撐。其次,將用戶行為數據、標簽、特征等數據,輸入到多模型融合的異常識別評分模型中計算用戶風險評分,通過分值將用戶的風險進行量化,為實時風控平臺和業務系統提供風險判斷依據,同時根據風險評分表中的異常用戶,基于圖數據庫異常“黑產”群體識別分析。

3 基于機器學習的異常行為識別

提取上述所有用戶信息特征,采用算法模型計算各業務行為的異常分值,業務行為分值會遠遠高于正常頁面的分值。分別使用如下算法模型進行計算:GMM(高斯混合模型)、Local Outlier Factor(局部異常因子算法)、Isolation Forest(孤立森林),生成最終異常用戶業務行為分值表。通過添加閾值使每一個算法都有決策權,最終通過組合模型管用的投票機制選擇異常。

3.1 高斯混合模型(Gaussian Mixed Model,GMM)

高斯混合模型也是一種常見的聚類算法,與kmeans 算法類似,同樣是使用了EM 算法進行迭代計算。高斯混合模型假設每個簇的數據都是符合高斯分布(通常稱為正態分布)的當前數據呈現的分布就是各個簇的高斯分布疊加在一起的結果。如果只用一個高斯分布來擬合圖中的數據,就會出現一個橢圓(二倍標準差的高斯分布)。但是可以直觀的來看,數據明顯分為兩簇,因此只用一個高斯分布來擬合是不合理的,需要推廣到多個高斯分布的疊加來對數據進行擬合。

3.2 局部異常因子檢測(Local Outlier Factor )

局部離群因子通過計算一個數值score來反映一個樣本的異常程度。一個樣本點周圍的樣本點所處位置的平均密度比上該樣本點所在位置的密度。

(1)設定k值,對指定點A找到最鄰近k個點;

(2)計算A點到這些點的歐式距離記為,其中最大距離為A點可探測距離:

(3)求出局部可達密度:

(4)同樣的方法對其他點的進行計算,算出局部異常因子:

(5)最終設定閾值,輸出異常點。

3.3 Isolation Forest(孤立森林算法模型)

孤立森林屬于一種無參數的非監督算法,他是一種偵測異常十分有效的組合算法,底層用的是決策樹。

(1)建立n個決策樹模型;

(2)隨機抽取樣本數據輸入這n個模型進行訓練(隨機按最大最小切割),切到指定異常數據比例為止;

(3)利用n個決策樹進行投票,求出異常系數;

(4)Isolation Forest 結果如圖1。

圖1 孤立森林算法結果

3.4 多模型融合機器學習算法利用上面三個模型做組合模型處理

通過GMM、Local Outlier Factor、Isolation Forest 算法構建多模型融合的一種無監督機器學習模型。這種多模型融合的機器學習算法,綜合了GMM、Local Outlier Factor、Isolation Forest 算法模型之間的優點,具有以下優點:首先,從統計的方面來看,由于學習任務的假設空間往往很大,可能有多個假設在訓練集上達到同等性能,此時若使用單學習器可能因誤選而導致泛化性能不佳,結合多個學習器則會減小這一風險;第二,從計算的方面來看,GMM 算法往往會陷入局部極小,有的局部極小點所對應的泛化性能可能很糟糕,而通過GMM、Local Outlier Factor、Isolation Forest 多次運行之后進行結合,可降低陷入糟糕局部極小點的風險,特別是Isolation Forest對內存要求低,且處理速度快,具有線性時間復雜度,因為是ensemble的方法,所以可以用在含有海量數據的數據集上面;第三,從表示的方面來看,某些學習任務的真實假設可能不在當前學習算法所考慮的假設空間中,此時若使用單學習器則肯定無效,而通過結合多個學習器,由于相應的假設空間有所擴大,有可能學得更好的近似。本文通過GMM、Local Outlier Factor、Isolation Forest 算法構建多模型融合。

4 基于圖數據庫的群體識別模型

基于某次注冊業務推廣活動的相關數據,注冊推廣頁面,出現多個賬號推廣注冊并獲取積分成功后,向同一手機號碼兌換積分的現象,疑似出現黑產薅羊毛現象。為了明確目前面臨的安全風險,并在此基礎上,尋求整體、可靠和完善的解決方案,基礎架構組對注冊頁面進行了安全檢測,并根據電子渠道后臺的數據信息進行多維度分析,同時利用外部黑產情報庫進行數據比對,發現此次活動推廣,存在明顯的黑產“薅羊毛”特征:攻擊者利用(或者偽造)大量終端和代理IP,在活動中注冊大量的賬號,借此獲取積分后兌換優惠券。

基于此次注冊業務推廣活動的相關數據,我們發現本次營銷活動,存在明顯的黑產薅羊毛特征:攻擊者利用(或者偽造)大量終端(利用IMEI標識)和代理IP,在活動注冊大量的賬號,然后獲取積分后兌換優惠券。設計圖數據庫的Schema 與數據導入。

5 總結

本文分析了電子渠道存在的業務安全風險問題,尤其是從事“黑產”活動的用戶行為,不僅損害了電子渠道本身的利益,同時也危害了正常用戶的業務活動體驗以及正常市場秩序。就上述問題,本文創新性地提出一種基于圖數據庫與機器學習的業務安全風控平臺,可以很好地保障電子渠道中的業務安全,一方面通過使用GMM、Local Outlier Factor、Isolation Forest算法構建多模型融合的一種無監督機器學習模型,有效識別電子渠道中存在的異常“黑產”行為用戶;另一方面,基于圖數據庫識別出異常“黑產”群體,以群體的視角發現異常“黑產”,可以發現更多從事異常活動的賬戶,做到以點帶面的效果。

猜你喜歡
數據庫用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
數據庫
財經(2017年2期)2017-03-10 14:35:35
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數據庫
財經(2016年15期)2016-06-03 07:38:02
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 国产探花在线视频| 亚洲午夜国产精品无卡| 伊人激情久久综合中文字幕| a天堂视频| 色综合天天娱乐综合网| 亚洲第一成年人网站| 精品国产自在现线看久久| 日韩精品免费一线在线观看| 久无码久无码av无码| 国产在线观看成人91| 欧美伊人色综合久久天天| 国产成人亚洲综合A∨在线播放| 国产精品无码AV片在线观看播放| 亚洲第一页在线观看| 国产在线八区| 亚洲狠狠婷婷综合久久久久| 亚洲精品福利网站| 久久黄色视频影| 青青久久91| 特级欧美视频aaaaaa| 中文天堂在线视频| 欧美在线视频a| 久久精品无码一区二区国产区| 露脸一二三区国语对白| 亚洲三级成人| 欧美一区中文字幕| 久久青草精品一区二区三区| 999精品色在线观看| 在线免费观看a视频| 亚洲午夜综合网| 国产日韩欧美在线播放| 国产一级精品毛片基地| 国产精品九九视频| 亚洲男人的天堂在线观看| 亚洲女同欧美在线| 国产综合网站| 伊人色在线视频| 激情成人综合网| 99精品欧美一区| 国产白浆一区二区三区视频在线| 日韩人妻精品一区| 精品无码人妻一区二区| 毛片手机在线看| 欧美午夜视频| 国产成人91精品| 亚洲综合色区在线播放2019| 亚洲欧美另类日本| 国产人在线成免费视频| 亚洲欧洲日产国产无码AV| 91小视频在线播放| 日韩在线欧美在线| 国产精品手机视频一区二区| 怡春院欧美一区二区三区免费| 国产精品一线天| 国产精品偷伦视频免费观看国产| 国产精品视频免费网站| 久草网视频在线| 暴力调教一区二区三区| 国产高颜值露脸在线观看| 国产精彩视频在线观看| 永久免费AⅤ无码网站在线观看| 免费啪啪网址| 国模粉嫩小泬视频在线观看| 精品1区2区3区| 2021国产在线视频| 国产毛片高清一级国语| 91精选国产大片| 欧美一级色视频| 搞黄网站免费观看| 日韩在线播放欧美字幕| 欧美无专区| 国产免费自拍视频| 在线国产你懂的| 亚洲成人精品在线| 人人艹人人爽| 国产精品无码作爱| 高清国产va日韩亚洲免费午夜电影| 国产福利免费观看| 亚洲Va中文字幕久久一区 | 久久6免费视频| 国产玖玖玖精品视频| 人人看人人鲁狠狠高清|