999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自相似異常判斷模型的數據稽核方法

2016-12-07 02:54:28王崢嶸鄭邦峰吳清茂
電腦與電信 2016年7期
關鍵詞:用戶方法

王崢嶸 鄭邦峰 吳清茂

(中國移動通信集團海南有限公司,海南 海口 570125)

基于自相似異常判斷模型的數據稽核方法

王崢嶸 鄭邦峰 吳清茂

(中國移動通信集團海南有限公司,海南 海口 570125)

通過在數據稽核過程中根據數據自身的相似性來確定正常的數據趨勢,并判斷數據是否存在異常,滿足橫向數據稽核的要求,解決通信業務辦理數據稽核的問題。

數據稽核;自相似;異常

1 前言

隨著各行業對生產數據的完整性、準確性、一致性的要求越來越高,數據稽核的方法和技術應運而生。

目前數據稽核的方法和技術主要有以下兩種:

(1)在數據倉庫中的數據稽核

在ETL(Extract-Transform-Load)中,對相鄰的兩個環節中的數據總量進行驗證,并在總量正確的情況下將數據進行分量分維度驗證。采用在ETL過程中進行稽核的方法,只能對相鄰節點的數據進行比對,即只能進行縱向數據稽核,而無法進行橫向數據稽核,并且不能得到趨勢性的稽核結果。

(2)設定平衡關系式,將全量數據進行關系匹配驗證

采用設定平衡關系式,將全量數據進行關系匹配驗證,發現數據之間的不平衡。該種方法只能稽核到數據存在不平衡,而無法確認正確的數據形態。

上述兩種方法和技術都不能很好地解決通信業務辦理數據稽核的問題,而基于自相似模型的數據稽核系統,可通過在數據稽核過程中根據數據自身的相似性來確定正常的數據趨勢,并判斷數據是否存在異常,滿足橫向數據稽核的要求。

2 定義一種基于自相似模型的數據稽核方法

基于自相似模型的數據稽核方法包括基于不同的時間周期、地域歸屬關系、渠道關系、統計規律的自相似方法。

生產運營的特點決定了在業務辦理數據中,無法正確判斷異常錯誤來源或者不少細小量的業務異常被淹沒在大規模的正常數據中。首先,業務辦理數據存在工作時間和非工作時間的差別。其次,各地市之間的用戶基數的區別,以及各渠道辦理的本身特性,導致其辦理的業務量需要一個復雜的函數進行描述或者無法描述。最后,分類規則的不明晰,導致大量的業務辦理數據混成一團。但是這些特點并不能掩蓋數據真實的關系,數據根據其歸屬關系,以及時間的周期關系等,存在相關的自相似情況。分析這些自相似情況,根據相似度來判斷業務辦理是否有異常。在技術上,我們選用自相關函數。

x和y分別表示兩個時間序列之間和同一個時間序列在任意兩個不同時刻的取值之間的相關程度,即互相關函數是描述隨機信號x(t),y(t)在任意兩個不同時刻t1,t2的取值之間的相關程度。自相關函數是描述隨機信號X(t)在任意兩個不同時刻t1,t2的取值之間的相關程度;互相關函數給出了在頻域內兩個信號是否相關的一個判斷指標,把兩測點之間信號的互譜與各自的自譜聯系了起來。它能用來確定輸出信號有多大程度來自輸入信號,對修正測量中接入噪聲源而產生的誤差非常有效。

根據實際的測算,如果相似度>0.9,我們可以認為是相似的。

3 幾種自相似情況

3.1 基于時間周期的自相似情況

雖然在一天內,存在工作時間非工作時間的區別,也有忙閑時的區別,但是以天作為單位的時候,卻是存在自相似情況。對于業務量較高的日期和業務量較低的日期,之間存在一個差值,但是這種差值分布在每天的各個時間段,在任意時間段是存在一定的比例的。

例:日辦理業務量異常

(1)圖1所示是某月的平均每日24小時內的標準圖像。(系列2:某項業務)

圖1 標準圖形

(2)從圖2中可見,雖然業務量只有平常的3/4,但是從圖形上來講,他們是類似的度,根據上述算法,相似度為0.97148,在可以接受范圍內。(系列2:某項業務)

圖2 符合相似范圍內的示意

(3)從圖3中可見,雖然有一些差距,但是在接受范圍內。中午有一個較小的批量業務高峰,但不至于有根本差別的圖形,其相似度為0.921313。(系列2:某項業務)

圖3 存在批量業務高峰示意

(4)圖4從數值上看沒有問題,但明顯圖形不一樣。從總體業務辦理量來看,辦理的業務差不多,但是分散在各個時間段,但明顯發生了下午6點的業務高峰的情況,這種時候的相似度小于0.9。(系列2:某項業務)

圖4 存在高峰點異常示意

(5)如圖5(系列2:某項業務),從一個整月的圖形看,我們能夠清楚地看出每個周期的一致性,以及其中明顯的異常點。

圖5 月度數據示意

3.2 基于地域歸屬關系的自相似情況

由于各個地市的用戶的基數大小不同,對于一個小的地市而言,其辦理的業務量不及大地市的1/10,但是從分布圖形形狀看,它們是必須一樣的,即應該有同樣的高峰出現時段,同樣的忙閑時段,同樣的業務分布。

圖6 基于地域歸屬關系的自相似情況

從圖6(各個系列代表不同的業務辦理量(取對數,否則圖像較大))可以看出,雖然HNHK(海口)的業務量最大,但是從各個業務來看,他們的分布圖形是一致的。

3.3 基于不同渠道關系的自相似情況

雖然大部分業務可以通過不同渠道辦理,但是同一時段辦理業務的用戶是固定分布的,分布到各個渠道上的概率也是一定的,因此,雖然各個渠道辦理的業務量有差距,但是其圖形應該是相似的。

圖7 基于不同渠道的關系的自相似情況示意

從圖7(圖中系列代表不同的渠道)可以明顯看出,雖然圖像的相似有一些差距,但是基本上按照一定的規律發展,但是系列2明顯有不同,經過分析得知,在此過程,系列2對應的相關應用有異常,10點開始急劇下降,在15點恢復后進行業務補足處理,因此有一個高峰。

表1 相似度數據匯總

3.4 基于統計規律的異常業務數據判斷

在一個存在大規模用戶基數和純隨機發生的業務中(如通話量、短信量等),其數據的分布在統計意義上是滿足一定的概率分布的,但是如果需要找出在通話過程中,在短信發送量、數據流量上找出可能的異常或者涉嫌欺詐的行為,則必須要通過經營分析,仔細判別隨機業務中可能存在的幾十或者上百個變量的關系,費時費力。

為此我們采用了另外一種簡單有效的方式來進行判斷,由于業務的分布必定滿足一個在[0,max]范圍內的某一個概率分布,而我們常見的分布一般來講是“平滑”的(數學意義上的連續可導),如果在真實數據上發現有“毛刺”數據,則發生“毛刺”的地方則就可能是存在業務異常的地方。

在程序計算時,考慮簡化算法,采用“斜率連續急劇變化”作為存在“毛刺”的判斷。

(1)某一點斜率小于某固定值或者和前一點斜率差別較大,說明此時圖形存在一個劇烈的上升和下降的趨勢。

(2)下一點的斜率和上一點斜率的乘積<0,說明在此點處發生劇烈變化,從上升趨勢直接降低到下降趨勢。

根據上述兩點,則可以理解為在此點的數據為一個“毛刺”點,可以將此點挑出并預警。

例:垃圾短信量的確定

為了確定用戶是否存在發送垃圾短信的行為,單純找出短信發送量最大的用戶可能不準確,因為在隨機情況下,可能也有正常存在的發送短信量較多的用戶,因此需要確定垃圾短信的范圍,從而根據這些范圍找出相關的垃圾短信嫌疑用戶。可以利用該種方法得到相關的垃圾短信用戶,如圖8所示。

圖8 基于統計規律的異常業務數據判斷示例

4 結束語

數據稽核作為一種事后處理的機制在各行業的生產運營工作中得到廣泛應用,越來越多的生產活動、管理決策依賴于高質量的生產數據。基于自相似模型的數據稽核方法是對不同客戶辦理通信業務的行為在不同空間、時間及維度的相似性進行分析,根據分析結果確定業務辦理數據是否存在異常,明確數據異常趨勢是數據稽核的有效方法。

[1]顏超亞.電信計費數據稽核系統的設計和實現[D].重慶:重慶大學,2009.

[2]QB-Y-033-2012,NGBOSS2-CRM(V4.0)業務規范[S].

[3]QB-Y-034-2012,NGBOSS2-CRM(V4.0)技術規范[S].

[4]QB-Y-029-2012,NGBOSS2-BOSS(V4.0)業務規范[S].

[5]QB-Y-030-2012,NGBOSS2-BOSS(V4.0)技術規范[S].Data Auditing Method Based on Self Similar Anomaly Judgment Model

Wang Zhengrong Zheng Bangfeng Wu Qingmao
(China Mobile Communication Group Hainan Co.,Ltd.,Haikou 570125,Hainan)

In the data auditing process,the trend of the normal data is determined according to the data similarity,and the abnormal data is judged,meeting the requirements of the horizontal data audit,and solving the problem of data audit in the communication business.

data audit;self similar;anomaly

TP3-0

B

1008-6609(2016)07-0105-03

王崢嶸,女,海南人,本科,助力工程師,研究方向:業務支撐系統規劃,應用系統開發。

猜你喜歡
用戶方法
學習方法
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 成人亚洲国产| 国产网站一区二区三区| 孕妇高潮太爽了在线观看免费| 亚洲热线99精品视频| 狠狠色丁香婷婷| h视频在线播放| 久久精品中文无码资源站| jizz在线免费播放| 亚洲男人天堂久久| 亚洲欧州色色免费AV| 在线观看91香蕉国产免费| 最新国产精品鲁鲁免费视频| 亚洲A∨无码精品午夜在线观看| 一级毛片在线免费看| 美女毛片在线| 天天色天天综合网| 天天综合色网| 国产精品思思热在线| AV无码无在线观看免费| 毛片在线播放网址| 欧美精品成人| 在线国产资源| 国产麻豆va精品视频| 国产午夜不卡| 19国产精品麻豆免费观看| 91小视频在线观看| 久草视频福利在线观看| 国产高清精品在线91| 亚洲欧洲综合| 高清无码一本到东京热| 国产哺乳奶水91在线播放| 老司机精品一区在线视频| 草逼视频国产| 99精品在线看| 亚洲成综合人影院在院播放| 亚洲二区视频| 国产精品久久自在自线观看| 18禁高潮出水呻吟娇喘蜜芽| 久久综合五月婷婷| 欧美www在线观看| 女人18毛片水真多国产| 国产在线98福利播放视频免费| a级毛片在线免费观看| 91无码视频在线观看| 国产无码高清视频不卡| 国产av一码二码三码无码| www精品久久| 国产成人区在线观看视频| 国产污视频在线观看| 久久人搡人人玩人妻精品一| 免费观看国产小粉嫩喷水| 免费久久一级欧美特大黄| 亚洲精品无码高潮喷水A| 亚洲精品无码av中文字幕| a级毛片一区二区免费视频| 久久久久久国产精品mv| 97亚洲色综久久精品| 国产男人的天堂| 欧美成人看片一区二区三区| 国产十八禁在线观看免费| 成人一级免费视频| 国产最新无码专区在线| 一级不卡毛片| 91精品国产麻豆国产自产在线| 98超碰在线观看| 国产成人AV综合久久| 天天躁日日躁狠狠躁中文字幕| 精品国产www| 91午夜福利在线观看| 久久这里只有精品8| 久久精品午夜视频| 91精品视频在线播放| 久久99久久无码毛片一区二区| 国产精品视频系列专区| 在线毛片网站| 亚洲一区二区精品无码久久久| 日韩高清成人| 久久久噜噜噜| 国产福利不卡视频| 中文毛片无遮挡播放免费| 欧美性久久久久| 欧美va亚洲va香蕉在线|