999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的CDMA2000移動網絡防盜用技術

2012-09-28 07:49:30張多英伍偉池焦文華
電訊技術 2012年2期
關鍵詞:數據挖掘用戶

張多英,伍偉池,焦文華

(1.暨南大學 信息科學技術學院 電子工程系,廣州510632;2.中國電信廣東互聯網及增值運營中心,廣州510080)

1 引 言

隨著3G業務的推廣和普及,移動互聯網時代已經來臨,用戶可以隨時隨地、隨心所欲地訪問互聯網,通過3G網絡享受各種增值服務。但與此同時,盜用問題也日益嚴重。自CDMA2000 EVDO(中國電信3G制式)系統應用以來,利用運營商漏洞盜用他人數據信息、復制他人用戶識別模塊(User Identity Model,UIM)卡等盜用的行為頻頻發生,個別用戶被盜用的無線上網費甚至高達一個月3萬多元,這給用戶和運營商都帶來了極大的損失。維護人員也曾利用各網元平臺自身的一些功能對盜用行為進行限制和預警,但因相應的功能作用有限,均收效甚微。因此,在用戶UIM卡信息被盜用后及時發現、及時預警,盡力避免用戶蒙受損失,提升用戶的滿意度,已經成為中國電信運營3G業務重點關注的問題。由于各種制式的移動技術在網元設計和流程設計上都有不同,例如GSM技術里面就沒有AAA(Authentication,Authorization,Accounting)網元,其他運營商在處理相關問題時采用的方法也是不同的。而CDMA網絡在聯通運營時期,對于盜用行為也沒有太多的辦法,僅僅是采用上網費用減免的方式來處理。在中國電信承接CDMA網絡后,無線寬帶上網被盜用的問題再次凸顯出來。本文對盜用問題進行了專題分析和深入探討,最終確定了以AAA平臺為切入點,設計出相關功能模型,有效地解決了盜用問題。

2 CDMA2000 EVDO網元局限性的分析

為防止盜用問題的發生,CDMA2000分組域中的各個網元根據自身的功能和技術條件,制定了一些防盜用的策略,但實施后仍存在漏洞,有3個主要原因。

(1)PDSN以集群的機制運行。廣東全省100多臺PDSN被劃分為3個集群,每個集群可視為一臺PDSN,在PDSN集群配置session限制策略,同一個號碼只允許一個session接入。這樣的設置有效地限制了省內的盜號行為,但存在以下問題:第一,因為劃分了3個集群,故并不能100%地限制;第二,98%以上的盜用行為發生在外省,省內PDSN的限制作用有限。

(2)HLR對用戶鑒權時,需要校驗三碼,即IMSI、ESN和AKEY。當用戶鑒權信息中的三碼與HLR保存的數據一致時,才被允許接入,但存在的問題有:IMSI和ESN號可以直接從UIM卡讀出的;AKEY雖保密性高,但不排除有人會泄漏用戶數據;只有1X和CAVE算法的EVDO用戶才會到HLR鑒權,MD5(Message-Digest Algorithm 5)算法的EVDO用戶不需要去HLR鑒權,三碼校驗對MD5算法的EVDO用戶是無效的。

(3)專業計費平臺根據出賬話單,剔除出超大流量、超大時長的話單,并根據計費規則進行“流量封頂”或“時長封頂”。存在的問題:此方法雖然能找出被盜用的號碼,并通過費用減免來降低用戶損失,但核查結果的時效性不高,高額的上網費用依然要由用戶和運營商來承擔。

可以看出,PDSN、HLR和專業計費在對盜用行為的限制和預警方面雖然都有其積極的作用,但同時也存在局限性。結合上述網元的優缺點,以C網分組域中AAA平臺作為切入點,深入了解無線寬帶的話單格式和字段含義,結合CDMA網絡承接期積累的故障處理經驗,基于AAA[1]的原始計費話單提出話單分析模型,通過數據挖掘,找出可疑話單。

3 無線寬帶原始計費話單的生成機制分析

圖1為計費報文交互過程,當用戶通過鑒權并建立起PPP會話后,PDSN向AAA發送Accounting-Start報文。AAA接收到Accounting-Start報文后,解析并提取出與計費相關的字段信息,如 IMSI、NAI、IP-Address等,然后根據話單規范將字段填充進話單中的對應位置,生成一條上網話單。

圖1 計費報文交互過程Fig.1 Billing message interaction process

用戶下網時,PCF拆除與PDSN的PPP會話連接,同時PDSN向AAA發送Accounting-Stop報文。AAA接收到Accounting-Stop報文后,同樣進行解析和字段提取,并記錄進話單中,生成一條下網話單。與上網話單不同的是,下網話單記錄了用戶的累計上網時長和累計上網流量[2]。

如果用戶持續在線并在一定時間范圍內產生了數據流量,PDSN就會向AAA發送Interim-Update報文[3],用于記錄某個時間段內用戶的上網行為,如該統計時間段內用戶的激活時長以及上網流量。AAA接收到Interim-Update報文后,對應生成一條中間話單。

在理想的情況下,AAA在用戶的一次上網過程中會依次收到一個Accounting-Start報文和一個Accounting-Stop報文,或者收到一個Accounting-Start報文、若干個Interim-Update報文和一個Accounting-Stop報文。但是在現網環境中,因設備配置、網絡時延、用戶行為習慣等原因,會使情況變得復雜化。下面根據各種實際場景,列舉3種特殊的原始計費話單。

(1)休眠話單

在現網中當用戶連續30 s沒有產生任何流量,PCF會緩存用戶的會話session,釋放空口資源,拆除與PDSN的PPP會話,此時PDSN會向AAA發送Ac-counting-Stop報文;當用戶再次產生流量,PCF重新與PDSN建立PPP會話,PDSN會向AAA發送Accounting-Start報文。需要注意以下幾點:上下網產生的Accounting報文由Correlation ID進行標識;休眠產生的Accounting報文由Account Session ID進行標識;在一對上下網產生的Accounting報文中間,AAA可能會收到若干對休眠產生的Accounting報文;所有休眠產生的Accounting報文的Correlation ID與上下網產生的Accounting報文的Correlation ID一致;每一對休眠產生的Accounting報文的Account Session ID都是不相同的。

(2)交叉話單

用戶在跨地市、跨省份的時候,容易發生PDSN切換。此類切換屬于硬切換,切換時用戶網絡會發生中斷,需要重新撥號才能登陸網絡。例如用戶一開始接入PDSN-1,在移動過程中發生了切換,用戶斷網后重新撥號接入PDSN-2。此時PDSN-1的PPP會話仍然存在,PDSN-1未向AAA發送Accounting-Stop報文;而PDSN-2因PPP會話已經建立成功,向AAA發送Accounting-Start報文;10 min后因用戶沒有產生任何流量,PDSN-1判斷用戶已斷線,主動拆除PPP會話并向AAA發送Accounting-Stop報文,這樣就產生了交叉話單。一般情況下交叉話單的交疊時長不會超過10 min。

(3)重復話單

因網絡時延大或者主機響應時間超長,導致PDSN的Accounting-Request得不到及時響應,PDSN會向AAA重發Accounting報文[4],這樣就有可能導致AAA收到多條相同的Accounting報文。由于原始計費話單的寫入機制沒有去重功能,所以重復的報文也會被如實記錄進原始計費話單。

AAA每10 min在指定目錄下生成原始計費話單文件,每個原始計費話單文件由一條或多條話單記錄組成。每條記錄占一行,記錄之間以換行符分隔。

4 原始計費話單的字段說明

AAA產生話單記錄的原則[5]:

(1)所有話單記錄都是采用CDR(呼叫詳細記錄)格式產生;

(2)所有話單記錄都是以ASCII編碼格式進行編碼,話單內的字段域按順序排列;

(3)各類話單記錄獨立為一個記錄,不同類的話單記錄不能合并生產。

每個CDR記錄由多個域構成,每個域對應一個字段,域之間以“/t”分隔。字段可以有子類型,子類型之間以“ ”分隔。各字段及子類型按規范定義的順序排列,如果相應的屬性值為空,則直接用分隔符分開,分隔符之間無其他符號。

PDSN將UDR的信息通過RADIUS消息發給AAA,AAA產生原始計費話單。由于計費系統采集的是AAA產生的原始計費話單記錄,因此AAA產生的每一條原始計費話單必須符合《中國電信CDMA1x工程AAA話單格式》中的字段定義。

根據《中國電信CDMA1x工程AAA話單格式》的描述,AAA的原始計費話單共包括59個字段。其中RoamFlag是由AAA收到PDSN的Accounting報文后,根據PDSN IP判斷用戶是否漫游,然后由AAA填充進原始計費話單中;PaidType和MDN是由AAA根據Accounting報文中的IMSI查詢AAA數據庫的IMSI關聯數據得到,并由AAA填充進原始計費話單中。其他字段均由AAA根據Accounting報文的內容,直接填充進原始計費話單的對應字段中。

圖2是現網的原始計費話單,3條記錄從上到下依次為上網話單、下網話單和中間話單。從現網話單中可以看到,每一條記錄均不滿59個字段,這個與現網PCF、PDSN的配置有關。

圖2 現網的原始計費話單記錄Fig.2 The original billing communication detail records

5 數據挖掘技術的應用

上網費用異常的故障申告包括話單對應的時間段內用戶并沒有上網行為,多條話單記錄在時間上存在交疊部分,以及在一段時間話單記錄來自多臺PDSN等。

每天5 000多萬條原始計費話單記錄,每條記錄有59個字段,數據量如此龐大的文本數據,需要采用數據挖掘技術對數據進行分析和過濾。

5.1 數據挖掘的含義

數據挖掘就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數據挖掘的廣義觀點:數據挖掘就是從存放在數據庫、數據倉庫或其他信息庫中的大量的數據中“挖掘”有趣知識的過程。數據挖掘又稱為數據庫中知識發現(Knowledge Discovery in Database,KDD)。

5.2 數據挖掘技術中的神經網絡算法

神經網絡是仿照生理神經網絡結構的非線性預測模型,通過學習進行模式識別,它用一種較為簡單有效的方法解決了復雜度相對大的一些問題。它常用于兩類問題:分類和回歸。在結構上,可以把一個神經網絡劃分為輸入層、輸出層和隱含層。神經網絡結構如圖3所示。輸入層的每個節點對應一個個的預測變量。輸出層的節點對應目標變量,可有多個。在輸入層和輸出層之間是隱含層(對神經網絡使用者來說不可見),隱含層的層數和每層節點的個數決定了神經網絡的復雜度。

除了輸入層的節點,神經網絡的每個節點都與很多它前面的節點連接在一起,每個連接對應一個權重。調整節點間連接的權重就是在建立神經網絡時要做的工作。決定神經網絡拓撲結構的是隱含層及其所含節點的個數,以及節點之間的連接方式[8]。

圖3 神經網絡結構示意圖Fig.3 Schematic drawing of neural network structure

5.3 數據挖掘技術中的決策樹算法

決策樹是一個類似于流程圖的樹結構,其中每個非葉節點均表示考察數據項目的測試或決策,每個分枝代表一個測試輸出,而每個葉子節點代表類或類的分布。樹的最頂層節點是根節點。為了分類一個特定數據項目,我們從根節點開始,一直向下判定,直到達到一個葉子節點為止。這樣,一個決策樹就形成了。

決策樹分類算法是應用最廣的歸納推理算法之一,它是一種逼近離散值函數的方法,對噪聲數據有很好的健壯性。用決策樹算法進行分類要分兩個步驟:第一步是利用訓練集建立并精簡一棵決策樹,建立決策樹模型,這個過程實際上是一個從數據中獲取知識,進行機器學習的過程;第二步是利用生成的決策樹模型對輸入的數據進行分類,對輸入的記錄,從根節點依次測試記錄的屬性值,直到到達某個葉子節點,從而找到該記錄所在的類。

6 原始計費話單分析模型

6.1 原始計費話單分析模型的構建

根據AAA原始計費話單生成的規則和特定情況下話單的生成規律,運用神經網絡和決策樹的算法知識構筑分類模型和判斷條件模型。

以話單記錄的計費標識為分類條件,對話單進行歸類分析。分析模型如圖4所示。

(1)上、下網話單做為輸入項,通過特定條件進行合并,可以得到描述完整上網過程的話單;

(2)以完整話單與上網話單作為輸入項,在設定的條件下進行比較,得到重疊話單;

(3)最后通過特殊處理,得到異常話單作為結果輸出。

圖4 神經網絡分析模型Fig.4 Neural network analysismodel

通過神經網絡算法可以得到一個話單分析的基本過程,但如何對每個節點的產生進行條件限制,以使最終的輸出結果有較高的準確率?這需要采用決策樹算法對規則條件進行補全。決策樹分析模型圖如圖5所示。

圖5 決策樹分析模型Fig.5 The decision tree analysismodel

通過上述數據挖掘算法得到的分析模型,可以構建出原始計費話單分析模型如下。

(1)創建分區表

1)創建主分區表。主分區表中字段的名稱、類型和長度等定義與《中國電信CDMA 1x工程AAA話單格式》的字段定義保持一致。為了數據輸出后查看核對方便,在主分區表末尾增加一個時間戳的轉換字段。

2)創建子分區表和復合分區表。以用戶類型、時間戳等字段為分類條件,創建子分區表和復合分區表,符合分類條件的話單記錄歸入對應的表中,不符合條件的話單記錄歸入Default表中。

(2)數據導入

1)對原始計費話單進行預處理,清理掉話單記錄中的空字段,并將話單記錄轉化為可以導入數據庫的文本格式。使用腳本將處理后的原始計費話單導入數據庫的分區表中。

2)將時間戳(Eventtime)轉換為時間串(Datestr)格式,導入到分區表的對應字段中。

(3)創建索引表空間和索引

索引提供指針以指向存儲在表中指定列的數據值,然后根據指定的排序次序排列這些指針。數據庫使用索引的方式與使用書的目錄很相似:通過搜索索引找到特定的值,然后跟隨指針到達包含該值的行。通過建立索引,可以快速訪問數據庫表中的特定信息。

(4)創建比對所需要的臨時表

1)以IMSI、Correlation ID 和PDSN IP 為條件,對數據進行排序。

2)以IMSI和Correlation ID為匹配條件,找出話單中Eventtime為最大值和最小值的記錄進行合單,并記錄到臨時表a和b中。

(5)設定原始計費話單分析條件

1)以IMSI為匹配條件,對臨時表 a、b中同一個IMSI的記錄進行比對;

2)臨時表a和b的Correlation ID不一致。針對同一個IMSI,檢索出兩個表中在同一時間內不同的上網過程,作為識別盜用行為的條件之一:

情況一:話單包含。臨時表b的starttime大于(即晚于)臨時表a的starttime,臨時表b的endtime小于(即早于)臨時表a的 endtime。需要考慮因PDSN切換而導致的話單重疊;

情況二:話單交叉。臨時表b的starttime大于(即晚于)臨時表 a的 starttime,臨時表 b的starttime小于(即早于)臨時a的endtime。需要考慮因PDSN切換而導致的話單重疊。

6.2 原始計費話單分析腳本及實現步驟

(1)在Oracle數據庫中創建一張有60個字段的分區表,該表最后一個字段是時間戳的轉換字段。格式是“yyyymmddhh24miss” ,例如“20090605094332”。其他字段請參照《中國電信CDMA 1x工程AAA話單格式》的字段定義。

(2)將原始計費話單記錄轉換為可導入數據庫的文本格式,并對記錄中的空字段進行處理,去除噪聲數據。以2009年8月24日9點50分的話單為例,讀取此話單記錄,將其中的` t'字符全部找出來,并用分隔符`,'進行替換,最后輸出到文本文件aaa-200908240950.txt。程序代碼如下:

more AAA-01-20090824-0950-2008.TXT tr′ t′′,′ sed′s/ $/,,/′>../aaa-200908240950.txt;

(3)編輯數據導入控制文件。部分程序代碼如下:

load data

infile′aaa-200908240950.txt′//需要導入的文本文件名//

append into table aaa-acct//被導入數據的分區表名//

fields terminated by′,′//字段以′,′作為終結//

(4)數據導入。

sqlldraaa/aaa direct=y errors=99999999 control='aaa-acct.ctl';

//調用控制文件aaa-acct.ctl對導入過程進行控制。參數項Direct=y獨占鎖表,可以使導入速度加快;參數項errors=99999999,可以忽略因文本文件中文件頭等格式不規則而引起的報錯//

(5)創建轉換函數,將數據庫的eventtimes(時間戳)的值轉換為“yyyymmddhh24miss”格式,并插入到分區表的datestr字段中。

end to-oradate;//創建時間戳轉換函數//

update aaa-acct set datestr=to-char(to-oradate(eventtime),′yyyymmddhh24miss′);

//將轉換后的時間串插入到分區表的datestr字段中//

(6)創建索引表空間和索引。

CREATE TABLESPACE acct-idx//創建索引表空間//

create index aaa-acct-idx1 on aaa-acct//創建索引//

(7)執行查詢、分析的SQL語句。

6.3 原始計費話單分析模型的測試

本文基于數據挖掘技術并通過編寫分析腳本設計了一種原始計費話單分析模型,為了評估本模型的效果,我們對其進行了測試。

(1)在AAA隨機選取一段時間的話單進行分析:AAA-05-20090714-2*.TXT,選取時間為2009年7月14日20點00分至23點59分。

轉換原始計費話單文件,并導入數據庫,過程見圖6,導入數據共764 115條。

圖6 原始計費話單導入Fig.6 Import of original billing communication detail records

(2)執行設定的SQL語句,結果顯示“3820 rows selected.”。

(3)實驗中,隨機抽取10個IMSI記錄進行檢查,結果見表1。

表1 原始計費話單分析結果Table 1 The analysis results of original billing communication detail records

(4)根據分析結果,省內外的盜用行為都存在。省外的盜用特點是在線時間長,各盜用連接互有交疊。省內的盜用行為多發生在不同PDSN集群之間,從在線時間的交叉以及在線時間不短可以判斷出來;也有發生在同一集群的,但從在線時間可以看出盜用者剛上線就立即被PDSN斷開了。

測試結果表明,原始計費話單分析模型滿足設計預想,能夠完成原始計費話單的分析工作,并從中發現異常話單。

7 結束語

本文針對CDMA2000 EVDO移動網絡中的盜用問題,根據實際處理超量上網費用問題時積累的經驗,采用數據挖掘的理論和技術,通過編寫分析腳本,設計了一種基于AAA平臺原始計費話單分析的模型。利用廣東電信現網數據進行分析,對該模型進行了驗證。測試結果顯示,原始計費話單分析模型能夠完成原始計費話單的分析工作,并從中找出異常的話單,滿足設計預想。該模型能夠應用于CDMA2000移動網絡中,可有效地發現省內外的盜用行為,進一步提升網絡的安全性,但在未來工作過程中仍需要不斷優化檢索語句。

[1]RFC2903,Generic AAA Architecture[S].

[2]RFC2865,Remote Authentication Dial In User Service(RADIUS)[S].

[3]RADIUS Interim Update at Call Connect[S].

[4]RFC1122,Requirements for Internet Hosts-Communication Layers[S].

[5]中國電信CDMA 1x工程AAA話單格式[S].China telecom CDMA 1x engineering AAA single format[S].(in Chinese)

[6]胡可云,田鳳占,黃厚寬.數據挖掘理論與應用[M].北京:清華大學出版社,2008.HU Ke-yun,TIAN Feng-zhan,HUANG Hou-kuan.Data Mining Theory and Application[M].Beijing:Tsinghua U-niversity Press,2008.(in Chinese)

[7]Han J W,Kamber M.數據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2007.Han J W,Kamber M.Data Mining Concepts and Techniques[M].Translated by FAN Ming,MENG Xiao-feng.Beijing:Mechanical Industry Press,2007.(in Chinese)

[8]段云峰,吳唯寧,李劍威,等.數據倉庫及其在電信領域中的應用[M].北京:電子工業出版社,2003:94-95.DUAN Yun-feng,WU Wei-ning,LI Jian-wei,et al.Data warehouse and the application in telecommunications[M].Beijing:Publishing House of Electronic Industry,2003:94-95.(in Chinese)

[9]王曉龍.計算機自然語言處理[M].北京:清華大學出版社,2005:152-155.W ANG Xiao-long.Computer natural language processing[M].Beijing:T singhua University Press,2005:152-155.(in Chinese)

[10]鄭巖.數據倉庫與數據挖掘原理及應用[M].北京:清華大學出版社,2011.ZHENG Yan.Datawarehouse and data mining principle and application[M].Beijing:Tsinghua University Press,2011.(in Chinese)

猜你喜歡
數據挖掘用戶
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
數據挖掘技術在中醫診療數據分析中的應用
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 熟女日韩精品2区| 亚洲日韩精品无码专区97| 国产手机在线小视频免费观看| 一区二区理伦视频| 中文字幕在线看| 国产欧美视频综合二区| 色综合婷婷| 91久久天天躁狠狠躁夜夜| 91精品日韩人妻无码久久| 国产精品视屏| 国产成人精品在线| 亚洲一级毛片免费观看| 久久久黄色片| 中文字幕不卡免费高清视频| 99热6这里只有精品| 國產尤物AV尤物在線觀看| 九九视频免费看| 欧美日韩午夜| 国产在线自在拍91精品黑人| 国产精品真实对白精彩久久| 成人日韩欧美| 亚洲色图综合在线| 精品一区二区三区中文字幕| 91蜜芽尤物福利在线观看| 亚洲欧美在线综合一区二区三区| 91久草视频| 精品国产中文一级毛片在线看 | 亚洲AV人人澡人人双人| 五月婷婷欧美| 一级爆乳无码av| 欧美精品啪啪| 18禁黄无遮挡网站| 亚洲伦理一区二区| 欧美在线综合视频| 高清国产va日韩亚洲免费午夜电影| 亚洲性影院| 在线人成精品免费视频| 国产激情无码一区二区APP| 免费AV在线播放观看18禁强制| 中文字幕 91| 色首页AV在线| 伊在人亚洲香蕉精品播放 | 亚洲国产成人久久77| 久久国产精品电影| 欧美特黄一级大黄录像| 日本成人精品视频| 欧美精品v欧洲精品| 免费国产不卡午夜福在线观看| 亚洲91在线精品| 国产区免费| 国产玖玖视频| 伊人天堂网| 又黄又湿又爽的视频| 国产香蕉在线视频| 国产精品视频第一专区| 91小视频在线观看| 亚洲国产中文在线二区三区免| 久草视频中文| 高潮毛片免费观看| 国产剧情一区二区| 91在线精品免费免费播放| 91蜜芽尤物福利在线观看| 国产鲁鲁视频在线观看| 亚洲精品少妇熟女| 成人午夜天| 国产毛片一区| 精品成人一区二区三区电影 | 精品无码人妻一区二区| 亚洲精品无码在线播放网站| 亚洲最新在线| 亚洲第一av网站| 国产精品无码作爱| 福利片91| 萌白酱国产一区二区| 国产极品嫩模在线观看91| 99这里只有精品6| www.狠狠| 亚洲综合经典在线一区二区| 青青草原国产| 久久久亚洲色| 青草国产在线视频| 熟妇丰满人妻av无码区|