摘 要:隨著我國移動通信的迅猛發展,設備品種逐步增多,容量迅速增大,網管信息化的應用,積累了海量數據,本文結合自己在實際網管數據分析與應用中的經驗,針對數據采集與整理、數據存儲與查詢、數據挖據三個過程積累的經驗與大家分享。
關鍵詞:網管數據;數據挖掘;物化視圖
1 引言
隨著我國移動通信的迅猛發展,設備品種逐步增多,容量迅速增大,網管信息化的應用,移動通信行業信息化進程得到巨大發展和廣泛應用,運營網絡系統、綜合業務系統大量的歷史數據。但在很多情況下,這些海量數據在原有的作業系統中是無法提煉并升華為有用的信息并提供給業務分析人員與管理決策者的。因此如何應用這量信息,給信息化工作者提出了挑戰,我作為一名移動行業信息化工作者,結合自己在實際網管數據分析與應用中的經驗,主要在數據采集與整理、數據存儲與查詢、數據挖掘三方面與大家探討一下。
2 數據采集與整理
2.1 文本格式FTP傳輸
網管系統在每天定時將前一天的數據文件上傳到指定的FTP服務器。數據文件為后綴TXT的文本文件,指標之間的間隔符為“|”,指標按照第三節模板中定義的順序排列,一條記錄為一行。因為網管數據往往較大,為了提高傳輸速率及節省空間,建議將數據進行壓縮處理。
2.2 數據按接口規范導入數據庫
應用程序定時將網管數據解壓縮,通過XML配置文件制定數據導入的規范,如下:
配置文件中規定了讀取字段位置及存入數據庫的字段名稱,同時check中制定了數據的驗證規則。如rang min=“0” max=“22”表示取值范圍為0—22,如果超出該范圍的數據則直接丟棄。
2.3 數據處理采用存儲過程
存儲過程(Stored Procedure)是在大型數據庫系統中,一組為了完成特定功能的SQL 語句集,經編譯后存儲在數據庫中,用戶通過指定存儲過程的名字并給出參數來執行它。他有如下優點:
⑴提高數據庫執行效率。使用SQL接口更新數據庫,如果更新復雜而頻繁,則需要頻繁得連接數據庫。
⑵提高安全性。存儲過程作為對象存儲在數據庫中,可以對其分配權限。
⑶可復用性。
3 數據存儲與查詢
網管數據往往是海量的,每一統計數據的一天數據都能輕易達到千萬級,因此在存儲過程中要重復利用數據的技術性能。在我們的實踐過程中主要應用了oracle數據庫。下面簡單介紹我們主要采用的技術手段。
3.1 表分區
區致力于解決支持極大表和索引的關鍵問題。它采用他們分解成較小和易于管理的稱為分區的片(piece)的方法。一旦分區被定義,SQL語句就可以訪問的操作某一個分區而不是整個表,因而提高管理的效率。分區對于數據倉庫應用程序非常有效,因為他們常常存儲和分析巨量的歷史數據。
⑴增強可用性:如果表的某個分區出現故障,表在其他分區的數據仍然可用;
⑵維護方便:如果表的某個分區出現故障,需要修復數據,只修復該分區即可;
⑶均衡I/O:可以把不同的分區映射到磁盤以平衡I/O,改善整個系統性能;
⑷改善查詢性能:對分區對象的查詢可以僅搜索自己關心的分區,提高檢索速度。
如我們可以按時間字段對導入數據進行分區,網管數據較大,一般一個月就需要一個分區。
3.2 索引技術
在關系數據庫中,索引是一種與表有關的數據庫結構,它可以使對應于表的SQL語句執行得更快。但對于現在的各種大型數據庫來說,索引可以大大提高數據庫的性能。有兩種類型的分區索引,全局索引和本地索引,使用本地索引,不需要指定分區范圍因為索引對于表而言是本地的,當本地索引創建時,Oracle會自動為表中的每個分區創建獨立的索引分區。
3.3 物化視圖
物化視圖是包括一個查詢結果的數據庫對像,它是遠程數據的的本地副本,或者用來生成基于數據表求和的匯總表。物化視圖存儲基于遠程表的數據,也可以稱為快照。使用物化視圖可以實現視圖的所有功能,而物化視圖確不是在使用時才讀取,大大提高了讀取速度,特別適用抽取大數據量表某些信息以及數據鏈連接表使用。
4 數據挖掘
4.1 利用最小二乘法實現數據的一元線性回歸
最小二乘法可以用來處理一組數據,可以從一組測定的數據中尋求變量之間的依賴關系,這種函數關系稱為經驗公式。能夠尋求x與y之間近似成線性關系時的經驗公式。假定實驗測得變量之間的n個數據(x1,y1),(x2,y2),…,(xn,yn),則在xОy平面上,可以得到n個點Pi(xi,yi)(i=1,2,…n),考慮函數y=ax+b,其中a和b是待定常數。如果Pi(i=1,2,…n)在一直線上,可以認為變量之間的關系為y=ax+b。但一般說來,這些點不可能在同一直線上。記Ei=yi-(axi+b),它反映了用直線y=ax+b來描述x=xi,y=yi時,計算值y與實際值yi產生的偏差。當然要求偏差越小越好, 但由于Ei可正可負,因此不能認為總偏差 時,函數 就很好地反映了變量之間的關系,因為此時每個偏差的絕對值可能很大。為了改進這一缺陷,就考慮用 來代替 。但是由于絕對值不易作解析運算,因此,進一步用 來度量總偏差。 因偏差的平方和最小可以保證每個偏差都不會很大。于是問題歸結為確定y=ax+b中的常數a和b,使 為最小。用這種方法確定系數a,b的方法稱為最小二乘法。
4.2 數據自動修正算法描述
首先選擇時間上最接近當前的14天的數據,加權平均為x,然后按照1.2x>X>0.8x的約束,進行篩選,這樣新建站、數據異常等影響就會被消除。預測使用修正后的數據進行計算。
4.3 本地網預測修正
在本地網總趨勢的基礎上,利用歷史同期的趨勢按照就高不就低的原則進行修正。
4.4 單小區預測修正
在小區預測的基礎上,利用本地網總趨勢進行修正。修正過程為小區預測話務量與本地網預測話務量已載頻數做加權平均。
5 技術架構
5.1 多層分布式架構方案
系統采用三層結構,將不同模塊分別運行在不同的服務器上共同來精算系統的功能。每一種模塊還可以再拆分在不同的服務器上運行實現負載分擔,因此系統可以根據需要和用戶的使用模式進行定制。這種結構具有比較大的靈活性。系統功能發生改變的時候,可以分模塊單獨部署,減少后期維護開發的工作量。
5.2 J2EE主流開發技術
表示層為整個系統提供外部展現,根據用戶的使用習慣定制程序的操作流程。提高用戶的使用感受??鐦I界最廣泛的操作系統環境,提供全J2EE編程模式,包括IBM OS/400,LINUX,IBM AIX,Microsoft Windows,HP-UX及Sun Solaris操作環境支持。最新的J2EE開發框架,大量的實際開發案例。系統符合最新的Web 2.0規范,提高系統的相應速度。通過簡單的應用編譯和部署來最大限度降低管理要求。
[參考文獻]
[1]邱宏.數據倉庫技術在移動通信行業中的應用[J].電信科學.1999(12):34-35.
[2]GSM移動網絡擴容精算方法.百度文庫.