摘要:該文主要研究如何用數據倉庫及其技術解決電信計費分析的實際問題。
關鍵詞:數據倉庫;計費數據;計費分析;聯機分析處理(OLAP)
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)32-1039-02
The Design and Implementant of Telecommunication Billing Analys Data Warehouse System
LUO Gui-lian
(Information Engineering Department, Liuzhou Transport Vocational Technical College, Liuzhou 545007,China)
Abstract: This dissertation is mainly focused on how to use the data warehouse and its related technique to solve the practicing problems of telecommunication billing analysis.
Key words: data warehouse; billing data; billing analysis; on-Line analytical processing (OLAP)
1 引言
近年來,國內電信市場的競爭日益加劇,各電信運營商積極利用最近幾年快速發展起來的數據倉庫以及基于此的聯機分析處理技術,深層次、多角度地挖掘數據。通過分析計費數據、客戶信息、競爭對手的信息等多種數據,尋找內在的規律,從而得到決策支持信息。某固定電話運營企業廣西分公司(以下簡稱T運營商)現有的計費系統沒有涉及經營分析和決策分析,經營過程中所需要的大量報表需要手工進行統計,效率低而且容易出錯,因此需要建設數據倉庫系統,提高計費分析的科學性、正確性。
2 研究運用的技術
數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合,用于支持管理決策過程。該文運用數據倉庫工程的設計思想,設計和建立專用于計費分析的數據倉庫系統。
聯機分析處理是一種驗證型的分析技術,將數據倉庫中的數據作為分析對象,可以快速靈活地進行大量數據復雜的操作處理,將分析結果提供給決策人員。
3 計費分析數據倉庫系統的設計
3.1 系統的建設目標和原則
計費分析數據倉庫系統的建設目標是建立一個統一的數據共享平臺,系統按照兩級、三層結構的原則進行建設。“兩級系統”是指省級數據倉庫系統(省中心)和市級數據倉庫系統(市中心)兩級。“三層結構”是指系統在邏輯結構上包含數據獲取層、數據存儲層和數據訪問層。系統的建設遵循“整合計費數據、面向經營分析”的原則。
3.2 系統結構和功能
計費分析數據倉庫系統分為數據倉庫、OLAP服務器、應用終端三大部分。計費分析數據倉庫系統結構如圖1所示,它形成數據獲取層、數據存儲層和數據訪問層(分析展示層)的三層結構。
3.3 數據倉庫系統的主題設計
對需求范圍內的業務及其相互之間的關系進行分析,確定數據倉庫的主題域及相互關系,把密切相關的業務對象進行歸類,劃分主題域,并對每個主題域進行較為明確的描述。由計費分析的需求,結合經營分析要求和系統需求,確定計費分析數據倉庫的5個主題域是:用戶主題、服務主題、資源主題、帳務主題和結算主題。用E-R圖表示計費主題域及其各主題間的關系,如圖2所示。
1) 用戶主題:存放的是關于T運營商所擁有的全部的用戶的信息及相關信息。
2) 服務主題:存放的是T運營商提供的各類服務的信息, 用戶使用T運營商提供的各類服務的詳細記錄。有費率、優惠規則、服務使用話單等。
3) 資源主題:存放的是T運營商擁有的各類資源情的情況以及相關資源的分配情況。
4) 帳務主題:包含用戶的賬務關系,用戶的綜合帳單,明細帳單,繳費記錄,帳務信息,銷帳信息等內容。
5) 結算主題:結算主題內的結算表用來記錄T運營商與其他合作運營商間由于業務往來而發生的相互間費用支付的內容。有結算清單、結算賬單等。
4 計費分析數據倉庫系統的創建
4.1創建數據表
數據倉庫系統的數據模型沿用了計費系統的數據結構。計費分析數據倉庫中來自計費系統的數據表分成基本信息和業務數據兩大部分。這些表在數據倉庫中按主題用公共碼鍵進行相互聯系。
1) 企業的基本信息表
企業的基本信息是企業內、外部實體的信息。這部分基本信息具有較強的穩定性,完整而詳細地保存在了數據倉庫中。數據倉庫中描述企業基本信息的表有:賬戶表、用戶表、客戶表、運營商表、帳務關系表、結算對象表、話單類型表、用戶群表、計時費率表等。
2) 主要的業務數據表
數據倉庫中保存的業務數據,有的會經常改變,穩定性比較低,具有較強的靈活性。這部分數據用于計算和統計分析,按照計費分析的主題功能進行了分類存儲或綜合。數據倉庫中主要的業務數據表有:計時話單表、計次話單表、賬目費用表、結算賬目表等。
4.2 數據抽取
數據倉庫的數據源主要來自省計費中心計費系統的各個數據庫的計費數據。T運營商將整個電話業務分成營業受理收費、計費、帳務、銷帳、結算五個模塊分別運行在四臺服務器上,共有2000多張數據表,數據量非常龐大而分散。計費系統每月從各地市分公司采集的原始話單數據大約有800萬到1000萬條,這些海量的計費數據存放在多個異構的數據庫中,各種系統之間存在計量單位、格式、采用的代碼集等眾多的不同,數據的抽取比較復雜。因此這些抽取出來的數據在裝入數據倉庫之前,先放到數據準備區中轉換成為通用的、一致的格式。本數據倉庫系統使用SQL Server2000提供的數據轉換服務(DTS)來協調格式、編碼和其他不一致的計費數據的抽取。
4.3 數據清洗和轉換
為保證分析、決策的效果,對輸入數據倉庫的數據作了嚴格的清洗和轉換以保證數據的一定質量。
首先對于已有的大量的用戶個人基本信息進行處理。由于用戶流失情況的存在,因此對用戶表數據中“狀態”屬性為“作廢”的無效的數據進行刪除,共刪除了3000多條記錄。在用戶表中,有很多屬性,如用戶標識、用戶序列號、合同編號、合同序列號、區號、業務接入號、用戶名稱、業務類型標識、用戶類型標識、計費區標識、地址標識、竣工日期、重要標識、用戶群標識、狀態、變更日期、失效日期等等,刪除掉表中一些與計費分析不相關或弱相關的屬性,如合同編號、合同序列號、竣工日期等。
對大量的計費業務數據進行了轉換。將數據源中的數據根據轉換規則轉換成數據倉庫中的數據。在數據準備區中,對抽取出來的數據進行轉換,驗證了數據的一致性,并將數據轉換為數據倉庫通用的格式。在這個階段還手工轉換了一些不一致的數據并統一一些含糊不清的文本輸入項。
5 計費分析數據倉庫系統的應用
5.1 計費分析數據倉庫系統的分析主題
計費分析主題按分析類別劃分為以下主題和功能模塊,如圖3所示。每個分析主題又包括若干個分析功能,并能根據需要進行主題內部要素的擴充、主題的新增以及跨主題的重構。在T運營商提供的計費數據的基礎上,進行了計費分析數據倉庫的一些實際應用,檢驗了數據倉庫技術應用于計費分析的效果。
5.2本網高頻次被叫分析
本網(即T運營商)高頻次被叫分析主題是對本網用戶(即T運營商的用戶)中的高頻次被叫用戶進行分析。
分析樣本取自2007年1月,用戶數為50萬,其中普通電話、公話、校園電話、辦公電話用戶分別為:32萬、5萬、6萬、7萬。2007年1月的來話高頻次用戶分析表見表1。
從表1得到的分析結果是:
來話高頻次用戶主要集中在企業、事業、黨政機關、校園電話等用戶類型。本網高頻次被叫用戶屬于高價值用戶,必須確保通話暢通。針對高頻次用戶需要采取措施以增加收入。實際當中,采取了一些措施如:回訪、在交換機處觀測用戶的接通情況,對話務量高纜線資源比較豐裕的情況下數,增加電話臺數,減少了呼入溢出,提高服務質量,提高用戶的滿意度。
5.3 長途直撥話務量分析
長途直撥話務量分析的多維模型如圖4所示。
由長途直撥話務量的多維模型和數據集市,構建一個對應的OLAP數據立方體。選取通話次數、通話時長、通話費用作為分析度量,以時間、地域、用戶類型為分析維度,就形成長途直撥話務量分析OLAP立方體。
例如:長途分時段分析。
樣本為某地市公司的用戶12萬,其中普通電戶、公話、校園電卡、辦公電話、分別為6萬、0.8萬、3萬、3.2萬,數據采樣分析的時間跨度為1周。
XX地市公司2007年1月長途分時段分析圖如圖5所示。
從圖5的數據了解到2007年1月分析各時間段的用戶,白天時段的話務量為67.28%,主要是辦公和公話用戶使用,晚間的為32.72%,主要是住宅用戶使用,但用戶總量比重高的住宅用戶的業務量并不高,為了激活晚間話務量,針對住宅用戶中業務量低的用戶提供個性化的長話套餐,刺激了話務量,增加了收入,用戶也得到了實惠,達到雙贏。
6 結論
利用數據倉庫及其技術幫助電信運營企業進行計費分析是可行的,從準確性、高效性、方便性等方面都較傳統的電子表格等方法有很大的提高,對企業的決策和精細管理起到了重大的作用。
參考文獻:
[1] 王麗珍,周麗華.數據倉庫與數據挖掘原理及應用[M].北京:科學出版社,2005:144-146,271-286.
[2] 王翔,楊開英.OLAP在聯通經營分析系統中的應用[J].電腦知識與技術, 2006(03):31-32.
[3] 仇春芳,徐小琳.數據倉庫在電信行業中的應用研究[J].中國新通信,2006(24):23-24.
[4] Kimball R. The Data Warehouse Toolkit (Second Edition) ,The Complete Guide to Dimensional Modeling[M].John Wiley Sons,Inc,2002.
[5] WANG Li-zhen, ZHOU Li-hua, CHEN Tao. A New Method of Attribute_oriented Spatial Generalization[C]. Proceedings of the Third International Conference on Machine Learning and Cybernetics, Shanghai, August 2004(ICMLC2004):26-29.