李衛+張云勇+魏進武
運營商現有的數據挖掘分析建模管理機制不健全,存在挖掘管理混亂、知識共享困難等問題。文章研究了數據挖掘分析共享平臺架構,并探索了若干業務場景,為運營商在全集團范圍內實現數據挖掘分析模型構建與知識的沉淀以及快速推廣應用提供參考。
數據挖掘 業務模型 共享平臺 專家式共享 分散式共享
1 引言
近幾年,在互聯網、電信、金融、政府等行業,各巨頭紛紛積極推進大數據平臺建設,開發大數據應用,希望借此獲得核心競爭優勢,重塑產業鏈格局。電信運營商擁有海量的用戶,積累了豐富的用戶通信業務、行為偏好以及企業經營、管理和運維數據等,圍繞精準營銷、客戶維系、網絡優化、業務規劃等方面做了不少大數據的具體應用[1,2]。然而,運營商現有的大數據應用管理機制不健全,企業范圍內在集團、省分等各層級分別各自建設數據挖掘平臺、開展數據挖掘專題應用,各省獨立研發、維護和管理數據挖掘分析模型,無法對數據挖掘模型和算法實現企業級的統一管理;各省單獨建設和維護的數據挖掘模型和算法在省分之間共享困難,效果良好的模型和挖掘算法等不能得到及時的共享,各省分重復投資和建設同一類型甚至完全相同的業務模型和算法,造成人力、物力、財力等資源的大量浪費;優秀的業務建模經驗得不到及時的分享和借鑒,也極易導致企業錯失良好的營銷時機、競爭優勢,從而使企業利益受損。
針對這些問題,本文研究探索了電信運營商數據挖掘分析共享平臺架構[3-5],在全集團范圍內實現數據挖掘分析模型構建與知識的沉淀及快速推廣應用,為上層應用提供多層級、多維度、全方位的數據服務。
2 電信運營商數據挖掘分析共享平臺架
構建議
電信運營商數據挖掘分析共享平臺架構建議如圖1所示。
數據挖掘分析共享平臺架構面向運營商的模型需求方(如前端市場、客服部門)、業務分析人員、數據處理人員、數據挖掘人員和模型管理人員等5類角色,提供統一的日常工作支撐平臺以及貫串模型和數據挖掘算法全生命周期的企業級、可視化管控體系。
設計態管理主要針對不同的數據采用不同方法創建數據挖掘分析業務模型。針對結構化的高價值密度數據,可以采用“指標/標簽+規則”建模、多維關聯分析建模以及數據挖掘建模等3類方式進行建模,第1類建模方式將自動生成的SQL腳本導入到模型中;第2類建模方式需將多維關聯分析表生成部署算法包,導入到模型中;第3類建模方式則可以使用數據挖掘工具(如R/SAS/SPSS等)進行挖掘分析,將挖掘結果以PMML文件、SQL腳本、JAR包方式生成部署算法包,導入到模型中。針對低價值密度的批量數據,可以在Hadoop上編寫Map-Reduce腳本進行數據挖掘,將挖掘結果以Map-Reduce腳本方式生成部署算法包,導入到模型中;也可以集成開源的大數據挖掘算法進行基于Hadoop的大數據挖掘。針對低價值密度的實時流數據,則以流計算規則方式建立模型,部署到實時流引擎。
運行態管理主要根據不同的調度模式提供業務模型服務。高價值密度的數據模型支持消息調度和周期調度運行規則以及實時和離線這2種服務模式。在實時服務模式下,數據服務請求方(業務人員或第三方數據應用)通過Web Service或自定義Socket協議,在線提交數據處理請求、等待數據處理結果,要求數據服務提供方能夠快速響應,因此適用于小量或簡單數據處理需求的業務場景;在離線服務模式下,數據服務請求方在線提交數據處理請求后,不必在線等待數據處理結果,因此適用于大批量、復雜或周期性數據處理需求的業務場景。低價值密度批量數據模型以周期調度方式運行,根據數據處理時間要求,對存儲在Hadoop中的批量數據(如互聯網流量詳單數據),按照模型的Map-Reduce腳本進行分析處理,生成高價值密度的結構化數據,存入結構化的數據倉庫中。低價值密度的實時流數據從數據源采集后并不存入數據倉庫,因此它的處理以消息調度方式運行,根據實時流引擎中的業務模型要求(流計算規則)處理后,將提取的高價值匯總信息存入結構化的數據倉庫,而事件觸發可以直接發送給生產系統以開展業務活動。
共享管理負責數據挖掘分析業務模型和數據挖掘算法的創建、發布、評估、共享、變更、下線、還原的全生命周期管理。業務模型共享分為專家式共享和分散式共享2種模式,專家式共享模式即“省分——集團——全國推廣”模式,省分將本省建設的具有普適性的優秀模型推薦到集團,集團模型管理人員審批通過并完成數據準備后,將該模型推廣到全國共享使用;分散式共享模式即“A省分——B省分推廣”模式,B省分模型需求方通過模型查看功能,獲知A省分某業務模型適合B省分相同類型的業務應用,向集團模型管理人員提出共享申請,審查通過、數據準備就緒后,在B省發布并使用該模型。
3 業務場景探索
3.1 “指標+規則”建模場景
省分市場業務人員可以根據業務需要,在數據挖掘分析共享平臺上發起業務需求申請,由業務分析人員創建模型,支撐市場業務人員的日常運營工作。“指標+規則”建模場景如圖2所示。
在步驟⑧模型創建中,以高價值客戶分析業務模型創建為例,首先選擇與需求相關的業務參數,如通話時長、通話次數、短信條數、上網流量、出賬金額等與建立高價值用戶模型相關的業務參數;然后根據業務需求,配置業務規則,如ARPU>120、在網時長>6個月等作為判斷高價值用戶的規則。
3.2 數據挖掘建模場景
省分市場業務人員可以根據業務需要,在數據挖掘分析共享平臺上發起業務需求申請,由業務分析人員和數據挖掘人員創建模型,支撐市場業務人員的日常運營工作。數據挖掘建模場景如圖3所示。
在步驟⑩模型訓練中,以流失預警分析業務模型創建為例,首先初步篩選與流失預警相關性高的數據,然后綜合考慮命中率及覆蓋率,確定利用神經網絡算法建立預測模型,最后通過模型多次訓練,確定神經網絡算法的閾值,確定流失預警最優模型。endprint
3.3 模型分散式共享場景
省分模型需求方或業務分析人員在數據挖掘分析共享平臺上可以查看其它省的業務模型,選擇出本省需要的模型,發起共享申請;集團模型管理人員對共享申請進行審批后,省分業務分析人員在省分數據處理人員準備好本省的數據后進行模型評估和調整后,就可以將模型在本省上線使用。模型分散式共享場景如圖4所示。
在步驟⑩模型評估中,省分業務分析人員根據省分數據處理人員準備好的本省數據,對推薦模型進行實際數據評估,出具評估報告,評估后的結果分為3種情況:
(1)可用:但是需要調整,根據實際業務情況變更模型,如業務參數或者算法參數;
(2)直接可用:可以直接調用;
(3)不可用:省分業務分析人員根據實際業務需求進行模型新建。
3.4 模型專家式共享場景
省分業務分析人員通過數據挖掘分析共享平臺,將本省建設的創新、亮點模型推薦到集團,集團模型管理人員審批通過并完成數據準備后,將該模型推廣到全國共享使用,指導其它省分的業務工作。模型專家式共享場景如圖5所示。
在步驟②模型推薦申請預評估中,集團模型管理人員需要對省分業務分析人員推薦的共享模型進行預評估,出具預評估報告,審批是否可以轉為共性。
在步驟⑨個性轉共性中,將待共享模型中的省分個性指標數據轉為集團共性指標數據統一存儲,模型規則由集團統一管理、監控使用。
4 結束語
本文分析探討的數據挖掘分析共享平臺提供了大數據開放服務能力,統一的數據和建模工作環境以及模型的開放共享,滿足日常數據運營及模型建立、訓練、使用、評估等工作需求,有助于運營商公司部門、省分公司的各個團隊形成合力,共同推進數據知識的沉淀、共享,將創新、亮點模型支撐下的大數據應用快速推廣,避免重復建設,符合運營商大數據發展需求和建模開放的工作要求。
參考文獻:
[1] 魏進武,張云勇. 電信運營商的大數據價值創造[J]. 信息通信技術, 2013(6): 10-14.
[2] 童曉渝,張云勇,房秉毅,等. 大數據時代電信運營商的機遇[J]. 信息通信技術, 2013(1): 6-9.
[3] 劉春,鄒海鋒,向勇. 大數據環境下電信數據服務能力開放研究[J]. 電信科學, 2014(3): 156-161.
[4] 韓晶. 大數據服務若干關鍵技術研究[D]. 北京: 北京郵電大學, 2013.
[5] 張秀典. 電信數據能力開放研究[D]. 北京: 北京郵電大學, 2010.endprint
3.3 模型分散式共享場景
省分模型需求方或業務分析人員在數據挖掘分析共享平臺上可以查看其它省的業務模型,選擇出本省需要的模型,發起共享申請;集團模型管理人員對共享申請進行審批后,省分業務分析人員在省分數據處理人員準備好本省的數據后進行模型評估和調整后,就可以將模型在本省上線使用。模型分散式共享場景如圖4所示。
在步驟⑩模型評估中,省分業務分析人員根據省分數據處理人員準備好的本省數據,對推薦模型進行實際數據評估,出具評估報告,評估后的結果分為3種情況:
(1)可用:但是需要調整,根據實際業務情況變更模型,如業務參數或者算法參數;
(2)直接可用:可以直接調用;
(3)不可用:省分業務分析人員根據實際業務需求進行模型新建。
3.4 模型專家式共享場景
省分業務分析人員通過數據挖掘分析共享平臺,將本省建設的創新、亮點模型推薦到集團,集團模型管理人員審批通過并完成數據準備后,將該模型推廣到全國共享使用,指導其它省分的業務工作。模型專家式共享場景如圖5所示。
在步驟②模型推薦申請預評估中,集團模型管理人員需要對省分業務分析人員推薦的共享模型進行預評估,出具預評估報告,審批是否可以轉為共性。
在步驟⑨個性轉共性中,將待共享模型中的省分個性指標數據轉為集團共性指標數據統一存儲,模型規則由集團統一管理、監控使用。
4 結束語
本文分析探討的數據挖掘分析共享平臺提供了大數據開放服務能力,統一的數據和建模工作環境以及模型的開放共享,滿足日常數據運營及模型建立、訓練、使用、評估等工作需求,有助于運營商公司部門、省分公司的各個團隊形成合力,共同推進數據知識的沉淀、共享,將創新、亮點模型支撐下的大數據應用快速推廣,避免重復建設,符合運營商大數據發展需求和建模開放的工作要求。
參考文獻:
[1] 魏進武,張云勇. 電信運營商的大數據價值創造[J]. 信息通信技術, 2013(6): 10-14.
[2] 童曉渝,張云勇,房秉毅,等. 大數據時代電信運營商的機遇[J]. 信息通信技術, 2013(1): 6-9.
[3] 劉春,鄒海鋒,向勇. 大數據環境下電信數據服務能力開放研究[J]. 電信科學, 2014(3): 156-161.
[4] 韓晶. 大數據服務若干關鍵技術研究[D]. 北京: 北京郵電大學, 2013.
[5] 張秀典. 電信數據能力開放研究[D]. 北京: 北京郵電大學, 2010.endprint
3.3 模型分散式共享場景
省分模型需求方或業務分析人員在數據挖掘分析共享平臺上可以查看其它省的業務模型,選擇出本省需要的模型,發起共享申請;集團模型管理人員對共享申請進行審批后,省分業務分析人員在省分數據處理人員準備好本省的數據后進行模型評估和調整后,就可以將模型在本省上線使用。模型分散式共享場景如圖4所示。
在步驟⑩模型評估中,省分業務分析人員根據省分數據處理人員準備好的本省數據,對推薦模型進行實際數據評估,出具評估報告,評估后的結果分為3種情況:
(1)可用:但是需要調整,根據實際業務情況變更模型,如業務參數或者算法參數;
(2)直接可用:可以直接調用;
(3)不可用:省分業務分析人員根據實際業務需求進行模型新建。
3.4 模型專家式共享場景
省分業務分析人員通過數據挖掘分析共享平臺,將本省建設的創新、亮點模型推薦到集團,集團模型管理人員審批通過并完成數據準備后,將該模型推廣到全國共享使用,指導其它省分的業務工作。模型專家式共享場景如圖5所示。
在步驟②模型推薦申請預評估中,集團模型管理人員需要對省分業務分析人員推薦的共享模型進行預評估,出具預評估報告,審批是否可以轉為共性。
在步驟⑨個性轉共性中,將待共享模型中的省分個性指標數據轉為集團共性指標數據統一存儲,模型規則由集團統一管理、監控使用。
4 結束語
本文分析探討的數據挖掘分析共享平臺提供了大數據開放服務能力,統一的數據和建模工作環境以及模型的開放共享,滿足日常數據運營及模型建立、訓練、使用、評估等工作需求,有助于運營商公司部門、省分公司的各個團隊形成合力,共同推進數據知識的沉淀、共享,將創新、亮點模型支撐下的大數據應用快速推廣,避免重復建設,符合運營商大數據發展需求和建模開放的工作要求。
參考文獻:
[1] 魏進武,張云勇. 電信運營商的大數據價值創造[J]. 信息通信技術, 2013(6): 10-14.
[2] 童曉渝,張云勇,房秉毅,等. 大數據時代電信運營商的機遇[J]. 信息通信技術, 2013(1): 6-9.
[3] 劉春,鄒海鋒,向勇. 大數據環境下電信數據服務能力開放研究[J]. 電信科學, 2014(3): 156-161.
[4] 韓晶. 大數據服務若干關鍵技術研究[D]. 北京: 北京郵電大學, 2013.
[5] 張秀典. 電信數據能力開放研究[D]. 北京: 北京郵電大學, 2010.endprint