殷錢安,陳一根,魏國富,梁淑云
(上海觀安信息技術股份有限公司,上海 200333)
電子渠道是以互聯網技術和通信技術為基礎,將產品銷售與服務數字化的運營形式。賈利娟[1]等人提出一種基于運營商大數據的信用風險控制模型,利用運營商的用戶基礎信息構建信用風險控制模型,提升征信評級的精度,降低業務風險。姚登舉[2]等人提出了一種基于隨機森林的特征選擇算法,以隨機森林算法為基本工具,以分類精度作為準則函數,采用序列后向選擇和廣義序列后向選擇方法進行特征選擇。朱佳俊[3]等人提出一種基于用戶畫像的異常行為檢測,模型通過對用戶行為進行特征提取,運用機器學習的方法對正常用戶的行為進行學習,通過馬氏距離和孤立森林算法判定受測行為是否異常。徐世海[4]等人提出了電商風險控制對策的初步探討。章新斌[5]等人在電信運營商安全增值服務創新探討一文中,結合現有的電信運營商,提出了建立一攬子安全服務體系來控制信任風險,給出了一個在IDC運營市場可以控制技術、信任風險且基本可行的安全增值服務方案。王殊妹[6]等人針對電信運營商電子渠道發展模式和策略進行探討后,提出一種后期通用的“一級架構”的電子渠道,以及探討如何選擇電子渠道的發展策略。張浩[7]等人提出了一種基于馬爾可夫模型的電商平臺供應鏈金融風險控制,有效地為電商平臺上的投資企業精準定位了更多優質授信商戶,為其制定中短期或者長期投資戰略提供了數據支撐,為投資方實現收益多元化的同時有效控制其風險。袁俊[8]等人在淺談中國聯通電子渠道信息安全體系規劃中詳細提出了電子渠道系統信息安全建設的總目標,其中包括電子渠道的信息安全風險管理。林志強[9]等人在我國電信運營商全面風險管理(ERM)研究文章中,詳細研究了中國電信運營商全面風險測評研究。
綜上所訴,本文通過關鍵字“運營商”“電子渠道”“風險控制”進行搜索,發現目前國內外學者對于運營商的安全風險控制檢測的研究可以概括為以下兩個方面:一是防火墻技術能夠對網絡通信進行過濾,防止沒有經過授權的訪問進入沒有授權的運營商電子渠道對應的頁面,但是無法防范內部用戶的攻擊;二是通過收集后臺用戶數據,利用機器學習的方法識別相關異常用戶。
風險控制方法主要有兩種基本類型:特征檢測和風控檢測。目前,風控檢測也是其中的研究熱點。該技術通過對電子渠道中的用戶數據建立正常的行為樣本特征,將正常的用戶樣本特征與實際的樣本行為進行對比,捕獲電子渠道中惡意用戶的刻意薅羊毛和惡意操作。該技術對系統本身要求不高,跨平臺性能好,能夠很好地檢測出未知風險。
本文主要是基于運營商電子渠道數據提取用戶數據特征,通過學習已標記的正常用戶和異常用戶特征,訓練出正常用戶與異常用戶行為的識別模型,然后利用已訓練完成的隨機森林模型對測試數據集中用戶行為進行檢測,從而識別出異常用戶。
機器學習是計算機算法的研究,可以通過經驗自動改進。實踐上,機器學習是利用收集到的數據訓練模型,然后通過模型進行預測的一種方法。一個機器學習系統主要由信息環境、學習單元、知識庫和執行單元構成。環境作為外部信息來源,為學習單元提供信息。學習單元利用信息對知識庫進行建立和改進,是實現學習算法的核心。知識庫用來存儲系統的原有領域知識和通過學習獲得的各種新知識。執行單元利用知識庫中的知識求解問題,將求解中的信息反饋給學習單元或者對環境做出響應,并對學習的好壞進行評價。
機器學習常用的方法有決策樹、人工神經網絡、感知器、支持向量機、貝葉斯分類器、最近鄰算法、隱馬爾可夫模型和遺傳算法等。目前,國內外已經開展了機器學習相關技術在異常檢測中的研究,主要方法是把入侵檢測事件作為模式識別問題用機器學習處理,根據網絡流量和主機審計日志檢測異常行為。
隨機森林是一種統計學習理論。它使用bootsrap重采樣從原始樣本中提取多個樣本。每個bootsrap樣本使用決策樹建模,然后結合決策樹進行預測,最后通過投票獲得選票數最多的類,作為最后的預測結果。隨機森林具有較高的預測精度,對樣本噪聲數據和缺失值數據具有良好的魯棒性,并且具有較快的學習速度。隨機森林的變量重要性可以被用于高維數據的特征選擇。當決策樹增加時,隨機森林不會產生過擬合的類似問題,因為外部預測的平均誤差趨向于隨著決策樹模型的增加而收斂。
用戶行為刻畫是對用戶信息進行標簽化,通過對用戶數據的收集和分析,總結用戶的行為習慣,抽象出用戶的整體情況。
以0預繳異常識別場景為例。0預繳業務的目標群體一般是針對新用戶或者目標客戶的,如果被投機者“薅羊毛”,會給運營商帶來損失,同時會讓0預繳業務達不到預期的效果。在分析0預繳訂單數據后,構造用戶辦理0預繳業務次數、辦理的訂單數、剔重后的策劃編碼數、用戶成功辦理的次數、用戶失敗辦理次數/辦理次數的失敗率,按用戶分組,獲得辦理時間排序后兩次操作時間間隔次數最多的間隔。如果相同次數的間隔有多個,考慮到之后會用到識別機器行為的模型,選擇最小的間隔、相同間隔最多的次數、相同間隔最多的次數占比等特征。根據構造的特征,結合業務邏輯,初步判定哪些用戶疑似異常用戶。考慮到僅辦理1次0預繳業務的用戶基本屬于正常用戶,在訓練集中會剔除這部分用戶,以提高模型的運行速度和準確性。
實際場景中,運營商希望能夠在短時間內檢測出異常用戶調用非法接口,同時模型應該有較高的準確率。
在用戶行為刻畫模型上,特征選擇是一個非常重要的數據預處理過程,也就是選取哪些電子渠道中的用戶行為數據對用戶進行刻畫。實際工作中,不好的特征或者特征維度過大會導致運算時間過長,有時甚至無法正確識別異常用戶。良好的特征選擇則可以很好地降低目標函數的收斂難度。
結合特征的相關性、變量變異性、重要程度、數據分布、與目標字段之間的相關關系、變量之間的缺失程度等,對業務特征選擇進行篩選。特征分布示例如圖1所示。

圖1 特征分布
利用不同用戶在使用網上營業廳時產生的習慣進行用戶行為刻畫建模。具體地,通過用戶登錄次數、用戶連續登錄時間段、用戶登錄對應異常用戶局域網、用戶短時間內登錄等信息,刻畫用戶的操作行為。
文章基于隨機森林算法,對已標記的用戶行為數據進行訓練學習,檢測未標記的用戶行為數據,從而識別出異常用戶。
決策樹是隨機森林算法的基本單元。決策樹的構造由隨機向量確定。隨機森林算法的本質是一種結合多個弱分類器減少其誤差的分類算法,模型如圖2所示。

圖2 隨機森林
生成隨機森林的步驟如下。
步驟1:從原始訓練數據集中,使用bootsrap方法隨機抽取k個新樣本數據集,然后建立k分類回歸樹。每次沒有被抽到的樣本組成k個袋外數據(Out-of-bag)。
步驟2:設n個特征,然后隨機選擇每個樹的每個節點的mtry個特征(mtry≤n)。在每個樹的每個節點處隨機抽取,通過計算每個特征蘊含的信息量,在mtry個特征中選擇一個最具有分類能力的特征進行節點分裂。
步驟3:每棵樹最大限度地生長,不做任何剪枝。
步驟4:生成的樹由隨機森林組成,新數據使用隨機森林進行分類。分類結果由樹分類器的投票決定。
最終的分類決策為:

其中:H(x)表示組合分類模型,I(θ)是示性函數,hi(x)表示單個決策樹分類模型,Y表示目標變量。式(1)說明使用多數投票決策的方式來確定最終的分類。
一組分類器h1(X),h2(X),…,hk(K),每個分類器hi(X)的訓練集X都是從原始的服從隨機分布函數的(Y,X)中隨機抽樣所得。余量函數(MarginFunction)定義為:

其中:mg(Y,X)表示在正確分類Y之下X得票數目超過其他錯誤分類的最大得票數目的程度;av(·)表示取平均值,(·)表示取最大值,I(θ)表示示性函數,Y表示目標變量,hk(K)表示某個決策樹。
余量函數用于度量平均正確分類數超過平均錯誤分類數的程度。余量值越大,分類預測越可靠。
泛化誤差(外推誤差)定義為:

其中X、Y表示概率的定義空間。
當決策樹分類模型足夠多hk(X)=h(X,θk)。服從于強大數定律,其中θk是獨立分布的隨機變量。引入隨機變量θk,是為了控制每個決策樹的生長。
可以證明,隨著決策樹分類模型的增加,所有序列θ1…PE*幾乎處處收斂于式(4)。

這解釋了隨機森林不會隨著決策樹的增加而增加。
由此可以看出,隨機森林算法的誤差更穩定,很好地克服了單個決策樹的不足,體現了多個弱分類器組合成強分類器的優勢。
采集某地方運營商電子渠道中的用戶數據,包括用戶登錄時間、用戶登錄時間間隔、用戶登錄頻次等基礎用戶信息,以傳統的風控業務規則篩選出異常風險用戶數據。此方法采集的數據可以使用監督算法——隨機森林算法。
為了增強用戶的粘性,運營商會定期推出一些優惠活動,如贈送話費券、流量券等,但是有時會被部分投機取巧用戶利用,給運營商造成損失。
通過分析某次活動記錄表,鑒于沒有其他數據將不同的用戶聯系起來,所以構建號碼段將不同用戶聯系起來。具體做法如下:根據用戶id截取前7位作為用戶號碼段;按照號碼段進行分組,按時間升序排序構建序號特征;根據序號計算兩次操作的時間間隔,然后根據時間間隔計算具有相同間隔數和相同間隔連續數,從而識別出異常用戶群體。
結果顯示,識別出某一號段中300多個用戶于凌晨1點左右每次間隔33 s領取優惠券。因為時間間隔穩定、連續且操作時間集中在凌晨,號碼屬于同一號段,且66.14%的號碼中含4(運營商中比較差的號碼),所以初步判定這些用戶為異常用戶群體數據,如表1所示。

表1 異常用戶數據
號卡預約電信運營商場景。為讓用戶更便捷輕松入網,提升客戶體驗感,運營商在電子渠道推出號卡預約業務,即用戶可在網上預約號碼。預約號碼時,需填寫用戶名、聯系號碼、證件號碼等信息。同時,也存在部分用戶惡意占用號碼的現象。為了識別出該群體用戶,構建用戶號碼與身份證之間的關系對,利用Neo4j關系數據庫,直觀呈現號碼與證件號碼、證件號碼與證件號碼、號碼與號碼的關系,得到對應的業務異常數據,如表2所示。

表2 號卡預約業務異常數據示例
將數據劃分為三部分——訓練數據集、測試數據集和驗證數據集。在此數據上,構建機器學習的特征:用戶登錄占比(F1)、用戶調用接口的數量(F2)、用戶對業務辦理頻次(F3)、用戶短時間內操作次數(F4)、用戶預約號碼頻次(F5)、用戶是否登錄異常用戶局域網(F6)、用戶24小時連續操作(F7)、是否異常標簽(L)。結果如表3所示。

表3 特征表
按照時間寬度為1、3、5、9天對數據分別進行測試,結果如表4所示。可以看出,傳統的業務風控業務檢測的準確率基本一致,不會隨著時間的積累提高。但是,隨機森林算法對運營商的電子渠道上的風控管理有著穩步的提升。

表4 風控對比
“大眾創業,萬眾創新”是“互聯網+”時代國家的號召,激發了全國人民的創新和創業熱情。作為互聯網渠道的提供者,電信運營商應積極參與創新,電子渠道轉型勢在必行。要堅持電子渠道移動互聯網發展方向,加快傳統電子渠道向互聯網電子渠道的轉移,充分運用大數據分析工具,推動人工智能在電子渠道中的應用。文章中的模型能夠很好地處理業務中的風控檢測,通過不同天數的實驗數據可以發現,不斷訓練隨機森林模型能夠穩步提升業務風控檢測的準確率,進一步擴展了人工智能中的機器學習算法。而在實際環境中,對更廣泛數據的應用和分布式處理和架構值得進一步探索。