周曉偉潘清眉謝俊秀
1.浙江安防職業技術學院;2.溫州商學院;3.中國電信股份有限公司溫州分公司
通信運營商區域業績發展評估對企業進行業績考核,發展策略研究是非常關鍵的參考數據。目前,通信運行商決策層對區域效益發展的評估主要采用人工方式,由管理者決定幾個數據維度,對幾個關鍵的數據維度進行簡單的TOP10進行劃分。該劃分不能真實的反應數據的分布情況,以致誤判區域效益,影響決策。本次采用K-Means算法對區域各個維度的經濟數據進行聚類分析。由于各個維度的經濟數據其經濟價值不同,需要人為參與設定K值,同時盡可能降低人為設置K值的缺陷,本次對聚類結果進行可視化展示,實現多次迭代篩選最符合企業發展需要的結果,具備一定的工程意義。
通信運營商在業務發展的管理上主要采用對區域進行劃分承包的方式,對各個包區的各項經濟指標進行分析,其結果作為評估各個承包區域的經濟效益的依據,該評估影響決策者指標的下達及承包者業績,是個非常重要的評價指標。目前分析的手段主要依靠管理者手工方式,并憑借對企業理解與歷史經驗對數據開展分析,最后進行簡單歸類形成評價依據。由于人工無法準確的把握數據的分布情況,對包區評級時會出現不客觀地評價,例如劃分的前3名包區可能會存在第3名包區跟前兩名相差很遠,但是跟第4名非常接近的情況。同時面對多維度的數據,人為很難進行綜合考慮,容易出現不公正現象,例如從單一維度數據上看某些區域的經濟指標數據非常好,但是從其他維度觀察可以發現這個區域是個高質量的區域,其自然增長率原本就高,并非承包人能力導致,反之有些區域是個負增長區域(如拆遷區域,其用戶數量下降),區域收入只能止損。傳統數據分析手段,無法公正客觀的對承包區的發展情況進行有效評估,降低企業的管理效率。
機器學習科學中對于該業務領域的分析工具很多,如支持向量機的SVM算法、聚類算法、決策樹算法、神經網絡算法等,但是諸多算法存在解讀性差的問題。如基于卷積神經網絡算法,即便有很好的輸出效果,但是很難解析其分類思路,在企業管理中,對數據分析解讀的成本是企業管理效率的重要指標。
考慮到基于K均值算法簡單高效且易于解讀,本次提出基于聚類算法的區域發展效益評估,對多個維度的信息數據按照數據自然分布進行劃分,更真實反映區域經濟效益情況。同時結合通信運營商實際生產需要,管理者需要參與K值的人工設定,因此使用IBM的SPSS Modeler對數據進行可視化,不斷迭代調整K值,使聚類結果更貼近考核需要,對實際生產具有一定的借鑒意義。
聚類算法是將某一維度的樣本劃分為不同相交的子集,簡稱為簇,簇內數據可以認為是相同類型的集合,不同的簇代表不同的數據含義。
K-Means算法是聚類算法中比較常用的算法,其簡單快捷的特點被廣泛應用。該算法是基于距離的聚類算法,對于給定樣本集{x1,x2,x3……xn},其中n為樣本個數。設定好K值,隨機選擇K個中心點計算樣本到中心的距離,經過多次迭代,直到簇內所有點距離中心最小,簇外樣本距離中心最大化,最終以簇內方差作為聚類準則函數,方差越小,聚類效果越好[1]。
K均值聚類被廣泛應用于多種業務場合,文獻[2]將該聚類算法用于石油管道缺陷標記,其識別率高于人工缺陷識別。文獻[3]利用K均值聚類算法對商務客戶進行細分歸類,也是一直比較常見的商業分析案例。文獻[4]利用K均值算法對圖像進行分割,應用于機器視覺業務領域,對該算法進行一次較為創新的嘗試,并取得良好的應用效果。文獻[5]改進了K-Means算法的聚類中心選擇策略,結合數據對象的密集度與最大近鄰半徑,選擇更加接近實際簇中心的數據點作為初始聚類中心,并運用在電力系統的異常檢測上。綜上所述,K均值聚類算法可以挖掘數據本身存在的分布規律,該規律可用于商業管理、異常識別、歸類分析等,是簡單高效并且易于被理解接受的分析方法。
代理商承包區域的業務發展數據維度繁多,有酬金、門店補貼、創收、增收、環比、同比、業務發展量。由于通信運營商的產品種類多樣,業務發展量里面不同的產品對于企業的價值不同,其酬金也各不相同。因此需要將多個維度的數據按照業務規定口徑進行整合,降低數據維度。這里針對區域發展各維度數據按照一定口徑總結出區域的發展總分、收入、酬金占收入比三個維度的特征數據作為評估依據(如圖1所示),評估依據必須具有一定程度的代表性,能夠反映某個方面的綜合特性,口徑的制定一般需要管理者參與。

圖1 數據預處理Fig. 1 Data preprocessing
(1)對特征維度的樣本集合數據發展總分M1、收入M2、酬金占收入比M3三個集合樣本M={x1,x2,x3……xn}。
(2)人工設定K個聚類個數,聚類中心{z1,z2……zk},計算樣本與聚類中心的歐式聚類:將樣本xi分配至歐式聚類最小的族內。
(3)按照均值重新計算簇內中心點zi={zj1,zj2,zj3……zjn},重新執行步驟2直到簇的均值中心點不再變化。
對于K-Means算法K值設定是該算法唯一的缺陷,不少學者針對K值的設定提出了很多改進的算法。有學者通過遺傳算法優化K值設定,采用并行計算的方式降低K值和初始聚類中心對聚類結果的影響,利用平均類內距和類間距設計適應度函數保證聚類結果的正確性,改進遺傳算法的遺傳算子來提高算法效率[6],也有引入CH評價指標對K值確定進行優化的辦法[7]。但是在實際管理工作中,管理者考慮的因素往往超過數據其本身所表達的信息,管理人員參與設定K值意愿非常高,對K值設定在管理上具有相當重要的意義,因此本次引入SPSS Modeler對數據進行可視化展示,人工設定K值,通過可視化展示人工不停迭代,達到良好的工程應用效果[8]。(如圖2、圖3、圖4所示),不同的K值聚類效果:

圖2 K值為3的聚類結果Fig.2 Clustering results with K value of 3

圖3 K值為4的聚類結果Fig.3 Clustering results with K value of 4

圖4 K值為5的聚類結果Fig.4 Clustering results with K value of 5
設置不同的K值,每個聚類的樣本數量也會發生變化,根據當月考核的要求選擇不同的K值,更符合實際生產需要,并且數據可視化讓數據的可讀性更加友好。當K值為3時,大量數據聚集在聚類1中,根據分布特性查看,其優質區域不明顯(效益優質區域為酬金占收入比偏低,但是包區收入偏高的區域),即使聚類效果合理也放映實際情況,但是其管理上意義不明顯。當K值為4時,發展效益差的區域如聚類1展示,其業務特性非常明顯即酬金占比偏高、區域收入偏低,但是效益優質區域(酬金占比偏低、區域收入貢獻高的區域)如聚類4表現得并不明顯,總體效果比K值為3的分類效果有明顯的提升。最后當K值為5時,對類劃分情況進行觀察,從數據分布特征可以觀察到,聚類1里面區域的收入處于整體樣本的下水位,但是酬金卻分布在全體樣本的上水位段,并且發展量也處于上水位段,基本可以判斷其發展質量存在問題,該類區域可以評價為負效應區域,并列入重點關注區域。聚類3里面區域的收入處于上水位段,但是酬金卻不高,可列為重點獎勵區域。從整體分布上,每個聚類的數據分布也比較合理,并未出現單一聚類超過50%分布的情況。以上數據特點人工無法通過傳統分析手段直接得出[9]。
本次針對每個區域歸屬的聚類,并根據每個維度數據的分布特征,對區域發展特點打標簽,并通過電話調查訪問所有的區域負責人,對該評價的認可情況,結果一致認可兩種極端情況:既得利益者只因為其本身區域優勢帶來的福利,與低酬金回報者但其對區域貢獻占比高。其基本能夠正確評估區域發展效益問題[10]。
本次基于K-Means算法對通信運營商區域承包發展效益進行劃分,利用SPSS Modeler對數據進行可視化展示,對于每個聚類的各個維度數據分布的特征進行評價打標簽,并且根據實際管理需要,手工調整K值篩選特定數量的承包區域,進行績效考核。并且相比其他機器學習算法,K-Means算法在數據解讀上更加友好,更容易被非專業人士理解接受,降低企業的管理成本,提高企業的管理效率。實驗證明,該評估方法在管理效率上、劃分準確性上以及數據可讀性上優勢明顯,具備一定的參考意義。本次對區域經濟效益評估,在數據維度上選取偏少,對于區域本身的特性比如拆遷區域,其區域人口短期內處于凈流出狀態對于經濟的影響分析未考慮,是在后續的工作中有待于提升的地方。
引用
[1] LI H Y,HE H Z,WEN Y G.Dynamic Particle Swarm Optimization and K-means Clustering Algorithm for Image Segmentation[J].Optik-International Journal for Light and Electron Optics,2015,126(24):4817-4822.
[2] 王宏安,陳國明.基于K均值聚類的油氣管道漏磁缺陷標記方法[J].科學技術與工程,2020,20(21):8643-8646.
[3] 靖立崢,吳增源.基于改進K‐means算法的電子商務客戶細分研究[J].中國計量大學學報,2020,31(4):483-489.
[4] 陳廷兵,敬正彪,楊濤,等.基于K-means與模板匹配的水表指針示數判讀方法[J].計算機應用與軟件,2020,37(8):183-187.
[5] 吳蕊,張安勤,田秀霞,等.基于改進K-means的電力數據異常檢測算法[J].華東師范大學學報(自然科學版),2020,7(4):79-87.
[6] 黃松,邱建林.改進的遺傳K-means算法及其應用[J].計算機工程與設計,2020,41(6):1617-1623.
[7] 張靖,段富.優化初始聚類中心的改進k—means算法[J].計算機工程與設計,2013,34(5):1691-1694+1699.
[8] Jaiprakash Gupta,Jon Patrick,Simon Poon.Clinical Safety Incident Taxonomy Performance on C4.5 Decision Tree and Random Forest[J].Studies in Health Technology and Informatics,2019,266:83-88.
[9] 賈瑞玉,宋建林.基于聚類中心優化的k-means最佳聚類數確定方法[J].微電子學與計算機,2016,33(5):62-66+71.
[10] 林女貴,吳元林.基于改進k-means的大數據清洗方法[J].微型電腦應用,2021,37(11):133-136.