石廣龍
摘 要:K均值算法的兩個不足——最終聚類結果中簇的數目即K值需要用戶事先設定以及用戶一般不能直接對聚類結果中簇的半徑作限定,限制了它的特定場合應用。本文結合上市公司績效分類背景,對K均值算法作了改進,提出一種遞歸K均值算法。遞歸K均值算法不需用戶在聚類之前就設定最終聚類結果中簇的數目,一定程度上減輕了用戶負擔;并且可以直接對聚類結果中簇的半徑作出限定,有利于對簇內數據對象的相似程度進行控制。遞歸K均值算法的上述特性使得它可以很好地應用于上市公司績效分類當中,提升分類的客觀精確性。
關鍵詞:遞歸K均值算法 聚類分析 上市公司績效分類
中圖分類號:F224 文獻標識碼:A 文章編號:2096-0298(2018)10(c)-169-02
聚類分析是數據挖掘中最重要的技術之一,主要目的是根據數據的對象特征及關系信息將數據對象分簇,使簇內的對象之間區別足夠小,相似性足夠大,而不同簇的對象之間相似性足夠小,區別足夠大;同一個簇內的對象之間的相似程度越高,不同簇之間的差異程度越高,說明聚類分析的效果越好。K均值算法是一種經典的聚類算法,但是它也存在一些不足,限制了它的應用和發展。本文結合上市公司績效分類的背景,嘗試對K均值算法作出改進,提出一種遞歸K均值算法,并將其應用于上市公司績效分類,以提高分類的客觀精確性。
1 K均值算法的不足
1.1 K均值算法基本思想
首先,由用戶根據應用問題選擇K的值,即選擇把數據對象分為K個簇;對于每一個數據對象,都被歸納到一個質心,這個質心此時離它是最近的;所有被歸納到同一個質心的所有數據對象組成一個簇;其次,根據上一步得到簇的情況,更新每個簇的質心。然后,重復歸納每個數據對象到最近的質心;最后,重復以上更新質心和歸納數據對象到質心的過程,直到質心不再發生變化[1]。
1.2 K均值算法的兩個不足
K均值算法的不足,使得它在一些特定應用中受到限制[2],兩個主要不足包括以下內容。
(1)聚類數目K的值需要用戶事先給定:在大多數實際應用中,用戶事先無法準確判斷多少個簇最理想。K值過大,會使聚類結果過于復雜難于分析;K值過小,會使聚類結果失去很多有價值的信息[3]。
(2)用戶不能限定聚類結果的簇的半徑:K均值算法的輸入是數據對象集與人為設定的K,輸出是K個簇。通常,它輸出的K個簇的半徑(一個簇的所有數據對象到質心的最大距離為這個簇的半徑)不受人為約束,即聚類形成的K個簇,有些簇的半徑可能很大,有些簇的半徑可能很小[4]。
2 一種遞歸K均值算法
2.1 遞歸K均值算法思想
對于含有n個數據對象的數據集,以根為節點,利用K均值算法做聚類,并計算每個簇的半徑,若半徑不大于事前設定的閾值,則這個簇不再劃分;若半徑大于給定閾值,則利用K均值算法對其進行劃分,程序遞歸執行,直到所有葉節點簇的半徑都不大于給定閾值。
2.2 遞歸K均值算法特點
(1)樹型結構中葉子(簇)的數目取決于簇的半徑閾值Y,Y可以根據聚類的特定目的而設定。Y越小,簇的數目就越多并且簇內數據對象的相似程度就越高;Y越大,簇的數目就越少并且簇內數據對象的相似程度就越低,這使得簇內對象相似性可控。
(2)不同于基本K均值算法在聚類之前就設定最終聚類結果中簇的數目,遞歸K均值算法僅僅設定每次調用基本K均值算法對數據對象集聚類簇的數目,一定程度上可以減輕用戶負擔。
3 遞歸K均值算法在上市公司績效分類中的應用
將提出的遞歸K均值算法應用到上市公司績效分類中:一方面,檢驗遞歸K均值算法在上述兩個方面改進的有效性;另一方面,基于遞歸K均值算法建立一種上市公司績效分類方法,提升分類的客觀精確性。
3.1 傳統分類方法及不足
(1)傳統分類方法。國外常見的上市公司績效分類方法有《財富》500強分類方法、《商業周刊》分類方法;國內比較常用的上市公司業績評價方法有誠信評估公司、《上海證券報》以及上海證券交易所的績效評價分類方法[5]。
(2)傳統分類方法的不足。第一,指標選取較少,而且各指標權重由人為設定,難于科學全面地體現上市公司經營績效真實情況;第二,過度追求上市公司個體最終得到一個綜合分數,只關注上市公司排名,忽略了上市公司群體的績效分類,也沒有深層次挖掘上市公司績效相關的更多信息[6]。
3.2 上市公司績效分類對聚類算法的特定要求
(1)通過聚類分析,發現某一行業中,可以根據經營績效劃分為幾個群;但是在聚類之前不知道劃分為幾個群比較合適,即聚類結果數目(K)不能在聚類之先人為指定,而要根據具體聚類數據確定。
(2)對一個群內上市公司經營績效相似程度作出限定,這樣的分群才有實際分析意義,即聚類形成的簇的半徑R應該在一定程度之內,R在聚類之前人為指定。
3.3 基于遞歸K均值算法的上市公司績效分類
(1)分類模型與過程。建立基于遞歸K均值聚類算法的上市公司經營績效分類模型與過程:第一,上市公司指標選取,選取體現上市公司的償債水平、盈利水平、成長水平三大類16個財務指標(2017年A股電子信息行業331家上市公司真實數據);第二,利用主成分分析方法,分別對償債、盈利、成長水平三大類指標進行降維,將每家公司的特征屬性降至三維;第三,針對主成分分析處理后的數據,分別使用基本K均值算法與遞歸K均值算法做聚類實驗,得到結果簇;第四,對實驗結果做對比分析,驗證遞歸K均值算法在K值選取與聚類結果簇的半徑約束方面的改進是否有效;第五,基于遞歸K均值算法的聚類結果,做上市公司績效分類,并初步驗證。
(2)結果對比分析:聚類結果對比如圖1、圖2所示,兩種算法比較如表1所示。
實驗中簇的半徑區間:K均值算法為[0,27.884];遞歸K均值算法為[0,8.090],小于閾值10,簇較均勻。由聚類結果可以證明遞歸K均值算法在K值選取與聚類結果簇的半徑約束方面的改進是有效的。
(3)績效分類效果初步驗證:根據遞歸K均值算法的聚類結果,電子信息行業331家上市公司被分為了7個群,經初步驗證,每個群內的公司在經營績效方面都具有較高的相似性,即該方法提升了上市公司績效分類的客觀精確性。
4 結語
本文結合上市公司績效分類的具體應用背景,提出了一種遞歸K均值算法,并將其應用于上市公司績效分類當中,提升了分類的客觀精確性。
參考文獻
[1] 馮超.K-means聚類算法的研究[D].大連理工大學,2007.
[2] 趙恒.數據挖掘中聚類若干問題研究[D].西安電子科技大學, 2005.
[3] 段明秀.層次聚類算法的研究及應用[D].中南大學,2009.
[4] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008,19(1).
[5] 馬璐.企業戰略性績效評價系統研究[M].北京:經濟管理出版社,2004.
[6] 馮必容.基于價值的企業戰略績效評估體系[J].技術經濟與管理研究,2006(1).