姚 瑞,唐 泉
(新疆師范大學 數學科學學院,烏魯木齊 830017)
統計學習,也稱為統計機器學習,在計算機及其應用領域中具有重要意義.統計學習[1]的主要方法是基于數據建立統計模型來預測和分析數據,由監督學習、非監督學習、半監督學習和強化學習組成,包括k近鄰法、樸素貝葉斯方法、支持向量機等方法.半監督學習是一種同時兼顧標簽樣本和無標簽樣本的學習方法,利用標記樣本的優點來精確描述單個樣本,同時使用大量無標記數據來進一步提高分類器的性能[2].半監督支持向量機(S3VM)最初應用于文本分類[3],主要有梯度下降法(Gradient descent)[4]、確定性退火方法(Deterministic annealing)[5]和半正定規劃方法(Semi-definite programming)[6]等研究方法.模糊支持向量機在傳統支持向量機基礎上提出,分類精度和回歸精度更高,查翔等[7]提出了一種基于多區域劃分的模糊支持向量機方法;譚萍等[8]結合模糊C-均值與FSVM 提出了一種多級的模糊支持向量機對說話人進行語音識別;Muscat R 等[9]提出了分層模糊支持向量機模型.本文討論支持向量機模型,對支持向量機模型的基本思想、發展完善及應用情況進行概述,并深入探討一種通過識別誤分類點來構造半監督的模糊支持向量機模型及算法實現.
對于模糊訓練集

模糊約束規劃為:

其中,λ(0 ≤λ≤1)為置信區間.
其對偶問題為:


Step4:計算ω*和b*,如式(4);
Step5:構造最優分類超平面(ω*·x)+b*=0,得到最優分類函數式(5).
對于模糊非線性問題,引入變換

則對應的模糊非線性訓練集變換為:

其中,Xi=Φ(xi) (i=1,···,l).在置信水平λ(0 ≤λ≤1)下,模糊分類問題轉化為:

其中,C>0為懲罰參數;ξi=(ξ1,…,ξl)T為松弛變量.
該二次規劃存在最優解,通過取適當的核函數,使得K(xi,xj)=Φ(xi)·Φ(xj).可求得二次規劃式的對偶問題為:

最優分類超平面為(ω*·x)+b*=0,令g(x)=(ω*·x)+b*,最優分類函數為:

模糊支持向量機的算法:
Step1:構造隸屬度函數,確定隸屬度

Step2:給定模糊非線性可分的訓練集
Step3:求解線性規劃式(8)得到最優解

Step4:求解(10),計算b*;
Step5:構造最優分類超平面(ω*·x)+b*=0,得到最優分類函數式(11).
由于可疑的誤標記點仍包含有用信息,如特征位置信息,在數據分類中仍起重要作用,為充分利用可疑的誤標記點,下文使用位置信息的方法獲得最佳分離.
對于集合S中任一點,保留位置信息xi,刪除標簽yi.令Xl=S表示所有標簽訓練點數據集,Xu={1,…,n} 是無標簽訓練點的數據集.假設令yi表示標簽向量,軟間隔的半監督二次曲面支持向量機(SSQSSVM)模型:

令α≥0n為拉格朗日對偶變量,則問題(12)的拉格朗日函數可寫為:

對于一個給定的yu,任意向量α(yu) 使D(α(yu),yu)≤maxαD(α,yu).
SVM 最優值為下界,所有葉節點中目標函數的最優值為上界.

輸入:訓練數據集(xi,yi) (i=1,…,n);ε.
Step1:用CL-stability 算法檢測訓練集中可疑的錯誤標記點并刪除標簽.獲得數據集Xl和Xuχu.設k=1,U=+∞.將原始問題重新定義為(12).
Step3:找到具有最小下界L的節點.如果U-L<ε,則在該節點獲得返回值uˉ,算法停止并進行Step4;否則,遵循深度優先策略到達下一個節點.給無標記的點si分配標簽yi,用分支相應的si及標簽-yi探索相反的分支.返回Step2.
Step4:通過分解(14)中的uˉ得到原始空間中的分離二次曲面.
圖1 和圖2 是人工數據集分類結果,準確率達到100%.

圖1 線性可分支持向量機

圖2 線性不可分支持向量機
圖3 使用Iris 數據集,在實驗精度0.80的閾值下,選取數據中前兩個特征值,進行實驗.

圖3 Iris數據集實驗
本節將支持向量機應用到國有企業管理者的考評系統中,將企業管理者的表現分為優、良、中、差四個等級,由于支持向量機是二分類模型,所以需要將多個支持向量機以子分類器的形式加以組合.
表1將14家國有控股企業的管理者作為樣本,數據來源于毛惠媛對東北地區企業家管理創新機制的研究[10],用支持向量機對企業管理者的績效進行考核等級的分類處理.

表1 國有企業管理者評價指標得分表
由表1 可以看出,對企業管理者的考評打分的量綱是不同的,為了消除這一偏差,我們先對所有數據進行歸一化處理,得到如表2中數據.

表2 國有企業管理者評價指標得分歸一化處理結果
在給出的14 位企業管理者的數據中,首先選定1~12 號企業管理者的數據作為訓練數據,13 號與14 號企業管理者為測試數據集.1—3 號企業管理者的分類為優;4—6 號企業管理者的分類為良,7—9 號企業管理者的分類為中,10—12 號企業管理者的分類為差.
將上述分類數據兩兩組合構造子分類器,既構造優-良、優-中、優-差、良-中、良-差、中-差六個分類器,對進行數據訓練.由于上述訓練數據集可能存在誤分類數據,于是可以構造模糊支持向量機,將測試集分別帶入6 個子分類器中,出現頻數最多的分類結果認定為對企業管理者績效的分類最終結果.訓練得到六個子分類器的分類閾值分別為:-0.0244;-0.0082;-0.0214;0.5579;-0.2947;0.479.(詳見表3)

表3 測試集分類結果
從表3知,13號企業管理者的績效考核分類結果為“差”,14 號企業管理者的績效考核分類結果為“中”.
本文提出的半監督模糊支持向量機方法有效地縮短了計算時間,該算法比基準SDP 松弛方法更高效.另外,本文將SVM 方法應用于企業管理者的表現等級評定系統這一實際問題,得到較好的分類結果.但該方法處理大規模的數據集(n>>1000)方面受限制.后續,我們將考慮如何解決此問題.