徐俊芬,葉俊杰,劉業政
1.合肥工業大學管理學院,合肥 230009
2.過程優化與智能決策教育部重點實驗室,合肥 230009
基于相似領域共享特征的分類學習模型
徐俊芬,葉俊杰,劉業政
1.合肥工業大學管理學院,合肥 230009
2.過程優化與智能決策教育部重點實驗室,合肥 230009
傳統上下文在分類研究中通常存在失真和有效性等問題。引入研究對象領域的相似領域作為上下文,借助遷移學習理論,使用結構化相似性學習方法構建研究對象領域和其相似領域間的低維共享特征,提出一種基于相似領域共享特征的分類學習模型。實驗以QQ空間的個性化設置數據作為上下文,對用戶電子商務網站頁面的風格偏好進行分類,驗證了所提模型的可行性和有效性。
分類;相似領域;上下文;共享特征;特征遷移學習
分類算法是機器學習、模式識別和數據挖掘等領域中被廣泛研究和應用的一個重要課題。分類學習模型的有效構建很大程度依賴于充足的樣本和有效的特征信息,然而在現實中數據不完備現象廣泛存在,從而導致分類準確率不高。為此,許多研究者提出了基于上下文的分類學習模型[1-2]。這類模型一般引入用戶描述文件(User Profile)[3]、在線社會關系網絡(OSN)[4]、位置[5]等各種各樣的情境上下文,以此作為目標分類的特征信息或作為輔助信息來提高分類模型的有效性。這類模型表現出了較好的分類性能,但有時這些特征信息的準確性并不能保證,且該類傳統上下文對某些特定研究領域并不存在有效影響,這使得許多模型的推廣應用受到限制。例如,在拍拍網上需要判別用戶偏好于何種風格的Web頁面時,用戶的位置、教育程度等上下文的利用并不能有效地提高分類效率,而性別、年齡等雖然對部分風格選項有效卻可能由于信息失真而使模型失去效果。
上例中,由于拍拍網用戶大部分擁有開放的QQ空間并對其空間風格和頁面進行了個性化配置,由此可以通過一定的技術手段有效獲取這些信息,而這些信息與商品展示頁面風格偏好同屬對Web頁面風格的偏好,屬于相似領域,其中必然蘊含著用戶對頁面風格的偏好信息。若將這些信息作為上下文來構建相關的分類模型,其分類效果應該會更好。為此,本文提出一種基于相似領域共享特征的分類學習模型,即CM-CFBSD(Classification model based on the Common Features Between Sim ilar Domains)。本文嘗試借助遷移學習理論[6-8],利用特征遷移學習技術中的結構化相似性學習方法(Structural Correspondence Learning,SCL)[9]獲取上下文和研究對象之間的共享特征,并將此作為上下文集成利用的有效橋梁從而構建CM-CFBSD模型。該模型提出引入相似領域特征信息作為新的上下文建模數據源,有效地解決了上下文失真以及某些特定領域分類中缺乏有效上下文的問題,具有一定的應用價值。
特征遷移學習技術是遷移學習中一種主流的技術方法,該方法旨在不同但相似的領域之間通過挖掘領域間的共享特征來實現知識的有效遷移,其學習過程就是發現這部分共享特征的過程。由此共享特征的獲取問題受到了廣泛的關注,不少學者對此展開深入研究。例如,Blitzer等[9]提出了SCL方法,利用領域未標記數據提取一些降低領域間差異的相似性特征來解決NLP問題;Bonilla[10]等人將模型建立在高斯過程的基礎之上,由此誘導得出共享特征;Dai等[11]同時對兩領域數據進行自學習聚類多次迭代來尋求一個共同的特征表示。這些方法從不同角度解決了特征學習技術中獲取共享特征的問題。其中,SCL方法在域自適應問題上表現出了良好的性能,且能精煉地提取出領域間的一致性特征和依賴關系。
K-Means聚類算法則是一種基于領域內樣本間相似性度量的間接聚類算法,由M acQueen于1967年首次提出。該算法處理流程清晰易懂,操作簡便,并因其高效性、可擴展性,許多聚類問題都選擇該經典算法。同時,K-Means聚類算法可有效地發現數據分布和其中的隱含模式。
CM-CFBSD模型主要包括三個部分:(1)應用SCL方法構建相似領域A、B之間的低維共享特征集;(2)將學習得到的低維共享特征集附加到領域A和領域B的原特征集上,生成相應的拓展特征集并據此進行聚類;(3)按照最近原則[12]將兩領域的聚類類別一一映射,獲取兩領域間的類別映射關系,以此結合領域A的特征實現領域B的分類。
3.1 相關符號定義
定義1領域A、B的樣本集分別記為{Ai}和{Bi},i= 1,2,…,n,其中n為兩領域的樣本數,且兩領域的樣本是一一對應關系。
定義2樣本Ai的特征表示為F={f1,f2,…,fk},其中k為特征集F的特征數。相應地,Bi特征表示為G= {g1,g2,…,gl},其中l為特征集G的特征數。現將領域A、B的樣本相融合構造一個新的樣本集:X={Xi},i=1,2,…,2n,其中2n為樣本集X的樣本數,其特征表示為F∪G,共k+l個特征。記Xij為樣本i的第j個特征值,當1≤i≤n,1≤j≤k時,Xij=Aij;當1≤i≤n,k+1≤j≤k+l或n+1≤i≤2n,1≤j≤k時,Xij=NULL;當n+1≤i≤2n,k+1≤j≤k+l時,Xij=Bi-n,j-k。
3.2 基于相似領域上下文的低維共享特征學習
為了將相似領域A的信息應用于領域B中,有效集成該上下文,首先需提取出相似領域之間的橋梁信息,記為樞紐特征集P={p1,p2,…,pm},其中m表示樞紐特征集P的特征個數。本文相應地構建m個二值分類器,將pj(j=1,2,…,m)表示為“該樣本中是否具有樞紐特征j,若有,則pj=1,反之pj=-1”。最后,將分類問題轉換成m個線性預測問題:

其中,wj為X的特征集F∪G的權重分配向量,是一個含有k+l個值的實值列向量,表示用于樞紐特征預測的k+l個特征的權重。wj的求解問題可轉換為求解如下形式的二次無約束規劃問題:

其中,yij是樣本i對樞紐特征j的標注值;‖w‖2是權重分配向量w的內積;λ是調整訓練數據錯誤率和權重分配向量w內積的一個平衡因子;這里L(w·xj,yij)是一個實值損失函數,本文采用hinge損失函數,定義為:

算出權重分配矩陣W={w1,w2,…,wm}以后,本文按照文獻[9]對W作奇異值分解,由此得出低維映射θ,其中θ選取奇異分解所得矩陣U的轉置矩陣的前q行,依此得到聯系最緊密的q個共享特征,記為S={s1,s2,…,sq}。θXi是樣本Xi的共享特征S的實例化表示,記為Si,即Si=θXi。該共享特征集充分地挖掘出領域A、B之間的一致性信息,有效實現跨領域上下文的集成。

3.3 基于拓展特征的領域聚類
將應用SCL方法從相似領域A、B學習得到的低維共享特征集S分別附加到原特征集F和G上,生成拓展特征集F∪S和G∪S,并在此基礎上利用K-Means算法分別對領域A樣本集{Ai∪Si}和領域B樣本集{Bi∪Si}進行聚類,最后得到聚類結果、,i,j= 1,2,…,h。具體過程如下(以領域A聚類為例,領域B聚類同理):
輸入:領域A樣本集{Ai∪Si},簡記為{Zi},i=1,2,…,n。
步驟1指定聚類數目h。
步驟3計算每個樣本到h個類中心點的距離,將所有樣本分派到最近的類中。

步驟4重新確定h個類中心。

步驟5判斷是否滿足終止條件,若沒有,返回步驟3,不斷反復上述過程,直到滿足終止條件。
3.4 基于相似領域上下文的分類
為了便于分析,本文用每個類別的中心點表示相應的類別,即:?,?,i,j=1,2,…,h。在上一步得到的聚類結果的基礎上,將領域A和領域B的每類中心點中的原特征集通過共享特征的線性映射矩陣θ將其線性表示成包含q個元素的特征向量。再加之每類中心點中原有的q維共享特征向量,由此將領域A和領域B的h個中心點映射到Rh×2q空間中,即兩個領域的中心點都轉換成了相同維度的向量,2q維的行向量,因而具有可比性。其次,計算經線性轉換后的和的歐式距離,并為尋找一個最近的,此中心點所對應領域A的類別即是所對應領域B類別的映射類。該映射過程可表示為:

經上述處理后,領域A和領域B的類別處于一一映射的關系,由此確定領域間的類別映射關系。因此,模型借助領域A、B間的共享特征,有效集成相似領域A該上下文,并在此基礎上根據類別映射關系實現領域B類別的預測。
3.5 算法步驟
輸入:相似領域A、B的樣本集{Ai}、{Bi},總樣本集X={Xi},以及待分類樣本
(1)選擇m個樞紐特征,構建m個二值分類問題。
(2)For j=1 to m

(4)應用K-Means算法分別對樣本集{Ai∪Si}和{Bi∪Si}聚類,并返回聚類結果KA、KB。

4.1 應用背景和實驗設計
在用戶電子商務網站web頁面風格偏好分類中,像用戶的性別、年齡、位置等傳統上下文對偏好分類不能起有效作用,而用戶的QQ空間頁面個性化設置卻蘊含有用戶頁面偏好信息。針對這個問題,可用本文所提模型加以解決。因此,本文選取用戶對電子商務網站w eb頁面的風格偏好作為研究對象,而將QQ空間頁面個性化設置作為上下文,以期利用上述模型實現網購用戶頁面偏好分類。
具有相同認知特征的用戶對頁面的展示形式有相同認知偏好。因此,該實驗將用戶的頁面認知特征作為以上兩個領域的樞紐特征,分別為p1、p2、p3,即對表象信息的偏好[13]、對頁面復雜性的偏好[14]和對頁面交互性的偏好。模型中權重分配向量的訓練是一個二次無約束規劃問題的求解過程,本實驗將平衡因子λ設為0.000 01,并采用中規模的擬牛頓搜索算法。在尋找兩領域的低維共享特征表示時,本實驗選取3個最密集的共享特征(q=3)。在K-Means聚類學習過程中,距離測量采用歐氏距離,迭代停止條件是各樣本所屬類別不再發生變化。
4.2 數據采集
鑒于本文所提方法的應用背景為兩個相似領域(兩個存在著廣泛顯性共享特征的領域),且要求領域間的數據是一一對應關系,同屬于一個用戶,而目前該類研究中普遍采用的“Text,E-mail,W iFi,Sen”[6]這四個標準數據集屬于不同領域不同用戶的數據,不存在一一對應關系,因而對本文方法適用性較差。因此,本文通過實驗方式獲取用戶QQ空間頁面個性化設置和用戶電子商務網站web頁面的偏好信息這兩大數據集作為領域A和領域B。其中,領域A數據集通過人工上網抓取獲得,共有400個樣本,每個樣本由14個特征組成;領域B數據集通過問卷調查獲取,問卷以圖1(a)~(d)中的4種風格頁面為考察對象據此收集數據,該數據集共有400個樣本,每個樣本由12個特征組成。以上樣本集合的特征信息及經預處理后的特征值等相關信息如表1所示。此次實驗在400個樣本中隨機抽取80%(300個)作為訓練集,剩余的20%(100個)作為測試集對模型分類性能進行驗證。

圖1 4種不同風格的商品展示頁面

表1 經處理后的樣本數據集合特征信息
4.3 實驗結果
采用EXCEL2007對所收集的數據進行規范化處理,再使用MATLAB2008計算獲取A、B領域間的低維共享特征,然后使用Clementine的K-Means算法分別對A領域和B領域的訓練集進行聚類,并根據聚類結果確定其類別映射關系,如圖2所示。圖中箭頭表示兩個領域類別之間的映射關系,例如,領域B的類對應于領域A的類;而類標后括號中的數字指代該類所包含的樣本數。

圖2 領域A和領域B的類映射關系
4.4 模型驗證
為了驗證所提模型的有效性,本文還用主觀判定法和基于相似領域原特征的分類模型(CM-SD)對測試集進行分類。主觀判定法是指依據人們現有的知識經驗主觀地為待分類樣本的各個特征分配權重,通過加權學習得以實現分類,在本實驗中就是根據對用戶頁面風格偏好的影響因素的認識和4.2節中表1的特征歸類,平均分配領域A和領域B各樞紐特征下的原特征的權重并加權求和確定3個樞紐特征的取值,最后依據樞紐特征的取值實現樣本類別預測。CM-SD法與本文的CM-CFBSD法相似,區別在于CM-SD法在領域聚類時沒有集成利用獲取得到的共享特征,直接對原特征表示的領域樣本聚類(聚類方法仍是K-Means算法),據此獲取類別映射關系以實現分類。以上三種方法的實驗結果如表2所示。

表2 三種方法在測試集上的分類準確率對比
表2數據顯示,從總準確率上來看,本文提出的CM-CFBSD法顯著優于主觀判定法、CM-SD法,具有良好的綜合分類效果。從各類準確率來看,CM-CFBSD法對每類樣本的分類準確率皆優于CM-SD法,這表明共享特征S對樣本的特性表征起關鍵作用,能有效消除噪音數據,保證重點知識的集成利用。相比于主觀判定法,CM-CFBSD法在第1、2、4這三類分類效果更好,第3類則略差。觀其各類樣本特征發現,主觀判別法在特征顯著易察明的類別具有一定的優勢,但對特征顯著性較差的類別進行分類則比較困難。CM-CFBSD法則不論樣本特征取值是否存在顯著差異,都能良好的對樣本加以分類,能有效地彌補主觀判定法的不足,適應性更強。這主要是因為該方法不僅通過低維共享特征有效集成相似領域上下文,此外還在分類時使用了更為客觀的K-Means聚類算法,從而可根據樣本數據分布有效挖掘其中的隱含模式。
實驗結果表明了通過共享特征來集成利用相似領域上下文進行分類學習的高效性。該實驗基于QQ空間領域和電子商務網站領域的低維共享特征來實現用戶電子商務web頁面的風格偏好分類,該共享特征精確地提煉出兩個領域之間的關系,并有效識別QQ空間領域這一相似領域上下文信息中對電子商務領域用戶頁面偏好分類產生重要影響的關鍵因素,減弱上下文中噪音產生的干擾,使得上下文的利用更合理、更有效,分類準確率更高。該評價結果很好地驗證了本文所提模型的有效性和可行性。
在分類研究中,分類學習的上下文信息利用的有效性問題是一個極具挑戰性和研究意義的熱點問題。針對傳統上下文的準確性不能保證且對某些特定研究領域并不存在有效影響的問題,本文創新性地提出了跨領域上下文信息在分類學習模型中的應用,在該問題上借助遷移學習理論,構建一個基于相似領域共享特征的分類學習模型。實驗表明,該模型通過獲取相似領域間的共享特征從而充分利用上下文信息,可有效實現研究領域的準確分類。相較于實驗中其他兩種方法該模型的分類準確性具有明顯優勢,但從總體來說其分類準確率仍不是很高,存在提升的空間。今后將進一步改進模型與此同時使用網絡用戶的真實數據進行模型測試。
[1]王立才,孟祥武,張玉潔.上下文感知推薦系統研究[J].軟件學報,2011,23(1):1-20.
[2]Chen M M,Sun J T,Ni X C,et al.Improving context-aware query classification via adaptive self-training[C]// Proceedings of the 20th ACM International Conference on Information and Know ledge Management,New York,2011:115-124.
[3]Vieira V,Tedesco P,Salgado A C.Designing context-sensitive systems:an integrated approach[J].Expert Systems with Applications,2011,38(2):1119-1138.
[4]W hite R W,Bailey P,Chen L W.Predicting user interests from contextual information[C]//Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval,New York,2009:363-370.
[5]Chon Y,Cha H.Lifemap:a smartphone-based context provider for location-based services[J].Pervasive Computing,2011,10(2):58-67.
[6]Pan S J,Yang Q.A survey on transfer learning[J].IEEE TKDE,2010,22(10):1345-1359.
[7]Chen D,Xiong Y,Yan J,et al.Know ledge transfer for cross domain learning to rank[J].Information Retrieval,2010,13:236-253.
[8]Raina R,Battle A,Lee H,et al.Self-taught learning:transfer learning from unlabeled data[C]//Proceedings of 25th International Conference on Machine Learning,New York,2007:759-766.
[9]Blitzer J,M cdonald R,Pereira F.Domain adaptation with structural correspondence learning[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing,Sydney,2006:120-128.
[10]Bonilla E,Chai K M,W illiams C.Multi-task Gaussian process prediction[C]//Proceedings of the 20th Annual Conference on Neural Information Processing Systems,Vancouver,2008:153-160.
[11]Dai W Y,Yang Q,Xue G R,et al.Self-taught clustering[C]// Proceedings of the 25th International Conference on Machine Learning,New York,2008:200-207.
[12]袁玉波,楊傳勝.數據挖掘與最優化技術及其應用[M].北京:科學出版社,2007:102-103.
[13]葉俊杰,劉業政,蔣瑋.Web環境下認知風格對商品信息關注度的影響研究[J].圖書情報工作,2012,56(6):95-101.
[14]蔣瑋,葉俊杰,劉業政.消費者認知風格對Web頁面復雜度偏好影響的實證研究[J].情報雜志,2011,30(7):178-184.
XU Junfen,YE Junjie,LIU Yezheng
1.School of Management, Hefei University of Technology, Hefei 230009, China
2.Key Laboratory of Process Optimization and Intelligent Decision-making, Ministry of Education, Hefei 230009, China
Distortion and low efficiency are two constant problems when employing traditional context in classification problems. Inspired by the transfer learning theory, the paper regards the similar domain of the target domain as context,and constructs the low-dimensional common features between the target domain and its similar domain by structural correspondence learning method. Based on the common features between similar domains, the paper puts forward a new classification model. The experiment employs users’personalized options of QQ-zone as context to classify users’preferences of e-commerce web pages, the results verify the feasibility and availability of the proposed model.
classification;similar domain;context;common feature;feature-based transfer learning
XU Junfen, YE Junjie, LIU Yezheng. Classification model based on common features between similar domains. Computer Engineering and Applications, 2014, 50(17):137-141.
A
TP181
10.3778/j.issn.1002-8331.1210-0141
國家自然科學基金(No.71071047);高等學校博士學科點專項科研基金(No.20090111110016)。
徐俊芬(1988—),女,碩士研究生,研究領域為電子商務、數據挖掘;葉俊杰(1977—),男,博士研究生,講師,主要研究領域為網絡營銷、數據挖掘;劉業政(1965—),男,博士,教授,主要研究領域為電子商務。E-mail:xujunfen88@163.com
2012-10-15
2013-01-08
1002-8331(2014)17-0137-05
CNKI網絡優先出版:2013-01-18,http://www.cnki.net/kcms/detail/11.2127.TP.20130118.1024.004.htm l