王曉麗



摘 要:隨著計算機技術的發展,機器學習越來越熱門且應用也愈加廣泛,比如語音、圖像處理等諸多方面。但是,機器學習并沒有達到可以簡單進行實際應用的狀態,文章主要介紹機器學習實際應用面臨的問題及解決思路。
關鍵詞:機器學習 特征提取自動化 架構優化
一、引言
由于大數據時代的到來以及并行計算技術的發展,機器學習得到學術界和工業界越來越多的重視及研究。然而,機器學習在實際應用時面臨的問題更加復雜多變。因此,實際應用中的機器學習平臺必須是一個可以擴展的系統,該系統要能夠適應數據量和用戶的實時變化,實現計算水平和吞吐量的智能擴展。然而,當前的機器學習還沒有達到如此智能化的水平,怎樣進行模型的優化訓練、怎樣實現參數的有效選擇、怎樣將特征進行高效組合等問題都需要進一步研究解決。
二、機器學習實際應用面臨的難題
1.實際應用系統架構復雜
機器學習實際應用系統架構如圖1所示。由圖知,機器學習系統得到的數據需經過數據歸集與整理、數據導入、數據清洗、數據拼接以及特征工程等之后才能進一步進行模型訓練。模型訓練之后得到的模型在上線時要能夠保證系統工作穩定以及系統工作的時效性和吞吐量等一系列指標。與此同時,為了滿足線上系統的實時性和線上線下一致性,還需要一套對應的線上系統。
2.沒有成熟的人工智能平臺,可遷移性差,使用門檻高
針對不同的行業,不同的企業需求又會千差萬別,目前還沒有成熟的機器學習平臺可已滿足各行各業的要求。當前應用廣泛的Hadoop平臺雖然本身是一個分布式系統,但其發展已相當成熟,平臺的使用者不需要對分布式系統有深入的了解便可以使用該平臺。然而,目前的機器學習平臺則無法實現如此的智能化。當前如果要使用機器學習平臺,就必須了解所有的前后組件及相關模型。并且,模型不同就需要不同的訓練系統,對應的數據、框架、特征提取等一系列就會不同,處理起來尤其復雜。所以,當前機器學習平臺遷移性差,使用門檻高。
三、解決思路
(一)特征提取自動化
特征提取是在某個模型下找到跟需求相關的關鍵屬性,這也是機器學習實際應用中實現平臺智能化過程中需要解決的重要難題。
本文主要介紹三種實現特征提取自動化的方法:隱式特征值組合,半顯式特征值組合及顯式特征值組合。
1.隱式特征值組合
隱式特征組合在語音處理和圖像處理方面應用較為成功,其在處理連續特征值方面效果較好。在處理聲波或者像素這些原始數據時,深度學利用神經元網絡產生底層的過濾器進而產生層次化的特征值組合,其效果遠超手工進行的特征提取。但是,該借助神經元網絡實現的深度學習在處理高維的離散變量時復雜度會大大提高。除此之外,該方法得到的結果可解釋性差,內部處理過程無法實時監督。
針對神經網絡在處理離散數據時存在的問題,可以結合 Large Scale Embedding的技術加以解決。通過Embedding技術可以將單詞映射到低微的空間,再通過一系列處理形成等長的底層輸入,最后再用深度神經網絡對模型進行訓練。之后,Embedding技術在越來越多的場景中得到應用,其中,個性化推薦是一個典型的應用場景,其利用Embedding技術來實現協同過濾。
迄今為止,Large Scale Embedding技術依然是研究領域的熱門,其中有一些典型的成果,比如Discrete Factorization Machine, FNN, PNN以及DeepFM等,;利用上述模型不僅可以實現特征值之間相互關系的查找,還可以記錄更加細微的特征。
2.半顯式特征組合
基于樹的模型得到的半顯示組合不僅可以實現特征值的組合,還具有一定程度的可解釋性。但是由于樹結構的特點,該模型還無法直接顯示特征之間的相關性或特征的組合情況。該組合方式借助樹模型實現,是一種非線性模型。其優點是具有較好的特征提取效果,并且相對容易理解。
3.顯式特征組合
該特征組合算法借助搜索和搜索優化的思路,以及配合正則化和貪心的使用,最終利用笛卡爾積明確的將那些特征值加以組合。該方法的優點是結果的可解釋性,可以通過更深入的分析知道哪些特征是有關系的,是應該組合在一起的。除此之外,該方法得到的特征值還具有可疊加性。該方法產生的特征值可以進一步應用于機器學習,利用這些顯示的特征值進行模型訓練。現在常用的顯式特征值組合算法主要有基于Boosting的算法以及基于Regularization的算法。
下面介紹一種新型的顯示特征組合算法—FG。該算法基于MCTS,對特征值以及特征值的組合情況進行建模,進一步對特征組合的收益函數進行訓練。在特征值組合過程中加入調優技術,最終得到的特征值組合可以達到十階以上,并且具有更好的效果。
下面是在兩個數據集(higgs、criteoDeepFM)上對FG算法進行實驗,兩個數據集的信息如表1所示:
使用FG產生的特征值集,利用LR模型對這兩個數據集進行訓練,使用AUC作為評測指標。得到的實驗結果如表2所示。
由表2知,先使用FG算法進行特征值組合之后再利用LR模型進行訓練的結果比直接用LR模型訓練的結果都有非常明顯的提升。
(二)架構優化
近隨著各類技術的飛速發展,不斷涌現出新的架構實現方式。對于怎樣設計出高可用性、靈活快速適應變化的、易維護的、前沿的、安全的系統架構是架構優化的目標。
沒有最好的架構,只有最合適的架構。一個好的架構要綜合考慮具體的需求、所具備的資源等因素。特別是當今,業務以及數據的飛速變化、無處不在等因素的影響,技術和框架也必須緊跟這些變化,不斷地修正提升以適應不斷變化的業務需要。endprint
四、結語
機器學習從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,但還不能快速的應用于實際生產之中,仍面臨諸多問題。比如實際應用中如何訓練出好的模型、如何去選擇好的參數、如何進行特征組合等。本文介紹了解決實際應用中面臨的關鍵問題的思路:自動化特征值工程及架構優化。通過自動化特征值工程可以自動的找出與要解決問題相關的關鍵屬性,更加智能有效。通過架構優化可取得更高的效率。
參考文獻
[1]S.Kotsiantis, Feature selection for machine learning classification problems: a recent overview[J], Artificial Intelligence Review. 2011:1-20.
[2]Q. Zhu, L. Lin, M.-L. Shyu, S.-C. Chen, Feature Selection Using Correlation and Reliability Based Scoring Metric for Video Semantic Detection[C], IEEE Fourth International Conference on Semantic Computing, 2010: 462-469.
[3]H.Ogura, H.Amano,M.Kondo, Comparison of metrics for feature selection in imbalanced text classifi- cation[J],Expert Systems with Applications. 2011, 38(5):4978-4989.
[4]Y.Saeys,I.Inza,P.Larranaga, A review of feature selection techniques in bioinformatics[J], Bioinfor- matics. 2007, 23(19):2507-2517.
[5]李國杰,程學旗. 大數據研究:未來科技及經濟社會發展的重大戰略領域--大數據的研究現狀與科學思考.中國科學院院刊,2012,27(6),647-657endprint