余濤 賈如春
【摘要】機器學習是人工智能中最重要的部分,人工智能區別于普通的大數據分析之處就在于具備了機器學習的特點.本文基于機器學習人工智能算法進行簡析其原理及應用場景,更加理性深入對人工智能技術進行全面的分析,對人工智能技術背后數學理論及實際應用的分析基礎上,對機器學習算法主要任務、深度學習發展動因、深度學習算法應用進行梳理和分析,提取出人工智能算法主要能夠完成的三類任務,并在技術層面針對人工智能下一步發展與應用做出了分析和展望.
【關鍵詞】人工智能;機器學習;深度學習;回歸;分類;聚類
伴隨網絡及計算機技術的長足發展,人工智能隨著深度學習技術應用的突破取得極大進展,各種落地應用及概念產品層出不窮,人們對其在生產生活中的革命性創新充滿期待.機器學習的算法很多,其中大部分算法都是一類算法,而有些算法又是從其他算法中延伸出來的.本文從兩個方面來分析算法,一方面,通過學習的方式,另外一方面,是算法的類似性;通過人工智能算法脈絡,解析基本算法應用場景,使我們對人工智能技術有一個更為理性深入和全面的理解及思考.
一、機器學習方式
根據數據類型的不同,數學建模也有不同的方式,在機器學習或者人工智能領域中,人們首先會考慮算法的學習方式,在機器學習中,不同的學習方式將算法按照學習方式進行分類,在建模和算法選擇的時候考慮能根據輸入數據來選擇最合適的算法來獲得最好的結果.
(一)強化學習
強化學習模式下,輸入數據作為對模型的反饋,輸入數據直接反饋到模型,模型必須對此立刻做出調整.在企業數據應用的場景下人們最常用的可能就是監督式學習和非監督式學習的模型,在圖像識別等領域,由于存在大量的非標識的數據和少量的可標識數據,目前半監督式學習是一個很熱門的話題,而強化學習更多地應用在機器人控制及其他需要進行系統控制的領域.
二、人工智能算法分類
根據算法的功能和形式的類似性可以把算法分類,比如,基于樹的算法,基于神經網絡的算法等等.當機器學習的范圍非常龐大的時候,有些算法很難明確歸類到某一類,而對有些分類來說,同一分類的算法可以針對不同類型的問題把常用的算法按照最容易理解的方式進行分類.
(一)回歸算法
機器算法分類中最常見的機器學習及其常用算法首當其沖是回歸,回歸算法采用對誤差的衡量來探索變量之間的關系的一類算法,在機器學習領域,回歸算法也有很多種,其中最為常用的算法線性回歸是最簡的形式,用一個連續的超平面來擬合數據集;而回歸樹(集成方法)通過將數據集重復分割成不同的分支來最大化每次分離的信息增益,從而讓回歸樹很自然地學到非線性關系,集成方法包括隨機森林(RF)或梯度提升樹(GBM);除此之外,還有最鄰近算法和深度學習.
(二)分類算法
分類算法用于分類變量建模及預測的監督學習算法,許多回歸算法都有其對應的分類形式,分類算法往往適用于類別(或其可能性)的預測,而非數值.其中最為常用的算法主要有五種.
(1)(正則化)邏輯回歸,邏輯回歸通過邏輯函數將預測映射到0到1的區間,因此,預測值可被視為某一類別的概率.
(2)分類樹(集成方法),對應于回歸樹的分類算法是分類樹.通常它們都是指決策樹,更為嚴謹的說法是“分類回歸樹”,也就是非常有名的CART算法.
(1)支持向量機,支持向量機使用一個名為核函數的技巧,來將非線性問題變換為線性問題,其本質是計算兩個觀測數據的距離.支持向量機算法所尋找的是能夠最大化樣本間隔的決策邊界,因此,又被稱為大間距分類器.
(2)樸素貝葉斯,基于條件概率和計數的簡單算法,其本質是一個概率表,通過訓練數據來更新其中的概率.其核心的特征條件獨立性假設(例如,每一項輸入特征都相互獨立)在現實中幾乎是不成立的.
(三)聚類算法
聚類算法基于數據內部結構來尋找樣本自然族群(集群)的無監督學習任務,使用案例包括用戶畫像、電商物品聚類、社交網絡分析等.而在機器學習領域內,兩個最為重要的概念是維度及特征選取.其中“維度(DIMENSIONALITY)”通常指數據集中的特征數量(即輸入變量的個數).而特征選取是從數據集中過濾掉不相關或冗余的特征.
三、人工智能深度學習的發展及應用
傳統機器學習算法在語音識別、物體識別方面無法有效展開應用,其重要原因之一就是這類算法無法使用語音及圖像的高維度數據(High-dimensional Data)在高維空間學習復雜的函數,即使算力極為豐富的現階段也無法有效滿足其算力需求;因此,深度學習方法應運而生,傳統機器學習算法所面臨的問題被稱作維度詛咒(Curse of Dimensionality),高維度數據的參數設置需求隨著變量的增加呈指數型增長,對計算能力提出了極大挑戰,近乎無法完成.而深度學習采用多層調參,層層收斂的方式,將參數數量始終控制在一個較為合理的水平,使得原本不可計算的模型可運算.深度學習CNN及RNN兩類網絡的基本原理在多種識別、感知任務中應用實施,表現優異.作為人工智能技術未來重要發展方向之一的遷移學習,人工智能技術的快速發展,相關知識沉淀,面對當前深度學習算法及網絡發展日新月異,人工智能技術發展將廣泛應用于中國2025制造及未來工業4.0中.