基于人工智能系統(tǒng)機器學(xué)習(xí)的算法和理論

2018-01-11 16:01:55萬芳奕

數(shù)字技術(shù)與應(yīng)用 2017年11期

關(guān)鍵詞：人工智能技術(shù)

萬芳奕

摘要：本文以人工智能系統(tǒng)阿爾法狗為例，對深度學(xué)習(xí)和強化學(xué)習(xí)進行概述和初步的探究，最后提出了對當(dāng)今機器學(xué)習(xí)的一種看法。

關(guān)鍵詞：阿爾法狗；人工智能技術(shù)；卷積神經(jīng)網(wǎng)絡(luò)

中圖分類號：TP181 文獻標(biāo)識碼：A 文章編號：1007-9416（2017）11-0221-02

1 阿爾法狗與機器學(xué)習(xí)

2017年五月，世界第一圍棋棋手柯潔在我國烏鎮(zhèn)與阿爾法狗展開較量，而最后的結(jié)果是柯潔連敗三局，人工智能阿爾法狗取得了這場比賽的勝利。而此時人們也不得不疑惑，阿爾法狗到底是在一個什么樣的系統(tǒng)下才能擁有如此強大的能力？實際上，阿爾法狗的勝利是“深度學(xué)習(xí)+強化學(xué)習(xí)”的一個重要的案例。

2 深度學(xué)習(xí)

2.1 卷積神經(jīng)網(wǎng)絡(luò)

最近幾年以來，卷積神經(jīng)網(wǎng)絡(luò)越來越成為眾多學(xué)者的研究熱點。在阿爾法狗中就是利用的CNN+蒙特卡洛搜索樹算法，而這一算法就是卷積神經(jīng)網(wǎng)絡(luò)模型的一個重要例證[1]。綜合而言，卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。

由圖1我們可以得到，卷積神經(jīng)網(wǎng)絡(luò)的輸入是一組二維圖，然后系統(tǒng)將輸入量送入到卷基層進行特征提取，最后進行輸出，根據(jù)卷積特征提取過后得到的信息與預(yù)先得到的信息進行對比，完成分類。卷基層內(nèi)主要需要完成三種運算，分別為卷積、非線性激活函數(shù)和最大值池化。根據(jù)所需要完成的任務(wù)的不同，卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中可以有多個卷積層，而每個卷基層都需要完成這三種運算[2]。

2.2 基于深度學(xué)習(xí)的優(yōu)化方法

深度學(xué)習(xí)基本都是基于神經(jīng)網(wǎng)絡(luò)來完成的，而隨著神經(jīng)網(wǎng)絡(luò)由最開始的三層神經(jīng)網(wǎng)絡(luò)漸漸發(fā)展到后來的多層神經(jīng)網(wǎng)絡(luò)，其內(nèi)部節(jié)點的個數(shù)會越來越多，也就需要更多的數(shù)據(jù)來對該智能系統(tǒng)進行訓(xùn)練，數(shù)據(jù)集逐漸變得龐大。在這種情況下，如果只依靠傳統(tǒng)的深度學(xué)習(xí)模型往往會無法完成想要實現(xiàn)的工作，往往需要很長的時間才得到訓(xùn)練后的收斂，無法滿足大規(guī)模神經(jīng)網(wǎng)絡(luò)的需求。針對于上述問題，本文提出兩種優(yōu)化方法[3]。

（1）數(shù)據(jù)并行優(yōu)化方法。當(dāng)系統(tǒng)需要大量訓(xùn)練的時候，我們可以選取數(shù)據(jù)并行的手段使得模型的訓(xùn)練速度加大，數(shù)據(jù)并行就是要對需要訓(xùn)練的數(shù)據(jù)分成好幾個部分，同時采取多個深度學(xué)習(xí)模型來進行工作，如此一來，每一個部分的數(shù)據(jù)都同時完成訓(xùn)練過程，加大了訓(xùn)練效率。根據(jù)上述原理，數(shù)據(jù)并行優(yōu)化訓(xùn)練方法的基本架構(gòu)如圖2所示。

數(shù)據(jù)的并行訓(xùn)練是將整體的數(shù)據(jù)分成好幾個部分來進行，因每一組數(shù)據(jù)不一樣，因此訓(xùn)練模型的參數(shù)也各不相同。每個訓(xùn)練模型都不與另外的訓(xùn)練結(jié)果相互作用，因此，各個部分之間的訓(xùn)練結(jié)果往往會無法進行交換。為了解決這一問題，我們需要設(shè)定一個更新公式，該公式所起到的作用是將所有計算每個訓(xùn)練模型之間的梯度，并將所得的結(jié)果統(tǒng)計到某一統(tǒng)一的服務(wù)器上面，然后由服務(wù)器利用公式對參數(shù)進行更新。然而，實際上這個公式在設(shè)定的時候并不容易，實際操作中各個訓(xùn)練模型的結(jié)果也并不如想象中的盡人意。因此，如何將數(shù)據(jù)集進行劃分以及劃分后如何整合成為了限制數(shù)據(jù)并行優(yōu)化方法最大的限制。

（2）模型并行優(yōu)化方法。除了上文所提到的數(shù)據(jù)并行的方法來解決大數(shù)據(jù)集，提高訓(xùn)練速度的方法之外，還與一種手段就是對模型進行劃分，較大的模型經(jīng)過劃分之后成多個分片，然后同時進行訓(xùn)練。每一個訓(xùn)練單元之間能夠進行合作，最后完成整個模型的訓(xùn)練任務(wù)。

3 強化學(xué)習(xí)

強化學(xué)習(xí)的名稱原本是從心理學(xué)中的命名而來，強化學(xué)習(xí)的基本模式就是“交互-試錯”，意思就是智能系統(tǒng)不斷與外界進行交互，然后對每一次的交互結(jié)果進行處理，最后智能系統(tǒng)得到有效策略。強化學(xué)習(xí)的過程就類似于人腦學(xué)習(xí)的過程。隨著人工智能技術(shù)的不斷進步，強化學(xué)習(xí)已經(jīng)包括多方面的內(nèi)容，其各種算法被更加廣泛的利用。

常見的強化學(xué)習(xí)算法有基于值函數(shù)的學(xué)習(xí)方法和基于策略搜索的強化學(xué)習(xí)算法，其中，前者往往在尋找確定性最優(yōu)解中利用廣泛，而阿爾法狗最優(yōu)策略卻是根據(jù)棋盤局勢的不同實時改變著的，其每一次的最優(yōu)結(jié)果往往是隨即的，因此基于值函數(shù)的強化學(xué)習(xí)算法無法滿足這一要求。因此，在阿爾法狗的學(xué)習(xí)算法中采用的是第二種強化學(xué)習(xí)算法，即基于策略搜索的強化學(xué)習(xí)算法。該算法的主要思想是將每一個策略以參數(shù)的結(jié)果表現(xiàn)出來，在學(xué)習(xí)的過程中，對參數(shù)不斷進行的更改，從而最優(yōu)值。根據(jù)基于策略搜索的強化學(xué)習(xí)算法的應(yīng)用對象不同，還可以優(yōu)化為基于梯度的強化學(xué)習(xí)算法。

4 結(jié)語

隨著人工智能的不斷發(fā)展我們似乎可以明白，阿爾法狗與人類對弈的勝利并不是偶然，而是一種必然趨勢。

參考文獻

[1]王煒.大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)算法[J].信息系統(tǒng)工程，2016，（7）：133.

[2]何清，李寧，羅文娟，史忠植.大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述[J].模式識別與人工智能，2014，（4）：327-336.

[3]楊釗，陶大鵬，張樹業(yè)，等.大數(shù)據(jù)下的基于深度神經(jīng)網(wǎng)的相似漢字識別[J].通信學(xué)報，2014，（9）：184-189.

Abstract：This paper takes artificial intelligence system， Alfa dog as an example， summarizes and explores the deep learning and reinforcement learning， and finally puts forward a view of machine learning nowadays.

Key Words：Alfa dog； artificial intelligence technology； convolution neural networkendprint