基于強(qiáng)化學(xué)習(xí)的自適應(yīng)中間件在線更新機(jī)制研究*

2014-09-13 12:35:07王建軍劉玉林

計(jì)算機(jī)工程與科學(xué) 2014年8期

關(guān)鍵詞：機(jī)制優(yōu)化環(huán)境

王建軍,劉玉林

(河北經(jīng)貿(mào)大學(xué)現(xiàn)代教育技術(shù)中心，河北石家莊 050061)

基于強(qiáng)化學(xué)習(xí)的自適應(yīng)中間件在線更新機(jī)制研究*

王建軍,劉玉林

(河北經(jīng)貿(mào)大學(xué)現(xiàn)代教育技術(shù)中心，河北石家莊 050061)

自適應(yīng)中間件框架一般根據(jù)預(yù)先定義的策略、按照監(jiān)控、分析、決策、執(zhí)行的流程實(shí)現(xiàn)對(duì)開放可變系統(tǒng)的閉環(huán)控制。但是，傳統(tǒng)的自適應(yīng)框架基于離線的閉環(huán)控制，即在提供自適應(yīng)服務(wù)的同時(shí)，自身的決策模型不能隨實(shí)時(shí)的環(huán)境變化而更新。針對(duì)該問題提出一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)中間件的在線更新方案，解決自適應(yīng)策略的沖突消解、系統(tǒng)實(shí)時(shí)效用評(píng)估問題，并設(shè)計(jì)一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)策略在線學(xué)習(xí)更新方法，增強(qiáng)了自適應(yīng)中間件的智能性、靈活性和應(yīng)變能力。最后實(shí)現(xiàn)了相應(yīng)的支撐系統(tǒng)OUSAM并在其上驗(yàn)證了該機(jī)制的有效性和可行性。

自適應(yīng)中間件；在線更新；智能決策；強(qiáng)化學(xué)習(xí)

1 引言

軟件中間件通過屏蔽底層差異，為軟件開發(fā)者和普通用戶提供穩(wěn)定貼切的服務(wù)。然而，隨著軟件系統(tǒng)的日益復(fù)雜、計(jì)算平臺(tái)的多樣化以及用戶需求的不斷變化，軟件中間件也由傳統(tǒng)的靜態(tài)、封閉逐步走向開放、動(dòng)態(tài)、分布。這就要求中間件能根據(jù)內(nèi)外環(huán)境變化以及用戶的需求對(duì)所支撐的業(yè)務(wù)系統(tǒng)進(jìn)行實(shí)時(shí)調(diào)整演化，以達(dá)到用戶目標(biāo)和較好的性能指標(biāo)。自適應(yīng)中間件技術(shù)應(yīng)運(yùn)而生，有關(guān)自適應(yīng)中間件的理論也正受到研究者的重視。自適應(yīng)中間件是一種在動(dòng)態(tài)、開放的環(huán)境中對(duì)業(yè)務(wù)軟件上下文自動(dòng)進(jìn)行感知，決策以對(duì)系統(tǒng)進(jìn)行演化，提升性能的中間件系統(tǒng)。例如，分布式系統(tǒng)底層自動(dòng)管理資源分配的中間件系統(tǒng)對(duì)分布式系統(tǒng)的資源狀況進(jìn)行監(jiān)控并根據(jù)自適應(yīng)策略和資源需求對(duì)節(jié)點(diǎn)等資源進(jìn)行合理分配。

IBM最早提出了一種基于自治計(jì)算的自適應(yīng)模型MAPE[1]，展示一種對(duì)軟件系統(tǒng)從監(jiān)控、分析到?jīng)Q策、執(zhí)行的反饋閉環(huán)控制結(jié)構(gòu)(如圖1所示)。該結(jié)構(gòu)開創(chuàng)性地利用外部控制的手段對(duì)可變、開放的軟件系統(tǒng)進(jìn)行在線的自適應(yīng)調(diào)整，使系統(tǒng)具有獨(dú)立性、擴(kuò)展性、可復(fù)用性等。Garlan D等人[2]在此基礎(chǔ)上提出了一種基于軟件體系結(jié)構(gòu)風(fēng)格的方法來(lái)開發(fā)可復(fù)用的自適應(yīng)系統(tǒng)，并開發(fā)了相應(yīng)的自適應(yīng)系統(tǒng)Rainbow，該系統(tǒng)對(duì)運(yùn)行的系統(tǒng)進(jìn)行體系結(jié)構(gòu)建模，在目標(biāo)系統(tǒng)運(yùn)行過程中進(jìn)行監(jiān)控，找到目標(biāo)系統(tǒng)的運(yùn)行沖突，并將相應(yīng)的自適應(yīng)策略作用于此沖突，形成對(duì)系統(tǒng)的閉環(huán)控制。但是，該系統(tǒng)采用的效用函數(shù)機(jī)制基于用戶定義的預(yù)期效用值，而不是隨環(huán)境改變而學(xué)習(xí)的效用，因此對(duì)效用的評(píng)估缺少一定的靈活性。

Figure 1 IBM MAPE self-adaptive model圖1 IBM的自適應(yīng)模型MAPE示意圖

盡管Rainbow在體系結(jié)構(gòu)的自適應(yīng)上做得很出色，但Garlan D等人[3]也指出了此類自適應(yīng)系統(tǒng)存在的問題：從抽象層次看，所采用的自適應(yīng)模型是一種設(shè)計(jì)人員預(yù)先設(shè)定好的靜態(tài)模型，針對(duì)目標(biāo)系統(tǒng)的狀態(tài)給予固定的自適應(yīng)決策，屬于一種離線自適應(yīng)方式。然而在更多的場(chǎng)景下，自適應(yīng)系統(tǒng)本身會(huì)面臨環(huán)境變化或異常所帶來(lái)的不靈活性。例如，采用對(duì)目標(biāo)系統(tǒng)建模的方法進(jìn)行自適應(yīng)，但建立的模型要隨著環(huán)境變化而實(shí)時(shí)改變；再如基于策略的自適應(yīng)系統(tǒng)，用戶的離線策略并不能預(yù)先得知所有動(dòng)態(tài)的環(huán)境變化和異常。因此，這就要求自適應(yīng)模型能應(yīng)對(duì)實(shí)時(shí)的環(huán)境變化進(jìn)行自身的學(xué)習(xí)更新，以達(dá)到對(duì)自適應(yīng)系統(tǒng)的實(shí)時(shí)優(yōu)化。我們稱之為在線自適應(yīng)。

本文正是圍繞這種問題對(duì)自適應(yīng)中間件的在線優(yōu)化機(jī)制進(jìn)行若干研究，相對(duì)Rainbow系統(tǒng)，對(duì)策略選擇、效用函數(shù)定義進(jìn)行了若干改進(jìn)，并基于強(qiáng)化學(xué)習(xí)技術(shù)提出自適應(yīng)中間件的策略在線更新算法對(duì)運(yùn)行中的自適應(yīng)中間件進(jìn)行自優(yōu)化。與本文研究較為接近的還有Ahmed[4]等人對(duì)自適應(yīng)系統(tǒng)自身優(yōu)化的研究以及Kim D、Tesauro G等人[5,6]用強(qiáng)化學(xué)習(xí)技術(shù)對(duì)系統(tǒng)進(jìn)行自管理。本文采用了帶學(xué)習(xí)功能的雙閉環(huán)(自適應(yīng)閉環(huán)和自優(yōu)化閉環(huán))控制結(jié)構(gòu)[4]，該結(jié)構(gòu)既可以對(duì)目標(biāo)系統(tǒng)進(jìn)行在線決策演化(即進(jìn)行自適應(yīng))，又能對(duì)自適應(yīng)系統(tǒng)本身進(jìn)行實(shí)時(shí)優(yōu)化(即對(duì)自適應(yīng)策略的實(shí)時(shí)更新)。與文獻(xiàn)[4,5]不同的是，本文主要關(guān)注基于策略的自適應(yīng)系統(tǒng)，目標(biāo)是策略的優(yōu)化和沖突消解。

本文安排如下：第2節(jié)介紹自適應(yīng)中間件的相關(guān)背景，第3節(jié)詳細(xì)介紹自適應(yīng)中間件的系統(tǒng)建模和自優(yōu)化實(shí)現(xiàn)，第4節(jié)介紹一個(gè)應(yīng)用示例并進(jìn)行實(shí)驗(yàn)評(píng)估，第5節(jié)給出總結(jié)和研究展望。

2 自適應(yīng)中間件框架建模與分析

為了方便討論，本文首先介紹最典型的外部反饋型自適應(yīng)系統(tǒng)模型，該系統(tǒng)能感知上下文環(huán)境的變化，并自動(dòng)地調(diào)整組織結(jié)構(gòu)或調(diào)整構(gòu)件提供的功能行為來(lái)滿足變化的要求。

從靜態(tài)結(jié)構(gòu)角度看，該系統(tǒng)包括：

(1)知識(shí)庫(kù)(Model Manager):管理系統(tǒng)模型以及自適應(yīng)策略;

(2)監(jiān)控器(Probes、Gauge):監(jiān)控系統(tǒng)運(yùn)行狀態(tài)并得出運(yùn)行信息;

(3)分析器(Adaptation Manager):分析潛在的自適應(yīng)條件，給出相應(yīng)自適應(yīng)策略;

(4)決策機(jī)制(Adaptation Manager):通過推理機(jī)制給出自適應(yīng)決策結(jié)果;

(5)執(zhí)行機(jī)制(Strategy Executer、Effectors):在目標(biāo)系統(tǒng)執(zhí)行自適應(yīng)結(jié)果;

(6)評(píng)估機(jī)制(Architecture Evaluator):對(duì)系統(tǒng)運(yùn)行狀態(tài)進(jìn)行量化評(píng)估。

從動(dòng)態(tài)運(yùn)行角度，該系統(tǒng)的運(yùn)行過程為：

自適應(yīng)系統(tǒng)監(jiān)控目標(biāo)系統(tǒng)，根據(jù)預(yù)先定義的策略分析可能的自適應(yīng)條件，選出相應(yīng)的自適應(yīng)策略并根據(jù)策略進(jìn)行決策，得到相應(yīng)自適應(yīng)動(dòng)作作用于自適應(yīng)系統(tǒng)。設(shè)目標(biāo)系統(tǒng)為Ot,系統(tǒng)的t時(shí)刻狀態(tài)為St,知識(shí)集合為Kt,策略集合為Pt,動(dòng)作為At,監(jiān)控為M,分析為An,決策為D,執(zhí)行為Ex，則系統(tǒng)的運(yùn)行過程形式化描述如下：

M(Ot)→St

(1)

An(Kt,St)→Pt

(2)

D(Pt,St)→At ,St+1

(3)

Ex(At,Ot)→Ot+1

(4)

由上述定義可見，當(dāng)目標(biāo)系統(tǒng)與外界環(huán)境可見時(shí)，我們研究的問題在于：知識(shí)集合(Kt)的可變性、An過程中策略Pt的選擇。

3 自適應(yīng)中間件在線更新機(jī)制

針對(duì)上文介紹的相關(guān)背景和問題，本文對(duì)傳統(tǒng)自適應(yīng)中間件進(jìn)行若干改進(jìn)，以增強(qiáng)運(yùn)行時(shí)自優(yōu)化的功能。

3.1 自適應(yīng)建模

為了對(duì)自適應(yīng)系統(tǒng)的決策進(jìn)行優(yōu)化，我們首先需要對(duì)自適應(yīng)過程有一個(gè)抽象層面的模型描述。本文采用馬爾科夫決策過程MDP(Markov Decision Process)[7]為自適應(yīng)中間件的決策過程進(jìn)行建模。

定義1馬爾科夫決策過程馬爾科夫決策過程(MDP)定義為一個(gè)四元組〈S,A,R,P〉，包含一個(gè)環(huán)境狀態(tài)集S，系統(tǒng)行為集合A，獎(jiǎng)賞函數(shù)R：S×A→S和狀態(tài)轉(zhuǎn)移函數(shù)P：S×A→S。記R(s,a,s′)為系統(tǒng)在狀態(tài)s采用a動(dòng)作使環(huán)境狀態(tài)轉(zhuǎn)移到s′獲得的即時(shí)獎(jiǎng)賞值；記P(s,a,s′)為系統(tǒng)在狀態(tài)s采用動(dòng)作a使環(huán)境轉(zhuǎn)移到s′的概率。MDP的本質(zhì)是：當(dāng)前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎(jiǎng)賞值只取決于當(dāng)前狀態(tài)和選擇的動(dòng)作，而與歷史狀態(tài)和動(dòng)作無(wú)關(guān)。

MDP模型是一種在控制論、機(jī)器學(xué)習(xí)等領(lǐng)域廣泛使用的處理決策過程的模型。由于它的歷史無(wú)關(guān)假設(shè)使得很多決策問題的處理變得簡(jiǎn)單，本文中的自適應(yīng)決策過程是一種典型的狀態(tài)決策模型，同時(shí)我們也假設(shè)中間件的決策過程只與當(dāng)前狀態(tài)有關(guān)，即在對(duì)目標(biāo)系統(tǒng)進(jìn)行決策時(shí)我們只根據(jù)當(dāng)前系統(tǒng)的狀態(tài)進(jìn)行決策。因此，選擇MDP模型可以為中間件的智能決策提供方便可行的解決方案。

將MDP模型具體運(yùn)用到中間件的決策過程，如圖2所示，MDP中的狀態(tài)s在自適應(yīng)系統(tǒng)中對(duì)應(yīng)系統(tǒng)所處的不同狀態(tài)(conditions)。MDP中的動(dòng)作a對(duì)應(yīng)自適應(yīng)系統(tǒng)的不同策略(strategies)。狀態(tài)轉(zhuǎn)移函數(shù)P在自適應(yīng)系統(tǒng)中為系統(tǒng)采取自適應(yīng)策略后的狀態(tài)轉(zhuǎn)移,比如從狀態(tài)condition0經(jīng)策略strategy1轉(zhuǎn)移至狀態(tài)condition1。環(huán)境即時(shí)獎(jiǎng)賞R對(duì)應(yīng)采取自適應(yīng)策略后獲得的系統(tǒng)優(yōu)化程度。

Figure 2 The MDP model for self-adaptive decision process圖2 自適應(yīng)決策過程的MDP模型

3.2 策略選擇與沖突消解機(jī)制

系統(tǒng)在某種條件下會(huì)出現(xiàn)有多種策略可以用來(lái)決策的情形，此時(shí)必須要讓自適應(yīng)引擎在其中做出最佳的選擇。這里的“最佳”是指所選策略能夠給系統(tǒng)長(zhǎng)遠(yuǎn)來(lái)看的最佳效用。下文將用MDP模型和強(qiáng)化學(xué)習(xí)方法獲得這種理論上的最佳效用并用實(shí)驗(yàn)進(jìn)行驗(yàn)證。

系統(tǒng)應(yīng)當(dāng)給每個(gè)策略s一種偏好值P(s)，當(dāng)出現(xiàn)策略沖突時(shí)，具有較高偏好值的策略具有較大的概率被選擇。這使得系統(tǒng)既能較大程度地信任更合適的策略，同時(shí)又使系統(tǒng)能面對(duì)環(huán)境的不確定性。系統(tǒng)在狀態(tài)s下選擇動(dòng)作a的概率可以表示為:

其中，πt(s,a)表示s狀態(tài)下采取a動(dòng)作的概率，st表示t時(shí)刻系統(tǒng)的狀態(tài)，at表示t時(shí)刻的動(dòng)作，p(s,a)表示s狀態(tài)下a動(dòng)作的權(quán)重。

3.3 成本效益度量

3.4自適應(yīng)中間件在線自優(yōu)化機(jī)制

中間件的自優(yōu)化要求在環(huán)境發(fā)生意料之外的改變后，中間件自身的策略能夠得到相應(yīng)的改變。在3.1節(jié)我們對(duì)自適應(yīng)過程進(jìn)行MDP建模后，強(qiáng)化學(xué)習(xí)是解決MDP模型優(yōu)化的較好方法。因此，我們基于該模型，利用Actor-critic強(qiáng)化學(xué)習(xí)算法[8]對(duì)一般中間件模型進(jìn)行了學(xué)習(xí)功能的擴(kuò)展。

Actor-critic算法是建立在MDP模型上的一種強(qiáng)化學(xué)習(xí)算法。它假設(shè)學(xué)習(xí)Agent有若干策略用于決策動(dòng)作而同時(shí)又有不同狀態(tài)下的值函數(shù)用于狀態(tài)轉(zhuǎn)換。在狀態(tài)S下采取一個(gè)策略作用于環(huán)境(表演)。在執(zhí)行動(dòng)作后根據(jù)環(huán)境的即時(shí)獎(jiǎng)賞更新值函數(shù)(評(píng)論)。如圖3所示。

Figure 3 Improved Actor-critic reinforcement learning algorithm[7]圖3 改進(jìn)的Actor-critic強(qiáng)化學(xué)習(xí)算法[7]示意圖

該算法中的相關(guān)元素對(duì)應(yīng)到自適應(yīng)中間件優(yōu)化的過程中，可以得到自適應(yīng)中間件的策略優(yōu)化算法(如算法1所示)。與原始Actor-critic算法不同的是，這里將環(huán)境的即時(shí)獎(jiǎng)賞由決策前后的系統(tǒng)效用差值決定。

算法1自適應(yīng)中間件策略優(yōu)化算法

1 初始化所有strategy的偏好值P為用戶自定義;

2 按照系統(tǒng)狀態(tài)任意選取一個(gè)strategy0;

3 重復(fù)：

3.1 執(zhí)行strategy0，觀察執(zhí)行效果得到獎(jiǎng)賞值Rt=Ut-Ut-1;

3.2 按照系統(tǒng)狀態(tài)c進(jìn)行自適應(yīng)分析，得到可用于當(dāng)前自適應(yīng)決策的子strategy集S;

3.3 根據(jù)子strategy的偏好值更新當(dāng)前strategy0的偏好值：

P(strategy0)←P(strategy0)+α δt

3.4 從子strategy集S中按照當(dāng)前狀態(tài)c下各策略的偏好值p(c,s)計(jì)算策略選擇概率，并按照該概率選取下一個(gè)strategy：

4 應(yīng)用示例

為支持上述自適應(yīng)中間件自優(yōu)化方案，并進(jìn)行智能性效果的評(píng)估，我們仿照Rainbow開發(fā)了一個(gè)自適應(yīng)中間件支撐系統(tǒng)OUSAM(Online Updating Self-Adaptive Middleware)，并在此基礎(chǔ)上增加上文討論的自優(yōu)化機(jī)制，對(duì)性能效果進(jìn)行了測(cè)試和比較，以驗(yàn)證傳統(tǒng)自適應(yīng)系統(tǒng)在增加我們?cè)O(shè)計(jì)的自優(yōu)化機(jī)制后的智能性和靈活性。

4.1 OUSAM功能簡(jiǎn)述

OUSAM是模仿Rainbow系統(tǒng)實(shí)現(xiàn)的一種自適應(yīng)中間件，它包括自適應(yīng)描述語(yǔ)言、系統(tǒng)監(jiān)控器、分析器、推理器。在對(duì)系統(tǒng)進(jìn)行模型層面的描述(包括模型、自適應(yīng)策略)后，OUSAM對(duì)系統(tǒng)運(yùn)行中的變量進(jìn)行監(jiān)控，并計(jì)算待評(píng)估的系統(tǒng)狀態(tài)，當(dāng)分析到系統(tǒng)達(dá)到需要自適應(yīng)的狀態(tài)時(shí)根據(jù)相應(yīng)策略對(duì)目標(biāo)系統(tǒng)進(jìn)行自適應(yīng)調(diào)整。此外，在其中增加上文所述的自優(yōu)化機(jī)制，在進(jìn)行系統(tǒng)模型描述時(shí)增加系統(tǒng)效用的描述，由用戶定義效用函數(shù)類型和參數(shù)，在運(yùn)行時(shí)，OUSAM實(shí)時(shí)監(jiān)控系統(tǒng)參數(shù)，計(jì)算系統(tǒng)效用，并在每次自適應(yīng)過程后根據(jù)系統(tǒng)效用變化得到對(duì)決策的“回報(bào)”，根據(jù)智能學(xué)習(xí)機(jī)制對(duì)歷史決策的偏好度作相應(yīng)調(diào)整。

4.2 OUSAM實(shí)現(xiàn)要點(diǎn)

限于篇幅，此處對(duì)OUSAM的各個(gè)具體細(xì)節(jié)不做展示，僅討論與第3節(jié)的自優(yōu)化相關(guān)的若干關(guān)鍵實(shí)現(xiàn)技術(shù)。

OUSAM的系統(tǒng)框架如圖4所示，與Rainbow的Stitch語(yǔ)言類似，OUSAM定義了一種自適應(yīng)需求描述語(yǔ)言AL，用于對(duì)系統(tǒng)進(jìn)行體系結(jié)構(gòu)建模，并對(duì)用戶策略進(jìn)行表達(dá)。圖5是AL語(yǔ)言的簡(jiǎn)要描述。表1反映了OUSAM與Rainbow的聯(lián)系和區(qū)別。

Figure 4 Framework of OUSAM圖4 OUSAM框架示意圖

Figure 5 AL language grammar highlights 圖5 AL自適應(yīng)描述語(yǔ)言簡(jiǎn)要語(yǔ)法描述Table 1 Relations and comparisonsbetween OUSAM and Rainbow表1 OUSAM與Rainbow的聯(lián)系與比較

4.3 應(yīng)用場(chǎng)景

考慮一個(gè)銀行出納調(diào)度系統(tǒng)的應(yīng)用，該系統(tǒng)包含顧客、出納員。該銀行共有20名出納員Ei(i=1,2,…,20)，他們?yōu)槊课活櫩偷姆?wù)時(shí)間為Ti±3min，其波動(dòng)值服從正態(tài)分布。顧客相繼到達(dá)銀行的間隔服從均值為μ=8 min, 10 min, 12 min的指數(shù)分布。顧客到達(dá)后，如果發(fā)現(xiàn)已有6人以上在排隊(duì)等待，30%的顧客便離去，其余人繼續(xù)排隊(duì)等待。為了提高服務(wù)質(zhì)量，該調(diào)度系統(tǒng)在隊(duì)列很長(zhǎng)時(shí)需要對(duì)出納員的配置進(jìn)行調(diào)整。如增加出納員，或者選擇更為熟練的出納員。

為了對(duì)上述銀行調(diào)度系統(tǒng)進(jìn)行自適應(yīng)，將OUSAM系統(tǒng)應(yīng)用在該調(diào)度系統(tǒng)上。OUSAM查詢銀行調(diào)度系統(tǒng)提供的隊(duì)伍長(zhǎng)度，當(dāng)分析到超過一定閾值時(shí)采取自適應(yīng)策略進(jìn)行自適應(yīng)調(diào)整。

為了分析方便，我們采用了兩個(gè)策略：

策略1隊(duì)列長(zhǎng)度大于6則增加出納員；

策略2隊(duì)列長(zhǎng)度大于6則換一個(gè)更熟練的出納員(服務(wù)時(shí)間更短)。

其中應(yīng)用該自適應(yīng)中間件的專家(使用者)根據(jù)經(jīng)驗(yàn)相信增加出納員比更換出納員更好，因此在制定策略時(shí)將策略1設(shè)了更高的權(quán)重。但是，在實(shí)際使用中，出現(xiàn)了專家沒有預(yù)料的情形：出納員大批放假。這個(gè)時(shí)候的策略1并不能起任何作用，而策略2會(huì)是更好的策略，如果沒有對(duì)策略的學(xué)習(xí)優(yōu)化機(jī)制，則該自適應(yīng)系統(tǒng)依然選擇策略1。但是，在采用我們提出的策略學(xué)習(xí)優(yōu)化機(jī)制后，中間件經(jīng)過自學(xué)習(xí)會(huì)根據(jù)決策結(jié)果進(jìn)行評(píng)估，進(jìn)而及時(shí)修改策略權(quán)重，將策略2作為首選策略。

4.4 實(shí)驗(yàn)環(huán)境搭建

實(shí)驗(yàn)所使用的計(jì)算機(jī)配置為Intel Core E7500雙核CPU，主頻2.93 GHz，內(nèi)存為1 GB×2 DDR2，操作系統(tǒng)為Microsoft Windows XP Professional 5.1，版本2600．OUSAM的實(shí)現(xiàn)平臺(tái)為Eclipse。仿真的目標(biāo)系統(tǒng)實(shí)現(xiàn)平臺(tái)為Visual Studio 6.0。對(duì)目標(biāo)系統(tǒng)的描述采用XML語(yǔ)言。

為了描述上述決策過程，我們對(duì)目標(biāo)系統(tǒng)——銀行調(diào)度作了仿真，用Visual Studio 6.0開發(fā)了一個(gè)排隊(duì)系統(tǒng)。同時(shí)，用OUSAM描述目標(biāo)系統(tǒng)的若干方面，如隊(duì)長(zhǎng)、自適應(yīng)調(diào)整策略、自適應(yīng)調(diào)整動(dòng)作。仿真排隊(duì)系統(tǒng)將實(shí)時(shí)信息寫入文件，OUSAM通過讀寫文件獲得排隊(duì)系統(tǒng)的信息并作出自適應(yīng)調(diào)整指示。

實(shí)驗(yàn)分別在對(duì)目標(biāo)系統(tǒng)不添加自適應(yīng)、添加自適應(yīng)不進(jìn)行策略更新優(yōu)化以及既有自適應(yīng)又有自優(yōu)化三種情況進(jìn)行實(shí)驗(yàn)驗(yàn)證。表2是相關(guān)的仿真參數(shù)。

Table 2 Simulation parameters表2 仿真參數(shù)

4.5 評(píng)估標(biāo)準(zhǔn)

為了評(píng)估本文提出的自適應(yīng)中間件在線優(yōu)化的方法，我們提出以下評(píng)估指標(biāo)：

(1)自適應(yīng)效果：指自適應(yīng)中間件在目標(biāo)系統(tǒng)受到意外改變的情況下能否進(jìn)行正確決策使目標(biāo)系統(tǒng)性能提升。在本實(shí)驗(yàn)中，我們將OUSAM應(yīng)用到仿真系統(tǒng)中，比較未采用OUSAM進(jìn)行自適應(yīng)和采用OUSAM進(jìn)行自適應(yīng)的情況下仿真系統(tǒng)的隊(duì)列長(zhǎng)度。判斷OUSAM系統(tǒng)是否在仿真系統(tǒng)受到異常改變時(shí)作出決策并使隊(duì)列長(zhǎng)度降低。

(2)智能性：指系統(tǒng)在遇到未預(yù)料的環(huán)境變化或異常時(shí)能對(duì)預(yù)先的策略偏好度進(jìn)行重新評(píng)估，并作出更好的決策。本實(shí)驗(yàn)中是指OUSAM在遇到異常的情況(采用的策略不能使系統(tǒng)性能進(jìn)行提升)下能自動(dòng)調(diào)整策略權(quán)重，并運(yùn)用新的策略使得總體運(yùn)行效果更好。

4.6 實(shí)驗(yàn)結(jié)果與評(píng)估

比較未運(yùn)用自適應(yīng)中間件和運(yùn)用中間件后的效果，得到的對(duì)比結(jié)果如圖6所示。可以看到，運(yùn)用自適應(yīng)中間件之前由于不斷有顧客進(jìn)入，系統(tǒng)沒有應(yīng)對(duì)策略，從而效果逐漸變差；在運(yùn)用自適應(yīng)中間件后系統(tǒng)能有一個(gè)明顯的性能提升。

Figure 6 Comparison of self-adaptative effects between self-adaptive middleware and non-self-adaptive software圖6 自適應(yīng)中間件效果與非自適應(yīng)效果比較

另一組實(shí)驗(yàn)驗(yàn)證OUSAM的策略更新效果，在時(shí)間達(dá)到200 min后突然減少出納員數(shù)量，考驗(yàn)中間件此時(shí)的應(yīng)對(duì)能力，如圖7所示。可以看到在沒有策略自適應(yīng)機(jī)制時(shí)(如圖7a所示)策略1的偏好值始終大于策略2的偏好值，從而中間件系統(tǒng)始終選擇策略1，使隊(duì)列長(zhǎng)度逐漸增長(zhǎng)。而在使用策略自適應(yīng)機(jī)制后(如圖7b所示)，在205 min后策略1的權(quán)重開始減少，系統(tǒng)選擇策略2，隊(duì)列長(zhǎng)度在一段時(shí)間的增高后又恢復(fù)到較低值。可見在線更新機(jī)制使得自適應(yīng)中間件依然能保持最佳的決策能力。

Figure 7 Self-optimization effect of the self-adaptive middleware圖7 自適應(yīng)中間件自優(yōu)化效果評(píng)估

5 結(jié)束語(yǔ)

自適應(yīng)中間件系統(tǒng)通過對(duì)應(yīng)用系統(tǒng)的監(jiān)控、分析、決策、執(zhí)行等，在可變的環(huán)境中為用戶提供了可靠穩(wěn)定的服務(wù)。然而，傳統(tǒng)的自適應(yīng)中間件由于其自適應(yīng)策略是在設(shè)計(jì)階段靜態(tài)指定，因此不能靈活處理運(yùn)行過程中環(huán)境的突變或系統(tǒng)異常。

本文針對(duì)這種離線自適應(yīng)問題提出一種基于強(qiáng)化學(xué)習(xí)的在線優(yōu)化方法，相對(duì)于Rainbow這種典型的自適應(yīng)中間件解決了策略選擇、沖突消解、成本效益度量以及策略在線優(yōu)化等問題。開發(fā)了相應(yīng)的系統(tǒng)OUSAM，在其上實(shí)現(xiàn)了一種典型應(yīng)用場(chǎng)景，驗(yàn)證了我們方法的可行性和有效性。最后，將我們的系統(tǒng)與幾種典型的自適應(yīng)系統(tǒng)進(jìn)行比較，顯示了我們系統(tǒng)在在線優(yōu)化方面的優(yōu)勢(shì)。

[1] Kephart J O, Chess D M. The vision of autonomic computing[J]. Computer, 2003,36(1):41-50.

[2] Cheng S.Rainbow:Cost-effective software architecture-based self-adaptation[D]. Pittsburgh:Carnegie Mellon University, 2008.

[3] Rahul R, Cheng S, David G, et al. Improving architecture-based self-adaptation using preemption[C]∥Proc of the Workshop on Self-Organizing Architectures, 2010:21-37.

[4] Ahmed E,Naeem E,Sam M.FUSION:A framework for engineering self-tuning self-adaptive software systems[C]∥Proc of the 18th ACM SIGSOFT International Symposium on Foundations of Software Engineering, 2010:7-16.

[5] Kim D, Park S. Reinforcement learning-based dynamic adaptation planning method for architecture-based self-managed software[C]∥Proc of Workshop on Software for Adaptive and Self-Managing Systems, 2009:76-85.

[6] Tesauro G, Jong N K, Das R,et al. A hybrid reinforcement learning approach to autonomic resource allocation[C]∥Proc of the International Conference on Autonomic Computing, 2006:65-73.

[7] Gao Yang, Chen Shi-fu, Lu Xin. Survey of reinforcement learning[J].Chinese Journal of Automation,2004,30(1):86-100.(in Chinese)

[8] Konda V. Actor-critic algorithms[D]. Cambridge:Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, 2002.

[9] Gu X.IDES:Self-adaptive software with online policy evolution extended from Rainbow[M]∥Computer and Information Science, 2012:181-195.

[10] Garlan D, Schmerl B, Cheng S.Software architecture-based self-adaptation[M]∥Autonomic Computing and Networking,2009:31-56.

[11] Alia M,Eide V S W,Paspallis N,et al.A utility-based adaptivitymodel for mobile applications[C]∥Proc of the IEEE International Symposium on Ubisafe Computing, 2007:107-114.

[12] Kakousis K,Paspallis N,Papadopoulos G A.Optimizing the utility function-based self-adaptive behavior of context-aware systems using user feedback[C]∥Proc of OTM,2008:34-40.

[13] Tesauro G, Das R, Jong N, et al. A hybrid reinforcement learning approach to autonomic resource allocation[C]∥Proc of the 3rd IEEE International Conference on Autonomic Computing,2006:65-73.

[14] Hu Hai-yang,Ma Xiao-xing,Tao Xian-ping,et al.Research and advance of reflective middleware[J].ChineseJournal of Computer,2005, 28(9):1407-1420.(in Chinese)

[15] Benjamin B,Mathias P,Uwe B.Development and evaluation of a self-adaptive organic middleware for highly dependable system-on-chips[C]∥Proc of the IARIA ’12, 2012:112-117.

附中文參考文獻(xiàn)：

[8] 高陽(yáng),陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動(dòng)化學(xué)報(bào),

2004,30(1):86-100.

[14] 胡海洋,馬曉星,陶先平,等. 反射中間件的研究與進(jìn)展[J].計(jì)算機(jī)學(xué)報(bào),2005,28(9):1407-1420.

WANGJian-jun,born in 1965,MS,associate professor,his research interests include software engineering, and network security.

劉玉林(1963-),男,河北元氏人，碩士，副教授，研究方向?yàn)橛?jì)算機(jī)軟件與理論。E-mail:617922062@qq.com

LIUYu-lin,born in 1963,MS,associate professor,his research interest includes computer software and theory.

Onlineupdatingofself-adaptivemiddlewarebasedonreinforcementlearning

WANG Jian-jun，LIU Yu-lin

(Center of Modern Education Technology,Hebei University of Economics and Business,Shijiazhuang 050061,China)

One common approach of self-adaptive middleware is to incorporate a control loop that monitors, analyzes, decides and executes over a target system with predefined strategies. Such approach is an offline adaptation where strategies or adaptive models are statically determined so as not to change with environment. Aiming at the problem, an online updating mechanism of self-adaptive middleware based on reinforcement learning is proposed to solve the problems of conflict resolution and real-time system effectiveness evaluation, and an online updating method of self-adaptive policy based on reinforcement learning is designed, thus enhancing intelligence, flexibility and reaction capability. Finally, the corresponding system OUSAM is implemented and the effectiveness and feasibility of the mechanism is validated on OUSAM.

self-adaptive middleware;online updating;intelligent decision;reinforcement learning

1007-130X(2014)08-1462-07

2012-12-10;

：2013-03-07

TP311

：A

10.3969/j.issn.1007-130X.2014.08.007

王建軍(1965-),男,河北興隆人，碩士，副教授，研究方向?yàn)檐浖こ毯途W(wǎng)絡(luò)安全。E-mail:188098077@qq.com

通信地址：050061 河北省石家莊市學(xué)府路47號(hào)河北經(jīng)貿(mào)大學(xué)現(xiàn)代教育技術(shù)中心

Address:Center of Modern Education Technology,Hebei University of Economics and Businesse,47 Xuefu Rd,Shijiazhuang 050061,Hebei,P.R.China