日前,清華大學(xué)人工智能研究院基礎(chǔ)理論研究中心發(fā)布了深度強(qiáng)化學(xué)習(xí)框架“天授”,代碼已在GitHub開源。這是繼“珠算”可微分概率編程庫之后,該中心推出的又一個面向復(fù)雜決策任務(wù)的編程庫。
據(jù)悉,“天授”一詞來源于《史記》,意為“取天所授而非學(xué)自人類”,刻畫了強(qiáng)化學(xué)習(xí)通過與環(huán)境進(jìn)行交互自主學(xué)習(xí),而不需要像監(jiān)督學(xué)習(xí)一樣需要大量人類標(biāo)注數(shù)據(jù)。研究團(tuán)隊繼承了首版“天授0.1”在模塊化等方面的優(yōu)勢后,推出了基于PyTorch框架的“天授0.2”版本。
據(jù)介紹,天授系統(tǒng)具有5大技術(shù)優(yōu)勢:代碼簡潔、模塊化、可復(fù)現(xiàn)性、接口靈活以及訓(xùn)練速度快。相較于其他PyTorch強(qiáng)化學(xué)習(xí)框架,“天授0.2”具有結(jié)構(gòu)簡單、二次開發(fā)友好的特點,整個框架代碼1500行左右,支持主流的強(qiáng)化學(xué)習(xí)算法DQN、A2C等,同時設(shè)計了靈活的接口,用戶可以定制自己的訓(xùn)練方法。針對現(xiàn)有平臺訓(xùn)練速度慢的缺點,“天授”通過將并行采樣與緩存機(jī)制相結(jié)合提高了采集數(shù)據(jù)的速度。此外,整個框架基于模塊化的原則進(jìn)行設(shè)計,在其上實現(xiàn)常見的強(qiáng)化學(xué)習(xí)算法僅需不到100行的代碼。
目前,“天授0.2”版本已在GitHub上獲得超過900個星標(biāo)。