Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Integrating Reinforcement Learning into Behavior Trees by Hierarchical Composition
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

This thesis investigates ways to extend the use of Reinforcement Learning (RL) to Behavior Trees (BTs). BTs are used in the field of Artificial Intelligence (AI) in order to create modular and reactive planning agents. While human designed BTs are capable of reacting to changes in an environment as foreseen by an expert, they are not capable of adapting to new scenarios. The focus of the thesis is on using existing general-purpose RL methods within the framework of BTs. Deep Q-Networks (DQN) and Proximal Policy Optimisation (PPO) were embedded into BTs, using RL implementations from an open-source RL library. The experimental part of the thesis uses these nodes in a variety of scenarios of increasing complexity, demonstrating some of the benefits of combining RL and BTs. The experiments show that there are benefits to using BTs to control a set of hierarchically decomposed RL sub-tasks for solving a larger problem. Such decomposition allows for reuse of generic behaviors in different parts of a BT. By decomposing the RL problem using a BT, it is also possible to identify and replace problematic parts of a policy, as opposed to retraining the entire policy.

Abstract [sv]

Den här uppsatsen undersöker sätt att utvidga användningsområdet för förstärkningsinlärning (RL) till beteendeträd (BT). BT används inom fältet artificiell intelligens (AI) för att skapa modulära och reaktiva planerande agenter. BT skapade av människor kan reagera på förändringar i en värld på ett sätt som har förutsetts av en expert, men de är inte kapabla att anpassa sig till nya scenarier. Fokuset i den här uppsatsen ligger på att använda existerande RL-metoder inom ramverket för BT. Djupa Q-nätverk (DQN) och Proximal Policy Optimisation (PPO) har bäddats in i BT, där RL-implementationerna kommer från ett bibliotek som har öppen källkod. Experimenten visar att det finns fördelar med att använda BT för att kontrollera en mängd av hierarkiskt uppdelade RL-deluppgifter för att lösa ett större problem. En sådan uppdelning tillåter mer allmänna beteenden att återanvändas i olika delar av ett BT. Genom att dela upp RL-problemet med hjälp av ett BT så är det också möjligt att identifiera och ersätta problematiska delar av en policy, till skillnad från att träna om hela policyn.

Place, publisher, year, edition, pages
2019. , p. 68
Series
TRITA-EECS-EX ; 2019:577
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-263608OAI: oai:DiVA.org:kth-263608DiVA, id: diva2:1368535
Supervisors
Examiners
Available from: 2019-11-22 Created: 2019-11-07 Last updated: 2019-11-22Bibliographically approved

Open Access in DiVA

fulltext(6034 kB)6 downloads
File information
File name FULLTEXT01.pdfFile size 6034 kBChecksum SHA-512
92a64fdbb59ecde8c816b50df5ddcb622c9d5b363f9324945b84900d451c6be6248935e61750bf5fbad9b048989ca2b8986b44703c9d89bf37a3cb88eb9bd67d
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 6 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 16 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf