Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Value Function Integration in Behavior Trees for Global Optimization of Robotic Task Sequences
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Värdefunktionsintegration i Beteendeträd för Global Optimering av Robotuppgiftssekvenser (Swedish)
Abstract [en]

The integration of Reinforcement Learning (RL) with Behavior Trees (BTs) has emerged as a promising approach for robotic control systems. However, when training individual sub-controllers within a BT sequence, local optimization often leads to suboptimal global performance. This challenge is particularly evident in robotic manipulation tasks, where the effectiveness of subsequent actions depends heavily on the outcomes of preceding ones. This thesis investigates the application of value function integration at switching boundaries between BT nodes to achieve global optimization in robotic task sequences. While previous research has demonstrated this approach’s effectiveness in simple scenarios like box-pushing tasks, its applicability to complex robotic manipulation, with high-dimensional state spaces and intricate dynamics, remained unexplored. The study implements and evaluates this method using Unity ML-Agents and the ABB CRB15000 manipulator in a simulated environment, focusing on a combined peg grasping and insertion task sequence. The approach incorporates the estimated value function of the insertion task into the reward structure of the grasping task, encouraging behaviors that optimize for the entire sequence rather than individual components. The results show significant improvements over the baseline approach across multiple metrics. The value function integration method consistently achieved deeper insertions, higher cumulative rewards, and improved efficiency in terms of total steps required, while maintaining a superior success rate. Statistical analysis confirms the significance of these improvements with large effects for key performance metrics. These findings extend the theoretical framework of value function integration to practical robotic applications, providing a foundation for developing more sophisticated control systems. The demonstrated success in complex manipulation tasks suggests potential applications in various robotic domains, particularly where task sequencing and global optimization are crucial for system performance.

Abstract [sv]

Integrationen av förstärkningsinlärning (RL) med beteendeträd (BT) har framträtt som en lovande metod för styrsystem för robotar. När man tränar individuella subsystem inom en BT-sekvens leder dock lokal optimering ofta till suboptimal global prestanda. Denna utmaning är särskilt tydlig i manipuleringsuppgifter för robotar, där effektiviteten av efterföljande åtgärder är starkt beroende av resultaten från de föregående. Det här arbetet undersöker tillämpningen av värdefunktionsintegration vid växlingsgränser mellan BT-noder för att uppnå global optimering i uppgiftsse- kvenser för robotar. Medan tidigare forskning har visat metodens effektivitet i enkla scenarier som låd-skjutningsuppgifter, var dess tillämpbarhet på komplex manipulation, med högdimensionella tillståndsrum och komplex dynamik, fortfarande outforskad. Studien implementerar och utvärderar denna metod med hjälp av Unity ML-Agents och ABB CRB15000-manipulatorn i en simulerad miljö, med fo- kus på en kombinerad sekvens av grepp och insättning. Metoden införlivar den uppskattade värdefunktionen från insättningsuppgiften i belöningsstrukturen för grepptaget, vilket uppmuntrar beteenden som optimerar för hela sekvensen snarare än enskilda komponenter. Resultaten visar betydande förbättringar jämfört med basnivån över flera mätetal. Metoden för värdefunktionsintegration uppnådde konsekvent djupare insättningar, högre kumulativa belöningar och förbättrad effektivitet vad gäller totalt antal steg som krävs, samtidigt som en överlägsen framgångsfrekvens bibehölls. Statistisk analys bekräftar signifikansen av dessa förbättringar med stora effektstorlekar för viktiga prestandamått. Dessa fynd utvidgar det teoretiska ramverket för värdefunktionsintegration till praktiska robotapplikationer och ger en grund för utveckling av mer sofistikerade styrsystem. Den demonstrerade framgången i komplexa manipu- leringsuppgifter antyder potentiella tillämpningar inom olika robotdomäner, särskilt där uppgiftssekvensering och global optimering är avgörande för systemets prestanda.

Place, publisher, year, edition, pages
2024. , p. 98
Series
TRITA-EECS-EX ; 2024:956
Keywords [en]
Behavior Trees, Reinforcement Learning, Value Function Integration, Robotic Manipulation, Global Optimization
Keywords [sv]
Beteendeträd, Förstärkningsinlärning, Värdefunktionsintegration, Robotma- nipulering, Global Optimering
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-361114OAI: oai:DiVA.org:kth-361114DiVA, id: diva2:1943698
Supervisors
Examiners
Available from: 2025-03-17 Created: 2025-03-11 Last updated: 2025-03-17Bibliographically approved

Open Access in DiVA

fulltext(2955 kB)43 downloads
File information
File name FULLTEXT01.pdfFile size 2955 kBChecksum SHA-512
5ce6524489f2523acad3830aed1fcc9d580d102be1c745808222fa9097aa21f6875e62f93dc700b3548c09bc0f0b1f2614b23edf93d396584c4f9e549246a2df
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 43 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 401 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf