Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Explainability and hierarchical reinforcement learning: Leveraging hierarchical structures to produce human-intelligible abstractions from non-transparent behavioral policies
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Förklarbarhet och hierarkisk förstärkningsinlärning : Användning av hierarkiska strukturer för att generera begripliga abstraktioner ur icke-transparenta beteendemappningar (Swedish)
Abstract [en]

Hierarchical Reinforcement Learning (HRL) offers the ability to train agents capable of executing temporally abstract actions. These are thought to bear a higher degree of semantic meaning, thus enhancing explainability for a human observer. This is true in particular for goal-conditioned hierarchical agents. However, successfully training such agents require simultaneous calibration of several policies operating on different timescales, and it has been suggested that complex off-policy correction schemes are necessary to curb non-stationarity and thus retain sample efficiency. Yet, even when such schemes are implemented, high-level actions may lack reliability and accuracy, effectively neutralizing any added explainability. In this work, a novel approach is proposed for the goal-conditioned hierarchical setting. The value function of a lower-level agent is utilized as a tool to gauge the achievability of an instruction passed down from a higher level. Initially, this approach is used in conjunction with two popular explainability approaches to test their feasibility in the hierarchical setting: feature attribution and saliency mapping. Then, a novel goal-conditioned hierarchical agent is proposed, which is trained not only to pursue an external goal, but also to internally propose subgoals which are attainable for the low-level agent. The proposed agent, SHAC, does not require any off-policy correction scheme, but instead relies on a stochastic high-level agent. When compared to HIRO, a state-of-the-art counterpart, SHAC achieves better performance in several environments, with respect to both explainability and learning.

Abstract [sv]

Hierarkisk förstärkningsinlärning erbjuder möjligheten till att träna agenter som kan utföra temporalt abstrakta handlingar. Dessa tros erhålla en högre grad av semantisk betydelse, och förväntas därför förhöja förklarbarheten för en mänsklig observatör. Detta stämmer i synnerhet för målorienterade hierarkiska agenter. Sådana agenter kräver dock simultan kalibrering av beteendemappningar på flera abstraktionsnivåer, och det har antytts att komplexa justeringsmetoder krävs för motverka icke-stationaritet och erhålla effektiv inlärning. Men även när sådana metoder implementeras kan handlingar på en högre abstraktionsnivå sakna precision och tillförlitlighet, vilket motverkar eventuella ökningar av förklarbarheten. I denna uppsats presenteras ett nytt ramverk för målorienterade hierarkiska agenter. Värdefunktionen för en agent på en lägre abstraktionsnivå används som ett verktyg för att estimera genomförbarheten för en instruktion som skickas från en överordnad agent. Till en början används detta ramverk i samband med två populära metoder för förklarbarhet: feature attribution och saliency mapping. Sedan föreslås en ny metod för att träna en måloriented hierarkisk agent, där agenten inte bara tränas att uppnå ett externt mål, men också att internt formulera instruktioner som är genomförbara. Den föreslagna metoden, SHAC, kräver inte justeringsmetoder för att motverka icke- stationäritet, utan använder istället en stokastisk beteendemappning på en temporalt abstrakt nivå. I jämförelser med en modern motsvarighet, HIRO, så uppnår SHAC bättre resultat i flera miljöer, med avseende på både förklarbarhet och inlärning.

Place, publisher, year, edition, pages
2024. , p. 64
Series
TRITA-EECS-EX ; 2024:871
Keywords [en]
Hierarchical reinforcement learning, explainability, subgoals, temporal abstraction
Keywords [sv]
Hierarhkisk förstärkningsinlärning, förklarbarhet, delmål, temporal abstraktion
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360840OAI: oai:DiVA.org:kth-360840DiVA, id: diva2:1942085
External cooperation
Ericsson
Supervisors
Examiners
Available from: 2025-03-07 Created: 2025-03-04 Last updated: 2025-03-07Bibliographically approved

Open Access in DiVA

fulltext(4718 kB)47 downloads
File information
File name FULLTEXT01.pdfFile size 4718 kBChecksum SHA-512
9a731bd3b1fbd42c8695d70cbd480ff72f32e8255692777aa89e1a13b6ce6c3000fce41aeb7dd64273a00182c1b77a233ab81bd3f31577a216de7570e31422d1
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 48 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 497 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf