Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Latent Representation of Tasks for Faster Learning in Reinforcement Learning
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Latent representation av uppgifter för snabbare inlärning i reinforcement learning (Swedish)
Abstract [en]

Reinforcement learning (RL) is an field of machine learning (ML) which attempts to approach learning in an manner inspired by the human way of learning through rewards and penalties. As with other forms of ML, it is strongly dependent on large amounts of data, the acquisition of which can be costly and time consuming. One way to reduce the need for data is transfer learning (TL) in which knowledge stored in one model can be used to help in the training of another model. In an attempt at performing TL in the context of RL we have suggested a multitask Q-learning model. This model is trained on multiple tasks that are assumed to come from some family of tasks sharing traits. This model combines contemporary Q-learning methods from the field of RL with ideas from the concept of variational auto encoders (VAEs), and thus suggests a probabilistically motivated model in which the Q-network is parameterized on a latent variable z ∈ Z representing the task. This is done in a way which is hoped to allow the use of the Z space to search for solutions when encountering new tasks from the same family of tasks. To evaluate the model we have designed a simple grid world environment called HillWalk, and two models are trained, each on a separate set of tasks from this environment. The results of these are then evaluated by comparing against a baseline Q- learning model from the OpenAI project, as well as through an investigation of the final models behaviour in relation to the latent variable z.

Abstract [sv]

Reinforcement learning (RL) är ett område av maskininlärning inom vilket man ämnar att efterlikna det mänskliga lärandet, där inlärning sker genom interaktion med en omgivning och styrs av interaktioner med denna i form av positiv och negativ belöning. Som med andra former av maskininlärning så är RL starkt beroende av tillgången av stora mängder data, vilket kan vara mödosamt och tidsödande att samla in. Ett sätt att minska den data som behövs till träningen av en ny modell är transfer learning (TL), där kunskap kan överföras mellan modeller och på så sätt minska den totala mängden data som krävs. I ett försök att utföra TL i en RL-kontext har vi föreslagit en multiuppgifts Q-inlärningsmodell. Denna modell tränas på ett set utav uppgifter vilka antas tillhöra någon familj av uppgifter i det avseendet att det finns kända likheter mellan uppgifterna. Modellen kombinerar samtida metoder från RL-fältet med koncept från variational auto encoders, och därigenom föreslås ett probabilistiskt Q-nätverk som är parametriserat på en latent representation z av uppgifterna. Detta görs med avsikten att det skall tillåta Z att användas för att hitta lösningar till nya uppgifter från samma familj. För att utvärdera modellen definieras en familj av uppgifter och en miljö, HillWalk. Med hjälp av denna skapas två träningsset för vilka en model respektive tränas. Resultatet från detta jämförs sedan med en baslinjealgoritm från OpenAi-projektet, samt genom att den slutgiltiga modellens beteende i förhållande till z-parametern undersöks.

Place, publisher, year, edition, pages
2019. , p. 62
Series
TRITA-EECS-EX ; 2019:643
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-264922OAI: oai:DiVA.org:kth-264922DiVA, id: diva2:1375765
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2020-01-17 Created: 2019-12-06 Last updated: 2020-01-31Bibliographically approved

Open Access in DiVA

fulltext(2630 kB)6 downloads
File information
File name FULLTEXT01.pdfFile size 2630 kBChecksum SHA-512
21aae5a92a619f4ad600fff17bc374ebf60bf6a1c4115461c161c4ade09d679b8721b25ec8c114d30b6972c0b299fc66855d2e1a4f1e07b9b1cc6610b027644b
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 6 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 33 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf