Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Offline Reinforcement Learning for Radio Resource Management in Radio Access Networks
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Förstärkt inlärning offline för hantering av radioresurser i radioaccessnät (Swedish)
Abstract [en]

Recent work has shown the potential of applying reinforcement learning (RL) to radio resource management (RRM) in radio access networks (RAN) thanks to their ability to learn complex parameter relationships by interaction with an unknown environment. However, real-world RAN deployments are challenging as the training phase may temporarily degrade the system’s performance up to, potentially, triggering link failure procedures. To address such issues, we consider a particular family of RL algorithms, namely offline RL methods, where agents are trained on previously collected datasets of transitions. We investigate the application of offline RL methods for link adaptation (LA) - a crucial functionality of RRM. In particular, we design and evaluate multiple offline RL algorithms for LA, including batch-constrained Q-learning (BCQ), conservative Q-learning (CQL), behavioral cloning (BC) and decision transformer (DT), and compare their performance against two baselines: an outer-loop link adaptation (OLLA) algorithm, as commonly adopted in today’s RAN systems; and an online off-policy deep Q-network (DQN) algorithm for LA. Since DT, differently from other offline RL methods, treats RL as a sequence modeling problem, we propose modifications to the algorithm design and the problem formulation according to the use-case. Our results show that all considered methods reach comparable performance to the DQN policy (with also a slight improvement) and better performance than OLLA. However, contrarily to traditional applications of transformer models, which benefit from long input sequences for generative predictions, we observed that the stochastic nature of the radio systems prevents DT from properly conditioning the generation of optimal actions at inference time on long input sequences, whereas performing well with shorter sequences. The thesis also includes a preliminary study conducted on Gym environments providing insights into the influence of the training datasets on performances of offline RL policies.

Abstract [sv]

Ny forskning har visat på potentialen i att tillämpa förstärkningsinlärning (RL) på radioresurshantering (RRM) i radioaccessnät (RAN) tack vare förmågan att lära sig komplexa parameterrelationer genom interaktion med en okänd miljö. Verkliga RAN-driftsättningar är dock utmanande eftersom träningsfasen tillfälligt kan försämra systemets prestanda upp till, potentiellt, att utlösa procedurer för länkfel. För att ta itu med sådana frågor överväger vi en särskild familj av RL-algoritmer, nämligen offline RL-metoder, där agenter tränas på tidigare insamlade dataset av övergångar. Vi undersöker tillämpningen av offline RL-metoder för länkanpassning (LA) - en viktig funktion i RRM. I synnerhet utformar och utvärderar vi flera offline RL-algoritmer för LA, inklusive batch-constrained Q-learning (BCQ), conservative Qlearning (CQL), behavioral cloning (BC) och beslutstransformator (DT), och jämför deras prestanda mot två baslinjer: en OLLA-algoritm (OLLA), som vanligtvis används i dagens RAN-system; och en online off-policy deep Q-network (DQN) algoritm för LA. Eftersom DT, till skillnad från andra offline RL-metoder, behandlar RL som ett sekvensmodelleringsproblem, föreslår vi ändringar av algoritmdesignen och problemformuleringen enligt användningsfallet. Våra resultat visar att alla metoder når jämförbara prestanda med DQN-policyn (med en liten förbättring) och bättre prestanda än OLLA. I motsats till traditionella tillämpningar av transformatormodeller, som drar nytta av långa indatasekvenser för generativa förutsägelser, observerade vi emellertid att radiosystemens stokastiska natur hindrar DT från att korrekt villkora genereringen av optimala åtgärder vid inferenstid på långa indatasekvenser, medan de presterar bra med kortare sekvenser. Avhandlingen innehåller också en preliminär studie som utförts i gym-miljöer och som ger insikter i hur träningsdatamängderna påverkar prestandan för RL-policyer offline.

Place, publisher, year, edition, pages
2024. , p. 84
Series
TRITA-EECS-EX ; 2024:845
Keywords [en]
Reinforcement Learning, Offline Reinforcement Learning, Radio Access Networks, Link Adaptation, Decision Transformer, Sequence Modelling
Keywords [sv]
Reinforcement Learning, Offline Reinforcement Learning, Radio Access Networks, Link Adaptation, Decision Transformer, Sequence Modelling
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360619OAI: oai:DiVA.org:kth-360619DiVA, id: diva2:1941081
External cooperation
Ericsson AB
Supervisors
Examiners
Available from: 2025-03-05 Created: 2025-02-27 Last updated: 2025-03-05Bibliographically approved

Open Access in DiVA

fulltext(1756 kB)37 downloads
File information
File name FULLTEXT02.pdfFile size 1756 kBChecksum SHA-512
2c9b63ebd975018b3befd80e4c249de6226fef1534d9aa32653786c02df94a77152e8f8214c19535436fe516e65d24b892bf37586bfbe5679a2b9f71bf58b14f
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 37 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 569 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf