Offline Reinforcement Learning for Radio Resource Management in Radio Access Networks
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Förstärkt inlärning offline för hantering av radioresurser i radioaccessnät (Swedish)
Abstract [en]
Recent work has shown the potential of applying reinforcement learning (RL) to radio resource management (RRM) in radio access networks (RAN) thanks to their ability to learn complex parameter relationships by interaction with an unknown environment. However, real-world RAN deployments are challenging as the training phase may temporarily degrade the system’s performance up to, potentially, triggering link failure procedures. To address such issues, we consider a particular family of RL algorithms, namely offline RL methods, where agents are trained on previously collected datasets of transitions. We investigate the application of offline RL methods for link adaptation (LA) - a crucial functionality of RRM. In particular, we design and evaluate multiple offline RL algorithms for LA, including batch-constrained Q-learning (BCQ), conservative Q-learning (CQL), behavioral cloning (BC) and decision transformer (DT), and compare their performance against two baselines: an outer-loop link adaptation (OLLA) algorithm, as commonly adopted in today’s RAN systems; and an online off-policy deep Q-network (DQN) algorithm for LA. Since DT, differently from other offline RL methods, treats RL as a sequence modeling problem, we propose modifications to the algorithm design and the problem formulation according to the use-case. Our results show that all considered methods reach comparable performance to the DQN policy (with also a slight improvement) and better performance than OLLA. However, contrarily to traditional applications of transformer models, which benefit from long input sequences for generative predictions, we observed that the stochastic nature of the radio systems prevents DT from properly conditioning the generation of optimal actions at inference time on long input sequences, whereas performing well with shorter sequences. The thesis also includes a preliminary study conducted on Gym environments providing insights into the influence of the training datasets on performances of offline RL policies.
Abstract [sv]
Ny forskning har visat på potentialen i att tillämpa förstärkningsinlärning (RL) på radioresurshantering (RRM) i radioaccessnät (RAN) tack vare förmågan att lära sig komplexa parameterrelationer genom interaktion med en okänd miljö. Verkliga RAN-driftsättningar är dock utmanande eftersom träningsfasen tillfälligt kan försämra systemets prestanda upp till, potentiellt, att utlösa procedurer för länkfel. För att ta itu med sådana frågor överväger vi en särskild familj av RL-algoritmer, nämligen offline RL-metoder, där agenter tränas på tidigare insamlade dataset av övergångar. Vi undersöker tillämpningen av offline RL-metoder för länkanpassning (LA) - en viktig funktion i RRM. I synnerhet utformar och utvärderar vi flera offline RL-algoritmer för LA, inklusive batch-constrained Q-learning (BCQ), conservative Qlearning (CQL), behavioral cloning (BC) och beslutstransformator (DT), och jämför deras prestanda mot två baslinjer: en OLLA-algoritm (OLLA), som vanligtvis används i dagens RAN-system; och en online off-policy deep Q-network (DQN) algoritm för LA. Eftersom DT, till skillnad från andra offline RL-metoder, behandlar RL som ett sekvensmodelleringsproblem, föreslår vi ändringar av algoritmdesignen och problemformuleringen enligt användningsfallet. Våra resultat visar att alla metoder når jämförbara prestanda med DQN-policyn (med en liten förbättring) och bättre prestanda än OLLA. I motsats till traditionella tillämpningar av transformatormodeller, som drar nytta av långa indatasekvenser för generativa förutsägelser, observerade vi emellertid att radiosystemens stokastiska natur hindrar DT från att korrekt villkora genereringen av optimala åtgärder vid inferenstid på långa indatasekvenser, medan de presterar bra med kortare sekvenser. Avhandlingen innehåller också en preliminär studie som utförts i gym-miljöer och som ger insikter i hur träningsdatamängderna påverkar prestandan för RL-policyer offline.
Place, publisher, year, edition, pages
2024. , p. 84
Series
TRITA-EECS-EX ; 2024:845
Keywords [en]
Reinforcement Learning, Offline Reinforcement Learning, Radio Access Networks, Link Adaptation, Decision Transformer, Sequence Modelling
Keywords [sv]
Reinforcement Learning, Offline Reinforcement Learning, Radio Access Networks, Link Adaptation, Decision Transformer, Sequence Modelling
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360619OAI: oai:DiVA.org:kth-360619DiVA, id: diva2:1941081
External cooperation
Ericsson AB
Supervisors
Examiners
2025-03-052025-02-272025-03-05Bibliographically approved