Reinforcement Learning for Link Adaptation in 5G-NR Networks
2020 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Förstärkningslärande för länkanpassning i 5G-NR-nätverk (Swedish)
Abstract [en]
The Adaptive Modulation and Coding (AMC) scheme in the link adaptation is a core feature in the current cellular networks. In particular, based on Channel Quality Indicator (CQI) measurements that are computed from the Signal-to-Interference-plus-Noise Ratio (SINR) level of User Equipment (UE), the base station (e.g., Next Generation NodeB (gNB)) selects a Modulation and Coding Scheme (MCS) to be used for the next downlink transmission. However, communication channels are inherently variant due to changes in traffic load, user mobility, and transmission delays and thus the estimation of the SINR levels at the transmitter side usually deviates from the actual value. The Outer-Loop Link Adaptation (OLLA) technique was proposed to improve the channel quality estimation by adjusting the value of SINR by an offset dependent on whether previous transmissions were decoded successfully or not captured by Hybrid Automatic Repeat Request (HARQ) feedback. Although this technique indeed improves the user throughput, it typically takes several Transmission Time Intervals (TTIs) to converge to a certain SINR value that fulfills a predefined target Block Error Rate (BLER). As a result, the slow convergence speed of the OLLA mechanism causes inaccurate MCS selection specially for users with bursty traffic, while it needs to be a priori tuned with a fixed BLER target. These factors lead to degraded network performance, in terms of throughput and spectral efficiency. To cope with these challenges, in this project we propose a reinforcement learning (RL) framework where an agent takes observations from the environment (e.g., from UEs and the network) and learns proper policies that adjust the estimated SINR, such that a reward function (i.e., the UE normalized throughput) is maximized. This framework was designed and developed in a radio network system-level simulator, while for the agents using RL (hereafter called RL agents), Deep Q-Network (DQN) and Proximal Policy Optimization (PPO) models were trained accordingly. Both models showed significant increment of about 1.6% - 2.5% and 10% - 17% on the average throughput for mid-cell and cell-edge users respectively, over the current state-of-the-art OLLA mechanism. Finally, setting a priori a fixed BLER target is not needed, and hence the RL-based link adaptation performs well in diverse radio conditions.
Abstract [sv]
Adaptive Modulation and Coding (AMC)-schemat i länkanpassning är en central funktion i nutida mobilnätverk. Baserat på Channel Quality Indicator (CQI)-mätningar som är beräknade från Signal-till-Störning-plus- Brusförhållande (SINR)-nivån av User Equipment (UE), väljer basstationen (t.ex., Next Generation NodeB (gNB)) ett Modulerings och kodningsschema (MKS) som används till nästa nedlänksöverföring. Kommunikationskanaler uppvisar dock variationer av sig själva på grund av förändringar i trafikbelastning, användarmobilitet, och överföringsfördröjningar. Detta gör att uppskattningen av SINR-nivåer i sändarsidan avviker från det faktiska värdet. Outer-Loop Link Adaptation (OLLA)-metoden föreslogs för att förbättra uppskattningen av kanalkvaliteten genom att justera värdet på SINR med en förskjutning beroende på om tidigare sändningar avkodades framgångsrikt eller alternativt om de inte fångades av återkoppling från Hybrid Automatic Repeat Request (HARQ). Även om denna teknik förbättrar användares genomströmning, tar det vanligtvis flera sändningstidsintervall (TTI) för att konvergera till ett visst SINR-värde som uppfyller en fördefinierad målfelsfrekvens (BLER). Som ett resultat orsakar OLLA-mekanismens långsamma konvergenshastighet ett felaktigt MCS-val, speciellt för användare med tuff trafik. OLLA-mekanismen måste även anpassas efter ett fast BLER-mål. Dessa faktorer leder till försämrad nätverksprestanda när det gäller genomströmning och spektral effektivitet. För att klara av dessa utmaningar föreslår vi i detta projekt en förstärkningsinlärningsram (RL) där en agent tar observationer från miljön (t.ex. från UE:er och nätverket) och lär sig riktiga policies som justerar den uppskattade SINR:en, så att en belöningsfunktion (dvs. UEnormaliserad genomströmning) maximeras. Denna ram utformades och utvecklades i en radiosimulator på systemnivå. För de agenter som använde RL (hädanefter RL-agenter) utbildades Deep Q-Network (DQN) och Proximal Policy Optimization (PPO)-modeller på lämpligt sätt. Båda modellerna visade en signifikant ökning på cirka 1,6% - 2,5% och 10% - 17% av den genomsnittliga genomströmningen för mellancellsanvändare respektive cellkantsanvändare, jämfört med den nuvarande toppmoderna OLLA mekanismen. Slutligen är det inte nödvändigt att apriori sätta ett fast BLER-mål, och därför fungerar den RL-baserade länkanpassningen bra under olika radioförhållanden.
Place, publisher, year, edition, pages
2020. , p. 50
Series
TRITA-EECS-EX ; 2020:909
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-290081OAI: oai:DiVA.org:kth-290081DiVA, id: diva2:1527910
External cooperation
Ericsson AB
Supervisors
Examiners
2021-02-152021-02-122022-06-25Bibliographically approved