Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
From Intents to Actions: A Study of Explainable Intent-Driven Reinforcement Learning for Cloud-Native Radio Access Network Management
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Från intentioner till handlingar : En studie av förklarbar, intentionsdriven förstärkningsinlärning för molnbaserad Radio Access Network-styrning (Swedish)
Abstract [en]

Reinforcement learning (RL) has shown potential in numerous telecommunications applications, but its application in live Radio Access Networks (RANs) is hindered by challenges like interpreting agent behavior and potential negative impacts from suboptimal actions. Moreover, there is an ambition to incorporate user-defined intents into managing dynamic RAN environments in line with the intent-based networking paradigm. Intents are declarative, high-level operational goals that operators want to achieve without specifying how to achieve them, such as “minimize packet drop rate in the network”. To address these challenges, this thesis explored how intent formulation impacts RL agent behavior. The data was collected from a RAN simulator featuring adaptable control services capable of adding or removing resources in the network. Offline RL was used to train the agents, and the reward functions were designed based on five user-defined intents. The intents ranged from focusing on minimizing cost to minimizing drop rate, with a balanced intent in the middle and others falling between these extremes. By incorporating intents into the reward structure, the learning process was guided towards actions that satisfy the specified objectives. The results revealed differences in action distributions where cost-centric intents mainly selected actions removing instances of RAN services, whereas drop rate-focused intents chose to add instances, but to a lesser degree. Analysis using Kernel SHAP showed consistent feature importance across policies, specifically that the number of instances running per service had the highest feature importance, followed by CPU usage and packet metrics, across all intents. Importantly, the study found that agent actions do not always align with user intentions, highlighting the need for careful intent-to-reward mapping.

Abstract [sv]

Förstärkningsinlärning (Reinforcement Learning) har visat lovande resultat i många telekommunikationstillämpningar, men dess praktiska implementering i Radio Access Networks (RANs) hindras av faktorer som svårigheter att förstå förstärkningsinlärningsagenters beteenden samt risken för negativa konsekvenser av suboptimala handlingar. Dessutom finns det en ambition att använda intentioner (intents) i styrning av RANs, i linje med paradigmet för intentionsbaserade nätverk (Intent-based Networks). Intentioner är deklarativa mål som operatörer vill uppnå utan att specificera hur de ska uppnås, till exempel “minimera paketförlust i nätverket”. För att hantera dessa utmaningar undersökte denna studie hur formuleringen av intentioner påverkar beteendet hos RL-agenter. Data samlades in från en RAN-simulator med justerbara kontrolltjänster som kan lägga till eller ta bort resurser i nätverket. Offline förstärkningsinlärning användes för att träna agenterna och belöningsfunktionerna utformades baserat på fem intentioner. Intentionerna sträckte sig från att fokusera på att minimera kostnader till att minimera paketförlust, med en balanserad intention i mitten och andra som föll mellan dessa ytterligheter. Genom att integrera intentioner i belöningsstrukturen påverkades inlärningsprocessen att välja handlingar som ledde till att uppfylla intentionerna. Resultaten visade skillnader i fördelningar av handlingar för olika intentioner, där kostnadsfokuserade intentioner främst valde handlingar som tog bort instanser av RAN-tjänster, medan intentioner som fokuserade på paketförlust valde att lägga till instanser, men i mindre utsträckning. Analys med Kernel SHAP visade konsekvent att samma features var viktiga för samtliga intentioner, specifikt att antalet instanser per RAN-tjänst hade högst feature importance, följt av CPU-användning och paketrelaterade mätvärden, för alla intentioner. Studien fann att agenters handlingar inte alltid stämde överens med användarintentioner, vilket betonar vikten av noggrann mappning mellan intention och belöning.

Place, publisher, year, edition, pages
2024. , p. 66
Series
TRITA-EECS-EX ; 2024:837
Keywords [en]
Radio Access Network, Offline Reinforcement Learning, Explainable Reinforcement Learning, Explainability, SHAP, Intent-based Network, Intent
Keywords [sv]
Radio Access Network, Offline Reinforcement Learning, Explainable Reinforcement Learning, Explainability, SHAP, Intent-based Network, Intent
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360489OAI: oai:DiVA.org:kth-360489DiVA, id: diva2:1940452
External cooperation
Ericsson
Supervisors
Examiners
Available from: 2025-03-03 Created: 2025-02-26 Last updated: 2025-03-03Bibliographically approved

Open Access in DiVA

fulltext(17385 kB)73 downloads
File information
File name FULLTEXT02.pdfFile size 17385 kBChecksum SHA-512
1d1207b8b9b7f535dc2440fb860ed24189c5fee5d95dcbf09fd0c8a6ea8011a0579ac7e190b249eb075b6e3dc48ddcddb96dfb505dc98c89c4a794dbec0ae747
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 73 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 429 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf