Adaptive Cyber Defense Against APT28: A Comparative Evaluation of Reinforcement Learning-Based Policies in an Emulated Network Environment
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Adaptivt cyberförsvar mot APT28 : En jämförande utvärdering av förstärkande lärande-baserade policyer i en emulerad nätverksmiljö (Swedish)
Abstract [en]
Advanced Persistent Threats (APTs) pose a major challenge for cybersecurity, as their stealth and persistence allow them to bypass conventional security mechanisms. Although reinforcement learning (RL) has been explored for adaptive cyber defense, many existing approaches rely on static and public dataset-driven simulations that fail to capture the complexity and dynamic nature of real-world adversarial behaviors. This limitation reduces the effectiveness of RL-trained defenders in practical deployments. To bridge the gap, this thesis proposes an RL-based network defense framework that integrates with a network emulator and Intrusion Detection System (IDS) logs rather than relying on precollected datasets. Modeled as a Partially Observable Markov Decision Process (POMDP), our framework enables the RL defender agent to learn optimal mitigation strategies from real-time interactions with an emulated network which closely represents a real-word enterprise network scenario. This approach allows the defender to adapt to evolving threats without static training data or a predefined order of defensive actions. Experimental results demonstrate that our framework significantly im- proves network resilience, achieving over a 50% increase in defender win rate and cumulative reward compared to the heuristic baseline policy while minimizing unnecessary defensive actions. Evaluations of different RL algorithms also indicate costs in precision, recall, and computation resource utilization. By addressing the limitations of static dataset-based simulations and enabling real-time adaptation to adversarial behaviors, this research advances autonomous network defense, providing a flexible and intelligent approach to counter sophisticated cyber threats.
Abstract [sv]
Advanced Persistent Threats (APTs) utgör en stor utmaning för cybersäkerhet, eftersom deras smygande och uthållighet tillåter dem att kringgå konventionel- la säkerhetsmekanismer. Även om förstärkningsinlärning (RL) har utforskats för adaptivt cyberförsvar, förlitar sig många befintliga tillvägagångssätt på statiska och offentliga datauppsättningsdrivna simuleringar som misslyckas med att fånga komplexiteten och dynamiska karaktären hos verkliga kontradiktoriska beteenden. Denna begränsning minskar effektiviteten hos RL-tränade försvarare i praktiska utplaceringar. För att överbrygga klyftan föreslår denna avhandling ett RL-baserat nätverksförsvarsramverk som integreras med en nätverksemulator och loggar för intrångsdetektionssystem (IDS) snarare än att förlita sig på förinsamlade datamängder. Modellerad som en delvis observerbar Markov-beslutsprocess (POMDP), gör vårt ramverk det möjligt för RL-försvarsagenten att lära sig optimala begränsningsstrategier från realtidsinteraktioner med ett emulerat nätverk som nära representerar ett verkligt företagsnätverksscenario. Detta tillvägagångssätt gör att försvararen kan anpassa sig till utvecklande hot utan statisk träningsdata eller en fördefinierad ordning av defensiva åtgärder. Experimentella resultat visar att vårt ramverk avsevärt förbättrar nätverkets motståndskraft och uppnår över 50% ökning av försvarsvinst och kumulativ belöning jämfört med den heuristiska baslinjepolicyn samtidigt som onödiga defensiva åtgärder minimeras. Utvärderingar av olika RL-algoritmer indikerar också kostnader för precision, återkallelse och beräkningsresursutnyttjande. Genom att ta itu med begränsningarna hos statiska datauppsättningsbaserade simuleringar och möjliggöra realtidsanpassning till kontradiktoriska beteen- den, främjar denna forskning autonomt nätverksförsvar, vilket ger ett flexibel och intelligent tillvägagångssätt för att motverka sofistikerade cyberhot.
Place, publisher, year, edition, pages
2025. , p. 144
Series
TRITA-EECS-EX ; 2025:81TRITA-EECS-EX
Keywords [en]
Cybersecurity, APTs, POMDP, Reinforcement Learning, IDS
Keywords [sv]
Cybersäkerhet, APT, POMDP, Förstärkningsinlärning, IDS
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-362124OAI: oai:DiVA.org:kth-362124DiVA, id: diva2:1950574
Supervisors
Examiners
2025-04-242025-04-082025-04-24Bibliographically approved