Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Adaptive Cyber Defense Against APT28: A Comparative Evaluation of Reinforcement Learning-Based Policies in an Emulated Network Environment
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Adaptivt cyberförsvar mot APT28 : En jämförande utvärdering av förstärkande lärande-baserade policyer i en emulerad nätverksmiljö (Swedish)
Abstract [en]

Advanced Persistent Threats (APTs) pose a major challenge for cybersecurity, as their stealth and persistence allow them to bypass conventional security mechanisms. Although reinforcement learning (RL) has been explored for adaptive cyber defense, many existing approaches rely on static and public dataset-driven simulations that fail to capture the complexity and dynamic nature of real-world adversarial behaviors. This limitation reduces the effectiveness of RL-trained defenders in practical deployments. To bridge the gap, this thesis proposes an RL-based network defense framework that integrates with a network emulator and Intrusion Detection System (IDS) logs rather than relying on precollected datasets. Modeled as a Partially Observable Markov Decision Process (POMDP), our framework enables the RL defender agent to learn optimal mitigation strategies from real-time interactions with an emulated network which closely represents a real-word enterprise network scenario. This approach allows the defender to adapt to evolving threats without static training data or a predefined order of defensive actions. Experimental results demonstrate that our framework significantly im- proves network resilience, achieving over a 50% increase in defender win rate and cumulative reward compared to the heuristic baseline policy while minimizing unnecessary defensive actions. Evaluations of different RL algorithms also indicate costs in precision, recall, and computation resource utilization. By addressing the limitations of static dataset-based simulations and enabling real-time adaptation to adversarial behaviors, this research advances autonomous network defense, providing a flexible and intelligent approach to counter sophisticated cyber threats.

Abstract [sv]

Advanced Persistent Threats (APTs) utgör en stor utmaning för cybersäkerhet, eftersom deras smygande och uthållighet tillåter dem att kringgå konventionel- la säkerhetsmekanismer. Även om förstärkningsinlärning (RL) har utforskats för adaptivt cyberförsvar, förlitar sig många befintliga tillvägagångssätt på statiska och offentliga datauppsättningsdrivna simuleringar som misslyckas med att fånga komplexiteten och dynamiska karaktären hos verkliga kontradiktoriska beteenden. Denna begränsning minskar effektiviteten hos RL-tränade försvarare i praktiska utplaceringar. För att överbrygga klyftan föreslår denna avhandling ett RL-baserat nätverksförsvarsramverk som integreras med en nätverksemulator och loggar för intrångsdetektionssystem (IDS) snarare än att förlita sig på förinsamlade datamängder. Modellerad som en delvis observerbar Markov-beslutsprocess (POMDP), gör vårt ramverk det möjligt för RL-försvarsagenten att lära sig optimala begränsningsstrategier från realtidsinteraktioner med ett emulerat nätverk som nära representerar ett verkligt företagsnätverksscenario. Detta tillvägagångssätt gör att försvararen kan anpassa sig till utvecklande hot utan statisk träningsdata eller en fördefinierad ordning av defensiva åtgärder. Experimentella resultat visar att vårt ramverk avsevärt förbättrar nätverkets motståndskraft och uppnår över 50% ökning av försvarsvinst och kumulativ belöning jämfört med den heuristiska baslinjepolicyn samtidigt som onödiga defensiva åtgärder minimeras. Utvärderingar av olika RL-algoritmer indikerar också kostnader för precision, återkallelse och beräkningsresursutnyttjande. Genom att ta itu med begränsningarna hos statiska datauppsättningsbaserade simuleringar och möjliggöra realtidsanpassning till kontradiktoriska beteen- den, främjar denna forskning autonomt nätverksförsvar, vilket ger ett flexibel och intelligent tillvägagångssätt för att motverka sofistikerade cyberhot.

Place, publisher, year, edition, pages
2025. , p. 144
Series
TRITA-EECS-EX ; 2025:81TRITA-EECS-EX
Keywords [en]
Cybersecurity, APTs, POMDP, Reinforcement Learning, IDS
Keywords [sv]
Cybersäkerhet, APT, POMDP, Förstärkningsinlärning, IDS
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-362124OAI: oai:DiVA.org:kth-362124DiVA, id: diva2:1950574
Supervisors
Examiners
Available from: 2025-04-24 Created: 2025-04-08 Last updated: 2025-04-24Bibliographically approved

Open Access in DiVA

fulltext(2560 kB)287 downloads
File information
File name FULLTEXT02.pdfFile size 2560 kBChecksum SHA-512
11da804af1e2f75915d889f01cd6d070acacf6ffc8ea9639e7604e1eb0a6611f9ac40cace3b8b8d5b5353a4874e8190e494c7a94e39cb8bf78172a61f2347adb
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 287 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 214 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf