AutoQuorum: Workload-aware Optimization for Replicated State Machines
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
AutoQuorum : Arbetsbelastningsmedveten Optimering för Replicated State Machines (Swedish)
Abstract [en]
Distributed systems are widely used to design low-latency, scalable, and available services by distributing tasks across multiple machines or nodes. These systems achieve high availability through fault tolerance, allowing them to continue operating even when individual nodes fail, and minimize latency by deploying nodes geographically, enabling client requests to be processed closer to their source. However, when services require consistent state across nodes, the coordination necessary to ensure consistency is at odds with the goal of low latency. The standard approach to achieving consistency is through Replicated State Machines, where operations on shared state must be coordinated among majorities of nodes, known as quorums. This coordination significantly diminishes the latency gains achieved by placing nodes near client requests. This work identifies key configuration parameters that influence quorum coordination in Replicated State Machines and develops techniques to safely and efficiently reconfigure them to optimize latency while maintaining strong consistency. Additionally, a distributed and strongly consistent quorum read algorithm tailored to this dynamic configuration setting is presented. These contributions are implemented in AutoQuorum, a runtime optimizer for leader-based Replicated State Machine protocols, which continuously reconfigures the system to optimize latency in response to changing workloads. AutoQuorum was deployed across geographically distributed Google Cloud Platform instances, and its latency optimization was evaluated across various workloads. The results demonstrate that AutoQuorum can significantly improve latency, reducing it by more than 85% in certain scenarios.
Abstract [sv]
Distribuerade system används i stor utsträckning för att designa låg latens, skalbara och tillgängliga tjänster genom att distribuera uppgifter över flera maskiner eller noder. Dessa system uppnår hög tillgänglighet genom feltolerans, vilket gör att de kan fortsätta att fungera även när enskilda noder misslyckas, och minimerar latensen genom att distribuera noder geografiskt, vilket gör att klientförfrågningar kan behandlas närmare källan. Men när tjänster kräver konsekvent tillstånd över noder, är den koordinering som krävs för att säkerställa konsistens i strid med målet om låg latens. Standardmetoden för att uppnå konsekvens är genom Replicated State Machines, där operationer på delat tillstånd måste samordnas mellan majoriteter av noder, så kallade kvorum. Denna koordinering minskar avsevärt latensvinsterna som uppnås genom att placera noder nära klientförfrågningar. Det här arbetet identifierar viktiga konfigurationsparametrar som påverkar kvorumkoordinationen i Replicated State Machines och utvecklar tekniker för att säkert och effektivt konfigurera om dem för att optimera latensen samtidigt som en stark konsekvens bibehålls. Dessutom presenteras en distribuerad och starkt konsekvent kvorumläsalgoritm som är skräddarsydd för denna dynamis- ka konfigurationsinställning. Dessa bidrag implementeras i AutoQuorum, en exekveringsoptimerare för ledarbaserade Replicated State Machine-protokoll, som kontinuerligt omkonfigurerar systemet för att optimera latens som svar på ändrade arbetsbelastningar. AutoQuorum distribuerades över geografiskt distribuerade Google Cloud Platform-instanser, och dess latensoptimering utvärderades över olika arbetsbelastningar. Resultaten visar att AutoQuorum avsevärt kan förbättra latensen och minska den med mer än 85% i vissa scenarier.
Place, publisher, year, edition, pages
2025. , p. 59
Series
TRITA-EECS-EX ; 2025:24
Keywords [en]
Consensus, Quorums, Paxos, Raft, Replicated state machine, Sequence consensus, State machine replication, Cloud, Database, Distributed, Dis- tributed systems, Reconfiguration, Quorum systems, Flexible quorums, Linearizability, Quorum reads, Leader election
Keywords [sv]
Consensus, Quorums, Paxos, Raft, Replicated state machine, Sequence consensus, State machine replication, Moln, Databas, Distribuerad, Dis- tribuerade system, Omkonfiguration, Quorum systems, Flexible quorums, Linearizability, Quorum reads, Leader election
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361698OAI: oai:DiVA.org:kth-361698DiVA, id: diva2:1947363
Supervisors
Examiners
2025-03-312025-03-252025-03-31Bibliographically approved