Agent trained by reinforcement learning algorithms for generation of buildings under geometrical constraints
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Agent utbildad med reinforcement learning-algoritmer för generering av byggnader under geometriska begränsningar (Swedish)
Abstract [en]
Preserving biodiversity and providing fair access to infrastructures and housing in cities is essential to maintain and improve the quality of life of citizens. In light of the climate and housing crisis, rethinking cities and rebuilding more densely on a large scale limits urban sprawl and land artificialisation while also providing as many people as possible with good access to jobs and infrastructures that concentrate in urban areas. The construction of a building on a plot is subjected to non-convex geometrical constraints derived from local urban regulations such as urban planning rules or architectural coherency constraints. The constraints about maximum floor area, distance between buildings, and maximum height are taken into account. This thesis addresses the challenge of optimising the parameters of the buildings such as length, width, angle of rotation, height, and position on a plot to maximise the habitable area through the use of reinforcement learning algorithms. It explores different options for the modeling environment and the reinforcement learning agent’s action space in order to evaluate the performances in terms of the habitable area of the generated buildings and the capacity to handle the geometrical constraints. Four state-of- the-art reinforcement learning algorithms are compared quantitatively and qualitatively: Advantage Actor-Critic (A2C), Deep Q-Learning (DQN), Proximal Policy Optimisation (PPO) and Deep Deterministic Policy Gradient (DDPG). The findings indicate that vector-based modeling is a sounder choice, as opposed to image-based modeling, both for the conciseness of the parameters representation as well as for improving the computation speed. Besides, allowing for more flexibility on the agent’s part through a continuous action space achieves better results than relying on a discrete action space. The algorithm that works best among the four tested ones is A2C. Quantitatively, the results are better than the others in terms of habitable area and qualitatively it presents a good exploration strategy to find the maximum habitable area. Though improvements can be made to the robustness and the precision, this approach presents promising results in providing urban actors with tools to assess the potential of cities.
Abstract [sv]
Att bevara den biologiska mångfalden och ge rättvis tillgång till infrastruktur och bostäder i städerna är avgörande för att upprätthålla och förbättra medborgarnas livskvalitet. Mot bakgrund av klimat- och bostadskrisen är det viktigt att tänka om när det gäller städer och bygga tätare i stor skala för att begränsa stadsutbredning och markförstöring och samtidigt ge så många människor som möjligt god tillgång till arbetstillfällen och infrastruktur som är koncentrerade till stadsområden. Uppförandet av en byggnad på en tomt är föremål för icke-konvexa geometriska begränsningar som härrör från lokala stadsbestämmelser, såsom stadsplaneringsregler eller arkitektoniska begränsningar. Hänsyn tas till begränsningar avseende maximal golvyta, avstånd mellan byggnader och maximal höjd. Denna avhandling behandlar utmaningen att optimera parametrarna för byggnaderna, såsom längd, bredd, rotationsvinkel, höjd och position på en tomt för att maximera den beboeliga ytan genom att använda algoritmer för förstärkt inlärning. Olika alternativ för modelleringsmiljön och handlingsutrymmet för agenten för förstärkt inlärning utforskas för att utvärdera prestandan när det gäller den beboeliga ytan för de genererade byggnaderna och förmågan att hantera de geometriska begränsningarna. Fyra state-of-the-art algoritmer för förstärkt inlärning jämförs kvantitativt och kvalitativt: Advantage Actor- Critic (A2C), Deep Q-Learning (DQN), Proximal Policy Optimisation (PPO) och Deep Deterministic Policy Gradient (DDPG). Resultaten visar att vektorbaserad modellering är ett bättre val än bildbaserad modellering, både för att parametrarna representeras på ett mer koncist sätt och för att beräkningshastigheten förbättras. Dessutom ger det bättre resultat att tillåta mer flexibilitet från agentens sida genom ett kontinuerligt handlingsutrymme än att förlita sig på ett diskret handlingsutrymme. Den algoritm som fungerar bäst bland de fyra testade algoritmerna är A2C. Kvantitativt är resultaten bättre än de andra när det gäller beboelig yta och kvalitativt presenterar den en bra utforskningsstrategi för att hitta den maximala beboeliga ytan. Även om robustheten och precisionen kan förbättras, ger denna metod lovande resultat när det gäller att förse stadsaktörer med verktyg för att bedöma städernas potential.
Place, publisher, year, edition, pages
2024. , p. 58
Series
TRITA-EECS-EX ; 2024:946
Keywords [en]
Reinforcement Learning, Constraints, Building Generation, Local Urban Plan, Advantage Actor-Critic, Deep Q-Learning, Proximal Policy Optimisation, Deep Deterministic Policy Gradient
Keywords [sv]
Förstärkningsinlärning, begränsningar, byggnadsgenerering, lokal stadsplan, Advantage Actor-Critic, Deep Q-Learning, Proximal Policy Optimisation, Deep Deterministic Policy Gradient
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361102OAI: oai:DiVA.org:kth-361102DiVA, id: diva2:1943657
External cooperation
Élément Déclencheur
Supervisors
Examiners
2025-03-172025-03-112025-03-17Bibliographically approved