Semantic Segmentation-aided Bundle Adjustment: Investigating semantics in Natural environments to improve camera pose estimation
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Semantisk segmenteringsstödd bundeljustering : Undersökning av semantik i naturliga miljöer för att förbättra kamerans poseringsuppskattning (Swedish)
Abstract [en]
Smart Forestry is an emerging field that uses drones for sustainable forest management. A key application involves generating digital twins of trees, enabling detailed, individualized studies. Accurate estimation of the drone’s camera pose is essential for producing a precise model of the tree. Although considerable work has been done in natural environments using LiDAR systems, these systems are often too expensive and heavy to be deployed effectively on drones. On the other hand, RGB image-based methods in Structure-from-Motion have encountered challenges in natural environments due to dynamic elements, tree occlusion, and repetitive textures. This thesis explores the potential of incorporating semantic information from natural environments to improve camera pose estimation. We propose an approach that represents static semantic objects, such as tree trunks, using cylindrical models to assist the Bundle Adjustment (BA) algorithm in Natural environments. By using semantically segmented images, we reformulate the BA problem to integrate an additional semantic error term. Two types of cylindrical representations are introduced: single-cylinder and multi-cylinder. Multiple experiments were conducted on data collected from both simulated and real-world settings, employing various data processing strategies to avoid idealized reconstruction scenarios. We then evaluate the performance of our approach across these datasets. The results indicate that our method performs effectively in noisy simulation environments that mimic real-world conditions. The approach also shows a good performance over the baselines across several real-world datasets. However, it is less robust for trees that are crooked or bent, revealing limitations of the cylindrical model for such structures. Future work could involve developing a model that more accurately captures the local crosssectional shape of tree trunks.
Abstract [sv]
Smart Forestry är ett framväxande område som använder drönare för hållbar skogsförvaltning. En viktig tillämpning är att skapa digitala tvillingar av träd, vilket möjliggör detaljerade, individanpassade studier. En noggrann uppskattning av drönarens kameraposition är avgörande för att kunna skapa en exakt modell av trädet. Även om mycket arbete har utförts i naturliga miljöer med hjälp av LiDAR-system är dessa system ofta för dyra och tunga för att kunna användas effektivt på drönare. Å andra sidan har RGB-bildbaserade metoder inom Structure-from-Motion stött på utmaningar i naturliga miljöer på grund av dynamiska element, trädocklusion och repetitiva texturer. I den här avhandlingen undersöks potentialen i att införliva semantisk information från naturliga miljöer för att förbättra kamerans posestimering. Vi föreslår ett tillvägagångssätt som representerar statiska semantiska objekt, såsom trädstammar, med hjälp av cylindriska modeller för att hjälpa Bundle Adjustment-algoritmen i naturliga miljöer. Genom att använda semantiskt segmenterade bilder omformulerar vi BA-problemet för att integrera en ytterligare semantisk felterm. Två typer av cylindriska representationer introduceras: encylindriga och flercylindriga. Flera experiment genomfördes på data som samlats in från både simulerade och verkliga miljöer, med olika databehandlingsstrategier för att undvika idealiserade rekonstruktionsscenarier. Vi utvärderar sedan prestandan för vår metod i dessa dataset. Resultaten tyder på att vår metod fungerar effektivt i bullriga simuleringsmiljöer som efterliknar verkliga förhållanden. Metoden visar också goda prestanda jämfört med baslinjerna i flera verkliga dataset. Den är dock mindre robust för träd som är krokiga eller böjda, vilket avslöjar begränsningar i den cylindriska modellen för sådana strukturer. Framtida arbete kan innebära att utveckla en modell som mer exakt fångar den lokala tvärsnittsformen hos trädstammar.
Place, publisher, year, edition, pages
2024. , p. 69
Series
TRITA-EECS-EX ; 2024:840
Keywords [en]
Computer vision, Bundle adjustment, Semantic segmentation, Structurefrom- motion
Keywords [sv]
Datorseende, Bundeljustering, Semantisk segmentering, Struktur-från-rörelse
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360496OAI: oai:DiVA.org:kth-360496DiVA, id: diva2:1940462
External cooperation
ETH Zurich
Supervisors
Examiners
2025-03-032025-02-262025-03-03Bibliographically approved