Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Investigating Altitude-Adaptive Methods for Enhancing Small Object Detection on UAVs
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Undersökning av höjdadaptiva metoder för förbättrad detektering av små objekt på UAVs (Swedish)
Abstract [en]

Computer vision is vital for the recent development of aerial vision-based applications, however, small object detection remains a challenge even for state-of-the-art models such as YOLOv7-tiny. Object detection from Unmanned Aerial Vehicles (UAVs) is particularly affected because of their sometimes high flight altitude leading to a greater amount of small objects to detect, while their limited storage and computing power capacity restricts the model complexity. Contextual information such as the flight altitude is often readily available from onboard sensors and can serve as relevant prior knowledge to a neural network learning to predict the size, location, and class of objects in an image. Despite that, research in this direction is sparse and focuses on specific applications, demanding more general approaches. This thesis investigates various methods to integrate altitude information into the learning process of an object detection network. The focus of this work lies in analyzing the influence of the proposed methods on precision, recall, and mean average precision (mAP) for aerial datasets across different altitude levels and in general. We demonstrate that concatenating the input image with the altitude information or adding an auxiliary head that predicts the altitude from an image can help to slightly boost the performance. Furthermore, despite a reduced average precision, a dynamic loss based on altitude can offer more controlled fine-tuning of the model depending on the specific requirements of a UAV-based detection task. However, our results also showed that the greatest benefits stemmed from the addition of a small object detection head and the removal of the largest head which is unrelated to flight altitude. Nevertheless, this approach could potentially be further improved through one of the altitude adaptive methods since they are not mutually exclusive. The proposed methods and benchmarks provide a foundation for future research in the area of altitude-aware models as well as validate research on UAV- optimized YOLO models. Overall, this work provides an overview of how contextual information could be integrated into an existing object detection model and its effects on the training process and inference performance.

Abstract [sv]

Datorseende är avgörande för den senaste utvecklingen av applikationer baserade på flygseende, men detektering av små objekt är fortfarande en utmaning även för toppmoderna modeller som YOLOv7-tiny. Objekt- detektering från obemannade flygfarkoster (UAVs) påverkas särskilt på grund av deras ibland höga flyghöjd, vilket leder till en större mängd små objekt att upptäcka, samtidigt som deras begränsade lagrings- och datorkapacitet begränsar modellens komplexitet. Kontextuell information som flyghöjd är ofta lättillgänglig från sensorer ombord och kan fungera som relevant förkunskap för ett neuralt nätverk som lär sig att förutsäga storlek, plats och klass för objekt i en bild. Trots detta är forskningen i denna riktning sparsam och fokuserar på specifika applikationer, vilket kräver mer generella tillvägagångssätt. I den här avhandlingen undersöks olika metoder för att integrera höjdinformation i inlärningsprocessen för ett nätverk för objektdetektering. Fokus för detta arbete ligger i att analysera de föreslagna metodernas påverkan på precision, återkallande och genomsnittlig genomsnittlig precision (mAP) för flygdataset på olika höjdnivåer och i allmänhet. Vi visar att om man sammankopplar indatabilden med höjdinformationen eller lägger till ett extra huvud som förutsäger höjden från en bild kan det bidra till att öka prestandan något. Trots en minskad genomsnittlig precision kan en dynamisk förlust baserad på höjd dessutom erbjuda en mer kontrollerad finjustering av modellen beroende på de specifika kraven för en UAV-baserad detekteringsuppgift. Våra resultat visade dock också att de största fördelarna härrörde från tillägget av ett detekteringshuvud för små objekt och borttagandet av det största huvudet som inte är relaterat till flyghöjden. Trots detta kan denna metod potentiellt förbättras ytterligare genom någon av de höjdadaptiva metoderna eftersom de inte utesluter varandra. De föreslagna metoderna och riktmärkena utgör en grund för framtida forskning inom området höjdmedvetna modeller samt validerar forskning om UAV-optimerade YOLO-modeller. Sammantaget ger detta arbete en översikt över hur kontextuell information kan integreras i en befintlig objektdetekteringsmodell och dess effekter på träningsprocessen och inferensprestanda.

Place, publisher, year, edition, pages
2024. , p. 67
Series
TRITA-EECS-EX ; 2024:815
Keywords [en]
Small Object Detection, Altitude adaptive, Unmanned Aerial Vehicles (UAV), YOLOv7-tiny
Keywords [sv]
Detektering av små objekt, Höjdadaptiv, Obemannade Flygfarkoster (UAV), YOLOv7-tiny
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-360319OAI: oai:DiVA.org:kth-360319DiVA, id: diva2:1939984
External cooperation
FLOX Robotics
Supervisors
Examiners
Available from: 2025-02-27 Created: 2025-02-25 Last updated: 2025-02-27Bibliographically approved

Open Access in DiVA

fulltext(7494 kB)35 downloads
File information
File name FULLTEXT02.pdfFile size 7494 kBChecksum SHA-512
e884608ba3033615287324916afe4a0828192e26124efd603953eff63380c96ad8758f6cbe750e821de1cfd6fc0057f030108901f06c1f040cd165d9a599304d
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 39 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 382 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf