Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Convolutional Auto Encoder for Generating Radar Range-Azimuth Maps from Images
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Convolutional Auto Encoder för Genererar Radar Range-Azimuth Kartor från bilder (Swedish)
Abstract [en]

The Society of Automotive Engineers has established a framework for driving automation, comprising six levels of autonomy, ranging from Level 0 (no driving automation) to Level 5 (full driving automation). To achieve the highest level of autonomy, vehicles must be equipped with sensors that enable them to accurately perceive their surroundings and make informed decisions. The ability to perceive the environment is crucial for safe and reliable vehicle operation, as it allows vehicles to detect and respond to various objects, obstacles, and road conditions. Effective perception requires the processing of complex sensor data, which can be achieved through the integration of multiple sensor modalities, including cameras, radar, and Light Detection and Ranging (LiDAR). Deep Learning has emerged as the preferred method for processing the vast amounts of data generated by these sensor modalities, due to its ability to learn complex patterns and relationships. The development of deep learning-based assisted and automated driving technologies relies heavily on the availability of diverse and high-quality sensor data. However, the scarcity of publicly available radar datasets hinders the advancement of these technologies in the radar domain. To address this challenge, we propose Range Azimuth from Image, Depth and Semantic descriptors (RAIDS), a novel Convolutional Auto Encoder (CAE) based model that takes as input the Red Green Blue (RGB) image, depth information, and semantic scene descriptor obtained from two foundation models and is capable of converting them into Range-Azimuth (RA) maps. Notably, our model leverages attention mechanisms, specifically channel and spatial attention, to selectively focus on relevant features and improve the localization and estimation of reflection strength in the generated RA maps. To provide a comparison, we have also developed a model that uses only RGB images as input, without any additional depth or semantic descriptors, to synthesize RA maps. The proposed model is trained using a publicly available dataset which contains scenes from urban, rural and highway environments using a long range radar to guide the learning process. Notably, our model demonstrates effective transfer learning capabilities, as it is able to generalize well to a different dataset, which contains scenes with different semantic classes and is captured with a short-range radar. This evaluation provides a robust test of the model’s ability to adapt to new environments and different radar configurations. An ablation study is done to show the added benefit of each of supplementary information from different foundation models. Quantitative conclusion are drawn from a series of evaluation metrics and qualitative conclusions are drawn using diverse scenes from the dataset. 

Abstract [sv]

Society of Automotive Engineers har etablerat ett ramverk för körning automation, som omfattar sex nivåer av autonomi, från nivå 0 (nr körautomation) till nivå 5 (full körautomation). För att uppnå högsta nivå av autonomi, fordon måste vara utrustade med sensorer som möjliggör dem att korrekt uppfatta sin omgivning och fatta välgrundade beslut. Förmågan att uppfatta miljön är avgörande för ett säkert och pålitligt fordon drift, eftersom den tillåter fordon att upptäcka och reagera på olika föremål, hinder och vägförhållanden. Effektiv uppfattning kräver bearbetning av komplexa sensordata, som kan uppnås genom integrering av flera sensormodaliteter, inklusive kameror, radar och lidar. Deep Learning har framkommit som den föredragna metoden för att bearbeta stora mängder data genereras av dessa sensormodaliteter, på grund av dess förmåga att lära sig komplex mönster och relationer. Utvecklingen av Deep Learning-baserad assisterad och automatiserad körning teknologier är starkt beroende av tillgången på olika och högkvalitativa sensordata. Men bristen på allmänt tillgängliga radaruppsättningar hindrar utvecklingen av dessa tekniker. För att möta denna utmaning föreslår vi RAIDS, en ny Convolutional Auto Encoder (CAE) baserad modell som tar som inmatning av RGB-bilden, djupinformation och semantisk scenbeskrivning erhålls från två grundmodeller och kan konvertera dem i Range-Azimut (RA) kartor. Det är särskilt viktigt att vår modell drar nytta av uppmärksamhet mekanismer, särskilt kanal och rumslig uppmärksamhet, för att selektivt fokusera på relevanta egenskaper och förbättra lokaliseringen och uppskattningen av reflektion styrka i de genererade RA-kartorna. För att ge en jämförelse har vi också utvecklat en modell som endast använder rödgrönblå (RGB) bilder som indata, utan ytterligare djup eller semantiska deskriptorer, för att syntetisera RA-kartor. Den föreslagna modellen är tränad med scener från stad, landsbygd och motorväg miljöer som använder en långdistansradar för att styra inlärningsprocessen. De Modellen visar också generaliseringsförmåga när den exponeras för scen från olika miljöer och även testad för en kortdistansradar. En ablation studien görs för att visa den extra fördelen med var och en av kompletterande information från olika grundmodeller. Kvantitativa slutsatser dras från a serier av utvärderingsmått och kvalitativa slutsatser dras med hjälp av olika scener från datamängden.

Place, publisher, year, edition, pages
2024. , p. 48
Series
TRITA-EECS-EX ; 2024:853
Keywords [en]
Automotive radar, Semantic segmentation, Depth map estimation, Foundation models, Deep autoencoders.
Keywords [sv]
Fordonsradar, Semantisk segmentering, Uppskattning av djupkarta, Foundation modeller, Deep autoencoders.
National Category
Electrical Engineering, Electronic Engineering, Information Engineering
Identifiers
URN: urn:nbn:se:kth:diva-360631OAI: oai:DiVA.org:kth-360631DiVA, id: diva2:1941304
External cooperation
NXP Semiconductors
Supervisors
Examiners
Available from: 2025-03-06 Created: 2025-02-28 Last updated: 2025-03-06Bibliographically approved

Open Access in DiVA

fulltext(8711 kB)163 downloads
File information
File name FULLTEXT02.pdfFile size 8711 kBChecksum SHA-512
745d01edeb5124e07373befa1ac664a4026dd00a7bf26087128937ed9fff369e2860b005ab8b0c6fe3d5e8539300392faf964ba4b09bad93730d75dffa5c2428
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Electrical Engineering, Electronic Engineering, Information Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 163 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 586 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf