Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Lightweight U-Net combination model for steel bar segmentation
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Effektiv variant av U-Net för segmentering av stålstänger (Swedish)
Abstract [en]

The U-Net convolutional neural network architecture has gained widespread popularity for image segmentation tasks due to its robust performance and ability to capture intricate features. This thesis presents a comprehensive evaluation of various U-Net architecture variations in the specific context of segmenting metal bars from images with the goal of determining their curvature. Accurately assessing their curvature is a critical quality control step in steel manufacturing where straight products are essential to satisfy customer needs. In this study, several modifications to the original U-Net architecture are explored, including the incorporation of attention mechanisms, full skip connectivity between encoder and decoder paths, and non-standard convolution blocks at various parts of the architecture. Each variation is assessed for its segmentation accuracy, and computational and space efficiency. At disposal was small a dataset comprising very high-resolution images of metal bars. Performance metrics such as Jaccard score, precision, recall, and inference time are employed to provide a holistic view of each model’s effectiveness. The experimental results demonstrate that certain U-Net variations signifi- cantly outperform the baseline model, particularly those incorporating full skip connections and a single decoder positioned at the second shallowest level, which exhibit superior accuracy. The findings of this thesis offer valuable insights into the design choices that enhance U-Net’s performance for industrial image segmentation tasks, paving the way for more efficient and reliable automated systems in metal bar processing industries. These results underscore the potential of advanced U-Net architectures in achieving high-precision segmentation in challenging environments, ultimately contributing to improved operational efficiencies and product quality in industrial settings.

Abstract [sv]

U-Nets konvolutionella neurala nätverksarkitektur har vunnit stor popularitet för bildsegmenteringsuppgifter på grund av dess robusta prestanda och förmåga att fånga intrikata egenskaper. Denna avhandling presenterar en omfattande utvärdering av olika U-Net-arkitekturvariationer i det specifika sammanhanget att segmentera metallstänger från bilder med målet att bestämma deras krökning. Att noggrant bedöma deras krökning är ett kritiskt kvalitetskontrollsteg vid ståltillverkning där raka produkter är avgörande för att tillfredsställa kundernas behov. I denna studie undersöks flera modifieringar av den ursprungliga U- Net-arkitekturen, inklusive inkorporering av uppmärksamhetsmekanismer, fullständiga skip-anslutningar mellan kodar- och avkodarvägar och icke- standardiserade konvolutionsblock i olika delar av arkitekturen. Varje variation bedöms för dess segmenteringsnoggrannhet och beräknings- och utrymmeseffektivitet. Till förfogande fanns ett litet dataset bestående av mycket högupplösta bilder av metallstänger. Prestandamått som Jaccard-poäng, precision, återkallelse och inferenstid används för att ge en helhetsbild av varje modells effektivitet. De experimentella resultaten visar att vissa U-Net-variationer avsevärt överträffar baslinjemodellen, särskilt de som innehåller full skip-anslutningar och en enda dekoder placerad på den näst grundaste nivån, som uppvisar överlägsen noggrannhet. Resultaten av denna avhandling erbjuder värdefulla insikter i designvalen som förbättrar U-Nets prestanda för industriella bildsegmenteringsuppgifter, vilket banar väg för effektivare och pålitligare automatiserade system inom metallstångsindustrin. Dessa resultat understryker potentialen hos avancerade U-Net-arkitekturer för att uppnå högprecisionssegmentering i utmanande miljöer, vilket i slutändan bidrar till förbättrad driftseffektivitet och produktkvalitet i industriella miljöer.

Place, publisher, year, edition, pages
2024. , p. 47
Series
TRITA-EECS-EX ; 2024:883
Keywords [en]
Computer vision, U-Net, Segmentation
Keywords [sv]
Datorsyn, U-Net, segmentering
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360852OAI: oai:DiVA.org:kth-360852DiVA, id: diva2:1942155
External cooperation
Swerim AB
Supervisors
Examiners
Available from: 2025-03-07 Created: 2025-03-04 Last updated: 2025-03-07Bibliographically approved

Open Access in DiVA

fulltext(9631 kB)44 downloads
File information
File name FULLTEXT02.pdfFile size 9631 kBChecksum SHA-512
bb8c04bd87635f10f75d2e3f4b009ec63094cbdba9a57de13e223c93f1d7dd6602d79df87b7ca340e51c566cde4e88c3443d14e8f0182991b96343cc7175c6fd
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 44 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 304 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf