Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Vision transformer anomaly detection on mask writer servo logs: A study of vision transformer for anomaly detection in 2D servo logs of industrial mask writers
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Vision transformer anomalidetektering på servo loggar från fotomaskritare : En studie om vision transformers för anomalidetektering av 2D servologgar från industriella maskritare (Swedish)
Abstract [en]

Anomaly detection is the task of identifying data that deviates from a normal set of data. When dealing with larger data a common approach is to split the data into same-sized patches for more feasible and uniform model input. A problem that occurs when using convolutions is that a larger patch size negatively impacts the detection performance on smaller anomalies and the smaller patch size risks missing anomalies that span over the patch size. In this thesis we investigate vision transformers for this anomaly detection task, with its self-attention it is a perfect candidate for this problem. After a study of the current field, we chose to implement InTra, an inpainting transformer that trains on reconstructing an obstructed part of the image using its surroundings. A four times increase in patch size was achieved with performance similar to its convolutional counterparts, being limited by available computational resources for increasing it further. InTra does not only keep up at this larger patch size but even improves local performance in some aspects by detecting known local anomalies that the convolutional models cannot. However, the increased patch size has not shown any improvements on larger anomalies but we see larger patch sizes as a great first step toward this goal. Additionally, this thesis investigates different training losses for InTra and their effect on performance. The standard Mean Squared Error (MSE) shows good results for InTra but is improved by combining it with Multiple Scale Gradient Magnitude Similarity (MSGMS). The statistical significance cannot be shown for all comparisons of the joint error versus the sole MSE, therefore, future studies are needed to improve the confidence of MSGMS performance improvements on surface defect detection tasks.

Abstract [sv]

Anomalidetektering går ut på att identifiera data som avviker från en normal uppsättning av data. När man hanterar större data är ett vanligt tillvägagångsätt att dela upp datan i lika stora lappar för att göra den mer hanterbar och bättre som modellinput. Ett problem som uppstår vid användning av konvolutioner är att en större lappstorlek påverkar detekteringsprestandan på mindre anomalier och användning av mindre lappstorlek riskerar att missa större anomalier som sträcker sig över lappens storlek. I den här masteruppsatsen undersöker vi vision transformers för detta anomalidetekteringsproblem, transformern är en perfekt kandidat för detta på grund av dess ”self-attention” mekanism. Efter en litteraturstudie av fältet valde vi att implementera InTra, en transformer som tränar på att återställa en ifylld del av bilden med hjälp av närliggande delar av bilden. En fyrdubbling av lappstorleken uppnåddes med liknande prestanda till tidigare konvolutionella modeller med mindre lappstorlek. InTra uppnådde inte bara liknande prestanda utan förbättrar den lokala prestandan på vissa områden och lyckas identifiera kända anomalier som kovolutionsmodellerna inte lyckas med. Dock ökar inte den större lappstorleken prestandan på större anomalier, men bra prestanda med större lappstorlek ser vi som ett bra första steg mot detta mål. Dessutom undersöker denna uppsats olika träningsförluster för InTra och deras effekt på prestandan. En intressant upptäckt är de lovande resultaten av Multiple Scale Gradient Magnitude Similarity (MSGMS), som presterar sämre på egen hand men bra resultat när den används i kombination med det vanliga förlustfunktionen genomsnittligt kvadratiskt fel (MSE).

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology , 2024. , p. 49
Series
TRITA-EECS-EX ; 2024:490
Keywords [en]
Anomaly detection, Deep learning, Vision Transformer, Photomask
Keywords [sv]
Anomalidetektering, Djupinlärning, Vision Transformer, Fotomask
National Category
Computer Sciences Computer graphics and computer vision
Identifiers
URN: urn:nbn:se:kth:diva-351613OAI: oai:DiVA.org:kth-351613DiVA, id: diva2:1887987
External cooperation
Mycronic AB
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2024-09-27 Created: 2024-08-10 Last updated: 2025-02-01Bibliographically approved

Open Access in DiVA

fulltext(776 kB)205 downloads
File information
File name FULLTEXT01.pdfFile size 776 kBChecksum SHA-512
fe1091cd82a06bb99d0f381c721567fa8dc74537c494a4b356c5d03eaf1570e0194b9a571fe5738ed35ec223be18d4c48fa1455128047c3e1914ea3e70e23b02
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer SciencesComputer graphics and computer vision

Search outside of DiVA

GoogleGoogle Scholar
Total: 205 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 166 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf