Digitala Vetenskapliga Arkivet

Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Skeleton-based Football Referee Action Recognition
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Skelettbaserad igenkänning av fotbollsdomares handlingar (svensk)
Abstract [en]

Referee signals are crucial for understanding football games. While existing tracking techniques provide accurate skeleton data for players and referees, automatic recognition of referee actions remains largely unexplored. This work aims to develop self-supervised and semi-supervised learning methods for referee action recognition from skeleton data, leveraging abundant unlabeled data, and addressing the challenge of labeled data scarcity. We propose a pre-training and fine-tuning pipeline based on transformer- based masked autoencoders for this task, with granularly differentiated approaches for main referees and assistant referees. For assistant referees, whose actions are more static, we introduce a frame-level model. The model is initially pre-trained on unlabeled frames and subsequently fine-tuned on task- specific data to perform action recognition. For main referees, we pre-train a sequence-level model to capture more contextual information. A novel multi- task pre-training objective is proposed, combining motion prediction and data2vec, where the prediction target is latent contextualized representations calculated by a teacher model. Furthermore, we fine-tune the model with a sequence labeling task supervised by a binary classification model, eliminating the need for frame-level annotations and utilizing the labels more efficiently. Additionally, we implement strategies to integrate additional inputs during fine-tuning, such as the ball position, to provide necessary details for action recognition. Experiments show that our proposed methods excel in both the evaluation set and real-game scenarios. Our frame-level model achieves an accuracy of 99.46% on the test set and an F1 score of 0.92 on a real game. For the more challenging task of main referee action recognition, our sequence-level model achieves an accuracy of 91.88% on the test set and an F1 score of 0.79 on a real game.

Abstract [sv]

Domarsignaler är avgörande för att förstå fotbollsmatcher. Befintliga spår- ningstekniker ger exakt skelettdata för spelare och domare, men automatisk igenkänning av domarens handlingar fortfarande till stor del outforskad. Syftet med detta arbete är att utveckla självövervakade och semiövervakade inlärningsmetoder för igenkänning av domarens handlingar från skelettdata, utnyttja en stor mängd ej annoterad data och hantera utmaningen som uppstår när annoteringar fattas. Vi föreslår en förtränings och finjusteringspipeline baserad på trans- formerbaserade maskerade autoencodernätverk med särskilda tillvägagångs- sätt för huvuddomare och assisterande domare. För assisterande domare, vars handlingar är mer statiska, introducerar vi en modell på bildnivån. Modellen förtränas initialt på ej annoterade bilder och finjusteras därefter på en uppgiftsspecifik datamängd för att utföra handlingsigenkänning. För huvuddomare förtränar vi en modell på sekvensnivå för att fånga mer kontextuell information. Ett nytt multitask-förträningsmål föreslås, som kombinerar rörelseförutsägelse och data2vec där målen för förutsägelser är latenta kontextualiserade representationer beräknade av en lärarmodell. Utöver detta finjusterar vi modellen med ett sekvensannoteringsproblem som övervakas av en binär klassificeringsmodell, vilket eliminerar behovet av annoteringar av enstaka bilder och använder annoteringar mer effektivt. Dessutom implementerar vi strategier för att integrera ytterligare indata under finjustering, såsom bollpositionen, för att ge nödvändiga detaljer för igenkänning av handlingar. Experiment visar att våra föreslagna metoder utmärker sig både i ut- värderingsuppsättningen och i verkliga matchsituationer. Vår bildnivåmodell presterar utmärkt för assisterande domare, och uppnår en noggrannhet på 99,46% på testuppsättningen och en F1-poäng på 0,92 i en verklig match. För den mer utmanande uppgiften att känna igen huvuddomarens handlingar visar vår sekvensnivåmodell också tillfredsställande prestanda, och uppnår en noggrannhet på 91,88% på testuppsättningen och en F1-poäng på 0,79 i en verklig match.

sted, utgiver, år, opplag, sider
2024. , s. 107
Serie
TRITA-EECS-EX ; 2024:741
Emneord [en]
Skeleton-based action recognition, Referee action recognition, Masked autoencoders, Self-supervised learning, Semi-supervised learning
Emneord [sv]
Skelettbaserad handlingsigenkänning, Igenkänning av domares handlingar, Maskerad autoencoder, Självövervakad inlärning, Semiövervakad inlärning
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-360099OAI: oai:DiVA.org:kth-360099DiVA, id: diva2:1938366
Eksternt samarbeid
Tracab
Veileder
Examiner
Tilgjengelig fra: 2025-02-20 Laget: 2025-02-18 Sist oppdatert: 2025-02-20bibliografisk kontrollert

Open Access i DiVA

fulltext(3821 kB)122 nedlastinger
Filinformasjon
Fil FULLTEXT02.pdfFilstørrelse 3821 kBChecksum SHA-512
c4139acab9d06a6eae2f1db35397cd5f2fa3be18663815b5fe670c39de093cd75be91259feaacf9fcf3bf3044c2b7d03f24cb07976f0744654615dc6b5449fce
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 122 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 318 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf