Skeleton-based Football Referee Action Recognition
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Skelettbaserad igenkänning av fotbollsdomares handlingar (Swedish)
Abstract [en]
Referee signals are crucial for understanding football games. While existing tracking techniques provide accurate skeleton data for players and referees, automatic recognition of referee actions remains largely unexplored. This work aims to develop self-supervised and semi-supervised learning methods for referee action recognition from skeleton data, leveraging abundant unlabeled data, and addressing the challenge of labeled data scarcity. We propose a pre-training and fine-tuning pipeline based on transformer- based masked autoencoders for this task, with granularly differentiated approaches for main referees and assistant referees. For assistant referees, whose actions are more static, we introduce a frame-level model. The model is initially pre-trained on unlabeled frames and subsequently fine-tuned on task- specific data to perform action recognition. For main referees, we pre-train a sequence-level model to capture more contextual information. A novel multi- task pre-training objective is proposed, combining motion prediction and data2vec, where the prediction target is latent contextualized representations calculated by a teacher model. Furthermore, we fine-tune the model with a sequence labeling task supervised by a binary classification model, eliminating the need for frame-level annotations and utilizing the labels more efficiently. Additionally, we implement strategies to integrate additional inputs during fine-tuning, such as the ball position, to provide necessary details for action recognition. Experiments show that our proposed methods excel in both the evaluation set and real-game scenarios. Our frame-level model achieves an accuracy of 99.46% on the test set and an F1 score of 0.92 on a real game. For the more challenging task of main referee action recognition, our sequence-level model achieves an accuracy of 91.88% on the test set and an F1 score of 0.79 on a real game.
Abstract [sv]
Domarsignaler är avgörande för att förstå fotbollsmatcher. Befintliga spår- ningstekniker ger exakt skelettdata för spelare och domare, men automatisk igenkänning av domarens handlingar fortfarande till stor del outforskad. Syftet med detta arbete är att utveckla självövervakade och semiövervakade inlärningsmetoder för igenkänning av domarens handlingar från skelettdata, utnyttja en stor mängd ej annoterad data och hantera utmaningen som uppstår när annoteringar fattas. Vi föreslår en förtränings och finjusteringspipeline baserad på trans- formerbaserade maskerade autoencodernätverk med särskilda tillvägagångs- sätt för huvuddomare och assisterande domare. För assisterande domare, vars handlingar är mer statiska, introducerar vi en modell på bildnivån. Modellen förtränas initialt på ej annoterade bilder och finjusteras därefter på en uppgiftsspecifik datamängd för att utföra handlingsigenkänning. För huvuddomare förtränar vi en modell på sekvensnivå för att fånga mer kontextuell information. Ett nytt multitask-förträningsmål föreslås, som kombinerar rörelseförutsägelse och data2vec där målen för förutsägelser är latenta kontextualiserade representationer beräknade av en lärarmodell. Utöver detta finjusterar vi modellen med ett sekvensannoteringsproblem som övervakas av en binär klassificeringsmodell, vilket eliminerar behovet av annoteringar av enstaka bilder och använder annoteringar mer effektivt. Dessutom implementerar vi strategier för att integrera ytterligare indata under finjustering, såsom bollpositionen, för att ge nödvändiga detaljer för igenkänning av handlingar. Experiment visar att våra föreslagna metoder utmärker sig både i ut- värderingsuppsättningen och i verkliga matchsituationer. Vår bildnivåmodell presterar utmärkt för assisterande domare, och uppnår en noggrannhet på 99,46% på testuppsättningen och en F1-poäng på 0,92 i en verklig match. För den mer utmanande uppgiften att känna igen huvuddomarens handlingar visar vår sekvensnivåmodell också tillfredsställande prestanda, och uppnår en noggrannhet på 91,88% på testuppsättningen och en F1-poäng på 0,79 i en verklig match.
Place, publisher, year, edition, pages
2024. , p. 107
Series
TRITA-EECS-EX ; 2024:741
Keywords [en]
Skeleton-based action recognition, Referee action recognition, Masked autoencoders, Self-supervised learning, Semi-supervised learning
Keywords [sv]
Skelettbaserad handlingsigenkänning, Igenkänning av domares handlingar, Maskerad autoencoder, Självövervakad inlärning, Semiövervakad inlärning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360099OAI: oai:DiVA.org:kth-360099DiVA, id: diva2:1938366
External cooperation
Tracab
Supervisors
Examiners
2025-02-202025-02-182025-02-20Bibliographically approved