Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Navigating Human Pose Estimation: A Comparative Study of Solution Pipelines
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Mänsklig posestimation: Navigering och analys : En jämförelse av olika lösningsstrategier (Swedish)
Abstract [en]

Human pose estimation, an important domain within computer vision and artificial intelligence, involves detecting and estimating the positions of individuals in images or videos. This field has witnessed rapid advancement in recent years, marked by the emergence of novel and innovative methodologies, leading to a diverse field where a variety of approaches are being utilized. This diversity within the field extends to both model architectures and solution pipelines. Given the rapid development of the field of human pose estimation, critical analysis of newly emerged solution approaches is sorely needed. This Master’s thesis contributes by conducting a comparative study of two prevalent solution pipeline approaches, the top-down and bottom-up methods. The objective is to provide further insights into the optimal circumstances for the utilization of each pipeline, thereby bridging knowledge gaps in human pose estimation and facilitating continued growth within the field. This project implemented one state-of-the-art human pose estimation model for each pipeline category and evaluated its performance across various challenging image scenarios. Specifically, we examine performance in crowded scenes, occluded environments, and individuals of varying scales. Our findings indicate that no singular pipeline universally excels; rather, the optimal choice depends on the characteristics of the input images. The top-down approach demonstrates superiority in handling highly crowded and occluded images. The results also suggest that top-down models are well- suited for estimating human poses on smaller-scale individuals. Moreover, we observe that the inference time of top-down models is directly proportional to the number of individuals in the input, whereas bottom-up networks display consistent inference times irrespective of crowd density. Consequently, top- down models offer faster performance for images with fewer individuals, whereas bottom-up models excel in more crowded settings.

Abstract [sv]

Mänsklig poseestimering, ett viktigt område inom datorsyn och artificiell intelligens, involverar att upptäcka och uppskatta individers positioner i bilder eller videor. Detta område har sett en snabb utveckling de senaste åren, präglat av framväxten av nya och innovativa metoder, vilket har lett till ett mångsidigt fält där en mängd olika tillvägagångssätt används. Denna mångfald inom fältet omfattar både modellarkitekturer och lösningsprocesser. Givet den snabba utvecklingen så är djupa analyser av nyframkomna metoder behövda. Detta examensarbete bidrar genom att genomföra en jämförelse studie av två framträdande lösningsprocesser: top-down och bottom-up metoderna. Målet är att ge ytterligare insikter om de optimala omständigheterna för användningen av varje method, och därmed överbrygga kunskapsluckor inom mänsklig poseestimering samt underlätta fortsatta förbättringar inom området. Två toppmoderna modeller, ViTPose och DEKR, som representerar varsin lösningsprocess, har implementerats och utvärderats under olika utmanande omständigheter. Specifict har prestandan utvärderats för olika nivårer av folktäta miljöer, skymda miljöer och på individer av varierande skala. Resultaten indikerar att det inte finns någon enskild lösningsprocess som universellt överträffar alla andra: snarare beror det optimala valet på egenskaperna hos inmatningsbilderna. Top-down lösningsprocessen visar överlägsenhet vid hantering av folktäta och skymda personer. Dessutom visade resultaten att top-down-modeller är särskilt effektiva för poseestimering av individer i liten skala. Vidare obser- verar vi att inferenstiden för top-down-modeller är direkt proportionell mot antalet individer i inmatningen, medan bottom-up-nätverk visar konsekventa inferenstider oavsett folktäthet. Därmed erbjuder top-down-modeller snabbare poseestimering för bilder med färre individer, medan bottom-up-modeller utmärker sig i trånga miljöer.

Place, publisher, year, edition, pages
2024. , p. 67
Series
TRITA-EECS-EX ; 2024:876
Keywords [en]
Human Pose Estimation, Computer Vision, Deep Learning, Machine Learning
Keywords [sv]
Mänsklig Poseestimering, Bildbehandling, Djupinlärning, Maskininlärning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360845OAI: oai:DiVA.org:kth-360845DiVA, id: diva2:1942111
External cooperation
Knightec
Supervisors
Examiners
Available from: 2025-03-07 Created: 2025-03-04 Last updated: 2025-03-07Bibliographically approved

Open Access in DiVA

fulltext(2769 kB)39 downloads
File information
File name FULLTEXT02.pdfFile size 2769 kBChecksum SHA-512
ea82d745b5519f024262c723b1b7ffb323c56efe0e4645ac6a484589fd0e457e37f1dea381c3fdc8a29a83f324298ca83146abf34d0b161f193d2bdf9034bb48
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 39 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 365 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf