Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Hand Detection and Pose Estimation using Convolutional Neural Networks
KTH, School of Computer Science and Communication (CSC).
2015 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Handdetektering och pose-estimering med användning av faltande neuronnät (Swedish)
Abstract [en]

This thesis examines how convolutional neural networks can applied to the problem of hand detection and hand pose estimation.

Two families of convolutional neural networks are trained, aimed at performing the task of classification or regression. The networks are trained on specialized data generated from publicly available datasets. The algorithms used to generate the specialized data are also disclosed.

The main focus has been to investigate the different structural properties of convolutional neural networks, not building optimized hand detection, or hand pose estimation, systems.

Experiments revealed, that classifier networks featuring a relatively high number of convolutions offers the highest performance on external validation data. Additionally, shallow classifier networks featuring a relatively low number of convolutions, yields a high classification accuracy on training and testing data, but a very low accuracy on the validation set. This effect uncovers one of the fundamental difficulties in building a hand detection system: The asymmetric classification problem. In further investigation, it is also remarked, that relatively shallow classifier networks probably becomes color sensitive.

Furthermore, regressor networks featuring multiscale inputs typically yielded the lowest error, when tasked with computing key-point locations directly from data. It is also revealed, that color data implicitly contain more information, making it easier to compute key-point locations, especially in the image space. However, to be able to derive the color invariant features, deeper regressor networks are required.

Abstract [sv]

I detta examensarbete undersöks hur faltande neuronnät kan användas för detektering av, samt skattning av pose hos, händer.

Två familjer av neuronnät tränas, med syftet att utföra klassificering eller regression. Neuronnäten tränas med specialiserad data genererad ur publikt tillgängliga dataset. Algoritmerna för att generera den specialiserade datan presenteras även i sin helhet.

Huvudsyftet med arbetet, har varit att undersöka neuronnätens strukturella egenskaper, samt relatera dessa till prestanda, och inte bygga ett färdigt system för handdetektering eller skattning av handpose.

Experimenten visade, att neuronnät för klassificering med ett relativt stor antal faltningar ger högst prestanda på valideringsdata. Vidare, så verkar neuronnät för klassificering med relativt litet antal faltningar ge en god prestanda på träning- och testdata, men mycket dålig prestand på valideringsdata. Detta sambandet avslöjar en fundamental svårighet med att träna ett neuronnät för klassificering av händer, nämligen det kraftigt asymmetriska klassificeringsproblemet. I vidare undersökningar visar det sig också, att neuronnät för klassificering med ett relativt litet antal faltningar troligtvis enbart blir färgkänsliga.

Experimenten visade också, att neuronnät för regression som använde sig av data i flera skalor gav lägst fel när de skulle beräkna positioner av handmarkörer direkt ur data. Slutligen framkom det, att färgdata, i konstrast till djupdata, implicit innehåller mer information, vilket gör det relativt sett lättare att beräkna markörer, framför allt i det tvådimensionella bildrummet. Dock, för att kunna få fram den implicita informationen, så krävs relativt djupa neuronnät.

Place, publisher, year, edition, pages
2015.
Keyword [en]
machine learning, artificial neural networks, convolutional neural networks, computer vision
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-174197OAI: oai:DiVA.org:kth-174197DiVA: diva2:859561
Educational program
Master of Science in Engineering - Electrical Engineering
Supervisors
Examiners
Available from: 2015-10-14 Created: 2015-10-01 Last updated: 2015-10-14Bibliographically approved

Open Access in DiVA

fulltext(9218 kB)579 downloads
File information
File name FULLTEXT01.pdfFile size 9218 kBChecksum SHA-512
c525e62b985461e4b89350deb0e90ab881972f95ee0be7b27e6bf9be208476ee70c706212de1f0b635fffb15cc91fb92508e2299cb82544e729874598685d9c9
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Knutsson, Adam
By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 579 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 1025 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf