Change search
ReferencesLink to record
Permanent link

Direct link
Shape-based Representations and Boosting for Visual Object Class Detection: Models and methods for representaion and detection in single and multiple views
KTH, School of Computer Science and Communication (CSC), Computer Vision and Active Perception, CVAP.
2011 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]

Detection of generic visual object classes (i.e. cars, dogs, mugs or people) in images is a task that humans are able to solve with remarkable ease. Unfortunately this has proven a very challenging task for computer vision. Thereason is that different instances of the same class may look very different, i.e. there is a high intra-class variation. There are several causes for intra-class variation; for example (1) the imaging conditions (e.g. lighting and exposure) may change, (2) different objects of the same class typically differ in shape and appearance, (3) the position of the object relative to the camera (i.e. the viewpoint) may change and (4) some objects are articulate and may change pose. In addition the background class, i.e. everything but the target object class, is very large. It is the combination of very high intra-class variation with a large background class that makes generic object class detection difficult.

This thesis addresses this challenge within the AdaBoost framework. AdaBoost constructs an ensemble of weak classifiers to solve a given classification task and allows great flexibility in the design of these weak classifiers. This thesis proposes several types of weak classifiers that specifically target some of the causes of high intra-class variation. A multi-local classifier is proposed to capture global shape properties for object classes that lack discriminative local features, projectable classifiers are proposed to handle detection from multiple viewpoints and finally gated classifiers are proposed as a generic way to handle high intra-class variation in combination with a large background class.

All proposed weak classifiers are evaluated on standard datasets to allow performance comparison to other related methods.

Abstract [en]

Vi människor kan utan ansträngning känna igen ett stort antal visuella objektklasser (såsom bilar, hundar, koppar eller människor). Tyvärr har det visat sig mycket svårt att programmera en dator att göra samma sak. Anledningen är att olika objekt från samma klass kan ha mycket olika utseende, beroende på att (1) avbildningsförutsättningar (exempelvis ljussättning och exponering) kan förändras, (2) olika objekt från samma klass har ofta mycket olika fysiska egenskaper (såsom färg, form eller material), (3) synvinkeln förändras och (4) rörliga objekt kan inta olika ställningar. Utöver detta är bakgrundsklassen, d.v.s. alla tänkbara bilder som inte föreställer ett objekt från målklassen, mycket stor. Det är kombinationen av hög intraklassvariation och stor bakgrundsklass som gör objektigenkänning till ett svårt problem.

Denna utmaning bemöter vi inom ramarna för maskininlärningsmetoden AdaBoost. AdaBoost bygger en kraftfull klassificerare genom att kombinera ett stort antal svaga klassificerare, vars utformning är mycket fri. Denna avhandling behandlar flera olika typer av svaga klassificerare vars målsättning är att hantera några av orsakerna till intraklassvariation. Vi föreslår en multilokal klassificerare för att fånga icke-lokala formegenskaper hos objektklassersom saknar diskriminativa lokala egenskaper. Vi föreslår vidare projicerbara klassifierare för att hantera en varierande synvinkel. Slutligen föreslår vi en klassifierare baserad på logiska grindar som ett generiskt sätt att hantera stor intraklassvariation i kombination med stor bakgrundsklass.

Vi utvärderar alla föreslagna svaga klassificerare på publika datamängder för att underlätta jämförelse med andra metoder.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2011. , viii, 130 p.
National Category
Computer Vision and Robotics (Autonomous Systems)
URN: urn:nbn:se:kth:diva-58479ISBN: 978-91-7501-229-2OAI: diva2:473153
Public defence
2012-02-10, Sal F3, Lindstedtsvägen 26, KTH, Stockholm, 13:00 (English)
QC 20120110Available from: 2012-01-10 Created: 2012-01-05 Last updated: 2012-01-10Bibliographically approved

Open Access in DiVA

fulltext(65206 kB)206 downloads
File information
File name FULLTEXT01.pdfFile size 65206 kBChecksum SHA-512
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Danielsson, Oscar
By organisation
Computer Vision and Active Perception, CVAP
Computer Vision and Robotics (Autonomous Systems)

Search outside of DiVA

GoogleGoogle Scholar
Total: 206 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 337 hits
ReferencesLink to record
Permanent link

Direct link