Change search
ReferencesLink to record
Permanent link

Direct link
The Impact of Imbalanced Training Data for Convolutional Neural Networks
KTH, School of Computer Science and Communication (CSC).
KTH, School of Computer Science and Communication (CSC).
2015 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

This thesis empirically studies the impact of imbalanced training data on Convolutional Neural Network (CNN) performance in image classification. Images from the CIFAR-10 dataset, a set containing 60 000 images of 10 different classes, are used to create training sets with different distributions between the classes. For example, some sets contain a disproportionately large amount of images of one class, and others contain very few images of one class. These training sets are used to train a CNN, and the networks’ classification performance is measured for each training set. The results show that imbalanced training data can potentially have a severely negative impact on overall performance in CNN, and that balanced training data yields the best results. Following this, oversampling is used on the imbalanced training sets to increase the performances to that of the balanced set. It is concluded that oversampling is a viable way to counter the impact of imbalances in the training data.

Abstract [sv]

Detta kandidatexamensarbete utför en empirisk studie av den påverkan ojämnt fördelad träningsdata har på bildklassificeringsresultat för Convolutional Neural Networks(CNN). Bilder från datamängden CIFAR-10, bestående av 60 000 bilder fördelade mellan 10 klasser, används för att skapa träningsdatamängder med olika fördelningar mellan klasserna. Exempelvis innehåller vissa mängder oproportioneligt många bilder av en klass, medan andra innehåller väldigt få bilder av en klass. Dessa datamängder används för att träna ett CNN, och nätverkets klassificeringsresultat noteras för varje datamängd. Resultaten visar att ojämt fördelad träningsdata kan ha en markant negativ påverkan på de genomsnittliga resultaten för CNN, och att balanserad träningsdata ger bäst resultat. Oversampling används på de ojämnt fördeladade träningsdatamängderna vilket resulterar i samma resultat som för den balanserade träningsdatamängden. Detta visar att oversampling är ett gångbart sätt att motverka effekterna av ojämnt fördelad träningsdata.

Place, publisher, year, edition, pages
National Category
Computer Science
URN: urn:nbn:se:kth:diva-166451OAI: diva2:811111
Available from: 2015-05-13 Created: 2015-05-11 Last updated: 2015-05-13Bibliographically approved

Open Access in DiVA

fulltext(883 kB)4959 downloads
File information
File name FULLTEXT01.pdfFile size 883 kBChecksum SHA-512
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 4959 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 1656 hits
ReferencesLink to record
Permanent link

Direct link