Change search
ReferencesLink to record
Permanent link

Direct link
The Effect of Batch Normalization on Deep Convolutional Neural Networks
KTH, School of Computer Science and Communication (CSC), Centres, Centre for Autonomous Systems, CAS. (CVAP)
2016 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Effekten av batch normalization på djupt faltningsneuronnät (Swedish)
Abstract [en]

Batch normalization is a recently popularized method for accelerating the training of deep feed-forward neural networks. Apart from speed improvements, the technique reportedly enables the use of higher learning rates, less careful parameter initialization, and saturating nonlinearities. The authors note that the precise effect of batch normalization on neural networks remains an area of further study, especially regarding their gradient propagation.

Our work compares the convergence behavior of batch normalized networks with ones that lack such normalization. We train both a small multi-layer perceptron and a deep convolutional neural network on four popular image datasets. By systematically altering critical hyperparameters, we isolate the effects of batch normalization both in general and with respect to these hyperparameters.

Our experiments show that batch normalization indeed has positive effects on many aspects of neural networks but we cannot confirm significant convergence speed improvements, especially when wall time is taken into account. Overall, batch normalized models achieve higher validation and test accuracies on all datasets, which we attribute to its regularizing effect and more stable gradient propagation.

Due to these results, the use of batch normalization is generally advised since it prevents model divergence and may increase convergence speeds through higher learning rates. Regardless of these properties, we still recommend the use of variance-preserving weight initialization, as well as rectifiers over saturating nonlinearities. 

Abstract [sv]

Batch normalization är en metod för att påskynda träning av djupa framåtmatande neuronnnätv som nyligt blivit populär. Förutom hastighetsförbättringar så tillåter metoden enligt uppgift högre träningshastigheter, mindre noggrann parameterinitiering och mättande olinjäriteter. Författarna noterar att den exakta effekten av batch normalization på neuronnät fortfarande är ett område som kräver ytterligare studier, särskilt när det gäller deras gradient-fortplantning.

Vårt arbete jämför konvergensbeteende mellan nätverk med och utan batch normalization. Vi träner både en liten flerlagersperceptron och ett djupt faltningsneuronnät på fyra populära bilddatamängder. Genom att systematiskt ändra kritiska hyperparametrar isolerar vi effekterna från batch normalization både i allmänhet och med avseende på dessa hyperparametrar.

Våra experiment visar att batch normalization har positiva effekter på många aspekter av neuronnät, men vi kan inte bekräfta att det ger betydelsefullt snabbare konvergens, speciellt när väggtiden beaktas. Allmänt så uppnår modeller med batch normalization högre validerings- och testträffsäkerhet på alla datamängder, vilket vi tillskriver till dess reglerande effekt och mer stabil gradientfortplantning.

På grund av dessa resultat är användningen av batch normalization generellt rekommenderat eftersom det förhindrar modelldivergens och kan öka konvergenshastigheter genom högre träningshastigheter. Trots dessa egenskaper rekommenderar vi fortfarande användning av varians-bevarande viktinitiering samt likriktare istället för mättande olinjäriteter. 

Place, publisher, year, edition, pages
2016. , 102 p.
Keyword [en]
batch normalization, deep learning, convolutional neural network
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-191222OAI: oai:DiVA.org:kth-191222DiVA: diva2:955562
Subject / course
Computer Science
Educational program
Master of Science - Computer Science
Presentation
2016-06-03, 22:an, Teknikringen 14, Stockholm, 08:30 (English)
Supervisors
Examiners
Available from: 2016-08-26 Created: 2016-08-25 Last updated: 2016-08-26Bibliographically approved

Open Access in DiVA

schilling_batchnorm_2016(7420 kB)54 downloads
File information
File name FULLTEXT01.pdfFile size 7420 kBChecksum SHA-512
95477d934eab5b2bd30674526b877507debf15abb8c81a4a9048293378f2ecd6d4ef262f2a561edaa703ac587b0a72480f0ff12c4a23cd2c2298b34ff298f7de
Type fulltextMimetype application/pdf

By organisation
Centre for Autonomous Systems, CAS
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 54 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 44 hits
ReferencesLink to record
Permanent link

Direct link