Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Reproducing the state of the art in onset detection using neural networks
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Replikering av de bästa resultaten inom området ansatsdetektion med neurala nätverk (Swedish)
Abstract [en]

Great strides have been made in the state of the art performance of musicial onset detection in recent years with better and better detectors being invented at a fast pace. The current top spot is held by Schlüter and Böck, who in 2014 presented a detector based on a convolutional neural network (CNN) that attained an F-score of 90.3% (Precision 91.7%, 88.9% recall) on a commonly used dataset [1].

In 2018 two researchers, Gong and Serra, tried to replicate their result but only reached an F-score of 86.67% (precision and recall values weren’t reported) [2], a significantly worse result than Schlüter and Böck’s. In comparison a 2013 detector based on a recurrent network, also designed by Schlüter and Böck, achieved an F-score of 87.3% [3].

Gong and Serra’s result casts doubt on the 90.3% figure reported by Schlüter and Böck. We therefore try to shed some light on the question of what the state of the art performance in musical onset detection is by posing and answering the question; can Schlüter and Böck’s result be reproduced?

Our answer is “Maybe – but we were unable to!” which is perhaps the only result possible since you can’t prove a negative. We trained the CNN architecture three times and obtained F-scores of 85.0%, 85.8% and 85.6%. For the RNN architecture, which we also tried to reproduce, we obtained the scores 86.3%, 86.3% and 86.3%. Due to omission of details that perhaps were significant from the referenced articles, we weren’t able to recreate Schlüter and Böck’s architectures exactly and had to make some “educated guesses.” It is possible that those guesses caused performance to suffer. Nevertheless, we believe that our work is worthwhile because it demonstrates how infuriatingly difficult it is in deep learning for researchers to reproduce each others work.

Abstract [sv]

Ansatsdetektion är ett område inom musikanalysen som går ut på att bestämma när händelser i ljuddata inträffar. Området har utvecklats betydligt på sistone och flera nya metoder har föreslagits. Dessa har gradvis förbättrat den bästa detekteringsförmågan. Nuvarande rekord innehas av Schlüter och Böck som år 2014 presenterade en detektions- metod based på ett faltningsnätverk (Convolutional Neural Network, CNN) som uppnådde ett F-värde på 90,3 % (med precision 91,7 % och täckning 88,9 %) på en ofta använd mängd data [1].

Men år 2018 misslyckades ett annat forskarpar, Gong och Serra, med att replikera de förstnämndas resultat. Deras F-värde stannade på 86,67 % (de rapporterade varken precision eller täckning) [2] vilket är ett signifikant sämre resultat än Schlüter och Böcks. Som jämförelse kan nämnas att år 2013 presenterade Schlüter och Böck en detektionsmetod based på ett återkommande neuralt nätverk (Recurrent Neural Network, RNN) som hade F-värdet 87,3 % [3].

Gong och Serras resultat gör att Schlüter och Böcks 90,3 %-resultat kan ifrågasättas. I den här avhandlingen försöker vi därför att ta reda på om de sistnämndas resultat håller. Detta gör vi genom att implementera de nätverk som föreslagits och se om vi kan få lika bra detektionsförmåga på de datamängder som Schlüter och Böck själva använt sig av. Kan deras resultat replikeras?

Vårt svar är “Kanske – men vi kunde det inte!” Möjligtvis är det det enda säkra som kan sägas eftersom vi misslyckades med att replikera deras resultat. De tre faltningsnätverk vi tränade fick F-värdena 85,0%, 85,8 %, och 85,6 %, cirka fem procentenheter lägre än Schlüter och Böcks 90,3 %. Vi försökte också replikera deras resultat för det återkommande neurala nätverket och där fick vi värdena 86,3 %, 86,3% och 86,3 %. Även dessa värden är sämre än Schlüter och Böcks, men här är skillnaden bara en procentenhet. Dock saknades detaljinformation i de korta artiklar författade av Schlüter och Böck och Böck et al. som vi använde oss av för att förstå metoderna. Därför var vi tvungna att gissa oss till vissa detaljer såsom parametrar för inlärningshastighet osv och vi kan därför inte garantera att de implementationer vi utvärderat är exakt desamma som författarnas. Detta kan vara en delförklaring till vårt sämre resultat. Vi menar ändå att vårt arbete är värdefullt eftersom det visar hur otroligt svårt det är att replikera resultat inom området djupinlärning.

Place, publisher, year, edition, pages
2019.
Series
TRITA-EECS-EX ; 2019:340
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-255267OAI: oai:DiVA.org:kth-255267DiVA, id: diva2:1338850
Subject / course
Computer and Systems Sciences
Supervisors
Examiners
Available from: 2019-07-29 Created: 2019-07-24 Last updated: 2019-10-07Bibliographically approved

Open Access in DiVA

fulltext(776 kB)2 downloads
File information
File name FULLTEXT02.pdfFile size 776 kBChecksum SHA-512
ff21bf27913f0e5b54e90a7570dd642f64f629f172e81f872c030e0013470c573f05758b42ef2b49c8f38ba63dab89133b011750137a80b6a3d7d0aa0a9caf25
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 24 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 58 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf