Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Onset detection in polyphonic music
KTH, School of Computer Science and Communication (CSC), Speech, Music and Hearing, TMH.
2017 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Ansatsdetektion i polyfon musik (Swedish)
Abstract [en]

In music analysis, the beginning of events in a music signal (i.e. sound onset detection) is important for such tasks as sound segmentation, beat recognition and automatic music transcription. The aim of the present work was to make an algorithm for sound onset detection with better performance than other state-of-the-art1 algorithms. Necessary theoretical background for spectral analysis on a sound signal is given with special focus on the Short-Time Fourier Transform (STFT) and the effects of applying a window to a signal. Previous works based on different approaches to sound onset detection were studied, and a possible improvement was observed for one such approach - namely the one developed by Bello, Duxbury, Davies, & Sandler (2004). The algorithm uses an STFT approach, analyzing a sound signal time frame by time frame. The algorithm’s detection is sequential in nature: It takes a frame from the STFT and makes an extrapolation to the next frame, assuming that the signal is constant. The difference between the extrapolated frame and the actual frame of the STFT constitutes the detection function. The proposed improvement lies in a combination of ideas from other algorithms, analyzing the signal with different frequency bands with frequency dependent settings and a modification of the extrapolation step. The proposed algorithm is compared to the original algorithm and an adaption by Dixon (2006) by analyzing 20 songs using three different window functions. The results were evaluated with the standards set by MIREX (2005-2016). The results of the proposed algorithm are encouraging, showing good recall, but fail to out-perform any of the algorithms it is compared to in both precision and the so-called F-measure. The shortcomings of the proposed algorithm leave room for further improvement, and a number of possible future modifications are exemplified.

Abstract [sv]

Ansatsdetektion används inom musikanalys för bland annat automatisk transkription och ljudkomprimering. Ansatsdetektion innebär att lokalisera en händelse i en musiksignal. Med målet att utveckla en algoritm som presterar bättre än aktuella2 algoritmer ges här en genomgång av några nödvändiga teoretiska kunskaper i ämnet, bland annat korttids-Fouriertransformen (STFT) och hur fönsterfunktioner påverkar signalbehandling. Tidigare arbeten inom ansatsdetektion med olika infallsvinklar studeras och en möjlig förbättring av en av dem, den av Bello, Duxbury, Davies, & Sandler (2004), framträder. Algoritmen använder sig av STFT och analyserar ljudsignaler en tidsenhet i taget. Utifrån varje analyserad tidsenhet görs en extrapolation till nästa tidsenhet genom antagandet att signalen är konstant. Skillnaden mellan den extrapolerade tidsenheten och den faktiska tidsenheten i STFTn utgör detektionsfunktionen. Den möjliga förbättringen består i att använda idéer från olika algoritmer för ansatsdetektion – ljudsignalen analyseras i olika frekvensband med bandberoende inställningar för STFTn – och en förändrad extrapoleringsfunktion. Den föreslagna algoritmen jämförs med originalet av Bello, Duxbury, Davies, & Sandler (2004) och även med en variant utvecklad av Dixon (2006) genom att applicera dem på 20 spår med tre olika fönsterfunktioner. Resultaten utvärderas enligt MIREX (2005-2016) standarder och är lovande för algoritmen, då den har en bra träffbild, men både träffsäkerhet och F-värde ligger under de båda andra. Ett flertal möjliga förbättringar av algoritmen iakttas och presenteras.

Place, publisher, year, edition, pages
2017. , p. 67
Keywords [en]
Acoustics, onset detection
Keywords [sv]
Musikakustik, ansatsdetektion
National Category
Signal Processing
Identifiers
URN: urn:nbn:se:kth:diva-210417OAI: oai:DiVA.org:kth-210417DiVA, id: diva2:1118398
Subject / course
Music Acoustics
Educational program
Master of Science in Engineering -Engineering Physics
Presentation
2017-06-09, Biblioteket, Lindstedtsvägen 3, Stockholm, 15:15 (English)
Supervisors
Examiners
Available from: 2017-10-16 Created: 2017-06-30 Last updated: 2017-10-16Bibliographically approved

Open Access in DiVA

fulltext(2388 kB)47 downloads
File information
File name FULLTEXT01.pdfFile size 2388 kBChecksum SHA-512
1459b10eb997228f41c4bc6cd184e7ec1649bf05198fa7461ee2fb2b974d54311b15f85f0c52bbf0f00917c69b6648aaa909f14de674bc82d45a1464648860c4
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Efraimsson, Nils
By organisation
Speech, Music and Hearing, TMH
Signal Processing

Search outside of DiVA

GoogleGoogle Scholar
Total: 47 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 56 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf