Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Perceptuell Tonhöjd: en undersökning om skillnaden mellan hur människor uppfattar sångröst och frekvensnivån som räknas ut av datoralgoritmer
KTH, School of Computer Science and Communication (CSC).
KTH, School of Computer Science and Communication (CSC).
2014 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Perceptual pitch : a thesis regarding the difference between how people perceive the pitch of vocals and the results from pitch estimation algorithms (English)
Abstract [sv]

Det finns idag diverse datorprogram som använder sig av olika typer av datoralgoritmer för att ta fram noter i sång som t.ex. ScoreCloud och Magic Stave. Dock är det inte trivialt för sådana program att approximera tonhöjden i sång. Syftet med denna uppsats är att ta reda på vad som är skillnaden mellan tonhöjden som människor uppfattar och frekvensnivån som räknas ut av datoralgoritmer.

För att undersöka detta skapade vi ett program för att kunna utföra ett lyssnartest. Testpersonerna fick lyssna på ett utdrag av sången från låten Tom’s Diner av Suzanne Vega. Samtidigt fick de sedan genom reglage ställa in syntetiska toner så att de matchade tonerna som hördes i sången. Detta test gjordes på tjugo personer som alla hade sjungit eller spelat instrument utan fasta tonhöjdssteg i några år. Efter detta analyserades samma ljudfil med hjälp av datoralgoritmer som använder subharmonisk summering respektive autokorrelation och resultatet från dessa jämfördes med resultat från lyssnartesterna.

En slutsats är att människor med musikalisk bakgrund, när de lyssnar på sång, inte lyssnar på varje ton för sig utan istället på helheten, medan de algoritmer som används idag enbart analyserar enskilda toner. Dessa resultat kan vara till nytta vid utveckling och utvärdering av program som inte bara använder resultatet från en algoritm utan också tar hänsyn till hur människor uppfattar sång.

Abstract [en]

There are several computer programs that use different algorithms for creating sheet music from a singing voice, such as ScoreCloud and Magic Stave. However, it is not trivial to approximate pitch from a sound file containing vocals. The purpose of this thesis was to examine the differences between the pitch of vocals perceived by humans and the results from pitch estimation algorithms. In order to investigate this, a program was created for performing a listening test. Using the program, the subjects listened to an extract of the vocals from the song “Tom’s Diner by Suzanne Vega. At the same time they adjusted sliders which changed the frequency of synthetic tones. The task of the subjects was to make the pitch of these synthetic tones match the pitch of the vocals. These tests were performed by twenty people who had been singing or playing an instrument without fixed pitch steps for a few years.

Indications were found that people with musical background, when they listen to a song, do not listen to every note individually but instead how the notes sound together. In contrast, algorithms that are commonly used today look only at individual tones. The results could be useful as a guiding tool for the development and evaluation of this kind of programs in order for them to take into account how people perceive a singing voice, rather than simply using the results of an algorithm.

Place, publisher, year, edition, pages
2014.
National Category
Media and Communication Technology
Identifiers
URN: urn:nbn:se:kth:diva-146100OAI: oai:DiVA.org:kth-146100DiVA: diva2:722300
Educational program
Master of Science in Engineering - Media Technology
Supervisors
Examiners
Available from: 2014-07-03 Created: 2014-06-06 Last updated: 2014-07-03Bibliographically approved

Open Access in DiVA

fulltext(1198 kB)174 downloads
File information
File name FULLTEXT01.pdfFile size 1198 kBChecksum SHA-512
c9a075ae4a94b379e36d98f0b96afb31966a5d94859d816ccbfc160188e6d4b5cc2954cee0682b0af83573ceb0803c3a5f785783ab1269828570aee5888a12b5
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Media and Communication Technology

Search outside of DiVA

GoogleGoogle Scholar
Total: 174 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 759 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf