Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Re-synthesis of instrumental sounds with Machine Learning and a Frequency Modulation synthesizer
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Frequency Modulation (FM) based re-synthesis to find the parameter values which best make a FM-synthesizer produce an output sound as similar as possible to a given target sound is a challenging problem. The search space of a commercial synthesizer is often non-linear and high dimensional. Moreover, some crucial decisions need to be done such as choosing the number of modulating oscillators or the algorithm by which they modulate each other. In this work we propose to use Machine Learning (ML) to learn a mapping from target sound to the parameter space of an FM-synthesizer. In order to investigate the capabilities of ML to implicitly learn to make the mentioned key desicions in FM, we design and compare two approaches: first a concurrent approach where all parameter values are compared at once by one model, and second a sequential approach where the prediction is done by a mix of classifiers and regressors. We evaluate the performance of the approaches with respect to ability to reproduce instrumental sound samples from a dataset of 2255 samples from over 700 instrument in three different pitches with respect to four different distance metrics, . The results indicate that both approaches have similar performance at predicting parameters which reconstruct the frequency magnitude spectrum and envelope of a target sound. However the results also point at the sequential model being better at predicting the parameters which reconstruct the temporal evolution of the frequency magnitude spectrums. It is concluded that despite the sequential model outperforming the concurrent, it is likely possible for a model to make key decisions implicitly, without explicitly designed subproblems.

Abstract [sv]

Denna masteruppsats undersöker återskapandet av instrumentala ljud genom användandet av maskininlärning och en synthesizer för frekvensmodulering (FM). Genom att använda maskininlärning kan rätt parametervärden för synthesizern förutspås, sådant att synthesizern skapar ett ljud som är så likt ett givet målljud som möjligt. Uppgiften görs svår då parametrarna för en FMsynthesizer är många och påverkar ljudet olinjärt, vilket skapar ett stort och komplext sökområde.I tidigare forskning har Genetiska Algorithmer använts frekvent för denna process. Det har förekommit olika meningar gällande huruvida det är nödvändigt att explicit dela upp prediktionsprocessen i subproblem, eller om det är bättre att låta förutspå alla parametrar samtidigt utan att explicit införa mänsklig expertis kring problemet. I denna uppsats jämförs därför två olika ansatser: en konkurrent där alla parametrar föruspås på samma gång, och en sekventiell där processen brytits ner till subproblem. De två ansatserna jämförs med avseende på deras förmåga att förutspå parametervärden som återskapar instrumentala ljud så väl som möjligt.Resultaten visar att den sekventiella ansatsen presterar bättre och skapar mer liknande ljud. Dock visas att de båda ansatserna har samma förmåga att återskapa frekvensspektrum. Alltså kan slutsatsen dras att det är möjligt att träna modeller som implicit tar beslut kring val av FM-parametrar lika bra som modeller som tar beslut baserat på explicit nedbrutna subproblem.

Place, publisher, year, edition, pages
2019. , p. 70
Series
TRITA-EECS-EX ; 2019:474
Keywords [en]
machine learning; regression; classification; frequency modulation synthesis; re-synthesis;
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-254680OAI: oai:DiVA.org:kth-254680DiVA, id: diva2:1334639
External cooperation
Teenage Engineering
Supervisors
Examiners
Available from: 2019-07-03 Created: 2019-07-03 Last updated: 2019-07-03Bibliographically approved

Open Access in DiVA

fulltext(4630 kB)25 downloads
File information
File name FULLTEXT01.pdfFile size 4630 kBChecksum SHA-512
53bd5ed9a1b12c1b13b88ef702f8b12610837428dac471eda4c5556cfe575c04b73d3ef7685cda15c579e8a086af838faf12f8c2dfa4d370f850aa427b81c632
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 25 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 108 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf