Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Identification model of musical works using record linkage
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

This thesis is based on a project that is part of IBM’s collaboration with a Collecting Right Organization that collects and distributes payments of authors’ rights. The project aimed at helping this organization identify right beneficiaries for musical tracks listened on online streaming platforms. Given as an input a list of tracks composed of metadata such as artist names, titles and listening statistics, the goal was to match each line with its corresponding element in this organization’s documentation. Since each broadcaster has its own catalogue of music, it can be hard sometimes to find the correct matching for each song. In practice, this organization has a dedicated team that handles manually some of the non-trivial cases. Whereas their identification process focuses on resources that contribute to 90% of the revenue of each listening report, it achieves an identification rate of around 70% of the resources declared which represent a substantial amount of unprocessed tracks left aside.

In this thesis, we investigate the possibility to outperform the current solution and design a new identification model that combines concepts and technologies from various fields including search engines, string metrics and machine learning. First, the identification process used by the organization was reproduced and refined to quickly process the most trivial cases. On top of this, an identification algorithm that relies on a machine learning framework was built to process non-trivial cases. This method showed very promising results since it achieves an identification rate and a false discovery rate of the order of those of the current solution without the use of a dedicated team of experts.

Abstract [sv]

Detta examensarbete bidrar till ett samarbetsprojekt mellan IBM och en upphovsrättsorganisation, som samlar in och distribuerar royalties till upphovsmän. Projektet syftade till att hjälpa denna organisation att identifiera upphovsrättsinnehavare för musikverk som spelas på strömmande plattformar. Givet en verklista med metadata, såsom artistnamn, titlar och lyssningsstatistik, var målet att matcha varje rad med motsvarande element i organisationens dokumentation. Eftersom varje musikdistributör har sin egen musikkatalog kan det vara svårt att hitta rätt upphovsman för ett givet verk. I praktiken har denna organisation ett arbetslag som hanterar de icke triviala fallen manuellt. Detta sökarbete fokuserar på resurser som bidrar till 90% av intäkterna för varje lyssningsrapport, och uppnår en identifieringsgrad på omkring 70%. En betydande mängd obearbetade lyssningsrapporter lämnas alltså åt sidan, vilket leder till förluster för rättighetsinnehavarna.

I föreliggande arbete undersöktes möjligheten att överträffa den nuva- rande lösningen. En ny identifieringsmodell utformades som kombinerar begrepp och teknik från olika områden, inklusive sökmotorer, strängmätningar och maskininlärning. För det första reproducerades och förfinades identifieringsprocessen som användes av organisationen för att snabbt behandla de mest triviala fallen. Utöver detta tillkommer en identifieringsalgoritm som bygger på maskininlärning, för att behandla icke triviala fall. Metoden uppvisade mycket lovande resultat; den uppnår en identifieringstakt och en felprocent av samma storleksordning som den nuvarande lösningen, utan att använda människor som experter.

Place, publisher, year, edition, pages
2019.
Series
TRITA-EECS-EX ; 2019:55
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-249713OAI: oai:DiVA.org:kth-249713DiVA, id: diva2:1305720
External cooperation
IBM France
Supervisors
Examiners
Available from: 2019-04-24 Created: 2019-04-18 Last updated: 2019-04-24Bibliographically approved

Open Access in DiVA

fulltext(1833 kB)14 downloads
File information
File name FULLTEXT01.pdfFile size 1833 kBChecksum SHA-512
99fd3bedcf67db1c19a13ffa5c11308bb39923712e11608be14c032d4fdcb36308f355a93a06420aa861f67f2a5c0a0bf719072981b7fada0852152b6241719a
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 14 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 75 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf