Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Spelling Correction in a Music Entity Search Engine by Learning from Historical Search Queries
KTH, School of Electrical Engineering and Computer Science (EECS).
2018 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Stavningskorrigering i en sökmotor för musik genom att lära av historiska söksträngar (Swedish)
Abstract [en]

Query spelling correction is an important component of modern search engines that can help users to express their intent, and thus improve search quality. In this study, we investigated with what accuracy a sequence-to-sequence recurrent neural network (RNN) can recognise and correct misspellings in a music search engine, when the model is trained with old search queries. A sequence-to-sequence RNN was chosen as the model in this study since it has achieved state-of-the-art performance on similar tasks, such as machine translation and speech recognition. The findings from the study imply that the model learns to correct and complete queries with higher accuracy compared to a baseline model that returns the input query. However, we suggest that, for a model that would be good enough for production, more work needs to be done. Especially, work on creating a cleaner, less biased training dataset. Nevertheless, our work strengthens the idea that sequence-to-sequence RNNs could be used as a spell correction system in search engines.

Abstract [sv]

Stavningskorrigering av söksträngar är en viktig komponent i moderna sökmotorer. Stavningskorrigering kan hjälpa användarna att uttrycka sig och därmed förbättra kvaliteten i sökningen. I det här arbetet undersökte vi med vilken noggrannhet en Recurrent neural network (RNN) modell kan lära sig att korrigera felstavningar i söksträngar från en sökmotor för musik. RNN modellen tränades med söksträngar från historiska sökningar från sökmotorn. Anledningen till att RNN valdes som modell i den här studien var för att den har uppnått hittills bästa möjliga resultat på liknande uppgifter, såsom maskinöversättning och taligenkänning. Resultaten från vår studie visar att modellen lär sig att korrigera och komplettera söksträngar med högre noggrannhet än en basmodell som enbart returnerar indatasträngen. För att utveckla en modell som är tillräckligt bra för produktion föreslår vi emellertid att mer arbete måste utföras. Framför allt är vi övertygade om att ett renare, mindre systematiskt avvikande träningsdataset skulle förbättra modellen. På det hela taget stärker dock vårt arbete hypothesen att RNN modeller kan användas som stavningskorrigeringssystem i sökmotorer.

Place, publisher, year, edition, pages
2018.
Series
TRITA-EECS-EX ; 2018:320
Keywords [en]
Machine Learning, LSTM, Music search, Query Suggestion
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-229716OAI: oai:DiVA.org:kth-229716DiVA, id: diva2:1214183
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2018-08-17 Created: 2018-06-06 Last updated: 2018-08-17Bibliographically approved

Open Access in DiVA

fulltext(1028 kB)96 downloads
File information
File name FULLTEXT01.pdfFile size 1028 kBChecksum SHA-512
ea01f77fffff530819ba18dcc78b339b12d5915eac1941d0a16042b09cae71bea4c9bfb76e9c2dfb898ca56267cfbdadf1f0ee85500cdbf79a1945fb92b123cc
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 96 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 1064 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf