Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Clustering of short sentences through representation of text data
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Natural Language Processing has developed in the past few years very quickly.Numerous new applications emerged from new methods, notably involved bythe creation of the popular word embedding Word2Vec created by a team ofGoogle researchers. One of these new applications is the chatbot technology.The goal of these conversational interfaces is to be able to communicate automaticallywith humans via written or voice chat. With a chatbot, a companyhopes to improve customer relations at a lower cost. Unfortunately, the skills ofthe chatbots can vary a lot, and until now, their understanding of the humansis often rather bad. This harsh conclusion leads to wonder how the chatbotdevelopers can be helped for handling the large amounts of user requests notunderstood by their chatbot.This thesis was made in collaboration with a start-up named Askhub. Thisstart-up aims to help the companies with the development of their chatbot.The aim of this master thesis is to propose a clustering system in order toclassify the data not understood by a chatbot. To begin with, a study of thedierent methods of word embeddings has been realized, followed by a study ofdierent clustering techniques available suitable to the chosen word embedding.The results are then compared with some metrics and some propositions weremade in order to improve the clustering results.

Abstract [sv]

Natural Language Processing har utvecklats de senaste åren mycket snabbt.Många nya applikationer uppstod av nya metoder, särskilt involverade i skapandet av det populära word embedding Word2Vec skapat av ett team av Googleforskare. En av dessa nya applikationer är chatbot-tekniken. Målet med dessa konversationsgränssnitt är att kunna kommunicera automatiskt med människor via skriftlig eller röstchatt. Med ett chatbot hoppas ett företag förbättra sina kundrelationer till en lägre kostnad. Tyvärr kan chatbots kompetens variera mycket, men till dess är deras förståelse för människorna ofta ganska dålig. Denna hårda slutsats leder till att undra hur chatbot-utvecklarna kan hjälpas för att hantera stora mängder användarförfrågningar som inte förstås av deras chatbot.Detta examensarbete gjordes i samarbete med en start-up som heter Askhub.Denna uppstart syftar till att hjälpa företagen att utveckla sin chatbot.Syftet med denna detta examensarbete är att föreslå ett klustringssystem för att klassificera data som inte förstås av en chatbot. Till att börja med har en studie av de olika metoderna för word embeddings gjorts, följt av en studie av olika klusteranalyser som är lämpliga för det valda word embedding. Resultaten jämförs sedan med vissa mätvärden och några förslag gjordes för att förbättraklusteranalysresultatet.

Place, publisher, year, edition, pages
2019. , p. 42
Series
TRITA-EECS-EX ; 2019:693
National Category
Engineering and Technology
Identifiers
URN: urn:nbn:se:kth:diva-266121OAI: oai:DiVA.org:kth-266121DiVA, id: diva2:1381414
Educational program
Master of Science in Engineering - Electrical Engineering
Examiners
Available from: 2019-12-20 Created: 2019-12-20 Last updated: 2019-12-20Bibliographically approved

Open Access in DiVA

fulltext(1096 kB)9 downloads
File information
File name FULLTEXT01.pdfFile size 1096 kBChecksum SHA-512
8c41526fd7c28e456c081a9bf35bb0985c958e2e21d4d3e7a956440bcc757b8421a747c8a951d22312c520f9748b33dc48a8bb8d9f74a11f7925833d3ad54a85
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Engineering and Technology

Search outside of DiVA

GoogleGoogle Scholar
Total: 9 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 115 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf