Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Clustering of short sentences through representation of text data
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2019 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgave
Abstract [en]

Natural Language Processing has developed in the past few years very quickly.Numerous new applications emerged from new methods, notably involved bythe creation of the popular word embedding Word2Vec created by a team ofGoogle researchers. One of these new applications is the chatbot technology.The goal of these conversational interfaces is to be able to communicate automaticallywith humans via written or voice chat. With a chatbot, a companyhopes to improve customer relations at a lower cost. Unfortunately, the skills ofthe chatbots can vary a lot, and until now, their understanding of the humansis often rather bad. This harsh conclusion leads to wonder how the chatbotdevelopers can be helped for handling the large amounts of user requests notunderstood by their chatbot.This thesis was made in collaboration with a start-up named Askhub. Thisstart-up aims to help the companies with the development of their chatbot.The aim of this master thesis is to propose a clustering system in order toclassify the data not understood by a chatbot. To begin with, a study of thedierent methods of word embeddings has been realized, followed by a study ofdierent clustering techniques available suitable to the chosen word embedding.The results are then compared with some metrics and some propositions weremade in order to improve the clustering results.

Abstract [sv]

Natural Language Processing har utvecklats de senaste åren mycket snabbt.Många nya applikationer uppstod av nya metoder, särskilt involverade i skapandet av det populära word embedding Word2Vec skapat av ett team av Googleforskare. En av dessa nya applikationer är chatbot-tekniken. Målet med dessa konversationsgränssnitt är att kunna kommunicera automatiskt med människor via skriftlig eller röstchatt. Med ett chatbot hoppas ett företag förbättra sina kundrelationer till en lägre kostnad. Tyvärr kan chatbots kompetens variera mycket, men till dess är deras förståelse för människorna ofta ganska dålig. Denna hårda slutsats leder till att undra hur chatbot-utvecklarna kan hjälpas för att hantera stora mängder användarförfrågningar som inte förstås av deras chatbot.Detta examensarbete gjordes i samarbete med en start-up som heter Askhub.Denna uppstart syftar till att hjälpa företagen att utveckla sin chatbot.Syftet med denna detta examensarbete är att föreslå ett klustringssystem för att klassificera data som inte förstås av en chatbot. Till att börja med har en studie av de olika metoderna för word embeddings gjorts, följt av en studie av olika klusteranalyser som är lämpliga för det valda word embedding. Resultaten jämförs sedan med vissa mätvärden och några förslag gjordes för att förbättraklusteranalysresultatet.

sted, utgiver, år, opplag, sider
2019. , s. 42
Serie
TRITA-EECS-EX ; 2019:693
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-266121OAI: oai:DiVA.org:kth-266121DiVA, id: diva2:1381414
Utdanningsprogram
Master of Science in Engineering - Electrical Engineering
Examiner
Tilgjengelig fra: 2019-12-20 Laget: 2019-12-20 Sist oppdatert: 2019-12-20bibliografisk kontrollert

Open Access i DiVA

fulltext(1096 kB)12 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 1096 kBChecksum SHA-512
8c41526fd7c28e456c081a9bf35bb0985c958e2e21d4d3e7a956440bcc757b8421a747c8a951d22312c520f9748b33dc48a8bb8d9f74a11f7925833d3ad54a85
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 12 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 123 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf