Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Clustering of short sentences through representation of text data
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2019 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
Abstract [en]

Natural Language Processing has developed in the past few years very quickly.Numerous new applications emerged from new methods, notably involved bythe creation of the popular word embedding Word2Vec created by a team ofGoogle researchers. One of these new applications is the chatbot technology.The goal of these conversational interfaces is to be able to communicate automaticallywith humans via written or voice chat. With a chatbot, a companyhopes to improve customer relations at a lower cost. Unfortunately, the skills ofthe chatbots can vary a lot, and until now, their understanding of the humansis often rather bad. This harsh conclusion leads to wonder how the chatbotdevelopers can be helped for handling the large amounts of user requests notunderstood by their chatbot.This thesis was made in collaboration with a start-up named Askhub. Thisstart-up aims to help the companies with the development of their chatbot.The aim of this master thesis is to propose a clustering system in order toclassify the data not understood by a chatbot. To begin with, a study of thedierent methods of word embeddings has been realized, followed by a study ofdierent clustering techniques available suitable to the chosen word embedding.The results are then compared with some metrics and some propositions weremade in order to improve the clustering results.

Abstract [sv]

Natural Language Processing har utvecklats de senaste åren mycket snabbt.Många nya applikationer uppstod av nya metoder, särskilt involverade i skapandet av det populära word embedding Word2Vec skapat av ett team av Googleforskare. En av dessa nya applikationer är chatbot-tekniken. Målet med dessa konversationsgränssnitt är att kunna kommunicera automatiskt med människor via skriftlig eller röstchatt. Med ett chatbot hoppas ett företag förbättra sina kundrelationer till en lägre kostnad. Tyvärr kan chatbots kompetens variera mycket, men till dess är deras förståelse för människorna ofta ganska dålig. Denna hårda slutsats leder till att undra hur chatbot-utvecklarna kan hjälpas för att hantera stora mängder användarförfrågningar som inte förstås av deras chatbot.Detta examensarbete gjordes i samarbete med en start-up som heter Askhub.Denna uppstart syftar till att hjälpa företagen att utveckla sin chatbot.Syftet med denna detta examensarbete är att föreslå ett klustringssystem för att klassificera data som inte förstås av en chatbot. Till att börja med har en studie av de olika metoderna för word embeddings gjorts, följt av en studie av olika klusteranalyser som är lämpliga för det valda word embedding. Resultaten jämförs sedan med vissa mätvärden och några förslag gjordes för att förbättraklusteranalysresultatet.

Ort, förlag, år, upplaga, sidor
2019. , s. 42
Serie
TRITA-EECS-EX ; 2019:693
Nationell ämneskategori
Teknik och teknologier
Identifikatorer
URN: urn:nbn:se:kth:diva-266121OAI: oai:DiVA.org:kth-266121DiVA, id: diva2:1381414
Utbildningsprogram
Civilingenjörsexamen - Elektroteknik
Examinatorer
Tillgänglig från: 2019-12-20 Skapad: 2019-12-20 Senast uppdaterad: 2019-12-20Bibliografiskt granskad

Open Access i DiVA

fulltext(1096 kB)12 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 1096 kBChecksumma SHA-512
8c41526fd7c28e456c081a9bf35bb0985c958e2e21d4d3e7a956440bcc757b8421a747c8a951d22312c520f9748b33dc48a8bb8d9f74a11f7925833d3ad54a85
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Teknik och teknologier

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 12 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 123 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf