Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Twittersentimentanalys: Jämförelse av klassificeringsmodeller tränade på olika datamängder.
2018 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Twitter Sentiment Analysis : Comparison of classification models trained on different data sets. (English)
Abstract [sv]

Twitter är en av de populäraste mikrobloggarna, som används för att uttryckatankar och åsikter om olika ämnen. Ett område som har dragit till sig mycketintresse under de senaste åren är twittersentimentanalys. Twittersentimentanalyshandlar om att bedöma vad för sentiment ett inlägg på Twitter uttrycker, om detuttrycker någonting positivt eller negativt. Olika metoder kan användas för attutföra twittersentimentanalys, där vissa lämpar sig bättre än andra. De vanligastemetoderna för twittersentimentanalys använder maskininlärning.Syftet med denna studie är att utvärdera tre stycken klassificeringsalgoritmerinom maskininlärning och hur märkningen av en datamängd påverkar en klassifi-ceringsmodells förmåga att märka ett twitterinlägg korrekt för twittersentimenta-nalys. Naive Bayes, Support Vector Machine och Convolutional Neural Network ärklassificeringsalgoritmerna som har utvärderats. För varje klassificeringsalgoritmhar två klassificeringsmodeller tagits fram, som har tränats och testats på två se-parata datamängder: Stanford Twitter Sentiment och SemEval. Det som skiljer detvå datamängderna åt, utöver innehållet i twitterinläggen, är märkningsmetodenoch mängden twitterinlägg. Utvärderingen har gjorts utefter vilken prestanda deframtagna klassificeringmodellerna uppnår på respektive datamängd, hur lång tidde tar att träna och hur invecklade de var att implementera.Resultaten av studien visar att samtliga modeller som tränades och testades påSemEval uppnådde en högre prestanda än de som tränades och testades på Stan-ford Twitter Sentiment. Klassificeringsmodellerna som var framtagna med Convo-lutional Neural Network uppnådde bäst resultat över båda datamängderna. Dockär ett Convolutional Neural Network mer invecklad att implementera och tränings-tiden är betydligt längre än Naive Bayes och Support Vector Machine.

Abstract [en]

Twitter is one of the most popular microblogs, which is used to express thoughtsand opinions on different topics. An area that has attracted much interest in recentyears is Twitter sentiment analysis. Twitter sentiment analysis is about assessingwhat sentiment a Twitter post expresses, whether it expresses something positiveor negative. Different methods can be used to perform Twitter sentiment analysis.The most common methods of Twitter sentiment analysis use machine learning.The purpose of this study is to evaluate three classification algorithms in ma-chine learning and how the labeling of a data set affects classification models abilityto classify a Twitter post correctly for Twitter sentiment analysis. Naive Bayes,Support Vector Machine and Convolutional Neural Network are the classificationalgorithms that have been evaluated. For each classification algorithm, two classi-fication models have been trained and tested on two separate data sets: StanfordTwitter Sentiment and SemEval. What separates the two data sets, in addition tothe content of the twitter posts, is the labeling method and the amount of twitterposts. The evaluation has been done according to the performance of the classifi-cation models on the respective data sets, training time and how complicated theywere to implement.The results show that all models trained and tested on SemEval achieved ahigher performance than those trained and tested on Stanford Twitter Sentiment.The Convolutional Neural Network models achieved the best results over both datasets. However, a Convolutional Neural Network is more complicated to implementand the training time is significantly longer than Naive Bayes and Support VectorMachine.

Place, publisher, year, edition, pages
2018. , p. 77
Keywords [en]
Twitter sentiment analysis, machine learning, Naive Bayes, Support Vector Machine, Convolutional Neural Network, SemEval, Stanford Twitter Sen- timent, pre-processing.
Keywords [sv]
Twittersentimentanalys, maskininlärning, Naive Bayes, Support Vector Machine, Convolutional Neural Network, SemEval, Stanford Twitter Sentiment, databearbetning.
National Category
Engineering and Technology
Identifiers
URN: urn:nbn:se:kau:diva-67629OAI: oai:DiVA.org:kau-67629DiVA, id: diva2:1218063
Subject / course
Computer Science
Educational program
Chemical Engineering , 180 hp
Presentation
2018-06-05, 1D315, Karlstad, 08:24 (Swedish)
Supervisors
Examiners
Available from: 2018-06-19 Created: 2018-06-14 Last updated: 2018-06-19Bibliographically approved

Open Access in DiVA

fulltext(1339 kB)24 downloads
File information
File name FULLTEXT01.pdfFile size 1339 kBChecksum SHA-512
7bf334cdd31cfd0f7e5edb9a17524826403b20da2f8436482b5264a3bec90f2b158b6f90fe60a9831314d342bdd95f19f58065d677c4f72ae80fb0ca8731f97b
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Bandgren, Johannes
Engineering and Technology

Search outside of DiVA

GoogleGoogle Scholar
Total: 24 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 35 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf