Change search
ReferencesLink to record
Permanent link

Direct link
Multi-class Sentiment Classification on Twitter using an Emoji Training Heuristic
KTH, School of Computer Science and Communication (CSC).
KTH, School of Computer Science and Communication (CSC).
2016 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

Sentiment analysis on social media is an important part of today's need for information gathering. Different machine learning techniques have been used in recent years, and usage of an emoticon heuristic to automatically annotate training sets has been a popular approach. As emojis are becoming more popular to use in text-based communication this thesis investigates the feasibility of an emoji training heuristic for multi-class sentiment analysis using a Multinomial Naive Bayes Classifier. Training sets consisting of 4000 to 400 000 tweets were used to train the classifier using various configurations of N-grams. The results show that an emoji heuristic performs well compared to emoticon- or hashtag-based heuristics. However, classifier confusion is highly dependent on class selection and emoji representations when multi-class sentiment analysis is performed.

Abstract [sv]

Sentimentanalys är ett problem av stor vikt på sociala medier. Ett flertal olika maskininlärningstekniker har använts på senare år och att använda en träningsmängd som är automatiskt annoterad med hälp av en heuristik baserad på så kallade emoticons har varit ett populärt angreppssätt. Användningen av så kallade emojis i textbaserad kommunikation har ökat på sistone. I linje med denna utveckling så ämnar studien att undersöka om det är hållbart med användning av en heuristik baserad på emojis för flerklassig sentimentanalys. Detta undersöks med hjälp av en Multinomial Naive Bayes-klassificerare som tränas med mängder av storlek 4000 till 400 000 (stycken tweets) och olika variationer av N-gram. Resultatet visar att en emojibaserad heuristik fungerar bra jämfört med en som är baserad på hashtags eller emoticons. Dock så har val av klasser och emojirepresentationer en stor påverkan på förvirringen hos klassificeraren.

Place, publisher, year, edition, pages
National Category
Computer Science
URN: urn:nbn:se:kth:diva-186369OAI: diva2:927073
Available from: 2016-05-18 Created: 2016-05-10 Last updated: 2016-05-18Bibliographically approved

Open Access in DiVA

fulltext(3457 kB)120 downloads
File information
File name FULLTEXT01.pdfFile size 3457 kBChecksum SHA-512
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 120 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 91 hits
ReferencesLink to record
Permanent link

Direct link