Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Multi-class Sentiment Classification on Twitter using an Emoji Training Heuristic
KTH, School of Computer Science and Communication (CSC).
KTH, School of Computer Science and Communication (CSC).
2016 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

Sentiment analysis on social media is an important part of today's need for information gathering. Different machine learning techniques have been used in recent years, and usage of an emoticon heuristic to automatically annotate training sets has been a popular approach. As emojis are becoming more popular to use in text-based communication this thesis investigates the feasibility of an emoji training heuristic for multi-class sentiment analysis using a Multinomial Naive Bayes Classifier. Training sets consisting of 4000 to 400 000 tweets were used to train the classifier using various configurations of N-grams. The results show that an emoji heuristic performs well compared to emoticon- or hashtag-based heuristics. However, classifier confusion is highly dependent on class selection and emoji representations when multi-class sentiment analysis is performed.

Abstract [sv]

Sentimentanalys är ett problem av stor vikt på sociala medier. Ett flertal olika maskininlärningstekniker har använts på senare år och att använda en träningsmängd som är automatiskt annoterad med hälp av en heuristik baserad på så kallade emoticons har varit ett populärt angreppssätt. Användningen av så kallade emojis i textbaserad kommunikation har ökat på sistone. I linje med denna utveckling så ämnar studien att undersöka om det är hållbart med användning av en heuristik baserad på emojis för flerklassig sentimentanalys. Detta undersöks med hjälp av en Multinomial Naive Bayes-klassificerare som tränas med mängder av storlek 4000 till 400 000 (stycken tweets) och olika variationer av N-gram. Resultatet visar att en emojibaserad heuristik fungerar bra jämfört med en som är baserad på hashtags eller emoticons. Dock så har val av klasser och emojirepresentationer en stor påverkan på förvirringen hos klassificeraren.

Place, publisher, year, edition, pages
2016.
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-186369OAI: oai:DiVA.org:kth-186369DiVA: diva2:927073
Supervisors
Examiners
Available from: 2016-05-18 Created: 2016-05-10 Last updated: 2016-05-18Bibliographically approved

Open Access in DiVA

fulltext(3457 kB)493 downloads
File information
File name FULLTEXT01.pdfFile size 3457 kBChecksum SHA-512
90b2fe499a6b512365f9a6514e10edb959e9088d69af97d5b011165b17fe71854fc3e3af250b8eed66291e4db2a46c768e5b35c6d7fff1fe34b0a6c4cc9524ba
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 493 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 724 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf