Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Detecting trolls on twitterthrough cluster analysis
KTH, School of Computer Science and Communication (CSC).
2017 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Hitta trolls på twitter genomklusteranalys (Swedish)
Abstract [en]

The social media platform Twitter is designed to allow users to efficiently spread informationthrough short messages that are broadcast to the world. The efficient way to spreadinformation that is in no way controlled or edited brings inherent problems with the spreadingof misinformation and other malicious activity as it can often be very difficult to establishwhat information can be considered reliable. This study seeks to showcase these problemsas well as find out whether it is possible to identify these malicious users by filtering tweetsby keywords, clustering the tweets based on similarity and analyzing these clusters alongwith user data such as amount of followers, number of accounts followed, and geolocationbeing turned off. The tweets were gathered using the Twitter streaming API and theclustering was done through the use of k-means clustering using a tf-idf approach.Approximately 2000 tweets were gathered for every keyword, and roughly 4000 using nofilter, to allow us to discern which topics contain higher and lower percentages of likely trollsor malicious users. The results show that highly political and controversial topics such as“ISIS”, “Russia”, and “Putin” have significantly higher percentages of likely trolls andmalicious users when compared to tweets that are not filtered by any keyword, which in turnhas higher amounts than more neutral keywords such as “cat”, “happy” and “car”. Howeverthe results also show that it would be very difficult to use clustering alone to find trolls ormalicious users, and that the analysis of user data does not paint a complete picture andmay give both false positives as well as false negatives. However clustering in combinationwith other techniques such as user data analysis can be used to successfully analyze howmalicious users are spread through different topics on Twitter.

Abstract [sv]

Den sociala nätverkstjänsten Twitter är utformad för att låta användare effektivt och snabbtsprida information via korta meddelanden som sänds ut till världen. Denna typ av effektivaspridning av information som inte kontrolleras eller redigeras bär med sig problem i formenav spridning av misinformation och annan skadlig aktivitet, då det kan vara mycket svårt attsäkerställa vilken information som är pålitlig. Denna studie försöker klargöra dessa problemoch ta reda på om det är möjligt att identifiera dessa skadliga användare genom att filtreratweets på nyckelord, klustra dessa tweets baserat på likhet och analysera klustren isamband med användardata såsom antal följare, antal konton följda och att geolocation äravstängt. Tweetsen hämtades med hjälp av Twitters streaming API och klustringen gjordesmed tf-idf k-means clustering. Uppskattningsvis 2000 tweets hämtades för varje nyckelord,och cirka 4000 ofiltrerade tweets, för att möjliggöra att skilja på vilka ämnen som har störreoch mindre andelar potentiellt skadliga användare. Resultaten visar på att politiska ochkontroversiella ämnen såsom “ISIS”, “Ryssland” och “Putin” har märkbart högre andelarpotentiellt skadliga användare, jämfört med tweets som inte filtrerats baserat på någotnyckelord, vilka i sin tur har högre andelar än mer neutrala nyckelord såsom “cat”, “happy”och “car”. Resultaten tyder på att det är svårt att enbart använda klustring för att hittaskadliga användare och att analysen av användardata inte alltid visar den hela bilden ochkan ge felaktiga resultat åt båda håll. Trots det kan klustring i kombination med andratekniker såsom data analys användas för att analysera hur skadliga användare är spriddagenom olika ämnen på twitter.

Place, publisher, year, edition, pages
2017. , p. 32
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-208354OAI: oai:DiVA.org:kth-208354DiVA, id: diva2:1105785
Presentation
2017-06-01, E53, Osquars backe 14, Stockholm, 14:51 (English)
Supervisors
Examiners
Available from: 2017-06-19 Created: 2017-06-05 Last updated: 2018-01-13Bibliographically approved

Open Access in DiVA

fulltext(843 kB)238 downloads
File information
File name FULLTEXT01.pdfFile size 843 kBChecksum SHA-512
c74ff4cc94d6c113fb02ee17b2b66882b028d7fc861d1ddf63ff6fa17d8aa067012ae5ea3545eeacbc1ba6f1f9f3f28daee303b340c25c39a7a97d6edce34f0b
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 238 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 247 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf