Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Toxiskt språk på Reddit
Stockholm University, Faculty of Social Sciences, Department of Computer and Systems Sciences.
Stockholm University, Faculty of Social Sciences, Department of Computer and Systems Sciences.
2024 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [sv]

Denna studie fokuserar på att undersöka förekomsten av toxiskt språk och negativa interaktioner på sociala medieplattformen Reddit. Problemet som studien adresserar är ökningen av negativa kommentarer på internet. Även om sociala plattformar erbjuder möjligheter till kommunikation, har de istället blivit platser där hat och toxicitet frodas, vilket kompliceras ytterligare av behovet av översättningar som ibland förlorar nyanser i det digitala språket. Studien bygger på en samling av 80 000 kommentarer som forskarna har analyserat för att mäta nivån av toxiskt språk. Verktyget Perspective API i kombination med ett program i Python har använts för att identifiera kommentarer med tre specifika attribut för toxiskt språk: 1) toxicitet, 2) förolämpningar och 3) svordomar. Studien använder en mixed methods-strategi, som kombinerar både kvantitativa och kvalitativa metoder. Genom att tillämpa innehållsanalys har forskarna kategoriserat och identifierat mönster i texterna. De språk som analyseras i studien är svenska, spanska, tyska och engelska. Resultaten visar att förekomsten av toxiskt språk varierar betydligt mellan de undersökta språken. Tyska och engelska hade högre frekvenser av toxiska kommentarer jämfört med svenska och spanska, där tyska uppvisade den högsta andelen toxicitet och förolämpningar. Engelska utmärkte sig med den högsta frekvensen av svordomar, medan tyska hade den lägsta. Studien belyser också hur översättningar kan påverka Perspective API:s förmåga att identifiera toxiskt språk, vilket tyder på att kulturella och språkliga nyanser spelar en viktig roll i bedömningen av toxicitet. Sammanfattningsvis bidrar denna studie med insikter om de språkliga skillnaderna i toxiskt språkbruk på Reddit.

Abstract [en]

This study focuses on examining the prevalence of toxic language and negative interactions on the social media platform Reddit. The issue addressed by the study is the increase in negative comments on the internet. Although social platforms offer opportunities for communication, they have instead become places where hate and toxicity thrive, further complicated by the need for translations that sometimes lose nuances in digital language. The study is based on a collection of 80,000 comments that researchers have analyzed to measure the level of toxic language. The Perspective API tool, combined with a program in Python, has been used to identify comments with three specific attributes of toxic language: 1) toxicity, 2) insults, and 3) profanity. The study employs a mixed methods strategy, combining both quantitative and qualitative methods. By applying content analysis, the researchers have categorized and identified patterns in the texts. The languages analyzed in the study are Swedish, Spanish, German, and English. The results show that the prevalence of toxic language varies significantly between the languages studied. German and English had higher frequencies of toxic comments compared to Swedish and Spanish, with German exhibiting the highest proportion of toxicity and insults. English stood out with the highest frequency of profanity, while German had the lowest. The study also highlights how translations can affect the Perspective API’s ability to identify toxic language, suggesting that cultural and linguistic nuances play a crucial role in assessing toxicity. In summary, this study provides insights into the linguistic differences in toxic language use on Reddit.

Place, publisher, year, edition, pages
2024.
Keywords [en]
Toxicity, Toxic language, Insult, Profanity, Reddit, Social media
Keywords [sv]
Toxicitet, Toxiskt språk, Förolämpningar, Svordomar, Reddit, Sociala medier
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:su:diva-242837OAI: oai:DiVA.org:su-242837DiVA, id: diva2:1955770
Available from: 2025-04-30 Created: 2025-04-30

Open Access in DiVA

fulltext(971 kB)7 downloads
File information
File name FULLTEXT01.pdfFile size 971 kBChecksum SHA-512
09a43f319dececad7930a4439093448a0264a38fd8db076b0966766a4d1116bef0641e6bbb9267260fb112fe976619a07e7dbaecae2fa594d2deac5371ec8ae4
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Wigren, HanneLejerbäck, Nora
By organisation
Department of Computer and Systems Sciences
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 7 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 171 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf