Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Hur väl kan AI känna igen toxiskt språk
Stockholm University, Faculty of Social Sciences, Department of Computer and Systems Sciences.
Stockholm University, Faculty of Social Sciences, Department of Computer and Systems Sciences.
2024 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [sv]

Den ökande användningen av onlineplattformar har möjliggjort för användare att kunna kommunicera med varandra och publicera inlägg. I takt med detta har det även skett en ökning av toxiskt språk på dessa plattformar. Maskininlärningsmodeller används som hjälp för att kunna detektera toxiskt språk i syfte att begränsa sådan kommunikation. Denna studie syftar till att utvärdera två modeller med uppgift att detektera toxiskt språk på svenska och engelska. Modellerna som ligger till grund för denna studie är Hatescan och Perspective som båda är tillgängliga på svenska respektive engelska. Det är dessutom av intresse att undersöka ifall resultaten av modellerna skiljer sig åt när inläggen översätts till det andra språket för att eventuellt kunna identifiera brister. För analysen används en kombination av kvantitativa och kvalitativa metoder. En kvalitativ innehållsanalys utförs för att kategorisera inläggen som toxiska respektive icke-toxiska. Kvantitativa metoder används för att presentera samt jämföra resultaten.

För utförandet av analysen annoterades det totalt 4310 inlägg på svenska och engelska från plattformen Reddit. Resultaten påvisar att Hatescan är bättre på att korrekt klassificera inlägg som toxiska och icke-toxiska än Perspective på både svenska och engelska. Vid översättning till engelska tyder resultatet på att Perspective har en högre andel korrekt klassificerade inlägg. Däremot är Hatescan bättre på att klassificera inlägg som toxiska när de översätts till svenska.

Abstract [en]

The increasing use of online platforms has enabled users to communicate with each other and publish posts. As a result, there has also been a rise in toxic language on these platforms. Machine learning models are used to help detect toxic language to limit such communication. This study aims to evaluate two models for detecting toxic language in Swedish and English. The models used in this study are Hatescan and Perspective, which are available in Swedish and English. It is also of interest to investigate whether the results of the models differ when the posts are translated to the other language in order to identify any shortcomings. To analyse the results, a combination of quantitative and qualitative methods are used. A qualitative content analysis is performed to categorise the posts as toxic or non-toxic. Quantitative methods are used to present and compare the results.

To perform the analysis, a total of 4310 posts were annotated in Swedish and English from the platform Reddit. The results show that Hatescan has a higher accuracy than Perspective when it comes to correctly classifying toxic posts in both Swedish and English. When translated into English, the results suggest that Perspective has a higher percentage of correctly classified posts. However, Hatescan is better at classifying posts as toxic when translated into Swedish.

Place, publisher, year, edition, pages
2024.
Keywords [en]
Toxic language, machine learning, evaluation, Hatescan, Perspective
Keywords [sv]
Toxiskt språk, maskininlärning, utvärdering, Hatescan, Perspective
National Category
Natural Language Processing
Identifiers
URN: urn:nbn:se:su:diva-242738OAI: oai:DiVA.org:su-242738DiVA, id: diva2:1955670
Available from: 2025-04-30 Created: 2025-04-30

Open Access in DiVA

fulltext(233 kB)12 downloads
File information
File name FULLTEXT01.pdfFile size 233 kBChecksum SHA-512
93a8fd9f8661c16f67139d00549797e3bef52c47a9331f95d2b9394be07550279ae6c97467b9119381948bd989de31132948e29606a4923c784c2bb81284bb78
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Mitrovic, AndreaKuchner, Sofia
By organisation
Department of Computer and Systems Sciences
Natural Language Processing

Search outside of DiVA

GoogleGoogle Scholar
Total: 12 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 24 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf