Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Classifying Hate Speech using Fine-tuned Language Models
Uppsala universitet, Humanistisk-samhällsvetenskapliga vetenskapsområdet, Samhällsvetenskapliga fakulteten, Statistiska institutionen.
2018 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
Abstract [en]

Given the explosion in the size of social media, the amount of hate speech is also growing. To efficiently combat this issue we need reliable and scalable machine learning models. Current solutions rely on crowdsourced datasets that are limited in size, or using training data from self-identified hateful communities, that lacks specificity. In this thesis we introduce a novel semi-supervised modelling strategy. It is first trained on the freely available data from the hateful communities and then fine-tuned to classify hateful tweets from crowdsourced annotated datasets. We show that our model reach state of the art performance with minimal hyper-parameter tuning.

Ort, förlag, år, upplaga, sidor
2018. , s. 31
Nyckelord [en]
machine learning, natural language processing, hate speech, transfer learning, semi-supervised learning, recurrent neural networks
Nationell ämneskategori
Språkteknologi (språkvetenskaplig databehandling) Sannolikhetsteori och statistik Datorseende och robotik (autonoma system)
Identifikatorer
URN: urn:nbn:se:uu:diva-352637OAI: oai:DiVA.org:uu-352637DiVA, id: diva2:1214328
Ämne / kurs
Statistik
Utbildningsprogram
Masterprogram i statistik
Handledare
Examinatorer
Tillgänglig från: 2018-06-19 Skapad: 2018-06-06 Senast uppdaterad: 2018-06-19Bibliografiskt granskad

Open Access i DiVA

fulltext(604 kB)518 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 604 kBChecksumma SHA-512
b73d34ef6107cd9b98b7f4aad6025914068815ada48e4a716783b160dd2e12cc12252612b30d6e0d93ecab2e359291d03a0049484f74a4a4767cee5ace15df9d
Typ fulltextMimetyp application/pdf

Av organisationen
Statistiska institutionen
Språkteknologi (språkvetenskaplig databehandling)Sannolikhetsteori och statistikDatorseende och robotik (autonoma system)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 518 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 757 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf