Digitala Vetenskapliga Arkivet

Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Exploring Swedish & English fastText Embeddings
Luleå tekniska universitet, Institutionen för system- och rymdteknik, EISLAB.ORCID-id: 0000-0002-5582-2031
Luleå tekniska universitet, Institutionen för system- och rymdteknik, EISLAB.ORCID-id: 0000-0002-6756-0147
Luleå tekniska universitet, Institutionen för system- och rymdteknik, EISLAB.ORCID-id: 0000-0003-4029-6574
2022 (Engelska)Ingår i: Artificial Intelligence and Cognition 2022: Proceedings of the 8th International Workshop on Artificial Intelligence and Cognition / [ed] Hadi Banaee, Amy Loutfi, Alessandro Saffiotti, Antonio Lieto, 2022, Vol. 3400, s. 201-208Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

In this paper, we show that embeddings from relatively smaller corpora sometimes outperform thosefrom larger corpora and we introduce a new Swedish analogy test set and make it publicly available.To achieve good performance in Natural Language Processing (NLP) downstream tasks, several factorsplay important roles: dataset size, the right hyper-parameters, and well-trained embeddings. We utilizethe fastText tool for our experiments. We evaluate both the Swedish and English embeddings that wecreated using intrinsic evaluation (including analogy & Spearman correlation) and compare them with2 common, publicly available embeddings. Our English continuous Bag-of-Words (CBoW)-negativesampling embedding shows better performance compared to the publicly available GoogleNews version.We also describe the relationship between NLP and cognitive science. We contribute the embeddings forresearch or other useful purposes by publicly releasing them.

Ort, förlag, år, upplaga, sidor
2022. Vol. 3400, s. 201-208
Serie
CEUR Workshop Proceedings, ISSN 1613-0073
Nyckelord [en]
Embeddings, fastText, Analogy set, Swedish
Nationell ämneskategori
Språkteknologi (språkvetenskaplig databehandling)
Forskningsämne
Maskininlärning
Identifikatorer
URN: urn:nbn:se:ltu:diva-98277Scopus ID: 2-s2.0-85160848182OAI: oai:DiVA.org:ltu-98277DiVA, id: diva2:1766566
Konferens
8th International Workshop on Artificial Intelligence and Cognition, AIC 2022, June 15-17, 2022, Örebro, Sweden
Forskningsfinansiär
Vinnova, 2019-02996
Anmärkning

Licens fulltext: CC BY License

Tillgänglig från: 2023-06-13 Skapad: 2023-06-13 Senast uppdaterad: 2023-06-13Bibliografiskt granskad

Open Access i DiVA

fulltext(219 kB)85 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 219 kBChecksumma SHA-512
1b4842290f6d94c89ad582de3748d93729f22d90dc8fbfd39ad3ce0080dd7c3cdc167e0875d4569e7eafd6fd0e6c2e899d1f3e1602d06b1803e00f46479d1e9a
Typ fulltextMimetyp application/pdf

Övriga länkar

Scopushttps://ceur-ws.org/Vol-3400/

Sök vidare i DiVA

Av författaren/redaktören
Adewumi, OluwatosinLiwicki, FoteiniLiwicki, Marcus
Av organisationen
EISLAB
Språkteknologi (språkvetenskaplig databehandling)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 85 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 279 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf