Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Development of a Word Embedding adapted to Swedish Medical Terms
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems.
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Utveckling av en word embedding anpassad till svenskamedicinska termer (Swedish)
Abstract [en]

The amount of medical data has exploded in the past decades. While this may pose a challenge to doctors and medical personnel, it also yields great opportunities due to the rise of new technology. In particular, the advent of artificial intelligence (AI) raises hopes for the future of healthcare. Within AI, the development of language models makes it possible to handle and perform operations on text-based data, such as patient journals. One important element of many language models is word embeddings, which represent a model's vocabulary numerically, using several numerical values to describe each contained term. To use language models on Swedish medical data, it could be helpful to have access to a word embedding that is adapted to Swedish medical terms. Up to this point, there has not existed any such publicly available word embedding and thus this project has aimed to develop one. The developed language model, from which a word embedding is extracted, is pre-trained on the available Swedish general-purpose language model KB-BERT using sentences from the medical-oriented Swedish journal Läkartidningen. The resulting model was evaluated on a separate test set and compared with the base model, which showed that the pre-trained model had higher scores on two versions of an accuracy test. 

Abstract [sv]

Mängden medicinsk data har exploderat under de senaste årtionden. När det å ena sidan kan innebära en utmaning för läkare och medicinsk personal, kan det å andra sidan frambringa store möjligheter tack vare framväxten av ny teknologi. I synnerhet lyfter utvecklingen av artificiell intelligent (AI) hoppet för hälsovårdens framtid. Inom AI gör utvecklingen av språkmodeller det möjligt att behandla och utföra operationer på textbaserad data, så som läkarjournaler. En viktig del av flera språkmodeller är word embeddings, som representerar en models vokabulär numeriskt, där flera numeriska värden används för att beskriva varje innehållande term. För att kunna använda språkmodeller på svensk medcinsk data kan det vara användbart att ha tillgång till en word embedding som är anpassad till svenska medicinska termer. Till denna stund har det inte funnits någon sådan allmänt tillgänglig word embedding och darför har detta project siktat på att utveckla en sådan. Den utvecklade modellen, från vilken en word embedding är extraherad, är "för-tränad" (pre-trained) på den tillgängliga svenska allmänsyftade sprpåkmodellen KB-BERT där meningar från den medicinskorienterade svenska tidskriften Läkartidningen har använts. Den resulterade modellen bedömdes på en separat testmängd och jämfördes med grundmodellen, vilket visade att den för-tränade modellen hade högre värden på två versioner av ett nogrannhetstest. 

Place, publisher, year, edition, pages
2025. , p. 46
Series
TRITA-CBH-GRU ; 2025:019
Keywords [en]
Word Embedding, Language models, Pre-training, KB-BERT, Swedish, Medical terms
Keywords [sv]
Word Embedding, Språkmodeller, Pre-training, KB-BERT, Svenska, Medicinska termer
National Category
Medical Engineering Natural Language Processing Other Computer and Information Science Information Systems
Identifiers
URN: urn:nbn:se:kth:diva-361417OAI: oai:DiVA.org:kth-361417DiVA, id: diva2:1945588
Subject / course
Medical Engineering
Educational program
Master of Science - Medical Engineering
Supervisors
Examiners
Available from: 2025-04-15 Created: 2025-03-18 Last updated: 2025-04-16Bibliographically approved

Open Access in DiVA

fulltext(267 kB)32 downloads
File information
File name FULLTEXT01.pdfFile size 267 kBChecksum SHA-512
1fc83d5d36b56bc8e719c004d47be5510fe5300f1b67ad48c2fdeb90c87d63d433230cc9a53279b5ef6e1f207b8bd087739e3a65e21bd1a8d0e2c7fbb1cca9c5
Type fulltextMimetype application/pdf

By organisation
Biomedical Engineering and Health Systems
Medical EngineeringNatural Language ProcessingOther Computer and Information ScienceInformation Systems

Search outside of DiVA

GoogleGoogle Scholar
Total: 33 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 289 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf