Development of a Word Embedding adapted to Swedish Medical Terms
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Utveckling av en word embedding anpassad till svenskamedicinska termer (Swedish)
Abstract [en]
The amount of medical data has exploded in the past decades. While this may pose a challenge to doctors and medical personnel, it also yields great opportunities due to the rise of new technology. In particular, the advent of artificial intelligence (AI) raises hopes for the future of healthcare. Within AI, the development of language models makes it possible to handle and perform operations on text-based data, such as patient journals. One important element of many language models is word embeddings, which represent a model's vocabulary numerically, using several numerical values to describe each contained term. To use language models on Swedish medical data, it could be helpful to have access to a word embedding that is adapted to Swedish medical terms. Up to this point, there has not existed any such publicly available word embedding and thus this project has aimed to develop one. The developed language model, from which a word embedding is extracted, is pre-trained on the available Swedish general-purpose language model KB-BERT using sentences from the medical-oriented Swedish journal Läkartidningen. The resulting model was evaluated on a separate test set and compared with the base model, which showed that the pre-trained model had higher scores on two versions of an accuracy test.
Abstract [sv]
Mängden medicinsk data har exploderat under de senaste årtionden. När det å ena sidan kan innebära en utmaning för läkare och medicinsk personal, kan det å andra sidan frambringa store möjligheter tack vare framväxten av ny teknologi. I synnerhet lyfter utvecklingen av artificiell intelligent (AI) hoppet för hälsovårdens framtid. Inom AI gör utvecklingen av språkmodeller det möjligt att behandla och utföra operationer på textbaserad data, så som läkarjournaler. En viktig del av flera språkmodeller är word embeddings, som representerar en models vokabulär numeriskt, där flera numeriska värden används för att beskriva varje innehållande term. För att kunna använda språkmodeller på svensk medcinsk data kan det vara användbart att ha tillgång till en word embedding som är anpassad till svenska medicinska termer. Till denna stund har det inte funnits någon sådan allmänt tillgänglig word embedding och darför har detta project siktat på att utveckla en sådan. Den utvecklade modellen, från vilken en word embedding är extraherad, är "för-tränad" (pre-trained) på den tillgängliga svenska allmänsyftade sprpåkmodellen KB-BERT där meningar från den medicinskorienterade svenska tidskriften Läkartidningen har använts. Den resulterade modellen bedömdes på en separat testmängd och jämfördes med grundmodellen, vilket visade att den för-tränade modellen hade högre värden på två versioner av ett nogrannhetstest.
Place, publisher, year, edition, pages
2025. , p. 46
Series
TRITA-CBH-GRU ; 2025:019
Keywords [en]
Word Embedding, Language models, Pre-training, KB-BERT, Swedish, Medical terms
Keywords [sv]
Word Embedding, Språkmodeller, Pre-training, KB-BERT, Svenska, Medicinska termer
National Category
Medical Engineering Natural Language Processing Other Computer and Information Science Information Systems
Identifiers
URN: urn:nbn:se:kth:diva-361417OAI: oai:DiVA.org:kth-361417DiVA, id: diva2:1945588
Subject / course
Medical Engineering
Educational program
Master of Science - Medical Engineering
Supervisors
Examiners
2025-04-152025-03-182025-04-16Bibliographically approved