Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Unsupervised machine learning to detect patient subgroups in electronic health records
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Identifiering av patientgrupper genom oövervakad maskininlärning av digitala patientjournaler (Swedish)
Abstract [en]

The use of Electronic Health Records (EHR) for reporting patient data has been widely adopted by healthcare providers. This data can encompass many forms of medical information such as disease symptoms, results from laboratory tests, ICD-10 classes and other information from patients. Structured EHR data is often high-dimensional and contain many missing values, which impose a complication to many computing problems. Detecting meaningful structures in EHR data could provide meaningful insights in diagnose detection and in development of medical decision support systems.

In this work, a subset of EHR data from patient questionnaires is explored through two well-known clustering algorithms: K-Means and Agglomerative Hierarchical. The algorithms were tested on different types of data, primarily raw data and data where missing values have been imputed using different imputation techniques. The primary evaluation index for the clustering algorithms was the silhouette value using euclidean and cosine distance measures.

The result showed that natural groupings most likely exist in the data set. Hierarchical clustering created higher quality clusters than k-means, and the cosine measure yielded a good interpretation of distance. The data imputation imposed large effects to the data and likewise to the clustering results, and other or more sophisticated techniques are needed for handling missing values in the data set.

Abstract [sv]

Användandet av digitala journaler för att rapportera patientdata har ökat i takt med digitaliseringen av vården. Dessa data kan innehålla många typer av medicinsk information så som sjukdomssymptom, labbresultat, ICD-10 diagnoskoder och annan patientinformation. EHR data är vanligtvis högdimensionell och innehåller saknade värden, vilket kan leda till beräkningssvårigheter i ett digitalt format. Att upptäcka grupperingar i sådana patientdata kan ge värdefulla insikter inom diagnosprediktion och i utveckling av medicinska beslutsstöd.

I detta arbete så undersöker vi en delmängd av digital patientdata som innehåller patientsvar på sjukdomsfrågor. Detta dataset undersöks genom att applicera två populära klustringsalgoritmer: k-means och agglomerativ hierarkisk klustring. Algoritmerna är ställda mot varandra och på olika typer av dataset, primärt rådata och två dataset där saknade värden har ersatts genom imputationstekniker. Det primära utvärderingsmåttet för klustringsalgoritmerna var silhuettvärdet tillsammans med beräknandet av ett euklidiskt distansmått och ett cosinusmått.

Resultatet visar att naturliga grupperingar med stor sannolikhet finns att hitta i datasetet. Hierarkisk klustring visade på en högre klusterkvalitet än k-means, och cosinusmåttet var att föredra för detta dataset. Imputation av saknade data ledde till stora förändringar på datastrukturen och således på resultatet av klustringsexperimenten, vilket tyder på att andra och mer avancerade dataspecifika imputationstekniker är att föredra.

Place, publisher, year, edition, pages
2019. , p. 37
Series
TRITA-EECS-EX ; 95
Keywords [en]
Machine learning, unsupervised learning, clustering, EHR, electronic health records, ICD, diagnosis codes.
Keywords [sv]
Maskininlärning, oövervakat lärande, klustring, EHR, digitala patientjournaler, ICD, diagnoskoder
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-251669OAI: oai:DiVA.org:kth-251669DiVA, id: diva2:1316425
Supervisors
Examiners
Available from: 2019-05-24 Created: 2019-05-17 Last updated: 2019-05-24Bibliographically approved

Open Access in DiVA

fulltext(953 kB)27 downloads
File information
File name FULLTEXT01.pdfFile size 953 kBChecksum SHA-512
9c0e654a29e43b6fa7ae383c3e270791f5b884bf784a3b779eb246662ef961d0787f8d17d86ee21087d356cc76536385defe6bcba0fdc96a7c2c8f84269e3c1d
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 27 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 112 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf