Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Detecting Hospital Acquired Infections usingMachine Learning
KTH, School of Computer Science and Communication (CSC).
2013 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Every year a large number of patients contract infections due to their

hospital stay. These infections are a major hazard to patient safety

causing increased mortality and morbidity in affected patients. Manual

detection and reporting of these infections add to the workload of the

medical staff which makes it infeasible to do on a continuous basis. The

goal is to automate detection using machine learning methods. This will

be done using supervised learning and data available in electronic patient

records. As most of the data available is in unstructured free-text

the emphasis of this thesis is on how to turn this text into features that

are able to capture the patterns associated with hospital acquired infections.

Three different data representations are explored: bag of words,

complex symbolic sequences and simple parameters by information extraction.

The classifiers used are support vector machines and gradient

tree boosting. The data-set used consists of 300 hospitalizations from

Karolinska University Hospital, Sweden from 2011 and 2012. These hospitalizations

have been marked has having a hospital acquired infection

or not by medical experts and the class distribution is: 53% contain a

hospital acquired infection and 47% do not. Support vector machines

and gradient tree boosting perform similarly for the task but the focus is

on gradient tree boosting due to its visualization capabilities. The best

results, evaluated using 5-fold cross-validation, are obtained by gradient

tree boosting giving a F1-score in the range of 0.82-0.83, recall in the

range 0.88-0.89 and a precision of 0.78, for all three data representations.

Future research will have to focus on how to incorporate more

parameters into the information extraction based representations, how

to capture patterns common only in minority subclasses and how well

the three data representations workload with larger datasets

Abstract [sv]

Varje år ådrar sig en stor andel sjukhuspatienter infektioner på grund

av sin sjukhusvistelse. Dessa infektioner är ett stort patientsäkerhetsproblem

som leder till ökad mortalitet och morbiditet för de drabbade

patienterna. Manuell detektion och inrapportering av dessa infektioner

leder till merarbete för sjukvårdspersonalen vilket försvårar att detta

sker kontinuerligt. Målet är att automatisera detektionen med hjälp av

maskininlärning. Detta kommer att göras genom att använda övervakad

inlärning och data tillgänglig i elektroniska patientjournaler. Då det

mesta av den tillgängliga information endast är tillgänglig som fritext

så ligger fokuset för denna uppsats på hur man kan förvandla texten

till särdrag som kan fånga de mönster som är karakteristiska för vårdrelaterade

infektioner. Tre olika datarepresentationer utforskas: termfrekvenser,

komplexa symboliska sekvenser och “enkla parametrar” baserade

på informationsextraktion. De klassificerare som används är stödvektormaskiner

(support vector machines) och “gradient tree boosting”.

Datamängden som används består av 300 vårdtillfällen från Karolinska

Universitetssjukhuset från 2011 och 2012. Vårdtillfällena har markerats

som innehållandes en vårdrelaterad infektion eller ej av sjukvårdspersonal.

Av dessa vårdtillfällen har 53% markerats som innehållandes

en vårdrelaterad infektion och 47% har markerats som ej innehållande

en vårdrelaterad infektion. Stödvektormaskiner och “gradient tree

boosting” presterar snarlikt för uppgiften men fokus ligger på sistnämnda

metod då resultatet delvis kan visualiseras. Bäst resultat uppnås med

“gradient tree boosting”m utvärderat med 5-delad korsvalidering. Detta

ger ett F1-värde i intervallet 0,82 - 0,83, täckning i intervallet 0,88 -

0,89 och 0,78 i precision oavsett vilken av datarepresentationerna som

används. Framtida arbete bör fokusera på hur man kan inlemma fler parametrar

i de informationsextraktionsbaserade representationerna, hur

man kan hitta mönster som är vanliga i en specifik subklass men inte

i huvudklassen, samt hur väl de olika datarepresentationerna fungerar

för större datamängder.

Place, publisher, year, edition, pages
2013.
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-142355OAI: oai:DiVA.org:kth-142355DiVA: diva2:699767
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2014-03-13 Created: 2014-02-28 Last updated: 2014-03-13Bibliographically approved

Open Access in DiVA

fulltext(824 kB)583 downloads
File information
File name FULLTEXT01.pdfFile size 824 kBChecksum SHA-512
5a90103ddd788f1c274d622a287431aa2898e6cadcda9588d249e0d31d750abe75d65b8ec48f702ed1df8fd2186e73f425079b7d60dbb2cc62d8e3faba2d0420
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 583 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 125 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf