Digitala Vetenskapliga Arkivet

Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
A Benchmark of Prevalent Feature Selection Algorithms on a Diverse Set of Classification Problems
KTH, Skolan för kemi, bioteknologi och hälsa (CBH), Medicinteknik och hälsosystem.
KTH, Skolan för kemi, bioteknologi och hälsa (CBH), Medicinteknik och hälsosystem.
2018 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgave
Abstract [en]

Feature selection is the process of automatically selecting important features from data. It is an essential part of machine learning, artificial intelligence, data mining, and modelling in general. There are many feature selection algorithms available and the appropriate choice can be difficult. The aim of this thesis was to compare feature selection algorithms in order to provide an experimental basis for which algorithm to choose. The first phase involved assessing which algorithms are most common in the scientific community, through a systematic literature study in the two largest reference databases: Scopus and Web of Science. The second phase involved constructing and implementing a benchmark pipeline to compare 31 algorithms’ performance on 50 data sets.The selected features were used to construct classification models and their predictive performances were compared, as well as the runtime of the selection process. The results show a small overall superiority of embedded type algorithms, especially types that involve Decision Trees. However, there is no algorithm that is significantly superior in every case. The pipeline and data from the experiments can be used by practitioners in determining which algorithms to apply to their respective problems.

Abstract [sv]

Variabelselektion är en process där relevanta variabler automatiskt selekteras i data. Det är en essentiell del av maskininlärning, artificiell intelligens, datautvinning och modellering i allmänhet. Den stora mängden variabelselektionsalgoritmer kan göra det svårt att avgöra vilken algoritm som ska användas. Målet med detta examensarbete är att jämföra variabelselektionsalgoritmer för att ge en experimentell bas för valet av algoritm. I första fasen avgjordes vilka algoritmer som är mest förekommande i vetenskapen, via en systematisk litteraturstudie i de två största referensdatabaserna: Scopus och Web of Science. Den andra fasen bestod av att konstruera och implementera en experimentell mjukvara för att jämföra algoritmernas prestanda på 50 data set. De valda variablerna användes för att konstruera klassificeringsmodeller vars prediktiva prestanda, samt selektionsprocessens körningstid, jämfördes. Resultatet visar att inbäddade algoritmer i viss grad är överlägsna, framför allt typer som bygger på beslutsträd. Det finns dock ingen algoritm som är signifikant överlägsen i varje sammanhang. Programmet och datan från experimenten kan användas av utövare för att avgöra vilken algoritm som bör appliceras på deras respektive problem.

sted, utgiver, år, opplag, sider
2018. , s. 55
Serie
TRITA-CBH-GRU ; 2018:32
Emneord [en]
feature selection, variable selection, attribute selection, machine learning, data mining, benchmark, classification
Emneord [sv]
variabelselektion, maskininlärning, datautvinning, klassificering
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-228614OAI: oai:DiVA.org:kth-228614DiVA, id: diva2:1212104
Eksternt samarbeid
Nordron AB
Fag / kurs
Medical Engineering
Utdanningsprogram
Master of Science in Engineering - Medical Engineering
Veileder
Examiner
Tilgjengelig fra: 2018-06-25 Laget: 2018-06-01 Sist oppdatert: 2022-06-26bibliografisk kontrollert

Open Access i DiVA

AKniberg_DNokto_Student_Thesis(3062 kB)1227 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 3062 kBChecksum SHA-512
4c27242c24c6d474ad805981169fe59b89e50336946e032fc4b027587630de5d7280f40340622f12354928ded2543a75346a7d9ec8ef99303c1ee5ff7ca9b79b
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 1227 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 1610 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf