Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Evaluation of Feature Selection Methods for Machine Learning Classification of Breast Cancer
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2018 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Evaluering av Attributurvalsmetoder för klassificering av bröstcancer med maskininlärning (Swedish)
Abstract [en]

Breast cancer is the leading cause of cancer deaths among women today. Computer aided diagnosis has proved efficient in assisting medical experts to set an early diagnosis improving the chance of recovery. Computer aided diagnostics utilizes machine learning to make a prediction whether a patient has a benign or malignant cancer. For this purpose, machine learning algorithms are used to perform classification. Applying feature selection the algorithms can be fed data with lower dimensionality and can produce a more accurate result. In this report we conducted experiments with four different feature selection methods and four classifiers on four datasets.

We found that Artificial neural networks have a significant increase in classification accuracy of breast cancer when applying feature selection. The maximum improvement in accuracy was 51% using the feature selection method Entropy and data from Royal Hallamshire Hospital. The accuracy achieved by artificial neural networks does not show any correlation with a specific feature selection method. Using Naïve Bayes, Support Vector Machines and Decision trees no increase in accuracy using feature selection could be statistically proven considering all datasets. However, in some observations these classifiers manifested increased classification accuracy with feature selection compared to using all features of the dataset.

Abstract [sv]

Bröstcancer är idag den cancerform som orsakar flest dödfall hos kvinnor. Datordriven diagnostisering har visat sig effektiv i att assistera medicinska experter med att sätta en tidig diagnos för cancer och därmed öka chanserna för tillfrisknande hos patienten. Datordriven diagnostisering använder sig av maskininlärningsmetoder för att göra en prediktion huruvida en tumör är god eller elakartad. I denna diagnosticeringsprocesses används en patients data av en maskininlärningsalgoritm för att göra automatisk klassificering. Applicerandet av attributurvalsmetoder innebar att algoritmen kan använda sig av data med färre dimensioner och producera ett mer träffsäkert resultat. Vi genomförde experiment med fyra attributurvalsmetoder, fyra maskininlärningsalgoritmer och fyra dataset.

Vi fann att artificiella neurala nätverk med hjälp av attributurvalsmetoder visar en signifikant ökning av träffsäkerhet vid klasificering avbröstcancer. Den maximala förbättringen var 51% då attributurvalsmetoden entropi användes i kombination med data från Royal Hallamshire Hospital. För artificiella neurala nätverk kunde vi inte finna något samband mellan vilken attributurvalsmetod som användes och uppnådd träffsäkerhet, detta varierade från fall till fall. För metoderna Naïve Bayes, Support vector machine och Beslutsträd kunde ingen signifikant ökning av träffsäkerhet fastställas vid användning avattributurvalsmetoder. Dock kunde i vissa fall en ökning av klassificeringsträffsäkerhet observeras med hjälp av dessa metoder jämfört med klassificering med alla attribut.

Place, publisher, year, edition, pages
2018.
Series
TRITA-EECS-EX ; 2018:219
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-229476OAI: oai:DiVA.org:kth-229476DiVA, id: diva2:1213427
Subject / course
Computer Science
Supervisors
Examiners
Available from: 2018-07-10 Created: 2018-06-04 Last updated: 2018-07-10Bibliographically approved

Open Access in DiVA

fulltext(1388 kB)21 downloads
File information
File name FULLTEXT01.pdfFile size 1388 kBChecksum SHA-512
1830c93e359346a0bfa7ab72565da2586e02831c37cc566c9c59ad9678be07513cdd1e4ef2bb0029e583f6bd37ed429e6f5729621272372b5e4aec62c6ed0137
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 21 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 104 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf