Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Hur relaterar det optimala valet av klassificeringsmetod till datamaterialets egenskaper?: En jämförande studie mellan logistisk regression, elastic net och boosting tillämpat på klassificeringsträd.
Umeå University, Faculty of Social Sciences, Umeå School of Business and Economics (USBE), Statistics.
Umeå University, Faculty of Social Sciences, Umeå School of Business and Economics (USBE), Statistics.
2015 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
How does the optimal choice of classifier relate to the data set characteristics? : A comparative study between logistic regression, elastic net and boosting applied to classification tree (English)
Abstract [sv]

På sistone har allt mer kritik riktats mot forskning inom klassificering. Trots att forskningen har resulterat i en uppsjö av klassificeringsmetoder finns det de som menar att den har varit ett misslyckande och pekar på det faktum att ingen klassificeringsmetod anses vara systematiskt bättre än den andra eller ens rena gissningar. Detta leder till att valet av klassificeringsmetod i många fall vilar på individuella preferenser snarare än på vetenskaplig grund. Enligt litteraturen bottnar detta faktum i ett underliggande samband mellan det optimala valet av klassificeringsmetod och egenskaperna som karaktäriserar datamaterialet.

Uppsatsen tar avstamp från denna problematik och syftar till att undersöka kopplingen mellan det optimala valet av klassificeringsmetod och datamaterialets egenskaper. Denna intention uppnår vi genom att tillämpa logistisk regression, elastic net och boosting tillämpat på klassificeringsträd på sex verkliga datamaterial med varierande statistiska egenskaper.

Resultatet visar att den relativa klassificeringsförmågan varierar med datamaterialen. Elastic net är att föredra antalet förklaringsvariabler är större än antalet observationer, boosting tillämpat på klassificeringsträd är i sin tur det optimala valet när det förekommer multikolinjäritet medan logistisk regression äranvändbar under förutsättningen att datamängden är stor. Den generella slutsatsen från uppsatsen är således att det optimala valet beror på datamaterialet. Därmed bekräftar uppsatsen stor del av tidigare forskning inom ämnet.

Place, publisher, year, edition, pages
2015.
National Category
Other Social Sciences not elsewhere specified Probability Theory and Statistics
Identifiers
URN: urn:nbn:se:umu:diva-105329OAI: oai:DiVA.org:umu-105329DiVA: diva2:824645
Educational program
Statistics programme
Available from: 2015-06-23 Created: 2015-06-22 Last updated: 2015-06-23Bibliographically approved

Open Access in DiVA

fulltext(279 kB)159 downloads
File information
File name FULLTEXT01.pdfFile size 279 kBChecksum SHA-512
1dff2bb512d1d686b5af0f725747e8e4d9e127ca58c46407fe359620bdb9308947f21e571676f8a64fad9a5db4c205efcdc0532799ec2bdfb38c90f7bf1ba1d5
Type fulltextMimetype application/pdf

By organisation
Statistics
Other Social Sciences not elsewhere specifiedProbability Theory and Statistics

Search outside of DiVA

GoogleGoogle Scholar
Total: 159 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 2645 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf