Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Rule-based classification of heavy vehicle operations
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

The problem explored in this thesis is a supervised classification problem. Input data consists of operational and manufacturing data of a truck. The output denotes its operation, i.e. its basic utility and usage pattern, such as “Long distance” or “On and off-road”. In order to understand the distinction between the operation categories in practice, we look at interpretable classifiers. The examined classifiers are treeand rule-based classifiers, as they are the most interpretable. These include random forest, decision tree, and a classifier called inTrees, a method that summarizes a random forest using rules. In addition, a suggested method is examined. The suggested method works similarly to inTrees, but differs in the rule selection step. The question is whether this suggested method is better than inTrees in terms of interpretability, and how well both of them perform in comparison to a decision tree and a random forest. Another question regards the operation category of trucks, and whether they can be successfully distinguished using these methods.In order to compare the methods, their balanced accuracy, number of rules and other measures are recorded for the truck data set and additional data sets. Additional data sets are used to get a more exhaustive comparison between the methods.The suggested method does not outperform inTrees, and frequently uses three to four times as many rules to achieve the same accuracy on a given data set. Results indicate that the suggested method could perform more similarly to inTrees, given a different form of hyperparameter tuning. Additionally, it is shown that using interpretable classifiers rather than a random forest means we use less than one percent of the rules, at the cost of a loss of 10 percentage points in balanced accuracy.

Abstract [sv]

Problemet som utforskas i detta examensarbete är ett problem inom övervakat lärande där indata består av driftdata samt tillverkningsspecifikationer för en lastbil, och utdata är dess användningsområde, såsom “Långdistans” eller “Stadsdistribution”. Målet är att få insikt i vad distinktionen mellan lastbilars användningsområden är i praktiken. För att utreda detta används regeloch trädbaserade klassificerare. Dessa används eftersom de är de mest tolkningsbara klassificerarna. De klassificerare som ingår är random forest, beslutsträd och en klassificerare kallad inTrees, som extraherar regler från en random forest. Utöver detta föreslås en ny metod som bygger på inTrees, men som skiljer sig i hur den väljer regler.Frågeställningen är om den föreslagna metoden ger resultat av högre tolkningsbarhet än inTrees, och hur väl bägge presterar i jämförelse med ett beslutsträd och en random forest. En annan del av frågeställningen gäller vad för slutsatser som kan dras kring användningsområde av lastbilar.För att jämföra prestandan av dessa metoder undersöktes både prediktionsgraden och tolkningsbarheten. Detta gjordes för lastbilsdatat men även andra publika dataset. Andra dataset användes för att få en mer omfattande jämförelse.Den föreslagna metoden är mindre tolkningsbar än inTrees då den ofta kräver tre till fyra gånger så många regler för att uppnå samma precision för ett dataset. Vissa resultat indikerar att den föreslagna metoden kunnat prestera mer likt inTrees om en annan hyperparameter-optimisering hade använts. Ytterligare resultat visade att vi, genom att använda tolkningsbara klassificerare istället för random forest, förlorade 10 procentenheter i balanserad precision men använde mindre än en procent av reglerna.

Place, publisher, year, edition, pages
2019. , p. 67
Series
TRITA-EECS-EX ; 2019:410
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-254983OAI: oai:DiVA.org:kth-254983DiVA, id: diva2:1337121
Supervisors
Examiners
Available from: 2019-07-11 Created: 2019-07-11 Last updated: 2019-07-11Bibliographically approved

Open Access in DiVA

fulltext(1122 kB)10 downloads
File information
File name FULLTEXT01.pdfFile size 1122 kBChecksum SHA-512
5cc743d0033f87b078308193a09e3d7f457edf9995281768d7cfde0947174e4a41bd37213651b34285cc6d4d1609280d8f4c8e6ea6a6609e07b97fc76a0a2946
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 10 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 35 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf