Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Rating corrumption within insurance companies using Bayesian network classifiers
Umeå University, Faculty of Social Sciences, Umeå School of Business and Economics (USBE), Statistics.
2019 (English)Independent thesis Advanced level (degree of Master (One Year)), 10 credits / 15 HE creditsStudent thesisAlternative title
Skattning av korruptionsnivåer inom försäkringsbolag med hjälp av Bayesianska nätverk (Swedish)
Abstract [en]

Bayesian Network (BN) classifiers are a type of probabilistic models. The learning process consists of two steps, structure learning and parameter learning. Four BN classifiers will be learned. These are two different Naive Bayes classifiers (NB), one Tree Augmented Naive Bayes classifier (TAN) and one Forest Naive Bayes classifier (FAN). The NB classifiers will utililize two different parameter learning techniques, which are generative learning and discriminative learning. Generative learning uses maximum likelihood estimation (MLE) to optimize the parameters, while discriminative learning uses conditional likelihood estimation (CLE). The latter is more appropriate given the target at hand, while the former is less complicated. These four models are created in order to find the model best suited for predicting/rating the corruption levels of different insurance companies, given their features. Multi-class Area under the receiver operating characteristic (ROC) curve (AUC), as well as accuracy, is used in order to compare the predictive performances of the models. We observe that the classifiers learnt by generative parameter learning performed remarkably well, even outperforming the NB classifier with discriminative parameter learning. But unfortunately, this might imply an optimization issue when learning the parameters discriminately. Another unexpected result was that the CL-TAN classifier had the highest multi-class AUC, even though FAN is supposed to be an upgrade of CL-TAN. Further, the generatively learned NB performed about as good as the other two generative classifiers, which was also unexpected.

Abstract [sv]

Bayesianska nätverk (BN) är en typ av sannolikhetsmodell som används för klassificering. Inlärningsprocessen av en sådan modell består av två steg, strukturinlärning ochparameterinlärning. Fyra olika BN-klassificerare kommer att skattas. Dessa är två stycken Naive Bayes-klassificerare (NB), en Tree augmented naive Bayes-klassificerare (TAN) och enForest augmented naive Bayes-klassificerare (FAN). De två olika NB-klassificerarna kommer att skilja sig åt i att den ena använder sig av generativ parameterskattning, medan den andra använder sig av diskriminativ parameterinlärning. Chow och Lius (CL) berömda algoritm, där det ingår att beräkna betingad ömsesidig information (CMI), brukar ofta användas för att hitta den optimala trädstrukturen. Denna variant av TAN är känd som CL-TAN. FAN är en annan slags uppgradering av NB, som kan anses vara en förstärkt variant av CL-TAN, där förklaringsvariablerna är kopplade till varandra på ett sätt som ger en skogs-liknande struktur. De två olika parameterinlärningsmetoderna som används är generativ inlärning och diskriminativ inlärning. Den förstnämnda använder sig av maximum likelihood-skattning (MLE) för att optimera parametrarna. Detta är smidigt, men samtidigt skattas inte det som avsetts. Den sistnämnda metoden använder sig istället av betingad maximum likelihood-skattning (CLE), vilket ger en mer korrekt, men också mer komplicerad, skattning. Dessa sex modeller kommer att tränas i syfte att hitta den modellsom bäst skattar korruptionsnivåerna inom olika försäkringsbolag, givet dess egenskaper iform av förklaringsvariabler. En multiklassvariant av Area under the reciever operatingcharacteristics (ROC) curve (AUC) används för att bedöma skattningsprecisionen för varjemodell. Analysen resulterade i anmärkningsvärda resultat för de generativa modellerna,som med goda marginaler skattade mer precist än den diskriminativa NB-modellen.Tyvärr kan detta dock vara en indikation på optimeringsproblem vid de diskriminativa parameterinlärningen av NB. Ett annat anmärkningsvärt resultat var att av samtliga generativa modeller, så var CL-TAN den modellen med högst AUC, trots att FAN i teorinska vara en förbättrad variant av CL-TAN. Även den generativa NB-modellens resultat var anmärkningsvärd, då denna modell hade nästan lika hög AUC som de generativa CL-TAN och FAN-modellerna.

Place, publisher, year, edition, pages
2019.
National Category
Probability Theory and Statistics
Identifiers
URN: urn:nbn:se:umu:diva-160810OAI: oai:DiVA.org:umu-160810DiVA, id: diva2:1330042
Available from: 2019-06-25 Created: 2019-06-25 Last updated: 2019-06-25Bibliographically approved

Open Access in DiVA

fulltext(645 kB)12 downloads
File information
File name FULLTEXT01.pdfFile size 645 kBChecksum SHA-512
6f86239d1593afe4e62092bbe7e068f1406b557e05fdd3eaa5895bf8bcb7f2574d9049b11cd6d4d5a0506a5c894afe53434300f545ae30f9e557ab2905af8dcc
Type fulltextMimetype application/pdf

By organisation
Statistics
Probability Theory and Statistics

Search outside of DiVA

GoogleGoogle Scholar
Total: 12 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 33 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf