Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
The Information Bottleneck: Connections to Other Problems, Learning and Exploration of the IB Curve
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

In this thesis we study the information bottleneck (IB) method. This is an informationtheoretic framework which addresses the question of what are the relevant factors of arandom variable X to explain another statistically dependent random variable Y . Thesefactors are embedded into a bottleneck variable T obeying the Markov condition Y $X $ T.The contributions of the thesis are three-fold: (i) The thesis serves as a survey onthe existing connections of the information bottleneck method with rate distortion theoryand with minimal sufficient statistics, for which we also extended the known theory byproving some unproved results and deriving new connections. (ii) The thesis also servesas a survey on the information bottleneck and learning. We recover the main results onsample bounds for learning, prove them insufficient for real-world problems and show theimportance of the recently found ties between information and generalization. Moreover,we provide with a clear intuition of why the information bottleneck is a good objectivefunction for supervised learning tasks. Furthermore, we provide with a new informationtheoretic generalization bound for linear models which, to the extent of our knowledge,is the first one which does not depend on the cardinality of the random variables. (iii)Finally, the main contribution of the thesis are the results regarding the exploration of theIB curve. The IB curve is the set of points describing the solutions of the informationbottleneck optimization in terms of compression of the inputs and explainability of theoutput. We introduce the convex IB Lagrangian, an objective function which allows us toexplore the IB curve (in contrast to the previously used IB Lagrangian). Furthermore, weprove there is a bijective mapping between the Lagrange multiplier used and the obtainedpoint in the IB curve, provided the IB curve shape is known. This means one could designthe Lagrange multiplier to obtain a desired level of compression or explainability.

Abstract [sv]

I den här avhandligen studerar vi the information bottleneck method. Detta är ettinformations-teoretiskt ramvärk som tar itu med vilka som är de relevanta faktorerna av enstokastisk variabel X som förklarar en annan, statistiskt beroende, stokastisk variabel Y .Dessa faktorer är inbäddade i en bottleneck variable T, vilken uppfyller Markov-villkoretY $ X $ T.Bidraget av denna avhandling är trefaldigt: (i)Avhandlingen fungerar som en undersökningav existerande kopplingar mellan information bottleneck method och rate distortiontheory samt minimal sufficient statistics. Vi utökar den kända teorin om dessa kopplingargenom att bevisa nya resultat och härleda nya kopplingar. (ii) Avhandlingen fungerar ocksåsom en undersökning av information bottleneck and learning. Vi återfår huvudresultatenom sample bounds for learning, bevisar att de är otillräckliga för moderna problem och visarvikten av de nyligen funna kopplingarna mellan information och generalisering. Vi presenterardessutom en intuition för varför the information bottleneck är en bra målfunktionför supervised learning. Dessutom så hittar vi en ny information-teoretisk generaliseringsgränsför linjära modeller som, så vitt vi vet, är den första sådana som inte beror på kardinalitetenav den stokastiska variabeln. (iii) Slutligen, avhandligens huvudsakliga bidragär resultat angående utforskningen av IB-kurvan. IB-kurvan är mängden av punkter sombeskriver lösningarna av information bottleneck optimiseringen i form av kompression avinsignalerna och förklarlighet av utsignalerna. Vi introducerar the convex IB Lagrangian,en målfunktion som låter oss utforska IB-kurvan (till skillnad från den tidigare användaIB Lagrangian). Vi bevisar dessutom att det finns en bijective mapping mellan de användalagrangemultiplikatorerna och den erhållna punkten på IB-kurvan, så vida IB-kurvansform är känd. Detta innebär att det är möjligt att konstruera lagrangemultiplikatorn så attman för en önskad nivå på kompression och förklarlighet.

Place, publisher, year, edition, pages
2019. , p. 103
Series
TRITA-EECS-EX ; 2019:296
National Category
Engineering and Technology
Identifiers
URN: urn:nbn:se:kth:diva-254421OAI: oai:DiVA.org:kth-254421DiVA, id: diva2:1332068
Educational program
Master of Science - Machine Learning
Examiners
Available from: 2019-06-27 Created: 2019-06-27 Last updated: 2019-06-27Bibliographically approved

Open Access in DiVA

fulltext(8117 kB)42 downloads
File information
File name FULLTEXT01.pdfFile size 8117 kBChecksum SHA-512
13e4dbdfe9855706a95e22354477e6adef4ba46e4963cca578e61dd2c2404932ddf51bf84f46963ec12d13f67a1cd03fd584eb4ff0a6b3255c0ff44f71ffc70d
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Engineering and Technology

Search outside of DiVA

GoogleGoogle Scholar
Total: 42 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 237 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf