Evaluating the Quality of Dimensionality Reduction Techniques on Node and Graph Embeddings: Visualizing Graph Neural Networks
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Evaluating the Quality of Dimensionality Reduction Techniques on Node and Graph Embeddings (Swedish)
Abstract [en]
Graph datasets are increasingly prevalent in machine learning applications. Effective visualization is crucial for understanding both the datasets and the behavior of graph neural networks (GNNs) applied to them. Visualizing these complex structures remains a significant challenge. This thesis introduces a framework designed to overcome these challenges by visually analyzing graph datasets and the inner workings of GNNs. The visualizations are created through training graph neural networks on graph datasets, extracting layer embeddings, and applying dimensionality reduction techniques to visualize the data in a two-dimensional space. This method was applied to a variety of datasets, graph neural network architectures, and dimensionality reduction techniques. The visualizations are compared using cluster-quality metrics that quantify the intra-clustering and inter-clustering quality. The analysis shows that SplineCNN [1] network embeddings are the most easily separable, and UMAP [2] creates the best visual representation of the data.
Abstract [sv]
Graphdatamängder blir allt vanligare i maskininlärningsapplikationer. Effektiv visualisering är avgörande för att förstå både datamängderna och beteendet hos grafneurala nätverk (GNN) som tillämpas på dem. Visualiseringen av dessa komplexa strukturer är fortfarande en betydande utmaning. Denna avhandling introducerar ett ramverk utformat för att övervinna dessa utmaningar genom att visuellt analysera grafdatamängder och de inre mekanismerna hos GNN. Visualiseringarna skapas genom att träna grafneurala nätverk på grafdatamängder, extrahera lagers inbäddningar och tillämpa tekniker för dimensionsreduktion för att visualisera data i ett tvådimensionellt utrymme. Denna metod tillämpades på en mängd olika datamängder, grafneurala nätverksarkitekturer och tekniker för dimensionsreduktion. Visualiseringarna jämförs med hjälp av klusterkvalitetsmått som kvantifierar kvaliteten på intra-klustring och inter-klustring. Analysen visar att SplineCNN [1] nätverksinbäddningar är de mest lättseparerbara, och UMAP [2] skapar den bästa visuella representationen av data.
Place, publisher, year, edition, pages
2024. , p. 56
Series
TRITA-EECS-EX ; 2024:936
Keywords [en]
dimensionality reduction, visualization, graph neural networks, node embeddings, graph datasets
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361062OAI: oai:DiVA.org:kth-361062DiVA, id: diva2:1943599
External cooperation
Stanford Medicine
Supervisors
Examiners
2025-03-172025-03-112025-03-17Bibliographically approved