Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
IcedHops: reducing read and write latency in an Iceberg-backed offline feature store: Integrating HopsFS and PyIceberg Python library to reduce read and write latency on Hopsworks offline feature store, with a comparative analysis of alternative solutions
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
IcedHops: minska läs- och skrivlatens i en Iceberg-stödd offlinebutik för funktioner : Integrering av HopsFS och PyIceberg Python-bibliotek för att minska läs- och skrivfördröjningen i den offline-lagringen Hopsworks, med en jämförande analys av alternativa lösningar. (Swedish)
Abstract [en]

The growing need for efficient data management in Machine Learning (ML) workflows has led to the widespread adoption of feature stores, centralized data platforms that supports feature engineering, model training and prediction inference. The Hopsworks’ feature store has demonstrated outperformance compared to its alternatives, leveraging Apache Hudi and Spark for offline data storage, but suffers from high write and read latency, even for small quantities of data (1GB or less). This thesis explores the potential of Apache Iceberg as an alternative table format to reduce latencies, developing "IcedHops", an integration of HopsFS (Hopsworks HDFS distribution) and PyIceberg Python library. The research begin with an evaluation of potential system integration alternatives, documenting the advantages and limitations of each approach. Then, IcedHops is implemented and evaluated, benchmarking it against the existing Spark-based solution and an alternative Delta Lake implementation (delta-rs). Extensive experiments were conducted across varying table sizes and CPU configurations to assess write and read performance. Results show that IcedHops significantly reduces write latency – from 40 to 140 times lower than the legacy system – and read latency – from 55% to 60 times lower than the legacy system. Compared to delta-rs, IcedHops demonstrates reduced write latency for large tables – up to 7 times lower – and equal read latency, but exhibits lower scaling benefits with additional CPU cores – 20% less than delta-rs. These findings confirm that alternatives to Spark-based pipelines in small- scale scenarios are possible and are worth of further investigations, and the system implemented will be included in the Hopsworks feature store. Furthermore, this thesis work and results finally provides a baseline for future work about additional open table formats, alternative languages to mitigate Python’s performance overhead, and strategies to improve resource utilization in data management platforms.

Abstract [sv]

Det växande behovet av effektiv datahantering i arbetsflöden för maskininlär- ning (ML) har lett till en utbredd användning av feature stores – centraliserade dataplattformar som stöder feature engineering, modellträning och inferens. Hopsworks feature store har visat bättre prestanda jämfört med sina alternativ och använder Apache Hudi och Spark för offline-datalagring. Dock lider systemet av hög skriv- och läslatens, även för små datamängder (1 GB eller mindre). Denna avhandling undersöker potentialen hos Apache Iceberg som ett alternativt tabellformat och integrerar det med HopsFS (Hopsworks HDFS- distribution) samt PyIceberg Python-biblioteket för att minska latensen. Forskningen inleds med en utvärdering av potentiella systemintegrations- alternativ, där fördelar och begränsningar med varje metod dokumenteras. Därefter implementeras och utvärderas en PyIceberg-baserad arkitektur, vilken jämförs med den befintliga Spark-baserade lösningen samt en alternativ Delta Lake-implementering (delta-rs). Omfattande experiment genomfördes med varierande tabellstorlekar och CPU-konfigurationer för att bedöma skriv- och läsprestanda. Resultaten visar att PyIceberg avsevärt minskar skrivfördröjningen – från 40 till 140 gånger lägre än det äldre systemet – och läsfördröjningen – från 55% till 60 gånger lägre än det äldre systemet. Jämfört med delta-rs uppvisar PyIceberg minskad skrivfördröjning för stora tabeller – upp till sju gånger lägre – och liknande läsfördröjning, men har sämre skalningsfördelar vid ökning av CPU-kärnor (20% mindre än delta-rs). Dessa resultat bekräftar att alternativ till Spark-baserade pipelines i småskaliga scenarier är möjliga och värda ytterligare undersökningar. Det implementerade systemet kommer att integreras i Hopsworks feature store. Dessutom utgör denna avhandling en baslinje för framtida forskning kring ytterligare öppna tabellformat, alternativa programmeringsspråk för att hantera Pythons prestandabegränsningar samt strategier för att förbättra resursutnyttjandet i datahanteringsplattformar.

Place, publisher, year, edition, pages
2025. , p. 88
Series
TRITA-EECS-EX ; 2025:39
Keywords [en]
Machine Learning, Feature Store, Spark, Apache Iceberg, Delta Lake, Python, Read/Write Latency, Open Table Formats
Keywords [sv]
Maskininlärning, Feature Store, Spark, Apache Iceberg, Delta Lake, Python, Läs- och skrivlatens, Open Table Formats
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-362128OAI: oai:DiVA.org:kth-362128DiVA, id: diva2:1950582
External cooperation
Hopsworks AB
Supervisors
Examiners
Available from: 2025-04-24 Created: 2025-04-08 Last updated: 2025-04-24Bibliographically approved

Open Access in DiVA

fulltext(6571 kB)47 downloads
File information
File name FULLTEXT01.pdfFile size 6571 kBChecksum SHA-512
406b2516bf3efa8bb6cfc79ec9e15ccc7c7a09b920ddc08fd165edfe55822940ed08dc85f5548ac731b1f8f916a753a8d1170baf5503bb6a6a286571653bc861
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 48 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 127 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf