Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Visual Debugging of Dataflow Systems
KTH, School of Information and Communication Technology (ICT).
2017 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Big data processing has seen vast integration into the idea of data analysis in live streaming and batch environments. A plethora of tools have been developed to break down a problem into manageable tasks and to allocate both software and hardware resources in a distributed and fault tolerant manner. Apache Spark is one of the most well known platforms for large-scale cluster computation. In SICS Swedish ICT, Spark runs on top of an in-house developed solution. HopsWorks provides a graphical user interface to the Hops platform that aims to simplify the process of configuring a Hadoop environment and improving upon it. The user interface includes, among other capabilities, an array of tools for executing distributed applications such as Spark, TensorFlow, Flink with a variety of input and output sources, e.g. Kafka, HDFS files etc.

Currently the available tools to monitor and instrument a stack that includes the aforementioned technologies come from both the corporate and open source world. The former is usually part of a bigger family of products running on proprietary code. In contrast, the latter offers a wider variety of choices with the most prominent ones lacking either the flexibility in exchange for a more generic approach or the ease of gaining meaningful insight except of the most experienced users.

The contribution of this project is a visualization tool in the form of a web user interface, part of the Hops platform, for understanding, debugging and ultimately optimizing the resource allocation and performance of dataflow applications. These processes are based both on the abstraction provided by the dataflow programming paradigm and on systems concepts such as properties of data, how much variability in the data, computation, distribution, and other system wide resources.

Abstract [sv]

Behandling av stora datamängder har på senare tid blivit en viktig del av data analys i strömning och batch-processering. En uppsjö av verktyg har blivit framtagna för att bryta ner problem till mindre uppgifter och för att använda såväl hårdvara som mjukvara på ett distribuerat och fel tolerant sätt. Apache Spark är en av de mest kända plattformarna för beräkningar på storskaliga kluster. På SICS Swedish ICT, används Spark på deras egna lösning. HopsWorks tillhandahåller ett grafiskt gränssnitt för Hops plattformen med målet att förenkla processen att konfiguera Hadoop miljön och förbättra den. Användargränssnittet inkluderar, utöver annan funktionalitet, ett flertal verktyg för att exekvera distribuerade applikationer såsom Spark, TensorFlow, Flink med ett antal olika datakällor såsom Kafka och HDFS.

De verktyg som finns för att övervaka den tidigarenämnda teknologi-stacken kommer från både företag och öppna källkod projekt. Den tidigare är vanligtvis en del av en större familj med produkter som kör på proprietär kod. I kontrast mot den senare, som erbjuder en större mängd med val där de viktigaste har bristande flexibilitet i utbyte mot ett mer generiskt tillvägagångssätt eller enkelhet att få nyttig information förutom för de mest erfarna användarna.

Bidraget från det här projektet är ett visualiseringsspråk i form av ett webbanvändargränssnitt, integrerat med Hops plattformen, för förståelse, felsökning och i slutändan kunna optimera resursallokering och prestanda för dataflödesapplikationer. Dessa processer är baserade på både abstraktionen från dataflöde programmerings paradigmen och på systemkoncept såsom dataegenskaper, datavariabilitet, beräkning, distribution och andra systemegenskaper.

Place, publisher, year, edition, pages
2017. , p. 62
Series
TRITA-ICT-EX ; 2017:152
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-222376OAI: oai:DiVA.org:kth-222376DiVA, id: diva2:1181210
Subject / course
Computer Science
Educational program
Master of Science - Software Engineering of Distributed Systems
Supervisors
Examiners
Available from: 2018-02-08 Created: 2018-02-08 Last updated: 2018-02-08Bibliographically approved

Open Access in DiVA

fulltext(1439 kB)69 downloads
File information
File name FULLTEXT01.pdfFile size 1439 kBChecksum SHA-512
e3e21481d5b5367d071da5d89bfcbe6a408f4d016cc3ca73cf7ef93453fff6c38550124f4e4a422ae83729df357d0830be1298b3dfa9a6bda47f1ee05449fb33
Type fulltextMimetype application/pdf

By organisation
School of Information and Communication Technology (ICT)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 69 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 349 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf