Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Data streaming in Hadoop: A STUDY OF REAL TIME DATA PIPELINE INTEGRATION BETWEEN HADOOP ENVIRONMENTS AND EXTERNAL SYSTEMS
KTH, School of Information and Communication Technology (ICT).
KTH, School of Information and Communication Technology (ICT).
2015 (English)Independent thesis Advanced level (professional degree), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

The field of distributed computing is growing and quickly becoming a natural part of large as well as smaller enterprises’ IT processes. Driving the progress is the cost effectiveness of distributed systems compared to centralized options, the physical limitations of single machines and reliability concerns.

There are frameworks within the field which aims to create a standardized platform to facilitate the development and implementation of distributed services and applications. Apache Hadoop is one of those projects. Hadoop is a framework for distributed processing and data storage. It contains support for many different modules for different purposes such as distributed database management, security, data streaming and processing. In addition to offering storage much cheaper than traditional centralized relation databases, Hadoop supports powerful methods of handling very large amounts of data as it streams through and is stored on the system. These methods are widely used for all kinds of big data processing in large IT companies with a need for low-latency, high-throughput processing of the data.

More and more companies are looking towards implementing Hadoop in their IT processes, one of them is Unomaly, a company which offers agnostic, proactive anomaly detection. The anomaly detection system analyses system logs to detect discrepancies. The anomaly detection system is reliant on large amounts of data to build an accurate image of the target system. Integration with Hadoop would result in the possibility to consume incredibly large amounts of data as it is streamed to the Hadoop storage or other parts of the system.

In this degree project an integration layer application has been developed to allow Hadoop integration with Unomalys system. Research has been conducted throughout the project in order to determine the best way of implementing the integration.

The first part of the result of the project is a PoC application for real time data pipelining between Hadoop clusters and the Unomaly system. The second part is a recommendation of how the integration should be designed, based on the studies conducted in the thesis work.

Abstract [sv]

Distribuerade system blir allt vanligare inom både stora och små företags IT-system. Anledningarna till denna utveckling är kostnadseffektivitet, feltolerans och tekniska fysiska begränsningar på centraliserade system.

Det finns ramverk inom området som ämnar att skapa en standardiserad plattform för att underlätta för utveckling och implementation av distribuerade tjänster och applikationer. Apache Hadoop är ett av dessa projekt. Hadoop är ett ramverk för distribuerade beräkningar och distribuerad datalagring. Hadoop har stöd för många olika moduler med olika syften, t.ex. för hantering av distribuerade databaser, datasäkerhet, dataströmmning och beräkningar. Utöver att erbjuda mycket billigare lagring än centraliserade alternativ så erbjuder Hadoop kraftulla sätt att hantera väldigt stora mängder data när den strömmas genom, och lagras på, systemet. Dessa metoder används för en stor mängd olika syften på IT-företag som har ett behov av snabb och kraftfull datahantering.

Fler och fler företag implementerar Hadoop i sina IT-processer. Ett av dessa företag är Unomaly. Unomaly är företag som erbjuder generisk, förebyggande avvikelsedetektering. Deras system fungerar genom att aggregera stora volymer systemloggar från godtyckliga ITsystem. Avvikelsehanteringssystemet är beroende av stora mängder loggar för att kunna bygga upp en korrekt bild av värdsystemet. Integration med Hadoop skulle låta Unomaly konsumera väldigt stora mängder loggdata när den strömmar genom värdsystemets Hadooparkitektur.

I dettta kandidatexamensarbete har ett integrationslager mellan Hadoop och Unomalys avvikelsehanteringssystem utvecklats. Studier har också gjorts för att identifiera den bästa lösningen för integraion mellan avvikelsehanteringssystem och Hadoop

Arbetet har resulterat i en applikationsprototyp som erbjuder realtids datatransportering mellan Hadoop och Unomalys system. Arbetet har även resulterat i en studie som diskuterar det bästa tillvägagångsättet för hur en integration av detta slag ska implementeras.

Place, publisher, year, edition, pages
2015. , 52 p.
Series
TRITA-ICT-EX, 2015;124
National Category
Computer and Information Science
Identifiers
URN: urn:nbn:se:kth:diva-186380OAI: oai:DiVA.org:kth-186380DiVA: diva2:927113
Educational program
Master of Science in Engineering - Information and Communication Technology
Examiners
Available from: 2016-05-13 Created: 2016-05-11 Last updated: 2016-05-13Bibliographically approved

Open Access in DiVA

fulltext(1528 kB)6287 downloads
File information
File name FULLTEXT01.pdfFile size 1528 kBChecksum SHA-512
ae112e44f9fab1ad086ec1f4b85e132b4804769f941a8a60e191f7f116e515f19592d488cc85089eacb3ceb552424d1ce54352c1f15dbda4d0f836738cb99453
Type fulltextMimetype application/pdf

By organisation
School of Information and Communication Technology (ICT)
Computer and Information Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 6287 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 3330 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf