Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Examining Machine Learning as an alternative for scalable video analysis
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems, Health Informatics and Logistics.
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems, Health Informatics and Logistics.
2019 (English)Independent thesis Basic level (university diploma), 10 credits / 15 HE creditsStudent thesisAlternative title
En utvärdering av maskininlärning som alternativ för skalbar videoanalys (Swedish)
Abstract [en]

Video is a large part of today’s society where surveillance cameras represent the biggest source of big data, and real-time entertainment is the largest network traffic category. There is currently a large interest in analysing the contents of video where video analysis is mainly conducted by people. This increase in video has for instance made it difficult for professional editors to analyse movies and series in a scalable way, and alternative solutions are needed. The media technology company June, want to explore scalable alternatives for extracting metadata from video. With recent advances in Machine Learning and the rise of machine-learning-asa-service platforms, June wished more specifically to explore how these Machine Learning services can be utilised for extracting metadata from videos, and from it construct a summary regarding its contents. This work examined Machine Learning as an option for scalable video summarisation which resulted in developing and evaluating an application that utilised transcription, summarisation, and translation services to produce a text based summarisation of video. Furthermore to examine the services current state of affairs, multiple services from different providers were tested, evaluated and compared to each other. Lastly, in order to evaluate the summarisation services an evaluation model was developed. The test results showed that the translation services were the only service that produced good results. Transcription and summarisation performed poorly in the tests which renders the suggested solution of combining the three services for video summarisation as impractical.

Abstract [sv]

Video är en stor del av dagens samhälle där bland annat övervakningskameror är den största källan av data och underhållning i realtid är den kategori som står för mest nätverkstrafik. Det finns i dagsläget ett stort intresse i att analysera innehållet av video, denna videoanalys utförs även främst av människor. Ökningen av video har gjort det svårt för exempelvis professionella redaktörer att hinna analysera filmer och serier och mer skalbara alternativ behövs. Mediaföretaget June vill utforska alternativ för att extrahera metadata från video på ett skalbart sätt. Med de senaste framstegen inom maskininlärning och framväxten av machine-learningas-a-service plattformar, önskar June mer specifikt att utforska hur maskininlärning kan nyttjas för att extrahera metadata från video och med det konstruera en sammanfattning av innehållet. Det utförda arbetet undersökte maskininlärning som skalbart alternativ för att kunna sammanfatta videos innehåll. Arbetet resulterade i utvecklandet samt utvärderingen av en applikation som nyttjade maskininlärningstjänster för transkribering, sammanfattning samt översättning för att producera en textbaserad sammanfattning av videos innehåll. För att utvärdera tjänsternas nuvarande tillstånd så testades samt utvärderades tjänster från olika leverantörer för att sedan jämföras mot varandra. Slutligen framtogs en egenutvecklad modell för att kunna utvärdera tjänsterna för sammanfattning. Testresultaten visade att tjänsterna för översättning var de enda tjänsterna som gav bra resultat. Tjänsterna för transkribering och sammanfattning gav dåliga resultat vilket gör den föreslagna lösningen av att kombinera de tre tjänsterna för att sammanfatta videoinnehåll som opraktisk.

Place, publisher, year, edition, pages
2019. , p. 50
Series
TRITA-CBH-GRU ; 2019:013
Keywords [en]
Machine Learning, MLaaS, Microsoft, Google, DeepAI, Aylien, video analysis, transcription, translation, summarisation, Word Error Rate, BLEU
Keywords [sv]
Maskininlärning, MLaaS, Microsoft, Google, videoanalys, transkribering, översättning, sammanfattning, word error rate, BLEU
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-248437OAI: oai:DiVA.org:kth-248437DiVA, id: diva2:1303137
Subject / course
Computer Science
Educational program
Bachelor of Science in Engineering - Computer Engineering
Supervisors
Examiners
Available from: 2019-05-16 Created: 2019-04-08 Last updated: 2019-05-16Bibliographically approved

Open Access in DiVA

Examining Machine Learning as an alternative for scalable video analysis(997 kB)24 downloads
File information
File name FULLTEXT01.pdfFile size 997 kBChecksum SHA-512
a64300eafe4ffdb451813e57f5d1afb5aee4dac14a3b71523ee16b02fc9386aecff55dd39e9237b4a27302bc09db8f17e614af74e82093d4aed85da1d0cb61e4
Type fulltextMimetype application/pdf

By organisation
Health Informatics and Logistics
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 24 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 241 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf