Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Design Exploration of an FPGABased Face Detection ProcessingCore Utilizing High Level Synthesis
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Achieving object detection with computer vision places high demands on hardware resources and energy. This becomes apparent when considering that applications like surveillance, autonomous vehicles, mobile and other similar applications, employ embedded systems with even greater restrictions on processing power and memory bandwidth. Face detection is a vivid example of object detection. Not only is it fascinating and has many applications at the same time, it also does not limit the scope of the thesis to faces. The algorithm in use detects faces and other objects in the same manner, merely the required initial data differs between objects.This thesis explores the design space of object detection on a Field Programmable Gate Array (FPGA) by implementing a common face detection algorithm utilizing High Level Synthesis (HLS) and therefore leveraging the flexibility of FPGAs. The prerequisite of this exploration is fulfilled by implementing the algorithm in a synthesizable subset of ANSI-C and to measure performance and the demand of hardware resources. Different designs were synthesized for a Xilinx Artix-7 FPGA and compared to each other every step of the way.The result is a set of 12 different designs for custom FPGA accelerators with various performance and resource requirements. The design with the highest throughput balances two opposite design paradigms. One extreme is an accelerator with maximum hardware reuse, which results in a lower number of cores and maximum latency per processing core and the other with massive parallelization, which results in a higher number of cores and minimum latency per processing core. The balanced design achieves the maximum throughput while utilizing half of the limiting hardware resource.

Abstract [sv]

Att kunna detektera objekt med datorvision ställer höga krav på hårdvaruresurser och energi. Detta blir uppenbart när man överväger att tillämpningar som övervakning, autonoma fordon, mobila och andra liknande tillämpningar använder inbyggda system med ännu större begränsningar av processorns effektförbrukning och minnesbandbredd. Ansiktsdetektering är ett typiskt exempel på objektdetektering. Det är inte bara ett fascinerande problem, utan det har många applikationer samtidigt. Det begränsar inte heller uppsatsens omfattning till enbart ansikten. Den använda algoritmen upptäcker ansikten och andra objekt på samma sätt; bara den nödvändiga initialdatan skiljer sig mellan olika objekt.Denna avhandling undersöker designrummet för objektdetektering på en Field Programmable Gate Array (FPGA) genom att implementera en vanlig ansiktsdetekteringsalgoritm med hjälp av High Level Synthesis (HLS), och utnyttja flexibiliteten hos en FPGA. Förutsättningen för denna undersökning är att implementera algoritmen i en syntetiserbar delmängd av ANSI-C och att mäta prestanda och krav på hårdvaruresurser. Olika konstruktioner syntetiserades för en Xilinx Artix-7 FPGA och jämfördes med varandra varje steg på vägen.Resultatet är en uppsättning med 12 olika mönster för anpassade FPGA-acceleratorer med olika prestanda och resursbehov. Designen med högsta genomströmning balanserar två motsatta designparadigmer. En ytterlighet är en accelerator med maximal återanvändning av hårdvara, vilket resulterar i minimal användning av kärnor men med maximal latens per bearbetningskärna och den andra med massiv parallellisering, vilket resulterar i fler antal kärnor men med minsta latens per bearbetningskärna. Den balanserade konstruktionen uppnår maximal genomströmning samtidigt som den utnyttjar hälften av de begränsande hårdvaruresurserna.

Place, publisher, year, edition, pages
2019. , p. 64
Series
TRITA-EECS-EX ; 2019:170
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-264110OAI: oai:DiVA.org:kth-264110DiVA, id: diva2:1372117
Examiners
Available from: 2019-11-22 Created: 2019-11-22 Last updated: 2019-11-22Bibliographically approved

Open Access in DiVA

fulltext(952 kB)3 downloads
File information
File name FULLTEXT01.pdfFile size 952 kBChecksum SHA-512
bc21635a0b0465113385b1e624ac4fc421ed0090c708553304659b0070f8cb43551fcf06dd7ca2f416689cb8137c0c39735682ae7f8591cce0b95ae85d0449e8
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 3 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 4 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf