Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Efficient Machine Learning for Edge Computing: Architecture and Application
KTH, School of Electrical Engineering and Computer Science (EECS), Electrical Engineering, Electronics and Embedded systems.ORCID iD: 0000-0002-4911-0257
2025 (English)Doctoral thesis, monograph (Other academic)
Abstract [en]

Machine learning has demonstrated exceptional capability in solving complex tasks across a wide range of fields. Advances in hardware accelerators have enabled the deployment of machine learning models on edge devices, facilitating real-time AI applications in resource-constrained systems. Recent accelerators have increasingly adopted Network-on-Chip (NoC) architectures to support massive data communication within large-scale processing element arrays. However, as the complexity of these accelerators continues to grow, effective design-space exploration before hardware prototyping becomes essential. Additionally, achieving high flexibility and efficiency across diverse machine learning workloads remains a significant challenge, especially for edge computing.

To address these problems, we explore from both the architecture side and the application side. Firstly, we introduce a cycle-accurate simulation tool for NoC-based deep neural network (DNN) accelerators. This simulator enables rapid and precise evaluation of inference efficiency by exploring design parameters. By providing detailed performance tracing into system behavior, the simulator facilitates the optimization of DNN inference efficiency, which can reduce the time and cost associated with hardware prototyping. Then we focus on novel architectural designs for NoC-based DNN accelerators, leveraging in-network processing techniques to improve end-to-end latency and resource utilization. Two key approaches are proposed: an activation-in-network design that offloads non-linear operations to the NoC and a pooling on-the-go design that minimizes communication overhead for pooling layers. These designs demonstrate substantial improvements in processing efficiency upon existing NoC-based accelerator architectures, while maintaining scalability and adaptability for diverse DNN workloads.

The third part explores the application of machine learning in embedded sensor systems, with a focus on lower-limb prostheses. A wearable pressure measurement system is developed to collect and analyze intra-socket pressure data. Two machine learning applications are proposed for solving sub-tasks within the field of comfortable prosthetic socket design. A clustering-based method is developed for optimizing sensor deployment by reducing redundancy while maintaining data integrity. A gait phase recognition approach that utilizes multiple hidden Markov models and Gaussian mixture models is developed. The proposed gait recognition method achieves high accuracy and computational efficiency, which outperforms conventional techniques.

By tackling the challenges in NoC-based accelerator design and machine learning applications for embedded systems, we bridge the gap between hardware optimization and practical deployment. These techniques would pave the way for future advancements in embedded intelligence.

Abstract [sv]

Maskininlärning har visat en exceptionell förmåga att lösa komplexa uppgifter inom en rad olika områden. Framsteg inom hårdvaruacceleratorer har möjliggjort implementeringen av maskininlärningsmodeller på edge-enheter, vilket underlättar realtidsapplikationer för AI i resursbegränsade system. Nya acceleratorer har i allt högre grad anammat Network-on-Chip (NoC) arkitekturer för att stödja massiv datakommunikation inom storskaliga processorelementmatriser. Dock blir det, i takt med att komplexiteten hos dessa acceleratorer ökar, allt viktigare att utforska designrymden effektivt innan hårdvaruprototyptillverkning. Dessutom kvarstår utmaningen att uppnå hög flexibilitet och effektivitet över olika maskininlärningsarbetslaster, särskilt inom edge computing.

För att hantera dessa problem utforskar vi både arkitektursidan och applikationssidan. För det första introducerar vi ett cykelnoggrant simuleringsverktyg för NoC-baserade djupa neurala nätverks (DNN) acceleratorer. Denna simulator möjliggör snabb och exakt utvärdering av inferenseffektivitet genom att undersöka designparametrar. Genom att tillhandahålla detaljerad prestandaspårning av systembeteende underlättar simulatorn optimeringen av DNN-inferenseffektivitet, vilket kan minska tiden och kostnaden för hårdvaruprototyptillverkning. Därefter fokuserar vi på nya arkitektoniska lös\-ningar för NoC-baserade DNN-acceleratorer, där vi utnyttjar in-netverksbear\-betningstekniker för att förbättra end-to-end-latens och resursutnyttjande. Två nyckelmetoder föreslås: en "activation-in-network" design som avlastar icke-linjära operationer till NoC samt en "pooling on-the-go" design som minimerar kommunikationsöverhead för pooling-lager. Dessa designlösningar uppvisar betydande förbättringar i bearbetningseffektivitet jämfört med befintliga NoC-baserade acceleratorarkitekturer, samtidigt som de bibehåller skalbarhet och anpassningsförmåga för olika DNN-arbetslaster.

Den tredje delen undersöker tillämpningen av maskininlärning i inbäddade sensorsystem, med fokus på underbensproteser. Ett bärbart tryckmätningssys\-tem utvecklas för att samla in och analysera tryckdata inom proteshylsan. Två maskininlärningsapplikationer föreslås för att lösa deluppgifter inom området för komfortabel proteshylsdesign. En klusterbaserad metod utvecklas för att optimera sensordistribution genom att minska redundans samtidigt som dataintegriteten bibehålls. En gångfasigenkänningsmetod som utnyttjar flera dolda Markovmodeller och Gaussiska mixmodeller utvecklas. Den föreslagna metoden för gångigenkänning uppnår hög noggrannhet och beräkningsmässig effektivitet, vilket överträffar konventionella tekniker.

Genom att hantera utmaningarna inom NoC-baserad acceleratorutformning och maskininlärningsapplikationer för inbäddade system överbryggar vi klyftan mellan hårdvaruoptimering och praktisk implementering. Dessa tekniker banar väg för framtida framsteg inom inbäddad intelligens.

Place, publisher, year, edition, pages
Stockholm: KTH Royal Institute of Technology, 2025. , p. xiv, 112
Series
TRITA-EECS-AVL ; 2025:26
Keywords [en]
Network-on-Chip, Neural Network Accelerator, Accelerator Performance Simulation, In-Network Processing, Embedded Sensor System, Machine Learning for Prosthetics
Keywords [sv]
Network-on-Chip, Neurala Nätverksacceleratorer, Prestandasimulering för Acceleratorer, Bearbetning inom Nätverket, Inbyggt Sensorsystem, Maskininlärning för Proteser
National Category
Computer Systems
Research subject
Information and Communication Technology
Identifiers
URN: urn:nbn:se:kth:diva-360884ISBN: 978-91-8106-208-3 (print)OAI: oai:DiVA.org:kth-360884DiVA, id: diva2:1942355
Public defence
2025-03-28, https://kth-se.zoom.us/j/63180568741, Ka-Sal B, Kistagången 16, Kista, Stockholm, 13:00 (English)
Opponent
Supervisors
Note

QC 20250305

Available from: 2025-03-05 Created: 2025-03-04 Last updated: 2025-03-17Bibliographically approved

Open Access in DiVA

fulltext(32499 kB)2056 downloads
File information
File name FULLTEXT01.pdfFile size 32499 kBChecksum SHA-512
738eb8dacede7a7ed7f232d7846132e53839b752937879429b96adbb34aae9bef7f4559bc257f09c4337525a5edd6b3f044f7ffa16372a55553e0130537370a3
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Zhu, Wenyao
By organisation
Electronics and Embedded systems
Computer Systems

Search outside of DiVA

GoogleGoogle Scholar
Total: 2056 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

isbn
urn-nbn

Altmetric score

isbn
urn-nbn
Total: 1071 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf