RESOURCE OPTIMIZATION METHODS FOR MACHINE LEARNING MODEL EXECUTION ON RESOURCE CONSTRAINED EMBEDDED SYSTEMS

ΑΝΑΣΤΑΣΙΟΣ ΦΑΝΑΡΙΩΤΗΣ

RESOURCE OPTIMIZATION METHODS FOR MACHINE LEARNING MODEL EXECUTION ON RESOURCE CONSTRAINED EMBEDDED SYSTEMS

Title in other language Μέθοδοι βελτιστοποίησης πόρων για εκτέλεση μοντέλων Μηχανικής Μάθησης σε ενσωματωμένα συστήματα με περιορισμένους πόρους (greek)

Entity typePhD thesis
Author ΑΝΑΣΤΑΣΙΟΣ ΦΑΝΑΡΙΩΤΗΣ
School Σχολή Θετικών Επιστημών και Τεχνολογίας
Date of work 1 December 2025
Work language Αγγλικά
Supervisor Ορφανουδάκης, Θεοφάνης
Committee members Ορφανουδάκης, Θεοφάνης | Καλλές, Δημήτριος | Κεραμιδάς, Γεώργιος | Καμέας, Αχιλέας | Καρκαζής, Παναγιώτης | Κίτσος, Πάρης | Βολιώτης, Σταμάτης
Keywords Eνσωματωμένη Μηχανική Μάθηση | Τεχνητή Νοημοσύνη σε Μικροελεγκτές | Ενεργειακά Αποδοτικά Νευρωνικά Δίκτυα | Μέτρηση Ενέργειας Ανά Inference | Συστήματα Περιορισμένων Πόρων | Ενεργειακά Αποδοτικό ΑΙ
Course / Module Πληροφορική / Ενσωματωμένα συστήματα / τεχνητή νοημοσύνη
Abstract
- This dissertation investigates the optimization of machine learning (ML) workloads for execution on resource-constrained microcontroller units (MCUs), addressing both algorithmic and architectural challenges. The rapid emergence of edge Artificial Intelligence (AI) applications necessitates real-time inference under strict energy, memory and latency constraints. This work presents a systematic study of key model compression techniques -quantization, pruning and factorization- and their impact on inference performance and energy consumption on modern embedded platforms.
  Theoretical discussions in Chapters 1 and 2 explore the evolution of embedded intelligence, the logic of neural networks and fields of optimization such as quantization-aware training and post-training pruning. Chapter 3 presents an extensive experimental evaluation of these techniques across various microcontroller architectures, using rigorous power measurement methodology based on triggered digital multimeters and net energy computation.
  Chapter 4 focuses on hardware acceleration methods -vectoring, such as Single Instruction Multiple Data (SIMD), hierarchical caching and dedicated neural processing units (NPUs)-providing both architectural analysis and empirical results. Detailed experiments on the ESP32 (LX6), ESP32-S3 (LX7) and Cortex-M85 show significant performance and energy gains from vectoring and caching. In parallel, experiments on the Alif Semiconductor E7 (Cortex-M55 + Ethos-U55 NPU) demonstrate the transformative role of NPUs, achieving up to 143× energy savings and 125× latency reduction on complex models like TinyYolo.
  Chapter 5 synthesizes findings and proposes future directions, emphasizing hardware-software co-design, dynamic accelerator utilization and full-system optimization. It concludes that modern MCUs, when equipped with domain-specific accelerators and matched with optimized models, can deliver real-time AI inference at ultra-low power budgets, enabling scalable deployment of intelligent edge systems.
- Η παρούσα διδακτορική διατριβή εξετάζει τη βελτιστοποίηση του υπολογιστικού φόρτου κατά την εκτέλεση εφαρμογών μηχανικής μάθησης (ML) για εκτέλεση σε μικροελεκτές με περιορισμένους πόρους (MCUs), αντιμετωπίζοντας τόσο αλγοριθμικές όσο και αρχιτεκτονικές προκλήσεις. Η ραγδαία ανάπτυξη των εφαρμογών τεχνητής νοημοσύνης σε περιβάλλον διάσπαρτου υπολογιστικού νέφους edge AI απαιτεί λειτουργία πραγματικού χρόνου υπό αυστηρούς περιορισμούς ενέργειας, μνήμης και καθυστέρησης. Η εργασία αυτή παρουσιάζει την συστηματική μελέτη βασικών τεχνικών συμπίεσης μοντέλων -Quantization, Pruning και Factorization- καθώς και την επίδρασή τους στην απόδοση και την ενεργειακή κατανάλωση.
  Τα Κεφάλαια 1 και 2 παρέχουν θεωρητική ανάλυση για την εξέλιξη της ενσωματωμένης νοημοσύνης, τη λογική των νευρωνικών δικτύων και τις τεχνικές βελτιστοποίησης όπως η εκπαίδευση υπό συνθήκες κβαντισμού (quantization-aware) και η ελάττωση πόρων μετά την εκπαίδευση (post-training pruning). Το Κεφάλαιο 3 παρουσιάζει εκτενείς πειραματικές μελέτες με χρήση ακριβών μετρήσεων ενεργειακής κατανάλωσης με την χρήση συγχρόνων εργαστηριακών οργάνων.
  Στο Κεφάλαιο 4 αναλύονται μέθοδοι επιτάχυνσης υλικού-vectoring (SIMD), ιεραρχική caching και μονάδες νευρωνικής (συν)επεξεργασίας (NPUs)-μέσω αρχιτεκτονικής προσέγγισης και πειραματικών αποτελεσμάτων. Τα πειράματα σε ESP32 (LX6), ESP32-S3 (LX7) και Cortex-M85 δείχνουν σημαντικά οφέλη από caching και vectoring, ενώ οι δοκιμές στον μικροελεγκτή Alif Semiconductor E7 (Cortex-M55 + Ethos-U55 NPU) καταδεικνύουν τον καθοριστικό ρόλο των NPUs, με συντελεστή εξοικονόμηση ενέργειας έως 1/143 και μείωσης καθυστέρησης έως 1/125.
  Τέλος, το Κεφάλαιο 5 συνοψίζει τα ευρήματα και προτείνει μελλοντικές κατευθύνσεις, υπογραμμίζοντας τη σημασία του συν-σχεδιασμού υλικού/λογισμικού, της δυναμικής αξιοποίησης επιταχυντών και της ολιστικής βελτιστοποίησης συστημάτων. Η εργασία καταλήγει στο συμπέρασμα ότι οι σύγχρονοι μικροελεγκτές, εφοδιασμένοι με εξειδικευμένους επιταχυντές και κατάλληλα βελτιστοποιημένα μοντέλα, μπορούν να παράγουν αποτελέσματα (inference) σε πραγματικό χρόνο με εξαιρετικά χαμηλή κατανάλωση, επιτρέποντας τη μαζική υιοθέτηση έξυπνων διάσπαρτων συστημάτων (edge).
Publisher Hellenic Open University
Licence Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές

RESOURCE OPTIMIZATION METHODS FOR MACHINE LEARNING MODEL EXECUTION ON RESOURCE CONSTRAINED EMBEDDED SYSTEMS - Identifier: 234687

Internal display of the 234687 entity interconnections (Node labels correspond to identifiers)

Loading..

Legend

Navigation

Info

Controls

Narrowness

Inferred

RESOURCE OPTIMIZATION METHODS FOR MACHINE LEARNING MODEL EXECUTION ON RESOURCE CONSTRAINED EMBEDDED SYSTEMS

Title in other language Μέθοδοι βελτιστοποίησης πόρων για εκτέλεση μοντέλων Μηχανικής Μάθησης σε ενσωματωμένα συστήματα με περιορισμένους πόρους (greek)

Main Files