Υλοποίηση, Εκπαίδευση και Λειτουργία Μοντέλων Βαθιάς Μάθησης σε Περιβάλλοντα Νέφους

Implementation, Training, and Deployment of Deep Learning Models in Cloud Environments (english)

  1. MSc thesis
  2. ΝΙΚΟΛΑΟΣ ΔΟΥΒΑΛΕΤΑΣ
  3. Συστήματα Κινητού και Διάχυτου Υπολογισμού (ΣΔΥ)
  4. 27 September 2025
  5. Ελληνικά
  6. 383
  7. Αχιλλέας Καμέας
  8. Αχιλλέας Καμέας | Θεόδωρος Παναγιωτακόπουλος
  9. Υπολογιστικό Νέφος | Αγωγοί Βαθιάς Μάθησης | Βελτιστοποίηση Μοντέλων | Αποδοτικότητα Κόστους | Συμπερασματολογία Χωρίς Διακομιστή | Ασφάλεια MLOps
  10. Συστήματα Κινητού και Διάχυτου Υπολογισμού Διπλωματική Εργασία / ΣΔΥΔΕ
  11. 3
  12. 126
    • Η παρούσα διπλωματική εργασία παρουσιάζει μια ολοκληρωμένη, από άκρο σε άκρο αξιολόγηση των ροών εργασίας βαθιάς μάθησης σε υποδομές υπολογιστικού νέφους, εστιάζοντας σε τρεις κορυφαίους παρόχους - Amazon Web Services (AWS), Google Cloud Platform (GCP) και Microsoft Azure. Μέσω της υλοποίησης ισοδύναμων αγωγών για εκπαίδευση, εξαγωγή συμπερασμάτων και αυτοματοποιημένη επανεκπαίδευση, με χρήση του συνόλου δεδομένων TinyImageNet και σύγχρονων αρχιτεκτονικών (π.χ. ResNet-50, MobileNetV3), η μελέτη παρέχει ποσοτικά σημεία αναφοράς για το χρόνο εκπαίδευσης, την αποδοτικότητα κόστους, την καθυστέρηση inference και την επεκτασιμότητα σε ετερογενείς υποδομές.

      Η έρευνα εισάγει ένα αναπαραγώγιμο πλαίσιο για συγκριτική αξιολόγηση απόδοσης, ενσωματώνοντας προεπεξεργασία δεδομένων (ETL), κατανεμημένη εκπαίδευση με βελτιστοποιημένα GPU στιγμιότυπα (π.χ. p4d, a2-ultragpu, ND96asr_v4), τεχνικές συμπίεσης μοντέλων (κλάδεμα, κβαντοποίηση, απόσταξη), καθώς και εξαγωγή συμπερασμάτων χωρίς διακομιστή μέσω AWS Lambda, Google Cloud Functions και Azure Functions. Οι αυτοματοποιημένοι αγωγοί MLOps για επανεκπαίδευση αξιολογούνται μέσω Step Functions, Cloud Composer και Azure ML Pipelines, με έμφαση στην ανοχή σε σφάλματα, τον χρόνο απόκρισης και τον έλεγχο ανάπτυξης.

      Τα βασικά ευρήματα αναδεικνύουν συμβιβασμούς που σχετίζονται με κάθε πλατφόρμα: Η Azure υπερέχει στην επιταχυνόμενη εκπαίδευση και τις edge αναπτύξεις, η GCP στην αποδοτική εξαγωγή συμπερασμάτων και την ενορχήστρωση και η AWS στην ευελιξία παραγωγής. Σημαντικά, η μελέτη επισημαίνει προκλήσεις που σχετίζονται με την ασφάλεια των δεδομένων, τη συμμόρφωση με κανονισμούς απορρήτου και την αναπαραγωγιμότητα σε περιβάλλοντα νέφους. Παρότι το επίκεντρο είναι η απόδοση και η αυτοματοποίηση, υπογραμμίζεται η ανάγκη για cloud-native αρχιτεκτονικές που εξισορροπούν την υπολογιστική αποδοτικότητα με την ασφάλεια και τη διαφάνεια.

      Η εργασία παρέχει χρήσιμες γνώσεις για επαγγελματίες, ερευνητές και αρχιτέκτονες νέφους που επιδιώκουν τον σχεδιασμό επεκτάσιμων, αποδοτικών και αξιόπιστων ροών εργασίας AI σε υποδομές πολλαπλών παρόχων νέφους.

    • This master's thesis presents a comprehensive, end-to-end evaluation of deep learning workflows on cloud computing infrastructures, focusing on three leading cloud service providers—Amazon Web Services (AWS), Google Cloud Platform (GCP), and Microsoft Azure. By implementing equivalent pipelines for training, inference, and automated retraining using the TinyImageNet dataset and state-of-the-art architectures (e.g., ResNet-50, MobileNetV3), the study provides quantitative benchmarks on training time, cost efficiency, inference latency, and scalability across heterogeneous infrastructures.

      The research introduces a reproducible framework for comparative performance evaluation, integrating data preprocessing (ETL), distributed training using optimized GPU instances (e.g., p4d, a2-ultragpu, ND96asr_v4), model compression techniques (pruning, quantization, distillation), and serverless inference through AWS Lambda, Google Cloud Functions, and Azure Functions. Automated MLOps retraining pipelines are evaluated via Step Functions, Cloud Composer, and Azure ML Pipelines, with emphasis on fault tolerance, response time, and deployment control.

      Key findings highlight platform-specific trade-offs: Azure excels in accelerated training and edge deployment, GCP in cost-efficient inference and orchestration, and AWS in production flexibility. Importantly, the study identifies emerging challenges related to data security, privacy compliance, and reproducibility in cloud-based environments. While the primary focus is on performance and automation, the need for cloud-native architectures that balance computational efficiency with secure data processing and transparency is emphasized.

      This work provides valuable insights for practitioners, researchers, and cloud architects aiming to design scalable, efficient, and reliable AI workflows across multi-cloud infrastructures.

  13. Hellenic Open University
  14. Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές