Κατηγοριοποίηση μουσικών κομματιών σε μουσικά είδη μέσω ανάλυσης ήχου με χρήση τεχνικών Βαθιάς Μάθησης

Music Genre Classification using Deep Learning (english)

  1. MSc thesis
  2. ΠΑΡΑΣΚΕΥΑΣ ΠΑΠΑΔΟΠΟΥΛΟΣ
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 16 May 2026
  5. Ελληνικά
  6. 153
  7. Δημήτρης Καστανιώτης
  8. Δημήτρης Καστανιώτης | Γεώργιος Ρηγόπουλος | Βασίλειος Βερύκιος
  9. Mel Spectrogram | MFCCs | Ταξινόμηση Μουσικών Ειδών | Βαθιά Μάθηση | PyTorch | Νευρωνικά δίκτυα
  10. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα/ΠΛΣΔΕ
  11. 1
  12. 138
    • Η παρούσα Διπλωματική Εργασία εστιάζει στην αυτόματη ταξινόμηση μουσικών κομματιών σε μουσικά είδη μέσω τεχνικών Βαθιάς Μάθησης. Στόχος της μελέτης είναι ο έλεγχος της απόδοσης γνωστών αρχιτεκτονικών νευρωνικών δικτύων. Συγκεκριμένα, μελετάται η ικανότητά τους να αναγνωρίζουν πρότυπα που σχετίζονται με μουσικά είδη και να ταξινομούν μουσικά τραγούδια σύμφωνα με αυτά. Παράλληλα, επιδιώκεται σύγκριση των αρχιτεκτονικών ως προς την επίδοσή τους σε διαφορετικές συνθήκες εκπαίδευσης.
      Η πειραματική διαδικασία βασίστηκε στο σύνολο δεδομένων GTZAN και οργανώθηκε σε συγκεκριμένες σειρές πειραμάτων. Οι αρχιτεκτονικές που δοκιμάστηκαν είναι οι MLP, CNN, RNN, LSTM, GRU καθώς και Transformer. Για την εκπαίδευση των μοντέλων Βαθιάς Μάθησης χρησιμοποιήθηκαν Mel Spectrograms και MFCCs, ενώ έγινε σύγκριση της απόδοσης κάθε αρχιτεκτονικής όταν εκπαιδεύεται με κάθε ένα από αυτά τα δεδομένα. Τα Mel Spectrograms και τα MFCCs εξήχθησαν μετά από τμηματοποίηση των δειγμάτων του GTZAN σε μικρότερα μέρη, ούτως ώστε να αυξηθεί το πλήθος των δειγμάτων. Επίσης έγινε σύγκριση της απόδοσης των μοντέλων για διαφορετικές συνθήκες εξαγωγής των χαρακτηριστικών, καθώς και για διαφορετικό αριθμό τμηματοποίησης των αρχικών δειγμάτων.
      Η υλοποίηση των πειραμάτων έγινε με χρήση της γλώσσας προγραμματισμού Python. Η ανάπτυξη και η εκπαίδευση των μοντέλων κάθε αρχιτεκτονικής, βασίστηκε στη βιβλιοθήκη PyTorch. Περαιτέρω επεξεργασία των δεδομένων και παρουσίαση των διαγραμμάτων έγινε με χρήση βιβλιοθηκών όπως η NumPy, Matplotlib και TensorBoard.
      Η αξιολόγηση της ικανότητας των μοντέλων να γενικεύουν, βασίστηκε σε καθιερωμένες μετρικές. Αρχικά παρουσιάζονται οι καμπύλες εκπαίδευσης κάθε μοντέλου, ενώ παρατίθενται και καμπύλες εκπαίδευσης όλων των μοντέλων σε κοινό διάγραμμα για κάθε σειρά πειραμάτων. Επίσης έγινε μέτρηση της πιστότητας του κάθε μοντέλου, υπολογίζοντάς την σε υποσύνολο του GTZAN το οποίο δε χρησιμοποιήθηκε για εκπαίδευση. Τέλος, κατασκευάστηκαν πίνακες σύγχυσης για κάθε μοντέλο.
      Τα αποτελέσματα δείχνουν ότι η επιλογή της αναπαράστασης των ακουστικών χαρακτηριστικών, καθώς και ο τρόπος εξαγωγής τους, επηρεάζει σημαντικά την απόδοση κάθε αρχιτεκτονικής. Η εργασία συμβάλλει στην διαρκή ερευνητική προσπάθεια σύγκρισης παλαιότερων και νεότερων αρχιτεκτονικών Βαθιάς Μάθησης στον τομέα της ταξινόμησης μουσικών ειδών. Παράλληλα, προσφέρει χρήσιμα συμπεράσματα για μελλοντικές κατευθύνσεις.

    • This thesis focuses on the automatic classification of music tracks into music genres using Deep Learning methods. The study’s aim is to evaluate the performance of well-known neural network architectures. It particularly focuses on their ability to identify patterns related to music genres, in order to classify music songs. At the same time, we conduct a comparative analysis of the architectures with respect to their performance under various training conditions.
      The experimental procedure was based on the GTZAN dataset and has been organized into specific experimental runs. The evaluated architectures include MLP, CNN, RNN, LSTM, GRU and Transformer. Our Deep Learning models were trained using Mel Spectrograms and MFCCs as input data. The mentioned input data were extracted after a segmentation of the GTZAN samples. The purpose of this procedure was to increase the size of the initial dataset. Finally, we compared the performance of each architecture when using different input data, applying different extraction conditions and using different segmentation strategies.
      The experiments were implemented using Python. Model development and training were carried out using the PyTorch library. Additional data processing and visualization was performed using libraries such as NumPy, Matplotlib and TensorBoard.
      The models’ ability to perform was evaluated using established metrics. At first, we present the training curves of each model, along with comparative plots that include the training curves of all the architectures for each experiment run. Furthermore, we calculate the accuracy of each model using a subset of the GTZAN dataset. The subset was not used during training. Finally, we constructed confusion matrices for each model.
      The results point out the fact that the choice of the acoustic features as well as the feature extraction methodology, play a significant role in the performance of each architecture. This work aims to contribute to the ongoing research on the comparison of neural network architectures. Both classic, as well as modern ones. Furthermore, it tries to provide useful insight on future research directions.

  13. Hellenic Open University
  14. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.