Εννοιολογική κατηγοριοποίηση και διαχείριση ηχητικών χαρακτηριστικών από μουσικά κομμάτια

Semantic Classification and Processing of Sound Features of Music Pieces (Αγγλική)

  1. MSc thesis
  2. Φράγκος, Θεόδωρος
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 17 Σεπτεμβρίου 2022 [2022-09-17]
  5. Ελληνικά
  6. 277
  7. Μαργουνάκης, Δημήτριος
  8. Ανάκτηση Μουσικής Πληροφορίας | Κατηγοριοποίηση Μουσικής | Κατηγοριοποίηση – Ταξινόμηση Μουσικών Ειδών | Βαθιά Μάθηση | Χαρακτηριστικά Ήχου | Python
  9. 6
  10. 6
  11. 129
  12. Εικόνα 2 1 Παρτιτούρα τραγουδιού των Χ. & Π. Κατσιμίχα 12 Εικόνα 2-2 Κώδικας MusicXML 13 Εικόνα 2-3 Περιβάλλον εργασίας του λογισμικού ψηφιακής αναπαράστασης - επεξερ-γασίας - σύνθεσης μουσικής «Avid Sibelius» 13 Εικόνα 2-4 Περιβάλλον εργασίας του λογισμικού ψηφιακής αναπαράστασης - επεξερ-γασίας - σύνθεσης μουσικής «PreSonus Notion 6» 14 Εικόνα 2-5 Piano-Roll 15 Εικόνα 2-6 Player Piano 15 Εικόνα 2-7 MIDI Player 17 Εικόνα 2-8 Λογισμικό συμβατό με σύγχρονα MIDI συστήματα 17 Εικόνα 2-9 Αναπαράσταση μουσικού αρχείο σε οχτώ διαφορετικά formats 22 Εικόνα 3-1 Αριθμός δημοσιεύσεων της διαδικτυακής κοινότητας ISMIR στην πάροδο των χρόνων 56 Εικόνα 3-2 Αριθμός μελών της διαδικτυακής κοινότητας ISMIR στην πάροδο των χρόνων 57 Εικόνα 7-1 Αρχική οθόνη της εφαρμογής της ΔΕ 125 Εικόνα 7-2 Στιγμιότυπο της επιμέρους λειτουργίας 1. EXTRACT and SAVE FEATURES της εφαρμογής 126 Εικόνα 7-3 Επιλογή, από τον χρήστη, μουσικού dataset προς εξαγωγή χαρακτηριστικών (features) 126 Εικόνα 7-4 Μικρό μουσικό dataset για ανάγκες δοκιμών 127 Εικόνα 7-5 Τα τρία είδη μουσικής (με τρία κομμάτια έκαστο) του μικρού μουσικού dataset και κάποια από τα αρχεία .csv που δημιουργήθηκαν από το πρόγραμμα 127 Εικόνα 7-6 Η επιμέρους λειτουργία 2. ANALYSE DATA (SELECT CSV FILE) της εφαρμογής 128 Εικόνα 7-7 Ο φάκελος, στον οποίο η εφαρμογή αποθηκεύει τα αρχεία εικόνας που προκύπτουν από την ανάλυση των δεδομένων 129 Εικόνα 7-8 Η επιμέρους λειτουργία 3. CREATE and TRAIN NEURAL NETWORK της εφαρμογής 129 Εικόνα 7-9 Η επιμέρους λειτουργία 4. SELECT MUSIC PIECE FOR CLASSIFICATION της εφαρμογής 130 Εικόνα 7-10 Κατηγοριοποίηση δύο τυχαία επιλεγμένων μουσικών κομματιών τύπου .flac 130 Εικόνα 7-11 Αποθήκευση των δεδομένων των features κάθε κομματιού που κατηγοριο-ποιείται από την εφαρμογή 131 Εικόνα 8-1 Μέγεθος του συνόλου των μουσικών κομματιών (dataset των 500 κομματιών σε MP3 format) 132 Εικόνα 8-2 Μέγεθος του συνόλου των μουσικών κομματιών (dataset των 500 κομματιών σε WAV format) 133 Εικόνα 8-3 Μέγεθος του συνόλου των μουσικών κομματιών (dataset των 500 κομματιών σε WAV format) 133 Εικόνα 8-4 Τιμές των χαρακτηριστικών (features), όπως εμφανίζονται κατά το άνοιγμα (open) του αρχείο data_500_60_64f.csv 140 Εικόνα 8-5 Τιμές των χαρακτηριστικών (features), όπως εμφανίζονται κατά το άνοιγμα (open) του αρχείου data_500_60_64f.csv (σε μεγέθυνση) 141 Εικόνα 8-6 Τιμές των χαρακτηριστικών (features), όπως εμφανίζονται μετά τη μετατροπή του αρχείου data_500_60_64f.csv σε .xlsx 142 Εικόνα 8-7 Τιμές των χαρακτηριστικών (features), όπως εμφανίζονται μετά τη μετατροπή του αρχείου data_500_60_64f.csv σε .xlsx (σε μεγέθυνση) 142 Εικόνα 8-8 Δοκιμή κατηγοριοποίησης μουσικού κομματιού με τρία διαφορετικά format (flac, mp3 και wav) 160 Σχήμα 2-1 Αποτύπωση της ηχητικής πληροφ. ως κυματική συνάρτηση στον χρόνο 18 Σχήμα 2-2 Πυκνώσεις και αραιώσεις στην ύλη του μέσου (κάτω μέρος σχήματος) ως αποτέλεσμα της μεταβολής πίεσης που επιφέρει ένα ηχητικό κύμα 19 Σχήμα 2-3 Σειρά RDF δηλώσεων (sequence of RDF statements) που αφορούν σε υπολογισμούς - διαδικασίες σχετικές με το χρωματικό χαρακτηριστικό (Chromagram feature) ενός μουσικού κομματιού 24 Σχήμα 2-4 Τμήμα κώδικα της OWL σε συντακτικό XML της οντολογίας «Music Ontology for Mood and Situation Reasoning» 25 Σχήμα 2-5 Περιγραφή ενός στιγμιότυπου (στα 3΄΄) κατά τη διάρκεια ενός ακουστικού σήματος (πάνω) και ενός διαστήματος διάρκειας 7 ημερών με «παγκόσμια» (UTC) ημερομηνία έναρξης την 26η Οκτωβρίου 2001, 12:00 UTC 26 Σχήμα 2-6 Γενική «ιδέα» της περιγραφής ενός γεγονότος με βάση την «The Event Ontology» 27 Σχήμα 2-7 The Music Ontology – Οντολογίες που χρησιμοποιεί ως «υπόβαθρο» (αριστερά) και «επεκτάσεις» της MO (δεξιά) 28 Σχήμα 2-8 Ενδεικτικός τρόπος σύνδεσης της αναπαράστασης ηχητικών χαρακτηριστικών με μουσικά μετα-δεδομένα στο Web, με την αναπαράσταση των χρονικών οντοτήτων μέσω της Timeline Ontology 30 Σχήμα 3-1 Music Information Retrieval 33 Σχήμα 3-2 Κβαντισμός ενός ακουστικού σήματος. Η δειγματοληψία γίνεται σε συγκεκριμένες χρονικές τιμές (άξονας x) και για την κωδικοποίηση χρησιμοποιείται εύρος 4 bits 36 Σχήμα 3-3 Sort-Time Fourier Transform με επικάλυψη (overlap) δύο τμημάτων 39 Σχήμα 3-4 Απλοποιημένη απεικόνιση ροής της διαδικασίας εξαγωγής χαρακτηριστικών 40 Σχήμα 3-5 Περίγραμμα ASR 42 Σχήμα 3-6 Περίγραμμα ADSR 42 Σχήμα 3-7 Τιμές AE & RMS energy για κομμάτι ηλεκτρονικής μουσικής 43 Σχήμα 3-8 Τιμές AE & RMS energy για κομμάτι κλασσικής μουσικής 43 Σχήμα 3-9 Κατανομή τιμών Spectral Centroid μουσικών κομματιών από δέκα διαφορετικά είδη (genres) 45 Σχήμα 3-10 Ιστόγραμμα με τις τιμές του Spectral Spread, για ηχητικά αποσπάσματα κομματιών από τρία διαφορετικά μουσικά είδη (genres) 46 Σχήμα 3-11 Ιστόγραμμα με τις μέσες τιμές διακύμανσης του Spectral Flux, για ηχητικά αποσπάσματα κομματιών μουσικής και ομιλίας 47 Σχήμα 3-12 Ενδεικτικό διάγραμμα τιμών της πραγματικής κλίμακας συχνοτήτων (Hertz scale) σε σχέση με την αντιλαμβανόμενη από τον άνθρωπο κλίμακα (Mel scale) 49 Σχήμα 3-13 Διάγραμμα ροής παραγωγής MFCCs 49 Σχήμα 3-14 Διαδικασία εξαγωγής chroma features 50 Σχήμα 3-15 Chromagrams αποσπασμάτων τριών διαφορετικών ειδών μουσικής 51 Σχήμα 3-16 Από πάνω προς τα κάτω: 1ο γράφημα: Short-time Fourier transform μουσικού αποσπάσμα-τος διάρκειας 20 δευτερολέπτων. 2ο γράφημα: Το αντίστοιχο mel spectrogram του κομματιού. 3ο γρά-φημα: Το αντίστοιχο Chromagram (cqt) του ίδιου κομματιού. 4ο γράφημα: Απεικόνιση των τιμών του tonnetz στην πάροδο του χρόνου 53 Σχήμα 4-1 Κατά έτος αριθμοί εκδόσεων σχετικών με Music Genre Classification 61 Σχήμα 4-2 Παράδειγμα ενός ANN 63 Σχήμα 4-3 ANN, χρησιμοποιούμενο για κατηγοριοποίηση τραγουδιών 63 Σχήμα 4-4 Artificial Intelligence - ML - DL 64 Σχήμα 4-5 «Εκπαίδευση» του κατηγοριοποιητή (classifier) 66 Σχήμα 4-6 Κατηγοριοποίηση μουσικών κομματιών 66 Σχήμα 4-7 Γραμμικός διαχωρισμός δύο κλάσεων (σε δύο διαστάσεις) 68 Σχήμα 4-8 Decision Tree για την κατηγοριοποίηση μουσ. κομματιού σε τρία είδη (genres) 70 Σχήμα 4-9 Decision Tree για την κατηγοριοποίηση μουσ. κομματιού σε έξι είδη (genres) 70 Σχήμα 4-10 Απεικόνιση Support Vectors στο επίπεδο 71 Σχήμα 4-11 Γραμμικά διαχωρίσιμα (αριστερά) και μη γραμμικά διαχωρίσιμα (δεξιά) χα-ρακτηριστικά 72 Σχήμα 6-1 Διάγραμμα ροής της εφαρμογής (στα αγγλικά) 95 Σχήμα 6-2 Διάγραμμα ροής της εφαρμογής (στα ελληνικά) 95 Σχήμα 7-1 Ανάλυση PCA με όλα τα χαρακτηριστικά (features) 105 Σχήμα 7-2 Ανάλυση PCA με μόνο δύο χαρακτηριστικά (features), τους συντελεστές mfcc1 και mfcc2 106 Σχήμα 7-3 Ιστόγραμμα του χαρακτηριστικού «Spectral Centroid» ανά είδος (genre) 107 Σχήμα 7-4 Γράφημα με πλαίσια (boxes) του χαρακτηριστικού «Spectral Centroid» ανά είδος (genre) 108 Σχήμα 7-5 Distribution plot (distplot) του χαρακτηριστικού «Spectral Centroid» ανά είδος (genre) 108 Σχήμα 7-6 Correlation heatmap μεταξύ χαρακτηριστικών (features) 109 Σχήμα 7-7 Γραφική απεικόνιση, μεταξύ άλλων, της μεταβολής της ακρίβειας - validation accuracy (val_accuracy) του αλγορίθμου κατηγοριοποίησης του Neural Network 114 Σχήμα 7-8 Neural Network Confusion Matrix 117 Σχήμα 8-1 Ανάλυση PCA με όλα τα features 135 Σχήμα 8-1Α Μεγέθυνση του του άνω και δεξιά ευρισκόμενου τμήματος του σχήματος 8-1 (Παρατηρήσεις πάνω στη Βυζαντινή μουσική) 135 Σχήμα 8-1Β Σχήμα 8-1Β Μεγέθυνση του του κάτω και δεξιά ευρισκόμενου τμήματος του σχήματος 8-1 (Παρατηρήσεις πάνω στα «Έντεχνα» και το «Νέο Κύμα») 136 Σχήμα 8-1Γ Μεγέθυνση του του κάτω και δεξιά ευρισκόμενου τμήματος του σχήματος 8-1 (Παρατηρήσεις πάνω στα «Νησιώτικα» και τα «Pop & Rock δεκαετιών 60 & 70») 136 Σχήμα 8-2 Ανάλυση PCA με όλα τα features πλην των MFCC 137 Σχήμα 8-3 Ανάλυση PCA με μόνο τους 20 MFCC 137 Σχήμα 8-4 Ιστόγραμμα του feature root mean square energy ή rmse για τα 10 είδη μουσικής 138 Σχήμα 8-5 Ιστόγραμμα του feature spectral rolloff για τα 10 είδη μουσικής 138 Σχήμα 8-6 Ιστόγραμμα του feature spectral bandwidth για τα 10 είδη μουσικής 139 Σχήμα 8-7 Γράφημα με ορθογώνια πλαίσια του feature root mean square energy ή rmse για τα 10 είδη μουσικής 143 Σχήμα 8-8 Γράφημα με ορθογώνια πλαίσια του feature spectral rolloff για τα 10 είδη μουσικής 144 Σχήμα 8-9 Γράφημα με ορθογώνια πλαίσια του feature spectral bandwidth για τα 10 είδη μουσικής 144 Σχήμα 8-10 Γράφημα με καμπύλες (distribution plot) κατανομής του feature chroma_stft για τα 10 είδη μουσικής 146 Σχήμα 8-11 Γράφημα με καμπύλες (distribution plot) κατανομής του feature tempo για τα 10 είδη μουσικής 147 Σχήμα 8-12 Γράφημα με καμπύλες (distribution plot) κατανομής του feature spectral centroid για τα 10 είδη μουσικής 147 Σχήμα 8-13 Γράφημα με καμπύλες (distribution plot) κατανομής του feature mfcc1 (1ος συντελεστής mfcc) για τα 10 είδη μουσικής 148 Σχήμα 8-14 Γράφημα με καμπύλες (distribution plot) κατανομής του feature mfcc20 (20ος συντελε-στής mfcc) για τα 10 είδη μουσικής 148 Σχήμα 8-15 Correlation heatmap με τα 7 πρώτα χαρακτηριστικά (features) της ανάλυσης 149 Σχήμα 8-16 Correlation heatmap με τα χαρακτηριστικά (features) cqt και cens της ανά-λυσης 149 Σχήμα 8-17 Δομή του Neural Network της ΔΕ 151 Σχήμα 8-18 Γραφική απεικόνιση των συγκριτικών αποτελεσμάτων κατηγοριοποίησης του πίνακα 8-3 58 Πίνακας 2-1 Κατανομή της μουσικής πληροφορίας σε τρία επίπεδα …………………… 6 Πίνακας 2-2 Όρια ανθρώπινης ακοής εκφρασμένα σε watts/cm2 και στην κλίμακα decibel ………………………………………….……………………………………………...….. 8 Πίνακας 2-3 Υποκειμενικά χαρακτηριστικά του ήχου σε αντιστοιχία με τα αντικειμενικά 11 Πίνακας 2-4 Συνοπτική καταγραφή, κατά αύξουσα χρονολογική σειρά δημιουργίας, των (μουσικών) οντολογιών – παρεμφερών συστημάτων 32 Πίνακας 3-1 Ακουστικά χαρακτηριστικά που εξάγονται μέσω της διαδικτυακής πλατφόρ-μας Spotify 55 Πίνακας 4-1 Κατά έτος αριθμοί εκδόσεων σχετικών με Music Genre Classification 61 Πίνακας 4-2 Σύνοψη πληροφοριών για δέκα ενδεικτικές μελέτες – έρευνες σχετικές με Music Genre Classification 77 Πίνακας 5-1 Οι υποκλάσεις «Προσωπικότητα» και «Κατάσταση» της κλάσης «Άνθρω-πος» 79 Πίνακας 5-2 Τρεις προτεινόμενες υποκλάσεις της κλάσης «Ήχος» 81 Πίνακας 5-3 Η κλάση «Συσχέτιση» 82 Πίνακας 5-4 Η διευρυμένη κλάση «Άνθρωπος» 82 Πίνακας 7-1 Τα είδη ελληνικής μουσικής που χρησιμοποιούνται στην εφαρμογή και οι ο-νομασίες τους με αγγλικούς χαρακτήρες 116 Πίνακας 8-1 Αποτελέσματα κατηγοριοποίησης των 200 μουσικών κομματιών του real test set, με μοντέλο βασισμένο στην εξαγωγή χαρακτηριστικών από τα 60 πρώτα sec κάθε μουσικού κομματιού 156 Πίνακας 8-2 Αποτελέσματα κατηγοριοποίησης των 200 μουσικών κομματιών του real test set, με μοντέλο βασισμένο στην εξαγωγή χαρακτηριστικών από τα 30 πρώτα sec κάθε μουσικού κομματιού 157 Πίνακας 8-3 Συγκριτικά Αποτελέσματα κατηγοριοποίησης των 200 μουσικών κομματιών του real test set, με τα δύο μοντέλα (εξαγωγή χαρακτηριστικών από τα 60 και τα 30 πρώτα sec κάθε μουσικού κομματιού, αντίστοιχα) 158 Πίνακας 8-4 Αποτελέσματα κατηγοριοποίησης 20 «διασκευών» του μουσικού κομματιού «Συννεφιασμένη Κυριακή» 164 Πίνακας 8-5 Αποτελέσματα κατηγοριοποίησης 20 «διασκευών» του μουσικού κομματιού «Παιδιά της Σαμαρίνας» 164
    • Αρχικά, επιχειρείται η καταγραφή των σχετικών με τη Μουσική εννοιών και ο προσδιορι-σμός, με τη βοήθεια της βιβλιογραφίας, ενός γενικού πλαισίου για την κατηγοριοποίησή τους σε επίπεδα. Καταγράφονται οι βασικές αναπαραστάσεις της μουσικής πληροφορίας, οι μορφές στις οποίες αποθηκεύεται ψηφιακά ο ήχος και οι βασικές μουσικές οντολογίες. Στη συνέχεια, η βιβλιογραφική ανασκόπηση μεταφέρεται στο επιστημονικό πεδίο της Ανά-κτησης Μουσικής Πληροφορίας (Music Information Retrieval - MIR) και καταγράφονται οι βασικές μέθοδοι και διαδικασίες του, αφού προηγηθεί μία σύντομη ιστορική αναδρομή. Διερευνώνται κυρίως τα ακουστικά χαρακτηριστικά χαμηλού και μεσαίου επιπέδου που αφορούν στην ανάκτηση - εξόρυξη και επεξεργασία της μουσικής πληροφορίας και ολο-κληρώνοντας, γίνεται μια σύντομη αναφορά στην παρουσία του ερευνητικού χώρου MIR στο διαδίκτυο. Ακολουθεί η διερεύνηση ενός από τους τομείς MIR, γνωστού ως Music Genre Classification (MGC). Ερευνώνται οι βασικές μέθοδοι και διαδικασίες του χώρου, καθώς και η σχέ-ση του με το ευρύτερο πεδίο της τεχνητής νοημοσύνης, εστιάζοντας στον τομέα Deep Learning. Το θεωρητικό μέρος της ΔΕ ολοκληρώνεται με μια νέα ερευνητική πρόταση εν-νοιολογικής κατηγοριοποίησης των σχετικών με το αντικείμενο εννοιών. Ιδιαίτερη έμφαση δίνεται στον συσχετισμό των εννοιών αυτών μεταξύ τους. Στο τεχνικό μέρος της ΔΕ, αρχικά παρουσιάζονται το χρησιμοποιούμενο λογισμικό και το γενικό διάγραμμα ροής της εφαρμογής, ενώ στη συνέχεια, αναλύονται οι επιμέρους λει-τουργίες της. Τα δεδομένα των ακουστικών χαρακτηριστικών ανακτώνται από ένα σύνολο μουσικών κομματιών της Ελληνικής Μουσικής. Το λογισμικό είναι βασισμένο στη γλώσ-σα προγραμματισμού Python και υλοποιείται μία μέθοδος Βαθιάς Μάθησης (Deep Learning - DL) σε συνδυασμό με ένα Νευρωνικό Δίκτυο (Neural Network - NN). Τα πειραματικά αποτελέσματα, δίνουν μια σαφή εικόνα της λειτουργικότητας και της απο-δοτικότητας της εφαρμογής. Χρήσιμα αρχεία και αριθμητικά δεδομένα, που παράγονται κατά τον πειραματισμό, αποθηκεύονται σε συγκεκριμένους καταλόγους, ή καταγράφονται σε πίνακες. Οι διαπιστώσεις, που προέκυψαν από τις διαδικασίες δοκιμών, μετρήσεων και πειραμά-των, οδηγούν σε μάλλον ασφαλή συμπεράσματα. Ως σημαντική παρακαταθήκη της πα-ρούσας ΔΕ διαφαίνεται η δημιουργία μιας στέρεης βάσης, θεωρητικής και πρακτικής, για μελλοντική έρευνα.
    • Initially, an attempt is made to catalogue most of the various meanings of music and de-fine, accorded to the annotated bibliography, a general ambit for their categorization in different levels. A record of the basic musical information representations and the formats in which the sound can be stored digitally is kept along with a record of main musical ontologies. Afterwards, the theoretical analysis is being placed to the scientific field or Music Information Retrieval (MIR) where after a short historic retrospect, the basic methods and procedures are being recorded. The musical elements studied are mainly the acoustic features of low and middle level concerning the retrieval and processing of musical information, and finally, a short mention to the presence of MIR on the Web. Later on, follows the research of MIR subfield, known as Music Genre Classification (MGC). The basic methods and procedures are studied along with the relation among MGC and the wider field of AI (Artificial Intelligence) with focal point the section Deep Learning (DL). The theoretical part of this Thesis is concluded with the quest of a new suggestion about the semantic classification of all the relevant meanings of this study. The correlation of these notions and meanings is strongly emphasized. Next on the technical part, initially, the used software and the general flow diagram of the application are presented, while later on, there is an analysis of the application’s functions. The data of acoustic features are being extracted and retrieved from a dataset of Hellenic Music pieces. The entire software is based on Python programming language and there is an implementation of a Deep Learning (DL) method in combination with a Neural Net-work (NN). The experimental results provide a full portrayal of the functionality and performance of the application. Useful files and arithmetic data that are being produced through the experimentation procedure, are stored in specific directories or arrayed graphically. The ascertainments that emerged from all the previous procedures of testing, measuring and experimenting, lead into rather safe conclusions. To sum up, the greatest benefit of the whole procedure is the forging of a solid theoretical and practical base for future research.
  13. Αναφορά Δημιουργού 4.0 Διεθνές