Εικόνα 2 1 Παρτιτούρα τραγουδιού των Χ. & Π. Κατσιμίχα 12
Εικόνα 2-2 Κώδικας MusicXML 13
Εικόνα 2-3 Περιβάλλον εργασίας του λογισμικού ψηφιακής αναπαράστασης - επεξερ-γασίας - σύνθεσης μουσικής «Avid Sibelius» 13
Εικόνα 2-4 Περιβάλλον εργασίας του λογισμικού ψηφιακής αναπαράστασης - επεξερ-γασίας - σύνθεσης μουσικής «PreSonus Notion 6» 14
Εικόνα 2-5 Piano-Roll 15
Εικόνα 2-6 Player Piano 15
Εικόνα 2-7 MIDI Player 17
Εικόνα 2-8 Λογισμικό συμβατό με σύγχρονα MIDI συστήματα 17
Εικόνα 2-9 Αναπαράσταση μουσικού αρχείο σε οχτώ διαφορετικά formats 22
Εικόνα 3-1 Αριθμός δημοσιεύσεων της διαδικτυακής κοινότητας ISMIR στην πάροδο των χρόνων 56
Εικόνα 3-2 Αριθμός μελών της διαδικτυακής κοινότητας ISMIR στην πάροδο των χρόνων 57
Εικόνα 7-1 Αρχική οθόνη της εφαρμογής της ΔΕ 125
Εικόνα 7-2 Στιγμιότυπο της επιμέρους λειτουργίας 1. EXTRACT and SAVE FEATURES της εφαρμογής 126
Εικόνα 7-3 Επιλογή, από τον χρήστη, μουσικού dataset προς εξαγωγή χαρακτηριστικών (features) 126
Εικόνα 7-4 Μικρό μουσικό dataset για ανάγκες δοκιμών 127
Εικόνα 7-5 Τα τρία είδη μουσικής (με τρία κομμάτια έκαστο) του μικρού μουσικού dataset και κάποια από τα αρχεία .csv που δημιουργήθηκαν από το πρόγραμμα 127
Εικόνα 7-6 Η επιμέρους λειτουργία 2. ANALYSE DATA (SELECT CSV FILE) της εφαρμογής 128
Εικόνα 7-7 Ο φάκελος, στον οποίο η εφαρμογή αποθηκεύει τα αρχεία εικόνας που προκύπτουν από την ανάλυση των δεδομένων 129
Εικόνα 7-8 Η επιμέρους λειτουργία 3. CREATE and TRAIN NEURAL NETWORK της εφαρμογής 129
Εικόνα 7-9 Η επιμέρους λειτουργία 4. SELECT MUSIC PIECE FOR CLASSIFICATION της εφαρμογής 130
Εικόνα 7-10 Κατηγοριοποίηση δύο τυχαία επιλεγμένων μουσικών κομματιών τύπου .flac 130
Εικόνα 7-11 Αποθήκευση των δεδομένων των features κάθε κομματιού που κατηγοριο-ποιείται από την εφαρμογή 131
Εικόνα 8-1 Μέγεθος του συνόλου των μουσικών κομματιών (dataset των 500 κομματιών σε MP3 format) 132
Εικόνα 8-2 Μέγεθος του συνόλου των μουσικών κομματιών (dataset των 500 κομματιών σε WAV format) 133
Εικόνα 8-3 Μέγεθος του συνόλου των μουσικών κομματιών (dataset των 500 κομματιών σε WAV format) 133
Εικόνα 8-4 Τιμές των χαρακτηριστικών (features), όπως εμφανίζονται κατά το άνοιγμα (open) του αρχείο data_500_60_64f.csv 140
Εικόνα 8-5 Τιμές των χαρακτηριστικών (features), όπως εμφανίζονται κατά το άνοιγμα (open) του αρχείου data_500_60_64f.csv (σε μεγέθυνση) 141
Εικόνα 8-6 Τιμές των χαρακτηριστικών (features), όπως εμφανίζονται μετά τη μετατροπή του αρχείου data_500_60_64f.csv σε .xlsx 142
Εικόνα 8-7 Τιμές των χαρακτηριστικών (features), όπως εμφανίζονται μετά τη μετατροπή του αρχείου data_500_60_64f.csv σε .xlsx (σε μεγέθυνση) 142
Εικόνα 8-8 Δοκιμή κατηγοριοποίησης μουσικού κομματιού με τρία διαφορετικά format (flac, mp3 και wav) 160
Σχήμα 2-1 Αποτύπωση της ηχητικής πληροφ. ως κυματική συνάρτηση στον χρόνο 18
Σχήμα 2-2 Πυκνώσεις και αραιώσεις στην ύλη του μέσου (κάτω μέρος σχήματος) ως αποτέλεσμα της μεταβολής πίεσης που επιφέρει ένα ηχητικό κύμα 19
Σχήμα 2-3 Σειρά RDF δηλώσεων (sequence of RDF statements) που αφορούν σε υπολογισμούς - διαδικασίες σχετικές με το χρωματικό χαρακτηριστικό (Chromagram feature) ενός μουσικού κομματιού 24
Σχήμα 2-4 Τμήμα κώδικα της OWL σε συντακτικό XML της οντολογίας «Music Ontology for Mood and Situation Reasoning» 25
Σχήμα 2-5 Περιγραφή ενός στιγμιότυπου (στα 3΄΄) κατά τη διάρκεια ενός ακουστικού σήματος (πάνω) και ενός διαστήματος διάρκειας 7 ημερών με «παγκόσμια» (UTC) ημερομηνία έναρξης την 26η Οκτωβρίου 2001, 12:00 UTC 26
Σχήμα 2-6 Γενική «ιδέα» της περιγραφής ενός γεγονότος με βάση την «The Event Ontology» 27
Σχήμα 2-7 The Music Ontology – Οντολογίες που χρησιμοποιεί ως «υπόβαθρο» (αριστερά) και «επεκτάσεις» της MO (δεξιά) 28
Σχήμα 2-8 Ενδεικτικός τρόπος σύνδεσης της αναπαράστασης ηχητικών χαρακτηριστικών με μουσικά μετα-δεδομένα στο Web, με την αναπαράσταση των χρονικών οντοτήτων μέσω της Timeline Ontology 30
Σχήμα 3-1 Music Information Retrieval 33
Σχήμα 3-2 Κβαντισμός ενός ακουστικού σήματος. Η δειγματοληψία γίνεται σε συγκεκριμένες χρονικές τιμές (άξονας x) και για την κωδικοποίηση χρησιμοποιείται εύρος 4 bits 36
Σχήμα 3-3 Sort-Time Fourier Transform με επικάλυψη (overlap) δύο τμημάτων 39
Σχήμα 3-4 Απλοποιημένη απεικόνιση ροής της διαδικασίας εξαγωγής χαρακτηριστικών 40
Σχήμα 3-5 Περίγραμμα ASR 42
Σχήμα 3-6 Περίγραμμα ADSR 42
Σχήμα 3-7 Τιμές AE & RMS energy για κομμάτι ηλεκτρονικής μουσικής 43
Σχήμα 3-8 Τιμές AE & RMS energy για κομμάτι κλασσικής μουσικής 43
Σχήμα 3-9 Κατανομή τιμών Spectral Centroid μουσικών κομματιών από δέκα διαφορετικά είδη (genres) 45
Σχήμα 3-10 Ιστόγραμμα με τις τιμές του Spectral Spread, για ηχητικά αποσπάσματα κομματιών από τρία διαφορετικά μουσικά είδη (genres) 46
Σχήμα 3-11 Ιστόγραμμα με τις μέσες τιμές διακύμανσης του Spectral Flux, για ηχητικά αποσπάσματα κομματιών μουσικής και ομιλίας 47
Σχήμα 3-12 Ενδεικτικό διάγραμμα τιμών της πραγματικής κλίμακας συχνοτήτων (Hertz scale) σε σχέση με την αντιλαμβανόμενη από τον άνθρωπο κλίμακα (Mel scale) 49
Σχήμα 3-13 Διάγραμμα ροής παραγωγής MFCCs 49
Σχήμα 3-14 Διαδικασία εξαγωγής chroma features 50
Σχήμα 3-15 Chromagrams αποσπασμάτων τριών διαφορετικών ειδών μουσικής 51
Σχήμα 3-16 Από πάνω προς τα κάτω: 1ο γράφημα: Short-time Fourier transform μουσικού αποσπάσμα-τος διάρκειας 20 δευτερολέπτων. 2ο γράφημα: Το αντίστοιχο mel spectrogram του κομματιού. 3ο γρά-φημα: Το αντίστοιχο Chromagram (cqt) του ίδιου κομματιού. 4ο γράφημα: Απεικόνιση των τιμών του tonnetz στην πάροδο του χρόνου 53
Σχήμα 4-1 Κατά έτος αριθμοί εκδόσεων σχετικών με Music Genre Classification 61
Σχήμα 4-2 Παράδειγμα ενός ANN 63
Σχήμα 4-3 ANN, χρησιμοποιούμενο για κατηγοριοποίηση τραγουδιών 63
Σχήμα 4-4 Artificial Intelligence - ML - DL 64
Σχήμα 4-5 «Εκπαίδευση» του κατηγοριοποιητή (classifier) 66
Σχήμα 4-6 Κατηγοριοποίηση μουσικών κομματιών 66
Σχήμα 4-7 Γραμμικός διαχωρισμός δύο κλάσεων (σε δύο διαστάσεις) 68
Σχήμα 4-8 Decision Tree για την κατηγοριοποίηση μουσ. κομματιού σε τρία είδη (genres) 70
Σχήμα 4-9 Decision Tree για την κατηγοριοποίηση μουσ. κομματιού σε έξι είδη (genres) 70
Σχήμα 4-10 Απεικόνιση Support Vectors στο επίπεδο 71
Σχήμα 4-11 Γραμμικά διαχωρίσιμα (αριστερά) και μη γραμμικά διαχωρίσιμα (δεξιά) χα-ρακτηριστικά 72
Σχήμα 6-1 Διάγραμμα ροής της εφαρμογής (στα αγγλικά) 95
Σχήμα 6-2 Διάγραμμα ροής της εφαρμογής (στα ελληνικά) 95
Σχήμα 7-1 Ανάλυση PCA με όλα τα χαρακτηριστικά (features) 105
Σχήμα 7-2 Ανάλυση PCA με μόνο δύο χαρακτηριστικά (features), τους συντελεστές mfcc1 και mfcc2 106
Σχήμα 7-3 Ιστόγραμμα του χαρακτηριστικού «Spectral Centroid» ανά είδος (genre) 107
Σχήμα 7-4 Γράφημα με πλαίσια (boxes) του χαρακτηριστικού «Spectral Centroid» ανά είδος (genre) 108
Σχήμα 7-5 Distribution plot (distplot) του χαρακτηριστικού «Spectral Centroid» ανά είδος (genre) 108
Σχήμα 7-6 Correlation heatmap μεταξύ χαρακτηριστικών (features) 109
Σχήμα 7-7 Γραφική απεικόνιση, μεταξύ άλλων, της μεταβολής της ακρίβειας - validation accuracy (val_accuracy) του αλγορίθμου κατηγοριοποίησης του Neural Network 114
Σχήμα 7-8 Neural Network Confusion Matrix 117
Σχήμα 8-1 Ανάλυση PCA με όλα τα features 135
Σχήμα 8-1Α Μεγέθυνση του του άνω και δεξιά ευρισκόμενου τμήματος του σχήματος 8-1 (Παρατηρήσεις πάνω στη Βυζαντινή μουσική) 135
Σχήμα 8-1Β Σχήμα 8-1Β Μεγέθυνση του του κάτω και δεξιά ευρισκόμενου τμήματος του σχήματος 8-1 (Παρατηρήσεις πάνω στα «Έντεχνα» και το «Νέο Κύμα») 136
Σχήμα 8-1Γ Μεγέθυνση του του κάτω και δεξιά ευρισκόμενου τμήματος του σχήματος 8-1 (Παρατηρήσεις πάνω στα «Νησιώτικα» και τα «Pop & Rock δεκαετιών 60 & 70») 136
Σχήμα 8-2 Ανάλυση PCA με όλα τα features πλην των MFCC 137
Σχήμα 8-3 Ανάλυση PCA με μόνο τους 20 MFCC 137
Σχήμα 8-4 Ιστόγραμμα του feature root mean square energy ή rmse για τα 10 είδη μουσικής 138
Σχήμα 8-5 Ιστόγραμμα του feature spectral rolloff για τα 10 είδη μουσικής 138
Σχήμα 8-6 Ιστόγραμμα του feature spectral bandwidth για τα 10 είδη μουσικής 139
Σχήμα 8-7 Γράφημα με ορθογώνια πλαίσια του feature root mean square energy ή rmse για τα 10 είδη μουσικής 143
Σχήμα 8-8 Γράφημα με ορθογώνια πλαίσια του feature spectral rolloff για τα 10 είδη μουσικής 144
Σχήμα 8-9 Γράφημα με ορθογώνια πλαίσια του feature spectral bandwidth για τα 10 είδη μουσικής 144
Σχήμα 8-10 Γράφημα με καμπύλες (distribution plot) κατανομής του feature chroma_stft για τα 10 είδη μουσικής 146
Σχήμα 8-11 Γράφημα με καμπύλες (distribution plot) κατανομής του feature tempo για τα 10 είδη μουσικής 147
Σχήμα 8-12 Γράφημα με καμπύλες (distribution plot) κατανομής του feature spectral centroid για τα 10 είδη μουσικής 147
Σχήμα 8-13 Γράφημα με καμπύλες (distribution plot) κατανομής του feature mfcc1 (1ος συντελεστής mfcc) για τα 10 είδη μουσικής 148
Σχήμα 8-14 Γράφημα με καμπύλες (distribution plot) κατανομής του feature mfcc20 (20ος συντελε-στής mfcc) για τα 10 είδη μουσικής 148
Σχήμα 8-15 Correlation heatmap με τα 7 πρώτα χαρακτηριστικά (features) της ανάλυσης 149
Σχήμα 8-16 Correlation heatmap με τα χαρακτηριστικά (features) cqt και cens της ανά-λυσης 149
Σχήμα 8-17 Δομή του Neural Network της ΔΕ 151
Σχήμα 8-18 Γραφική απεικόνιση των συγκριτικών αποτελεσμάτων κατηγοριοποίησης του πίνακα 8-3 58 Πίνακας 2-1 Κατανομή της μουσικής πληροφορίας σε τρία επίπεδα …………………… 6
Πίνακας 2-2 Όρια ανθρώπινης ακοής εκφρασμένα σε watts/cm2 και στην κλίμακα decibel ………………………………………….……………………………………………...….. 8
Πίνακας 2-3 Υποκειμενικά χαρακτηριστικά του ήχου σε αντιστοιχία με τα αντικειμενικά 11
Πίνακας 2-4 Συνοπτική καταγραφή, κατά αύξουσα χρονολογική σειρά δημιουργίας, των (μουσικών) οντολογιών – παρεμφερών συστημάτων 32
Πίνακας 3-1 Ακουστικά χαρακτηριστικά που εξάγονται μέσω της διαδικτυακής πλατφόρ-μας Spotify 55
Πίνακας 4-1 Κατά έτος αριθμοί εκδόσεων σχετικών με Music Genre Classification 61
Πίνακας 4-2 Σύνοψη πληροφοριών για δέκα ενδεικτικές μελέτες – έρευνες σχετικές με Music Genre Classification 77
Πίνακας 5-1 Οι υποκλάσεις «Προσωπικότητα» και «Κατάσταση» της κλάσης «Άνθρω-πος» 79
Πίνακας 5-2 Τρεις προτεινόμενες υποκλάσεις της κλάσης «Ήχος» 81
Πίνακας 5-3 Η κλάση «Συσχέτιση» 82
Πίνακας 5-4 Η διευρυμένη κλάση «Άνθρωπος» 82
Πίνακας 7-1 Τα είδη ελληνικής μουσικής που χρησιμοποιούνται στην εφαρμογή και οι ο-νομασίες τους με αγγλικούς χαρακτήρες 116
Πίνακας 8-1 Αποτελέσματα κατηγοριοποίησης των 200 μουσικών κομματιών του real test set, με μοντέλο βασισμένο στην εξαγωγή χαρακτηριστικών από τα 60 πρώτα sec κάθε μουσικού κομματιού 156
Πίνακας 8-2 Αποτελέσματα κατηγοριοποίησης των 200 μουσικών κομματιών του real test set, με μοντέλο βασισμένο στην εξαγωγή χαρακτηριστικών από τα 30 πρώτα sec κάθε μουσικού κομματιού 157
Πίνακας 8-3 Συγκριτικά Αποτελέσματα κατηγοριοποίησης των 200 μουσικών κομματιών του real test set, με τα δύο μοντέλα (εξαγωγή χαρακτηριστικών από τα 60 και τα 30 πρώτα sec κάθε μουσικού κομματιού, αντίστοιχα) 158
Πίνακας 8-4 Αποτελέσματα κατηγοριοποίησης 20 «διασκευών» του μουσικού κομματιού «Συννεφιασμένη Κυριακή» 164
Πίνακας 8-5 Αποτελέσματα κατηγοριοποίησης 20 «διασκευών» του μουσικού κομματιού «Παιδιά της Σαμαρίνας» 164
Αρχικά, επιχειρείται η καταγραφή των σχετικών με τη Μουσική εννοιών και ο προσδιορι-σμός, με τη βοήθεια της βιβλιογραφίας, ενός γενικού πλαισίου για την κατηγοριοποίησή τους σε επίπεδα. Καταγράφονται οι βασικές αναπαραστάσεις της μουσικής πληροφορίας, οι μορφές στις οποίες αποθηκεύεται ψηφιακά ο ήχος και οι βασικές μουσικές οντολογίες.
Στη συνέχεια, η βιβλιογραφική ανασκόπηση μεταφέρεται στο επιστημονικό πεδίο της Ανά-κτησης Μουσικής Πληροφορίας (Music Information Retrieval - MIR) και καταγράφονται οι βασικές μέθοδοι και διαδικασίες του, αφού προηγηθεί μία σύντομη ιστορική αναδρομή. Διερευνώνται κυρίως τα ακουστικά χαρακτηριστικά χαμηλού και μεσαίου επιπέδου που αφορούν στην ανάκτηση - εξόρυξη και επεξεργασία της μουσικής πληροφορίας και ολο-κληρώνοντας, γίνεται μια σύντομη αναφορά στην παρουσία του ερευνητικού χώρου MIR στο διαδίκτυο.
Ακολουθεί η διερεύνηση ενός από τους τομείς MIR, γνωστού ως Music Genre Classification (MGC). Ερευνώνται οι βασικές μέθοδοι και διαδικασίες του χώρου, καθώς και η σχέ-ση του με το ευρύτερο πεδίο της τεχνητής νοημοσύνης, εστιάζοντας στον τομέα Deep Learning. Το θεωρητικό μέρος της ΔΕ ολοκληρώνεται με μια νέα ερευνητική πρόταση εν-νοιολογικής κατηγοριοποίησης των σχετικών με το αντικείμενο εννοιών. Ιδιαίτερη έμφαση δίνεται στον συσχετισμό των εννοιών αυτών μεταξύ τους.
Στο τεχνικό μέρος της ΔΕ, αρχικά παρουσιάζονται το χρησιμοποιούμενο λογισμικό και το γενικό διάγραμμα ροής της εφαρμογής, ενώ στη συνέχεια, αναλύονται οι επιμέρους λει-τουργίες της. Τα δεδομένα των ακουστικών χαρακτηριστικών ανακτώνται από ένα σύνολο μουσικών κομματιών της Ελληνικής Μουσικής. Το λογισμικό είναι βασισμένο στη γλώσ-σα προγραμματισμού Python και υλοποιείται μία μέθοδος Βαθιάς Μάθησης (Deep Learning - DL) σε συνδυασμό με ένα Νευρωνικό Δίκτυο (Neural Network - NN).
Τα πειραματικά αποτελέσματα, δίνουν μια σαφή εικόνα της λειτουργικότητας και της απο-δοτικότητας της εφαρμογής. Χρήσιμα αρχεία και αριθμητικά δεδομένα, που παράγονται κατά τον πειραματισμό, αποθηκεύονται σε συγκεκριμένους καταλόγους, ή καταγράφονται σε πίνακες.
Οι διαπιστώσεις, που προέκυψαν από τις διαδικασίες δοκιμών, μετρήσεων και πειραμά-των, οδηγούν σε μάλλον ασφαλή συμπεράσματα. Ως σημαντική παρακαταθήκη της πα-ρούσας ΔΕ διαφαίνεται η δημιουργία μιας στέρεης βάσης, θεωρητικής και πρακτικής, για μελλοντική έρευνα.
Initially, an attempt is made to catalogue most of the various meanings of music and de-fine, accorded to the annotated bibliography, a general ambit for their categorization in different levels. A record of the basic musical information representations and the formats in which the sound can be stored digitally is kept along with a record of main musical ontologies.
Afterwards, the theoretical analysis is being placed to the scientific field or Music Information Retrieval (MIR) where after a short historic retrospect, the basic methods and procedures are being recorded. The musical elements studied are mainly the acoustic features of low and middle level concerning the retrieval and processing of musical information, and finally, a short mention to the presence of MIR on the Web.
Later on, follows the research of MIR subfield, known as Music Genre Classification (MGC). The basic methods and procedures are studied along with the relation among MGC and the wider field of AI (Artificial Intelligence) with focal point the section Deep Learning (DL). The theoretical part of this Thesis is concluded with the quest of a new suggestion about the semantic classification of all the relevant meanings of this study. The correlation of these notions and meanings is strongly emphasized.
Next on the technical part, initially, the used software and the general flow diagram of the application are presented, while later on, there is an analysis of the application’s functions. The data of acoustic features are being extracted and retrieved from a dataset of Hellenic Music pieces. The entire software is based on Python programming language and there is an implementation of a Deep Learning (DL) method in combination with a Neural Net-work (NN).
The experimental results provide a full portrayal of the functionality and performance of the application. Useful files and arithmetic data that are being produced through the experimentation procedure, are stored in specific directories or arrayed graphically.
The ascertainments that emerged from all the previous procedures of testing, measuring and experimenting, lead into rather safe conclusions. To sum up, the greatest benefit of the whole procedure is the forging of a solid theoretical and practical base for future research.