Περιέχει : πίνακες, διαγράμματα, εικόνες, σχήματα, φωτογραφίες
Η δυνατότητα αναγνώρισης συναισθήματος μέσω ομιλίας θα αλλάξει ριζικά την
αλληλεπίδραση ανθρώπου – μηχανής, καθώς και τον τρόπο που ο άνθρωπος
αντιλαμβάνεται μέχρι στιγμής την έννοια της Τεχνητής Νοημοσύνης. Οι δυσκολίες όμως
προς την δημιουργία σχετικών επιτυχημένων αλγόριθμων είναι αρκετές και περικλείουν
τόσο εννοιολογικά όσο και τεχνικά εμπόδια. Αφενός, δεν υπάρχει καθολικός ορισμός του
συναισθήματος και οι ερευνητές δε συμφωνούν στο πλήθος των βασικών
συναισθηματικών καταστάσεων. Αφετέρου, το συναίσθημα γίνεται αντιληπτό με
διαφορετικό τρόπο από τον εκάστοτε ακροατή, ανάλογα με το αν έχει εκφραστεί
αυθόρμητα ή τεχνητά. Επίσης, οι περισσότερες βάσεις δεδομένων που χρησιμοποιούνται
σήμερα περιέχουν κυρίως προσποιητές συναισθηματικές εκφράσεις, καθώς η δημιουργία
μιας έγκυρης βάσης δεδομένων αυθόρμητης ομιλίας είναι ένα δύσκολο και κοστοβόρο
έργο. Το ερευνητικό πεδίο της Συναισθηματικής Υπολογιστικής έχει πειραματιστεί τα
τελευταία 20 χρόνια με διάφορους αλγόριθμους μηχανικής μάθησης, όπως τα Κρυφά
Μαρκοβιανά Μοντέλα ή τις Μηχανές Διανυσμάτων Υποστήριξης, οι οποίοι απαιτούν τη
χειροκίνητη δημιουργία χαρακτηριστικών. Τα ενθαρρυντικά αποτελέσματα όμως των
Βαθιών Νευρωνικών Δικτύων στην αναγνώριση ομιλίας και εικόνας, οδήγησαν την
ερευνητική κοινότητα στη χρήση αυτών των αλγορίθμων και για την αναγνώριση
συναισθήματος, αξιοποιώντας την αυτόματη εξαγωγή και εκπαίδευση των
χαρακτηριστικών μέσω της ομιλίας. Στην προκείμενη εργασία, ακολουθώντας μια
συνοπτική αναφορά των παραπάνω, παρουσιάζεται μια δοκιμή ταξινόμησης
συναισθημάτων με ένα μοντέλο Βαθιού Συνελικτικού Νευρωνικού Δικτύου, με τη χρήση
των MFCC χαρακτηριστικών από τις βάσεις Emo-DB, IEMOCAP και RAVDESS. Όπως
παρατηρήθηκε, τα αποτελέσματα κυμαίνονται στο 70%, αναπαράγοντας τα προβλήματα
των περισσότερων ερευνών και επισημαίνοντας έτσι την ανάγκη δημιουργίας ενός
μεγαλύτερου σετ δεδομένων, το οποίο να καλύπτει όλες τις ιδιαιτερότητες του
ανθρώπινου συναισθήματος.
The ability to recognize emotion through speech will drastically change Human-Machine
interaction, as well as the way that humans perceive the notion of Artificial Intelligence.
There are however many difficulties in creating efficient algorithms for emotion
recognition classification, due to both conceptual and technical obstacles. First and
foremost, a universal definition of emotion does not yet exist, and researchers disagree on
the nature of the basic emotional states. On the other hand, the perception of an emotion
may differ, depending on how the emotion was elicited, for instance in a simulated or
spontaneous way. Notably, almost the entirety of the emotional speech databases that are
currently being used, contain voice utterances simulated by actors, as the creation of a
legit dataset of spontaneous speech is a demanding project, due to high effort and cost
estimation. The research field of Affective Computing has experimented in the last 20
years with many machines learning algorithms, including Hidden Markov Models and
Support Vector Machines, that require manual-feature engineering procedures. Recently,
promising results in speech and image recognition using Deep Neural Networks, led
researchers in using these algorithms also for emotion recognition, by exploiting the
ability of the Deep Neural Networks to automatically extract and learn features from
speech. The current thesis, after summarizing the existing literature on previous efforts,
discusses the application of a Deep Convolutional Neural Network, with the extraction of
MFCC features from Emo-DB, IEMOCAP and RAVDESS emotional databases, for the
classification of emotions. As observed, the results are hovering at about 70%, reflecting
the issues encountered by most researches in the field, and underlining the need for the
creation of a larger dataset creation, which will include all the aspects of human emotional
state.