Συναισθηματική Υπολογιστική: Αναγνώριση συναισθήματος από ομιλία με χρήση τεχνικών βαθιάς μάθησης

  1. Bachelor’s thesis
  2. Ρούσσου, Άννα
  3. Πληροφορική (ΠΛΗ)
  4. 20 Ιουλίου 2019 [2019-07-20]
  5. Ελληνικά
  6. 108
  7. Αναγνωστόπουλος, Χρήστος-Νικόλαος
  8. Βέργαδος, Δημήτριος | Μακλογιάννης, Ηλίας
  9. Αναγνώριση Συναισθήματος | Συνελικτικά Νευρωνικά Δίκτυα | Χαρακτηριστικά Ομιλίας | Συναισθηματική Υπολογιστική | Μηχανική Μάθηση | Emotion Recognition | Convolutional Neural Networks | Speech Features | Affective Computing | Machine Learning
  10. 3
  11. 123
  12. Περιέχει : πίνακες, διαγράμματα, εικόνες, σχήματα, φωτογραφίες
    • Η δυνατότητα αναγνώρισης συναισθήματος μέσω ομιλίας θα αλλάξει ριζικά την αλληλεπίδραση ανθρώπου – μηχανής, καθώς και τον τρόπο που ο άνθρωπος αντιλαμβάνεται μέχρι στιγμής την έννοια της Τεχνητής Νοημοσύνης. Οι δυσκολίες όμως προς την δημιουργία σχετικών επιτυχημένων αλγόριθμων είναι αρκετές και περικλείουν τόσο εννοιολογικά όσο και τεχνικά εμπόδια. Αφενός, δεν υπάρχει καθολικός ορισμός του συναισθήματος και οι ερευνητές δε συμφωνούν στο πλήθος των βασικών συναισθηματικών καταστάσεων. Αφετέρου, το συναίσθημα γίνεται αντιληπτό με διαφορετικό τρόπο από τον εκάστοτε ακροατή, ανάλογα με το αν έχει εκφραστεί αυθόρμητα ή τεχνητά. Επίσης, οι περισσότερες βάσεις δεδομένων που χρησιμοποιούνται σήμερα περιέχουν κυρίως προσποιητές συναισθηματικές εκφράσεις, καθώς η δημιουργία μιας έγκυρης βάσης δεδομένων αυθόρμητης ομιλίας είναι ένα δύσκολο και κοστοβόρο έργο. Το ερευνητικό πεδίο της Συναισθηματικής Υπολογιστικής έχει πειραματιστεί τα τελευταία 20 χρόνια με διάφορους αλγόριθμους μηχανικής μάθησης, όπως τα Κρυφά Μαρκοβιανά Μοντέλα ή τις Μηχανές Διανυσμάτων Υποστήριξης, οι οποίοι απαιτούν τη χειροκίνητη δημιουργία χαρακτηριστικών. Τα ενθαρρυντικά αποτελέσματα όμως των Βαθιών Νευρωνικών Δικτύων στην αναγνώριση ομιλίας και εικόνας, οδήγησαν την ερευνητική κοινότητα στη χρήση αυτών των αλγορίθμων και για την αναγνώριση συναισθήματος, αξιοποιώντας την αυτόματη εξαγωγή και εκπαίδευση των χαρακτηριστικών μέσω της ομιλίας. Στην προκείμενη εργασία, ακολουθώντας μια συνοπτική αναφορά των παραπάνω, παρουσιάζεται μια δοκιμή ταξινόμησης συναισθημάτων με ένα μοντέλο Βαθιού Συνελικτικού Νευρωνικού Δικτύου, με τη χρήση των MFCC χαρακτηριστικών από τις βάσεις Emo-DB, IEMOCAP και RAVDESS. Όπως παρατηρήθηκε, τα αποτελέσματα κυμαίνονται στο 70%, αναπαράγοντας τα προβλήματα των περισσότερων ερευνών και επισημαίνοντας έτσι την ανάγκη δημιουργίας ενός μεγαλύτερου σετ δεδομένων, το οποίο να καλύπτει όλες τις ιδιαιτερότητες του ανθρώπινου συναισθήματος.
    • The ability to recognize emotion through speech will drastically change Human-Machine interaction, as well as the way that humans perceive the notion of Artificial Intelligence. There are however many difficulties in creating efficient algorithms for emotion recognition classification, due to both conceptual and technical obstacles. First and foremost, a universal definition of emotion does not yet exist, and researchers disagree on the nature of the basic emotional states. On the other hand, the perception of an emotion may differ, depending on how the emotion was elicited, for instance in a simulated or spontaneous way. Notably, almost the entirety of the emotional speech databases that are currently being used, contain voice utterances simulated by actors, as the creation of a legit dataset of spontaneous speech is a demanding project, due to high effort and cost estimation. The research field of Affective Computing has experimented in the last 20 years with many machines learning algorithms, including Hidden Markov Models and Support Vector Machines, that require manual-feature engineering procedures. Recently, promising results in speech and image recognition using Deep Neural Networks, led researchers in using these algorithms also for emotion recognition, by exploiting the ability of the Deep Neural Networks to automatically extract and learn features from speech. The current thesis, after summarizing the existing literature on previous efforts, discusses the application of a Deep Convolutional Neural Network, with the extraction of MFCC features from Emo-DB, IEMOCAP and RAVDESS emotional databases, for the classification of emotions. As observed, the results are hovering at about 70%, reflecting the issues encountered by most researches in the field, and underlining the need for the creation of a larger dataset creation, which will include all the aspects of human emotional state.
  13. Hellenic Open University
  14. Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα