Αναγνώριση συναισθημάτων από ακουστικές παραμέτρους της ανθρώπινης ομιλίας

Emotion Recognition from acoustic features of human speech. (Αγγλική)

  1. MSc thesis
  2. Πωλιουδάκης-Μαμουνάκης, Ιωάννης
  3. Ακουστικός Σχεδιασμός και Ψηφιακός Ήχος (ΑΣΠ)
  4. 26 Σεπτεμβρίου 2021 [2021-09-26]
  5. Ελληνικά
  6. 63
  7. Δημούλας, Χαράλαμπος
  8. Βρύσης, Λάζαρος | Μουρτζόπουλος, Ιωάννης
  9. Αναγνώριση Συναισθήματος Ομιλίας | Speech Emotion Recognition | Μηχανές Διανυσμάτων Υποστήριξης | Support Vector Machines | Αλληλεπίδραση Ανθρώπου-Υπολογιστή | Human-Computer Interaction
  10. 1
  11. 7
  12. 31
  13. 22 Εικόνες, 24 Πίνακες
    • Σκοπός της Διπλωματικής Εργασίας είναι η αναγνώριση του συναισθήματος του ομιλητή, όπως αυτό εκφράζεται μέσω της ομιλίας, ένα επίκαιρο θέμα έρευνας στο πεδίο της Μηχανικής Μάθησης με δυνητικά ευρείες εφαρμογές, όπως στις «έξυπνες διεπαφές», στα διαδραστικά συστήματα τηλεφωνίας, σε υπηρεσίες ηλεκτρονικής εκπαίδευσης, εφαρμογές πλοήγησης αυτοκινήτων κ.λπ. Στην πλειοψηφία των σχετικών ερευνών, που συναντάμε στη βιβλιογραφία, χρησιμοποιείται κάποια βάση δεδομένων με ηχογραφήσεις συναισθημάτων από ηθοποιούς. Αντίθετα, στην παρούσα Διπλωματική Εργασία, οι δοκιμές και οι μετρήσεις διενεργούνται με δείγματα που προέρχονται από πραγματικές συνομιλίες, στην Αγγλική γλώσσα, όπως καταγράφονται σε ένα τηλεφωνικό κέντρο τεχνικής υποστήριξης. Λαμβάνοντας υπόψη το περιβάλλον εφαρμογής (είδος συνομιλιών, φυσική ομιλία, μοναδικοί ομιλητές, κλπ.), καθώς και τους περιορισμούς σε χρόνο και πόρους στο πλαίσιο εκπόνησης της ΔΕ για τη λήψη, επεξεργασία και σχολιασμό των δειγμάτων, επιλέγονται αρχικά 30 κλήσεις. Μέσω του λογισμικού Praat, κάθε κλήση κατακερματίζεται σε ηχητικά τμήματα μεγέθους έκφρασης. Τα ηχητικά τμήματα, στη συνέχεια, αξιολογούνται και επισημαίνονται ως προς τη συναισθηματική κατάσταση η οποία τα χαρακτηρίζει από ανθρώπινο σχολιαστή. Ο σχολιαστής που εφαρμόζει τις σημάνσεις, έχει στη διάθεσή του το σύνολο της συνομιλίας και το λεκτικό της περιεχόμενο, καθώς και τις αναφορές ικανοποίησης του πελάτη. Έτσι, πέρα από την υποκειμενική αξιολόγηση, υπάρχουν επιπλέον σημασιολογικά μετα- δεδομένα τα οποία μπορούν να οδηγήσουν στη διαμόρφωση μιας αξιόπιστης βάσης αληθείας με πιο αντικειμενικό τρόπο. Από τον ανθρώπινο σχολιασμό, προκύπτουν τελικά 578 ηχητικά δείγματα, που το καθένα φέρει μια ετικέτα που περιγράφει ποια από τις πέντε συνολικά παρατηρούμενες συναισθηματικές καταστάσεις το χαρακτηρίζει: • Ουδέτερη Συναισθηματική Κατάσταση (Neutral) • Χαρά (Happiness) • Θλίψη (Sadness) • Θυμός, Οργή (Anger) • Αγανάκτηση, Εκνευρισμός (Frustration) Μέσα από βιβλιογραφική μελέτη των σύγχρονων ερευνών στο πεδίο, επιλέγονται ακουστικά χαρακτηριστικά προσωδίας καθώς και χαρακτηριστικά φασματικού χαρακτήρα τα οποία αποτυπώνουν καλύτερα τη συναισθηματική κατάσταση του ομιλητή. Ο υπολογισμός των χαρακτηριστικών αυτών από τα ηχογραφημένα τμήματα γίνεται μέσω του λογισμικού Praat. Η ταξινόμηση των δειγμάτων γίνεται με Μηχανή Διανυσμάτων Υποστήριξης (ΜΔΥ), μέσω της βιβλιοθήκης LIBSVM στο λογισμικό Weka. Μέσω αναζήτησης πλέγματος, υπολογίζονται οι βέλτιστες τιμές των παραμέτρων C και γ της Μηχανής Διανυσμάτων Υποστήριξής και το ποσοστό επιτυχούς αναγνώρισης στο αρχικό σύνολο δεδομένων, με όλα τα δείγματα και τις 5 συναισθηματικές καταστάσεις, φτάνει περίπου το 73.7%. Τέλος, λαμβάνοντας υπόψη την άνιση κατανομή των συναισθημάτων στα δεδομένα και με σκοπό την καλύτερη γενίκευση του μοντέλου, γίνονται επιπλέον δοκιμές με υποσύνολα των δεδομένων που προκύπτουν από ομαδοποίηση ή/και απαλοιφή συναισθηματικών καταστάσεων.
    • The purpose of the Thesis is to identify the speaker's emotion, as expressed through speech, a current research topic in the field of Machine Learning, with potentially wide applications, such as "smart interfaces", interactive telephony services, e-learning services, car navigation applications, etc. For most of the relevant research found in the literature, a database with recordings of emotions by actors is used. In contrast, in the present thesis, tests and measurements are conducted on samples taken from real conversations, in the English language, as recorded in a technical support call center. Considering the application environment (type of conversations, natural speech, unique speakers, etc.), as well as the limitations of time and resources in the context of the Thesis for obtaining, processing, and annotating the sound samples, 30 recorded calls are selected initially. Using Praat software, each call is split into utterance-sized audio samples. These sound samples are then evaluated and labeled according to the emotion they carry by a human annotator. The annotator who applies the markings, has at his disposal the whole conversation and its verbal content, as well as the reports of customer satisfaction. Thus, besides the subjective evaluation, there are additional semantic metadata that can lead to the formation of a reliable basis of truth in a more objective way. The result of the human annotation is a database consisting of 578 sound samples, each with a label describing which of the 5 emotional states it represents: • Neutral • Happiness • Sadness • Anger • Frustration Through literature study of contemporary research in the field, prosodic and spectral acoustic characteristics that best reflect the emotional state of the speaker are selected. The calculation of these features from the samples is done through the Praat software. Samples are classified with a Support Vector Machine using the LIBSVM library through the Weka software. With the grid search method, the optimal values of the parameters C and γ of the Support Vectors are calculated and the test on the initial dataset, with all the samples and the 5 emotional states, marks a successful recognition rate of approximately 73.7%. Finally, to account for the uneven representation of emotions in the data and to ensure a better generalization, additional tests with data subsets derived by grouping and/or omitting emotional states are also conducted.
  14. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.