Σκοπός της Διπλωματικής Εργασίας είναι η αναγνώριση του συναισθήματος του ομιλητή,
όπως αυτό εκφράζεται μέσω της ομιλίας, ένα επίκαιρο θέμα έρευνας στο πεδίο της
Μηχανικής Μάθησης με δυνητικά ευρείες εφαρμογές, όπως στις «έξυπνες διεπαφές», στα
διαδραστικά συστήματα τηλεφωνίας, σε υπηρεσίες ηλεκτρονικής εκπαίδευσης, εφαρμογές
πλοήγησης αυτοκινήτων κ.λπ.
Στην πλειοψηφία των σχετικών ερευνών, που συναντάμε στη βιβλιογραφία,
χρησιμοποιείται κάποια βάση δεδομένων με ηχογραφήσεις συναισθημάτων από
ηθοποιούς. Αντίθετα, στην παρούσα Διπλωματική Εργασία, οι δοκιμές και οι μετρήσεις
διενεργούνται με δείγματα που προέρχονται από πραγματικές συνομιλίες, στην Αγγλική
γλώσσα, όπως καταγράφονται σε ένα τηλεφωνικό κέντρο τεχνικής υποστήριξης.
Λαμβάνοντας υπόψη το περιβάλλον εφαρμογής (είδος συνομιλιών, φυσική ομιλία,
μοναδικοί ομιλητές, κλπ.), καθώς και τους περιορισμούς σε χρόνο και πόρους στο πλαίσιο
εκπόνησης της ΔΕ για τη λήψη, επεξεργασία και σχολιασμό των δειγμάτων, επιλέγονται
αρχικά 30 κλήσεις. Μέσω του λογισμικού Praat, κάθε κλήση κατακερματίζεται σε
ηχητικά τμήματα μεγέθους έκφρασης.
Τα ηχητικά τμήματα, στη συνέχεια, αξιολογούνται και επισημαίνονται ως προς τη
συναισθηματική κατάσταση η οποία τα χαρακτηρίζει από ανθρώπινο σχολιαστή. Ο
σχολιαστής που εφαρμόζει τις σημάνσεις, έχει στη διάθεσή του το σύνολο της συνομιλίας
και το λεκτικό της περιεχόμενο, καθώς και τις αναφορές ικανοποίησης του πελάτη. Έτσι,
πέρα από την υποκειμενική αξιολόγηση, υπάρχουν επιπλέον σημασιολογικά μετα-
δεδομένα τα οποία μπορούν να οδηγήσουν στη διαμόρφωση μιας αξιόπιστης βάσης
αληθείας με πιο αντικειμενικό τρόπο.
Από τον ανθρώπινο σχολιασμό, προκύπτουν τελικά 578 ηχητικά δείγματα, που το καθένα
φέρει μια ετικέτα που περιγράφει ποια από τις πέντε συνολικά παρατηρούμενες
συναισθηματικές καταστάσεις το χαρακτηρίζει:
• Ουδέτερη Συναισθηματική Κατάσταση (Neutral)
• Χαρά (Happiness)
• Θλίψη (Sadness)
• Θυμός, Οργή (Anger)
• Αγανάκτηση, Εκνευρισμός (Frustration)
Μέσα από βιβλιογραφική μελέτη των σύγχρονων ερευνών στο πεδίο, επιλέγονται
ακουστικά χαρακτηριστικά προσωδίας καθώς και χαρακτηριστικά φασματικού χαρακτήρα
τα οποία αποτυπώνουν καλύτερα τη συναισθηματική κατάσταση του ομιλητή. Ο
υπολογισμός των χαρακτηριστικών αυτών από τα ηχογραφημένα τμήματα γίνεται μέσω
του λογισμικού Praat.
Η ταξινόμηση των δειγμάτων γίνεται με Μηχανή Διανυσμάτων Υποστήριξης (ΜΔΥ),
μέσω της βιβλιοθήκης LIBSVM στο λογισμικό Weka. Μέσω αναζήτησης πλέγματος,
υπολογίζονται οι βέλτιστες τιμές των παραμέτρων C και γ της Μηχανής Διανυσμάτων
Υποστήριξής και το ποσοστό επιτυχούς αναγνώρισης στο αρχικό σύνολο δεδομένων, με
όλα τα δείγματα και τις 5 συναισθηματικές καταστάσεις, φτάνει περίπου το 73.7%.
Τέλος, λαμβάνοντας υπόψη την άνιση κατανομή των συναισθημάτων στα δεδομένα και
με σκοπό την καλύτερη γενίκευση του μοντέλου, γίνονται επιπλέον δοκιμές με υποσύνολα
των δεδομένων που προκύπτουν από ομαδοποίηση ή/και απαλοιφή συναισθηματικών
καταστάσεων.
The purpose of the Thesis is to identify the speaker's emotion, as expressed through
speech, a current research topic in the field of Machine Learning, with potentially wide
applications, such as "smart interfaces", interactive telephony services, e-learning services,
car navigation applications, etc.
For most of the relevant research found in the literature, a database with recordings of
emotions by actors is used. In contrast, in the present thesis, tests and measurements are
conducted on samples taken from real conversations, in the English language, as recorded
in a technical support call center.
Considering the application environment (type of conversations, natural speech, unique
speakers, etc.), as well as the limitations of time and resources in the context of the Thesis
for obtaining, processing, and annotating the sound samples, 30 recorded calls are selected
initially. Using Praat software, each call is split into utterance-sized audio samples.
These sound samples are then evaluated and labeled according to the emotion they carry
by a human annotator. The annotator who applies the markings, has at his disposal the
whole conversation and its verbal content, as well as the reports of customer satisfaction.
Thus, besides the subjective evaluation, there are additional semantic metadata that can
lead to the formation of a reliable basis of truth in a more objective way.
The result of the human annotation is a database consisting of 578 sound samples, each
with a label describing which of the 5 emotional states it represents:
• Neutral
• Happiness
• Sadness
• Anger
• Frustration
Through literature study of contemporary research in the field, prosodic and spectral
acoustic characteristics that best reflect the emotional state of the speaker are selected. The
calculation of these features from the samples is done through the Praat software.
Samples are classified with a Support Vector Machine using the LIBSVM library through
the Weka software. With the grid search method, the optimal values of the parameters C
and γ of the Support Vectors are calculated and the test on the initial dataset, with all the
samples and the 5 emotional states, marks a successful recognition rate of approximately
73.7%.
Finally, to account for the uneven representation of emotions in the data and to ensure a
better generalization, additional tests with data subsets derived by grouping and/or
omitting emotional states are also conducted.
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.
Κύρια Αρχεία Διατριβής
Αναγνώριση συναισθημάτων από ακουστικές παραμέτρους της ανθρώπινης ομιλίας Περιγραφή: 112125_ΠΩΛΙΟΥΔΑΚΗΣ_ΜΑΜΟΥΝΑΚΗΣ_ΙΩΑΝΝΗΣ.pdf (pdf)
Book Reader Πληροφορίες: Κυρίως σώμα διπλωματικής Μέγεθος: 2.0 MB
Αναγνώριση συναισθημάτων από ακουστικές παραμέτρους της ανθρώπινης ομιλίας - Identifier: 935
Internal display of the 935 entity interconnections (Node labels correspond to identifiers)