Please use this identifier to cite or link to this item: https://apothesis.eap.gr/handle/repo/49859
Title: Αυτόματη αναγνώριση και κατηγοριοποίηση του συναισθήματος της ανθρώπινης ομιλίας, μέσα από τεχνικές ανάλυσης, ψηφιακής επεξεργασίας και εξαγωγής χαρακτηριστικών φασματικού χαρακτήρα, MFCC (Mel Frequency Cepstral Coefficients) και αναγνώρισης προτύπων
Authors: Ψαθόπουλος Πέτρος
metadata.dc.contributor.advisor: Ζαχαράκης, Αστέριος
Keywords: Αναγνώριση Συναισθήματος Ομιλίας;Ακουστικά Χαρακτηριστικά;Mel-Frequency Cepstral Coefficient (MFCC);Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC);Linear Frequency Cepstral Coefficient (LFCC);Συντονισμοί Φωνητικού Καναλιού;Praat;WEKA;Νευρωνικό Δίκτυο;Speech Emotion Recognition (SER);Acoustic Features;Linear Predictive Coding (LPC);Formants;Neural Network
Issue Date: 17-Oct-2020
Abstract: Σκοπός της διπλωματικής εργασίας είναι η αυτόματη αναγνώριση και κατηγοριοποίηση του συναισθήματος που εκφράζεται μέσω της ανθρώπινης ομιλίας. Η αυτόματη σημασιολογική αναγνώριση βασίστηκε στην εύρεση εκείνων των χαρακτηριστικών που αποτυπώνουν καλύτερα τα χαρακτηριστικά που εκφράζουν το συναίσθημα στη φωνή και συγκεκριμένα, χαρακτηριστικά προσωδίας (βασική συχνότητα, ένταση και ακουστική ενέργεια, ρυθμός μηδενικών διελεύσεων, κ.α.) και χαρακτηριστικά φασματικού χαρακτήρα (MFCCs, LPCs, LFCCs, συντονισμοί του φωνητικού καναλιού, κ.α..). Η επιλογή των χαρακτηριστικών έγινε μετά από βιβλιογραφική έρευνα ώστε να επιλεγούν εκείνα τα χαρακτηριστικά τα οποία αποτελούν τη σύγχρονη τάση στην έρευνα στο συγκεκριμένο τομέα. Η εξαγωγή και επεξεργασία των χαρακτηριστικών έγινε μέσω του λογισμικού Praat με τη χρήση έτοιμου ηχογραφημένου υλικού από βάσεις δεδομένων με ηχογραφήσεις που αποτυπώνουν συγκεκριμένα συναισθήματα και συγκεκριμένα από τις βάσεις Berlin Database of Emotional Speech (BDES – Emo-DB) και Surrey Audio-Visual Expressed Emotion (SAVEE). Η κατηγοριοποίηση/ταξινόμηση των δειγμάτων, έγινε με τη χρήση του λογισμικού WEKA και συγκεκριμένα με τη χρήση νευρωνικού δικτύου το οποίο εκπαιδεύτηκε πάνω στα δεδομένα, πετυχαίνοντας ένα ποσοστό επιτυχούς αναγνώρισης της τάξης του 55.2%. Στη συνέχεια έγινε έλεγχος των χαρακτηριστικών για να επιλεγούν εκείνα που επηρεάζουν περισσότερο την επιτυχή αναγνώριση. Τα αποτελέσματα της διπλωματικής εργασίας μπορούν να έχουν εφαρμογή σε διάφορους τομείς, όπως π.χ. στην (έμμεση) κατηγοριοποίηση κινηματογραφικών ταινιών (ή άλλου ηχητικού υλικού), με βάση τη δεσπόζουσα κατηγοριοποίηση του συναισθήματος που εκφράζουν οι ομιλίες των ηθοποιών της ταινίας, ή σε συστήματα IVR ή call centres στα οποία θα μπορούσε να γίνει συσχέτιση των χαρακτηριστικών της συναισθηματικής κατάσταση των πελατών όπως αυτή εκφράζεται από τη φωνή τους ως προς το επιθυμητό αποτέλεσμα μιας κλήσης και ανάλογη προσαρμογή του σεναρίου για τη μεγιστοποίηση των επιθυμητών αποτελεσμάτων.
Supervisor: Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές
Appears in Collections:ΑΣΠ Διπλωματικές Εργασίες

Files in This Item:
File Description SizeFormat 
135380_ΨΑΘΟΠΟΥΛΟΣ_ΠΕΤΡΟΣ.pdfΔιπλωματική Εργασία3.25 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons