Αυτόματη αναγνώριση και κατηγοριοποίηση του συναισθήματος της ανθρώπινης ομιλίας, μέσα από τεχνικές ανάλυσης, ψηφιακής επεξεργασίας και εξαγωγής χαρακτηριστικών φασματικού χαρακτήρα, MFCC (Mel Frequency Cepstral Coefficients) και αναγνώρισης προτύπων

Automatic recognition and categorization of the emotion of the human speech, through techniques of analysis, digital processing and extraction of spectral characteristics, MFCC (Mel Frequency Cepstral Coefficients) and pattern recognition (Αγγλική)

  1. MSc thesis
  2. Ψαθόπουλος Πέτρος
  3. Ακουστικός Σχεδιασμός και Ψηφιακός Ήχος (ΑΣΠ)
  4. 17 Οκτωβρίου 2020 [2020-10-17]
  5. Ελληνικά
  6. 98
  7. Ζαχαράκης, Αστέριος
  8. Ζαχαράκης, Αστέριος | Μουρτζόπουλος, Ιωάννης
  9. Αναγνώριση Συναισθήματος Ομιλίας | Ακουστικά Χαρακτηριστικά | Mel-Frequency Cepstral Coefficient (MFCC) | Κωδικοποίηση Γραμμικής Πρόγνωσης (LPC) | Linear Frequency Cepstral Coefficient (LFCC) | Συντονισμοί Φωνητικού Καναλιού | Praat | WEKA | Νευρωνικό Δίκτυο | Speech Emotion Recognition (SER) | Acoustic Features | Linear Predictive Coding (LPC) | Formants | Neural Network
  10. 2
  11. 4
  12. 52
  13. Περιέχει πίνακες, διαγράμματα, σχήματα εικόνες, κώδικα λογισμικού Praat (scripting language)
    • Σκοπός της διπλωματικής εργασίας είναι η αυτόματη αναγνώριση και κατηγοριοποίηση του συναισθήματος που εκφράζεται μέσω της ανθρώπινης ομιλίας. Η αυτόματη σημασιολογική αναγνώριση βασίστηκε στην εύρεση εκείνων των χαρακτηριστικών που αποτυπώνουν καλύτερα τα χαρακτηριστικά που εκφράζουν το συναίσθημα στη φωνή και συγκεκριμένα, χαρακτηριστικά προσωδίας (βασική συχνότητα, ένταση και ακουστική ενέργεια, ρυθμός μηδενικών διελεύσεων, κ.α.) και χαρακτηριστικά φασματικού χαρακτήρα (MFCCs, LPCs, LFCCs, συντονισμοί του φωνητικού καναλιού, κ.α..). Η επιλογή των χαρακτηριστικών έγινε μετά από βιβλιογραφική έρευνα ώστε να επιλεγούν εκείνα τα χαρακτηριστικά τα οποία αποτελούν τη σύγχρονη τάση στην έρευνα στο συγκεκριμένο τομέα. Η εξαγωγή και επεξεργασία των χαρακτηριστικών έγινε μέσω του λογισμικού Praat με τη χρήση έτοιμου ηχογραφημένου υλικού από βάσεις δεδομένων με ηχογραφήσεις που αποτυπώνουν συγκεκριμένα συναισθήματα και συγκεκριμένα από τις βάσεις Berlin Database of Emotional Speech (BDES – Emo-DB) και Surrey Audio-Visual Expressed Emotion (SAVEE). Η κατηγοριοποίηση/ταξινόμηση των δειγμάτων, έγινε με τη χρήση του λογισμικού WEKA και συγκεκριμένα με τη χρήση νευρωνικού δικτύου το οποίο εκπαιδεύτηκε πάνω στα δεδομένα, πετυχαίνοντας ένα ποσοστό επιτυχούς αναγνώρισης της τάξης του 55.2%. Στη συνέχεια έγινε έλεγχος των χαρακτηριστικών για να επιλεγούν εκείνα που επηρεάζουν περισσότερο την επιτυχή αναγνώριση. Τα αποτελέσματα της διπλωματικής εργασίας μπορούν να έχουν εφαρμογή σε διάφορους τομείς, όπως π.χ. στην (έμμεση) κατηγοριοποίηση κινηματογραφικών ταινιών (ή άλλου ηχητικού υλικού), με βάση τη δεσπόζουσα κατηγοριοποίηση του συναισθήματος που εκφράζουν οι ομιλίες των ηθοποιών της ταινίας, ή σε συστήματα IVR ή call centres στα οποία θα μπορούσε να γίνει συσχέτιση των χαρακτηριστικών της συναισθηματικής κατάσταση των πελατών όπως αυτή εκφράζεται από τη φωνή τους ως προς το επιθυμητό αποτέλεσμα μιας κλήσης και ανάλογη προσαρμογή του σεναρίου για τη μεγιστοποίηση των επιθυμητών αποτελεσμάτων.
    • The purpose of this dissertation is the automatic recognition and categorization of the emotion expressed through human speech. The automatic semantic recognition was based on finding those characteristics that best capture characteristics that express emotion in human voice and particularly, prosody characteristics (basic frequency, intensity and acoustic energy, zero crossing rate, etc.) and spectral characteristics (MFCCs, LPCs, LFCCs, formants, etc.). The selection of the characteristics was based on a bibliographic research in order to ensure that the selected characteristics are representing the current trend and state of the art in the research of this particular field. The feature extraction and processing performed using the Praat software, by utilising pre-recorded material from databases containing recordings that capture specific emotions and specifically from the Berlin Database of Emotional Speech (BDES - Emo-DB) and the Surrey Audio-Visual Expressed Emotion (SAVEE) database. The categorization/classification of the samples was done using the WEKA software and specifically with the utilisation of a neural network which was trained on the relevant data, achieving a successful recognition rate of 55.2%. The characteristics were then further checked in order to select those that influence successful recognition the most. The results of the dissertation can be applied in various fields, such as in the (indirect) categorization/labelling of films (or other audio material), based on the dominant emotion expressed by the actors of the film, or in IVR systems or call centres, in which the characteristics of the emotional state of the customers as this is expressed by their voice, can influence the script used, allowing the call agents to maximize the desired results.
  14. Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές