Υπολογιστική όραση – Μετασχηματιστές γλώσσας και Οπτική Απάντηση Ερωτήσεων Ανασκόπηση και εφαρμογές.

Vision – Language Transformers and visual question answering. (Αγγλική)

  1. MSc thesis
  2. ΒΑΣΙΛΕΙΟΣ ΝΟΥΛΑΣ
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 12 Μαίου 2024
  5. Ελληνικά
  6. 107
  7. ΑΜΑΝΑΤΙΔΗΣ ΔΗΜΗΤΡΙΟΣ
  8. ΒΕΡΥΚΙΟΣ ΒΑΣΙΛΕΙΟΣ | ΑΜΑΝΑΤΙΔΗΣ, ΔΗΜΗΤΡΙΟΣ | ΜΑΥΡΟΜΑΤΗΣ ΓΕΩΡΓΙΟΣ | ΜΕΛΑΓΡΑΚΗ ΓΕΩΡΓΙΑ
  9. Visual Question Answering
  10. ΠΛΣΔΕ
  11. 96
    • Η Visual Question Answering (VQA - Οπτική Απάντηση Ερωτήσεων) είναι ένας εξαιρετικά σημαντικός και προκλητικός ερευνητικός τομέας όπου συναντήθηκαν πρόσφατα το Computer Vision (CV) και η Natural Language Processing (NLP). Στη σύνοψη λεζάντας εικόνων και στη σύνοψη βίντεο, οι σημασιολογικές πληροφορίες περιέχονται πλήρως σε στατικές εικόνες ή στη δυναμική του βίντεο και πρέπει μόνο να εξορυχθούν και να εκφραστούν με συνεπή τρόπο για τον άνθρωπο. Στο VQA οι σημασιολογικές πληροφορίες στα ίδια μέσα πρέπει να συγκρίνονται με τη σημασιολογία που υπονοείται από μια ερώτηση που εκφράζεται σε φυσική γλώσσα, διπλασιάζοντας την προσπάθεια που σχετίζεται με την Τεχνητή Νοημοσύνη [1]. Ορισμένες πρόσφατες έρευνες σχετικά με τις προσεγγίσεις VQA έχουν επικεντρωθεί σε μεθόδους που διέπουν είτε την επεξεργασία που σχετίζεται με την εικόνα είτε τη λεκτική επεξεργασία, είτε στον τρόπο σταθερής συγχώνευσης των μεταφερόμενων πληροφοριών. Τα περισσότερα αναφερόμενα έργα βασίζονται σε σύνολα δεδομένων γενικού σκοπού που χρησιμοποιούνται για την αξιολόγηση των δομικών στοιχείων ενός συστήματος VQA. Αυτή η εργασία εξετάζει τις προτάσεις που επικεντρώνονται σε εφαρμογές πραγματικού κόσμου, χρησιμοποιώντας ως σημεία αναφοράς κατάλληλα δεδομένα που συνδέονται στον τομέα της εφαρμογής. Στην εργασία αναφέρονται επίσης ορισμένες πρόσφατες προκλήσεις στην έρευνα VQA.

      Στο VQA, ένας αλγόριθμος πρέπει να απαντά σε ερωτήσεις που βασίζονται σε κείμενο σχετικά με εικόνες. Από την κυκλοφορία του πρώτου συνόλου VQA το 2014, έχουν κυκλοφορήσει πρόσθετα σύνολα δεδομένων και έχουν προταθεί πολλοί αλγόριθμοι. Σε αυτήν την εργασία, εξετάζουμε κριτικά την τρέχουσα κατάσταση του VQA όσον αφορά τη διατύπωση προβλημάτων, τα υπάρχοντα σύνολα δεδομένων, τις μετρήσεις αξιολόγησης και τους αλγόριθμους. Συγκεκριμένα, αναφέρουμε τους περιορισμούς των τρεχόντων συνόλων δεδομένων σε σχέση με την ικανότητα τους να εκπαιδεύουν και να αξιολογούν σωστά τους αλγόριθμους VQA. Στη συνέχεια εξετάζουμε τους υπάρχοντες αλγόριθμους για το VQA [2]. Τέλος, αναφέρουμε πιθανές μελλοντικές κατευθύνσεις για έρευνα VQA και κατανόηση εικόνας.

  12. Hellenic Open University
  13. Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές