Η παρούσα εργασία ασχολείται με το πρόβλημα της περίληψης video με χρήση αντιπροσωπευτικών εικονοπλαισίων. Ο βασικός αλγόριθμος που χρησιμοποιήθηκε είναι ο Dip-dist, με τον οποίο διαχωρίζεται ένα video σε ομοιογενή, ως προς το οπτικό περιεχόμενο, τμήματα χρησιμοποιώντας ελέγχους μονοτροπικότητας των αποστάσεων των ιστογραμμάτων των εικονοπλαισίων μέσα σε ένα κυλιόμενο παράθυρο. Στη συνέχεια δημιουργείται η περίληψη του video επιλέγοντας ένα χαρακτηριστικό εικονοπλαίσιο από κάθε μονοτροπικό τμήμα.
Η μέθοδος αυτή υλοποιήθηκε στο λογισμικό vsum που αποτελεί το κύριο παραδοτέο αυτής της εργασίας. Η εφαρμογή αναπτύχθηκε σε γλώσσα Python προκειμένου να αξιοποιηθούν οι πλούσιες βιβλιοθήκες της σε διαχείριση και επεξεργασία εικόνων καθώς και σε μηχανική και υπολογιστική όραση. Το λογισμικό επιτρέπει στο χρήστη να καθορίζει ένα video, δημιουργεί την περίληψή του επιλέγοντας χαρακτηριστικά εικονοπλαίσια και παρουσιάζει την περίληψη αυτή. Επιπλέον ο χρήστης μπορεί να καθορίσει τις τιμές διάφορων παραμέτρων της βασικής μεθόδου. Αξίζει να σημειωθεί ότι υλοποιήθηκε και web interface για τη διαδικτυακή χρήση της εφαρμογής.
Στη συνέχεια υλοποιήθηκαν και αξιολογήθηκαν τρεις τεχνικές για τη βελτίωση της περίληψης που παρέχει η βασική μέθοδος. Οι τεχνικές χρησιμοποιούν την απόσταση ιστογραμμάτων, την δομική ομοιότητα SSIM και την αναγνώριση και ταύτιση αντικειμένων σε γειτονικά εικονοπλαίσια. Η τελευταία προσέγγιση βασίστηκε στις δυνατότητες εντοπισμού και αναγνώρισης αντικειμένων σε εικόνες, οι οποίες παρέχονται από βαθύ συνελικτικό νευρωνικό δίκτυο YOLO. Για την πειραματική αξιολόγηση των μεθόδων επιλέχθηκαν 60 videos (10 videos για καθεμιά από 6 διαφορετικές κατηγορίες), καθορίστηκε η επιθυμητή (ground truth) κατάτμησή τους και υπολογίστηκαν δείκτες πληρότητας και πλεονασμού που αξιολογούν την περίληψη που προκύπτει σε σχέση με την ground truth κατάτμηση. Έγινε εκτεταμένη πειραματική μελέτη που αναδεικνύει τα πλεονεκτήματα και μειονεκτήματα των μεθόδων για κάθε κατηγορία video.
The topic of the thesis is video summarization using visual information. This is achieved through video segmentation and the extraction of a representative key-frame for each video segment. The main approach that has been implemented uses a sliding window over the frame sequence. It is based on the Dip-dist criterion that employs the dip-test for unimodality in order to decide whether the set of successive frames inside a window is unimodal, ie. homogeneous with respect to content or not. In this the video is partitioned into unimodal segments and a representative key frame is selected from each unimodal segment and is included in the video summary.
In order to improve the summary provided by the main algorithm, three postprocessing methods have been implemented and evaluated aiming to remove neighboring key-frames that similar to each other. The first method is based in histogram similarity, the second method is based on structural image similarity (SSIM), while the third approach is more complicated and relies on object detection, recognition and matching. In order to detect and recognize the objects in a key-frame, a pretrained convolutional neural network has been used, namely the YOLO neural network model.
An experimental evaluation of the methods has been conducted using 60 videos belonging to six categories. For each of these videos the ground truth segmentation has been provided and the summary generated by a method is compared to ground truth. From the experimental results useful empirical conclusions have been drawn regarding the effectiveness of the examined techniques for each video category.
Τεχνικές Αυτόματης Περίληψης Video Βασισμένες σε Ελέγχους Μονοτροπικότητας Περιγραφή: HOU-CS-UGP-2018-2.pdf (pdf)
Book Reader Άδεια: An error occurred on the license name. Πληροφορίες: primary:true Μέγεθος: 7.0 MB
Τεχνικές Αυτόματης Περίληψης Video Βασισμένες σε Ελέγχους Μονοτροπικότητας - Identifier: 72468
Internal display of the 72468 entity interconnections (Node labels correspond to identifiers)