μηχανική μάθηση | machine learning | υπολογιστική όραση | computer vision | συνελικτικά νευρωνικά δίκτυα | convolution neural networks | ανίχνευση αντικειμένων | object detection | κινητή εφαρμογή | mobile application | άτομα με προβλήματα όρασης | visually impaired people
4
1
55
Περιέχει: εικόνες, πίνακες,
Χάρη στην πρόοδο της τεχνητής νοημοσύνης και τις καινοτομίες στη βαθιά μάθηση και τα νευρωνικά δίκτυα, το πεδίο της υπολογιστικής όρασης κατάφερε να κάνει μεγάλα άλματα τα τελευταία χρόνια. Ένας από τους κινητήριους παράγοντες πίσω από την ανάπτυξη της μηχανικής όρασης στις μέρες μας είναι ο μεγάλος όγκος των δεδομένων που παράγουμε σήμερα και που στη συνέχεια χρησιμοποιούνται για την εκπαίδευση των μοντέλων μηχανικής μάθησης. Μαζί με τον τεράστιο όγκο οπτικών δεδομένων, οι διευρυμένες δυνατότητες των σύγχρονων επεξεργαστών βοήθησαν στην πραγματοποίηση των πολύπλοκων υπολογισμών που απαιτούνται από τους μηχανισμούς βαθιάς μάθησης. Καθώς λοιπόν τα μοντέλα τροφοδοτούνται με περισσότερα δεδομένα και πιο εξελιγμένους αλγόριθμους οι προβλέψεις γίνονται όλο και πιο ταχείες και πιο ακριβείς.
Οι πρόσφατες λοιπόν εξελίξεις μας δώσαν νέες δυνατότητες. Η υπολογιστική όραση δε μπορεί για την ώρα να υποκαταστήσει τη βιολογική, μπορεί ωστόσο να υποβοηθήσει τα άτομα που στερούνται μερικώς ή πλήρως της οράσεώς τους να γίνουν περισσότερο αυτόνομοι και να νιώθουν λιγότερο αποκλεισμένοι. Η παρούσα Διπλωματική Εργασία φιλοδοξεί να βοηθήσει τα άτομα αυτά στις καθημερινές τους δραστηριότητες χωρίς να είναι απαραίτητο να αγοράσουν κάποιον εξειδικευμένο, ογκώδη ή ακριβό εξοπλισμό.
Στόχος της παρούσας μελέτης αποτελεί η ανάπτυξη εφαρμογής κινητής συσκευής (Android) που αποσκοπεί στην υποβοήθηση ατόμων με περιορισμένη όραση ώστε να αντιλαμβάνονται καλύτερα τον περιβάλλοντα χώρο τους και να μετακινούνται με ασφάλεια και ανεξαρτησία μέσα σε αυτόν. Η κινητή συσκευή θα κάνει χρήση τεχνικών μηχανικής μάθησης για την ανίχνευση και αναγνώριση κοινών αντικειμένων στο χώρο και θα ειδοποιεί το χρήστη για την παρουσία αυτών και τη σχετική τους τοποθεσία με κατάλληλα ηχητικά μηνύματα. Επιπρόσθετα, εκτός από την αναγνώριση αντικειμένων η εφαρμογή θα μπορεί να ανιχνεύει και να εκφωνεί κείμενο στο χρήστη.
Οι μεθοδολογίες που ακολουθήθηκαν στην ανάπτυξη της εφαρμογής είναι οι εξής: Αρχικά μελετήθηκαν οι πιο πρόσφατες εφαρμογές υποβοήθησης τυφλών και ατόμων με προβλήματα όρασης. Έπειτα, εξετάστηκαν οι πιο πρόσφατοι αλγόριθμοι για την αναγνώριση αντικειμένων και το πως αυτοί θα μπορούσαν να ενσωματωθούν σε μια κινητή συσκευή. Στη συνέχεια, καθορίστηκαν λεπτομερώς οι τεχνικές και σχεδιαστικές απαιτήσεις της εφαρμογής βάσει των οποίων θα γίνει η υλοποίηση. Επιλέγοντας ένα αρχικό μοντέλο μηχανικής μάθησης προστέθηκαν όλες οι βασικές δυνατότητες όπως αυτές ορίστηκαν από το καθορισμό των απαιτήσεων. Προστέθηκαν όλες οι λειτουργίες ώστε τα ευρήματα του αλγορίθμου να παρουσιαστούν στο χρήστη με κατάλληλο τρόπο. Τέλος επιλέχθηκε και βελτιστοποιήθηκε το καταλληλότερο μοντέλο για την αναγνώριση κοινών αντικειμένων το οποίο θα μπορεί να ‘τρέχει’ με ακρίβεια και ταχύτητα σε μια κινητή συσκευή σεβόμενο τις ιδιαίτερες ανάγκες των χρηστών του αλλά και τους εν γένει περιορισμούς που μπορεί να εισάγει μια μικρού μεγέθους φορητή συσκευή.
Τα αποτελέσματα της αξιολόγησης της εφαρμογής έδειξαν ικανοποιητική απόδοση του συστήματος στην πλειοψηφία των αντικειμένων που εξετάστηκαν.
Thanks to advances in artificial intelligence and innovations in deep learning and neural networks, the field of computer vision has been able to take great leaps in recent years. One of the driving factors behind the development of computer vision is the amount of data we generate today that is then used to train machine learning models. Along with the tremendous volume of visual data, the expanded capabilities of modern processors have helped us to perform more complex calculations required by deep learning models. As long as models are fed with more data and more sophisticated algorithms are used, predictions have become faster and more accurate.
Recent technological developments have given us new possibilities. Computer vision may not have replaced biological vision yet, but it can help people who are blind or partially sighted to become more autonomous and not feel excluded. This thesis aims to assist these individuals in their day-to-day activities without the need of specialized, bulky, or expensive equipment. The aim of this study is to develop a mobile android application that can help people with limited vision to better understand their surroundings and move around safely and independently. The mobile device will use machine learning techniques to detect and identify common objects and will notify the user about their relative location with appropriate audio messages.
The methodologies followed in the development of the application are the following: Initially, the latest applications for the assistance of the blind and visually impaired were studied. Next, the most recent algorithms for object recognition and how they could be integrated into a mobile device were examined. Then, the technical requirements and design strategies were defined in detail. After selecting and deploying an initial machine learning model all the key features defined by the requirements were implemented. Additions were made so that the findings of the algorithm are presented to the user in an appropriate way. Finally, after running several tests the most appropriate model for the identification of common objects was selected and optimized to be able to run efficiently on a mobile device, respecting the special needs of its users and the limitations that a small portable device can introduce.
The results of the evaluation of the application showed satisfactory performance of the system in most of the objects examined.
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.
Κύρια Αρχεία Διατριβής
Χρήση Τεχνικών Μηχανικής Μάθησης για την Ανάπτυξη Κινητής Εφαρμογής Υποβοήθησης Ατόμων με Προβλήματα Όρασης Περιγραφή: 133518_ΘΕΟΦΑΝΙΔΟΥ_ΣΟΦΙΑ.pdf (pdf)
Book Reader Μέγεθος: 2.3 MB
Χρήση Τεχνικών Μηχανικής Μάθησης για την Ανάπτυξη Κινητής Εφαρμογής Υποβοήθησης Ατόμων με Προβλήματα Όρασης - Identifier: 71656
Internal display of the 71656 entity interconnections (Node labels correspond to identifiers)