Η πτυχιακή εργασία έχει στόχο να αναδείξει την χρησιμότητα της «υπολογιστικής όρασης» και των εφαρμογών επαυξημένης πραγματικότητας (Augmented Reality) σε εμπειρίες με εκπαιδευτικό και ψυχαγωγικό περιεχόμενο.
Συγκεκριμένα, πραγματεύεται τις τεχνολογίες τεχνητής όρασης (Computer Vision) και μηχανικής μάθησης (Machine Learning) και την εξέλιξη των αλγόριθμων αναγνώρισης αντικειμένων. Εξετάζονται αρχιτεκτονικές τεχνητών νευρωνικών δικτύων SVM και CNN και βιβλιοθήκες ανοιχτού κώδικα: OpenCV, TensorFlow και Deeplearning4J. Δημιουργούνται μοντέλα ταξινόμησης και αξιολογούνται στην απόδοσή τους όσο αφορά στην γενίκευση όσο και στην ορθότητα της ταξινόμησης.
Μετά την κατασκευή του τελικού μοντέλου, αναπτύσσεται εφαρμογή η οποία συνδέεται με κινητούς σταθμούς (android, Raspberry Pi) οι οποίοι, ως οπτικοί αισθητήρες, αναγνωρίζουν αντικείμενα και προβάλουν σχετικές σημάνσεις ή άλλου είδους πληροφορία για αυτά, πάνω στην ζωντανή εικόνα.
The project aims to promote the usability of «Computer Vision» and especially the «Augmented Reality» applications in experiences with an educational and/or entertainment context.
Specifically, it deals with Computer Vision and Machine Learning technology and the latest developments in object detection algorithms. Architectures of artificial neural networks are studied like SVM and CNN as well as open source libraries and packages, namely OpenCV, TensorFlow, Deeplearning4J, Keras. Classification models are created and evaluated on their performance and generalization capabilities.
After the creation of the final classification model, we present an application for connecting remote cameras from mobile devices (android, Raspberry Pi). Acting like optical sensors, they send streams of data to a server which classifies the scene and detects/tracks objects by marking them and overlaying relevant information on top of the live image.