- MSc thesis
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 14 Σεπτεμβρίου 2024
- Ελληνικά
- 83
- ΙΩΑΝΝΗΣ ΡΕΦΑΝΙΔΗΣ
- natural language processing (NLP) | Neo4j | Knowledge Graphs | AI | MACHINE LEARNING | Γράφοι γνώσης
- ΠΛΣΔΕ
- 1
- 84
-
-
Η διπλωματική εργασία με τίτλο "Δημιουργία γράφων γνώσης από κείμενο" επικεντρώνεται στη δημιουργία γράφων γνώσης από ελεύθερο κείμενο χρησιμοποιώντας τεχνικές επεξεργασίας φυσικής γλώσσας (NLP) και μηχανικής μάθησης. Η μελέτη είναι δομημένη για να καλύψει τις διάφορες πτυχές της NLP και της κατασκευής γράφων γνώσης, καθώς και της δημιουργίας κειμένου από γράφο γνώσης, παρέχοντας μια λεπτομερή εξέταση των μεθοδολογιών και των τεχνολογιών που χρησιμοποιούνται.
Η εργασία ξεκινά εξετάζοντας τον τομέα της NLP, περιγράφοντας τη σημασία της, τις εφαρμογές της και την ιστορική της ανάπτυξη. Επισημαίνεται πώς η NLP επιτρέπει στους υπολογιστές να κατανοούν, να επεξεργάζονται και να δημιουργούν την ανθρώπινη γλώσσα, το οποίο είναι κρίσιμο για διάφορες εφαρμογές όπως αυτόματη μετάφραση, ανάλυση συναισθημάτων και chatbots. Βασικές έννοιες στην NLP, όπως η κατανόηση φυσικής γλώσσας (NLU) και η παραγωγή φυσικής γλώσσας (NLG), συζητούνται μαζί με τις βασικές αρχιτεκτονικές τεχνικές και τα εργαλεία που χρησιμοποιούνται, όπως τα NLTK, Spacy και Stanford CoreNLP (Stanza).
Μετά την θεμελιώδη συζήτηση για την NLP, η εργασία εξετάζει τους γράφους γνώσης, ορίζοντας τους και εξηγώντας τη σημασία τους στην αναπαράσταση και οργάνωση της πληροφορίας. Οι γράφοι γνώσης απεικονίζονται ως μεγάλα δίκτυα οντοτήτων, των σημασιολογικών τους τύπων, ιδιοτήτων και σχέσεων. Η εργασία εξετάζει το ιστορικό πλαίσιο των γράφων γνώσης και την ενσωμάτωσή τους με τεχνολογίες όπως ο Σημασιολογικός Ιστός και τα Διασυνδεδεμένα Δεδομένα, τονίζοντας τη σημασία τους σε διάφορους τομείς μέσω εφαρμογών όπως το Google Knowledge Graph και το Neo4j.
Ένα σημαντικό μέρος της εργασίας αφιερώνεται στις πρακτικές πτυχές της δημιουργίας ενός γράφου γνώσης από κείμενο. Αυτό περιλαμβάνει τον σχεδιασμό των οντοτήτων και των σχέσεων, την κωδικοποίηση των απαραίτητων κλάσεων και αλγορίθμων, και τη χρήση του εργαλείου Stanza για την ανάλυση κειμένου. Η διαδικασία περιλαμβάνει την εξαγωγή προτάσεων, τον εντοπισμό οντοτήτων και την καθιέρωση σχέσεων σε μια δομημένη μορφή βάσης δεδομένων με το πρόγραμμα Neo4j. Χρησιμοποιήθηκε ένα κείμενο 5 προτάσεων στην αγγλική γλώσσα για να την δημιουργία του γράφου γνώσης.
Στη συνέχεια η εργασία επικεντρώνεται σε μια εφαρμογή της μετατροπής ελεύθερου κειμένου σε γράφο γνώσης η οποία είναι η αυτόματη μετάφραση. Η διαδικασία περιλαμβάνει την μετάφραση λέξεων στην Ισπανική γλώσσα με την επεξεργασία ενός γράφου γνώσης και την επιστροφή κειμένου μεταφρασμένο. Περιγράφονται όλες οι μέθοδοι και οι τεχνικές που χρησιμοποιούνται για την ανακατασκευή του κειμένου των 5 προτάσεων από τα Αγγλικά στα Ισπανικά, «διαβάζοντας» τον γράφο γνώσης.
Η εργασία καταλήγει με μια σύνοψη των περιορισμών του μοντέλου και πιθανές μελλοντικές βελτιώσεις. Αναγνωρίζονται οι προκλήσεις στην αντιμετώπιση σύνθετων προτάσεων και προτείνονται τομείς για περαιτέρω έρευνα, όπως η βελτίωση της ακρίβειας της αναγνώρισης οντοτήτων και της εξαγωγής σχέσεων.
-
The thesis titled "Creating Knowledge Graphs from Text" focuses on the creation of knowledge graphs from free text using natural language processing (NLP) and machine learning techniques. The study is structured to cover various aspects of NLP and knowledge graph construction, as well as the generation of text from a knowledge graph, providing a detailed examination of the methodologies and technologies used.
The thesis begins by examining the field of NLP, describing its significance, applications, and historical development. It highlights how NLP enables computers to understand, process, and generate human language, which is crucial for various applications such as automatic translation, sentiment analysis, and chatbots. Key concepts in NLP, such as natural language understanding (NLU) and natural language generation (NLG), are discussed along with the main architectural techniques and tools used, such as NLTK, Spacy, and Stanford CoreNLP (Stanza).
Following the fundamental discussion on NLP, the thesis explores knowledge graphs, defining them and explaining their importance in representing and organizing information. Knowledge graphs are depicted as large networks of entities, their semantic types, properties, and relationships. The thesis examines the historical context of knowledge graphs and their integration with technologies like the Semantic Web and Linked Data, emphasizing their significance in various fields through applications such as the Google Knowledge Graph and Neo4j.
A significant portion of the thesis is dedicated to the practical aspects of creating a knowledge graph from text. This includes designing entities and relationships, coding the necessary classes and algorithms, and using the Stanza tool for text analysis. The process involves extracting statements, identifying entities, and establishing relationships in a structured database format using Neo4j. A text of 5 sentences in English was used for the creation of the knowledge graph.
The thesis then focuses on an application of converting free text into a knowledge graph, which is automatic translation. The process involves translating words into Spanish by processing a knowledge graph and returning translated text. All methods and techniques used to reconstruct the text of the 5 sentences from English to Spanish by "reading" the knowledge graph are described.
The thesis concludes with a summary of the model's limitations and potential future improvements. Challenges in handling complex sentences are acknowledged, and areas for further research are suggested, such as improving the accuracy of entity recognition and relationship extraction.
-
- Hellenic Open University
- Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές