Χρήση εξαγωγέα (web scraper) στο διαδίκτυο για συλλογή και σύνδεση των δεδομένων

  1. MSc thesis
  2. ΧΡΗΣΤΟΣ ΒΟΥΛΟΥΤΑΚΗΣ
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 30 Σεπτεμβρίου 2023
  5. Ελληνικά
  6. 118
  7. Καραπιπέρης, Δημήτριος
  8. web scraper RDF triples Python Beautiful Soup OpenLinkVirtuoso
  9. Πηροφορικά Συστήματα
  10. 1
  11. 9
    • Η παρούσα εργασία πραγματεύεται τη συλλογή δεδομένων από το διαδίκτυο με τη χρήση εξαγωγέων (web scrapers) και κατόπιν, την επεξεργασία, μετασχηματισμό και αποθήκευση αυτών των δεδομένων με τη μορφή RDF triples με τη χρήση ενός ενιαίου λεξικού. Η χρήση των εξαγωγέων δεδομένων είναι ευρέως διαδεδομένη και αποσκοπεί στην άντληση δεδομένων από διάφορα σημεία του Παγκόσμιου Ιστού όπου, είτε δεν υπάρχει αντίστοιχο API είτε η παροχή των δεδομένων μέσω του API δεν είναι πλήρης.

      Η υλοποίηση της εργασίας για την ανάπτυξη του λογισμικού πραγματοποιήθηκε με τη χρήσης της γλώσσας προγραμματισμού Python και μιας πληθώρας σχετικών βιβλιοθηκών της Python (BeautifulSoup, selenium, requests, rdflib, pandas, SPARQLWrapper κ.α) όσον αφορά τη συλλογή των δεδομένων μέσω της ανάλυσης HTML περιεχομένου για την περίπτωση ανάκτησης δεδομένων από το διαδίκτυο με τον κατάλογο των ποδοσφαιρικών συλλόγων που έχουν κατακτήσει το UEFA Champions League καθώς και στατιστικά στοιχεία της διοργάνωσης, ενώ για τη δημιουργία της βάσης δεδομένων όπου έγινε η απθήκευση των δεδομένων με τη μορφή RDF/Turtle τριπλετών έγινε η χρήση του πακέτου λογισμικού OpenLink Virtuoso Open Source Edition, η οποία είναι η ελεύθερη έκδοση του αντίστοιχου εμπορικού λογισμικού.

  12. Hellenic Open University
  13. Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές