Τεχνικές εξόρυξης δεδομένων και η εφαρμογή τους στα επιστημονικά ερευνητικά άρθρα

Data mining techniques and their application in the scientific research articles (english)

  1. MSc thesis
  2. Κούτσου, Γεωργία
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 18 September 2021 [2021-09-18]
  5. Ελληνικά
  6. 193
  7. Μαυρομμάτης, Γεώργιος
  8. Βασιλακόπουλος, Μιχαήλ | Φωκά, Αμαλία
  9. Εξόρυξη Δεδομένων | Data Mining | Ανάλυση Κειμένου | Text Analytics | Αλγόριθμοι Μηχανικής Μάθησης | Machine Learning Algorithms | Τεχνικό Χρέος | Technical Debt
  10. 1
  11. 2
  12. 29
  13. Περιέχει : πίνακες, διαγράμματα, εικόνες
    • H μελέτη και η ανασκόπηση της επιστημονικής βιβλιογραφίας αποτελεί έναν από τους σημαντικότερους πυλώνες της επιστημονικής έρευνας. Η ανάλυση του σώματος της επιστημονικής βιβλιογραφίας συνεισφέρει, μεταξύ άλλων, στην κατανόηση των τάσεων της επιστήμης και στην εύρεση σχετικών με κάποιο τομέα άρθρων (Gulo, Rubio, Tabassum & Prado, 2015a). Στόχος της παρούσας εργασίας ήταν να εφαρμοστούν οι κατάλληλες τεχνικές ανάλυσης κειμένου στην επιστημονική βιβλιογραφία και ειδικότερα σε ένα συγκεκριμένο επιστημονικό πεδίο, το τεχνικό χρέος, προκειμένου • να ανακαλυφθεί νέα γνώση αναφορικά με αυτό το πεδίο, • να εξαχθούν χρήσιμες πληροφορίες μέσα από μια διαδικασία αναγνώρισης και εξερεύνησης σημαντικών προτύπων, • να ανακαλυφθούν οι τάσεις της έρευνας γύρω από αυτό το αντικείμενο, • να διερευνηθούν τυχόν άλλοι τομείς ή κλάδοι στους οποίους επεκτείνεται, • να δημιουργηθούν ένα ή περισσότερα μοντέλα ταξινόμησης για την κατηγοριοποίηση της έρευνας στο εν λόγω επιστημονικό πεδίο. Στο πλαίσιο αυτό αρχικά κάναμε μια βιβλιογραφική έρευνα σχετικά με τις τεχνικές που εφαρμόζονται στα επιστημονικά ερευνητικά άρθρα. Στη συνέχεια εφαρμόσαμε αυτές τις τεχνικές στο σύνολο δεδομένων το οποίο αφορούσε το τεχνικό χρέος, έναν νέο τομέα της τεχνολογίας λογισμικού. Πιο συγκεκριμένα, εφαρμόσαμε από τους αλγορίθμους μη επιβλεπόμενης μηχανικής μάθησης το Topic Modeling, το K-means Clustering και το Hierarchical Clustering και από τους αλγόριθμους επιβλεπόμενης μηχανικής μάθησης εφαρμόσαμε το Decision Tree, το Support Vector Machine Linear, το K-Nearest Neighbor και το Naïve Bayes. Αντικείμενο εφαρμογής των αλγόριθμων ήταν δύο σύνολα δεδομένων, ένα που περιέχει τον όρο αναζήτησης “technical debt” OR “TD” (1o dataset) και ένα που περιέχει μόνο τα σχετικά με το τεχνικό χρέος άρθρα (2o dataset). Μια σημαντική παρατήρηση που προκύπτει, μεταξύ άλλων είναι, ότι το τεχνικό χρέος σχετίζεται με την ποιότητα του πηγαίου κώδικα και τις μετρικές ποιότητας. Επίσης η συσσώρευση τεχνικού χρέους και οι επιπτώσεις του είναι ένα ζήτημα για το οποίο γίνεται εκτενής αναφορά σε ένα μεγάλο αριθμό άρθρων. Επιπρόσθετα ένα άλλο ζήτημα που εντοπίζεται ότι απασχολεί τους ερευνητές είναι η διαχείρισή του. Αυτά προκύπτουν, όπως θα δούμε παρακάτω, από την k-means συσταδοποίηση που εφαρμόζουμε στο 2ο dataset καθώς και από τα δέντρα απόφασης που προκύπτουν στο 2o dataset του Σεναρίου 1. Αρχικά ξεκινήσαμε με τη δημιουργία ενός νέφους λέξεων (word cloud) στο 1ο dataset προκειμένου να διαπιστώσουμε με οπτικό τρόπο τους όρους με τους οποίους συσχετίζεται το τεχνικό χρέος. Εν πρώτοις, διαπιστώσαμε ότι αυτό το dataset είχε μη σχετικά με το τεχνικό χρέος άρθρα. Με την τεχνική του topic modeling καταφέραμε να χωρίσουμε τα δεδομένα μας και να πετύχουμε έναν διαχωρισμό σε σχετικά και μη σχετικά με το τεχνικό χρέος άρθρα. Έτσι προέκυψε το 2o dataset. Στη συνέχεια με τη k-means συσταδοποίηση στο 2ο dataset ομαδοποιήσαμε τα δεδομένα μας, τους προσδώσαμε μια ετικέτα κατηγορίας και με τη δημιουργία μοντέλων ταξινόμησης καταφέραμε να τα κατηγοριοποιήσουμε με ικανοποιητική ακρίβεια, 97,75%. Επιπρόσθετα με τη βοήθεια της ιεραρχικής συσταδοποίησης στο 2ο dataset καταφέραμε να εντοπίσουμε, μεταξύ άλλων, εκείνα που αφορούν τη συντήρηση λογισμικού. Τέλος με την δική μας εμπειρική ομαδοποίηση στο 2ο dataset δημιουργήσαμε ένα μοντέλο ταξινόμησης το οποίο εντοπίζει άρθρα σχετικά με τη συντήρηση λογισμικού και των λοιπών κατηγοριών, που έχουμε εισάγει στο σύνολο δεδομένων μας, με αρκετά καλή ακρίβεια, 88,14%. Ωστόσο το μοντέλο αυτό γενικά είχε μικρότερη ακρίβεια σε σχέση με το μοντέλο στα οποίο η ετικέτα κατηγορίας προέκυψε από το k-means clustering στο 2ο dataset.
    • The study and review of the scientific literature is one of the most important pillars of scientific research. The analysis of the corpus of the scientific literature contributes, among others, to the comprehension of the trends of science and to the identification of articles related to a specific field (Gulo, Rubio, Tabassum & Prado, 2015a). The aim of this thesis was to apply the appropriate techniques of text analytics in the scientific literature and particularly in a specific scientific field, technical debt, in order to • discover new knowledge concerning the specific field, • extract useful information through a process of identifying and exploring important patterns, • discover the research trends concerning this subject, • investigate any other sectors or branches to which it extends, • create one or more classification models to categorize research in that scientific field. In this context we initially did a bibliographic research on the techniques applied in the scientific research articles. Then we applied these techniques to the technical debt dataset, a new area of software technology. More specifically, we applied Topic Modeling, K-means Clustering and Hierarchical Clustering from the unsupervised machine learning algorithms and the Decision Tree, Support Vector Machine Linear, K-Nearest Neighbor and Naïve Bayes from the supervised machine learning algorithms. The algorithms were applied to two sets of data, one containing the search term "technical debt" OR "TD" (1st dataset) and one containing only the articles related to technical debt (2nd dataset). An important observation that arises is that technical debt is related to source code quality and quality metrics. Also, the accumulation of technical debt and its effects is an issue that is extensively reported in a large number of articles. In addition, another issue that is noticed to concern researchers is its management. These result, as we will see, from the k-means clustering that we apply to the 2nd dataset as well as from the decision trees that result from the 2nd dataset of Scenario 1. We first started by creating a word cloud in the 1st dataset in order to visually determine the terms to which the technical debt is related. First, we noticed that the dataset had non-technical debt related articles. Using topic modeling technique we managed to separate our data and achieve a separation into articles related to and not related to technical debt. This is how the 2nd dataset created. Then applying k-means clustering technique in the 2nd dataset we grouped our data, we attached to them a category label and by creating classification models we managed to classify them with satisfactory accuracy, 97.75%. Also applying hierarchical clustering technique we managed to identify, among others, those related to software maintenance. Finally, with our own empirical grouping, we created a classification model that identifies articles on software maintenance and other categories that we have inserted into our dataset, with good enough accuracy, 88.14%. However, these models were generally less accurate than the models in which the category label was derived from k-means clustering technique in the 2nd dataset.
  14. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.