Θέμα της παρούσας διπλωματικής αποτελεί η πρόβλεψη τίτλου από ιατρικά άρθρα με
βάση τις περιλήψεις των άρθρων. Η πρόβλεψη τίτλου αντιμετωπίστηκε ως είδος εργασίας
αυτόματης περίληψης της περίληψης (abstract) του άρθρου. Επομένως η διερεύνηση
βασίστηκε στο πρόβλημα της αυτόματης περίληψης και τις σύγχρονες τεχνικές που
ακολουθούν της εξελίξεις στον τομέα της Μηχανικής Μάθησης και των Νευρωνικών
Δικτύων, λαμβάνοντας υπόψη τους περιορισμούς που συνεχίζουν να καθορίζουν το
συγκεκριμένο πρόβλημα.
Για τo σκοπό της εργασίας χρησιμοποιήθηκαν οι τίτλοι και οι περιλήψεις συνόλου 10000
άρθρων συγκεκριμένης θεματολογίας από τη δημόσια ιατρική βιβλιοθήκη PubMed,
δημοσιευμένων το έτος 2024. Για τη δημιουργία του dataset έγινε λήψη των περιλήψεων
και των τίτλων των άρθρων με χρήση του εργαλείου DEiXTo, ενώ για την υλοποίηση του
πειράματος αξιοποιήθηκε το προ-εκπαιδευμένο γλωσσικό μοντέλο facebook/bart-large
cnn, κατάλληλο για την εργασία της αυτόματης περίληψης. Το επιλεγμένο μοντέλο
εκπαιδεύτηκε σε σύνολο 8000 ζευγών περιλήψεων άρθρων και των τίτλων τους και
δοκιμάστηκε σε 1000 περιλήψεις άρθρων. Για την αξιολόγηση των αποτελεσμάτων
χρησιμοποιήθηκαν οι μετρικές ROUGE και BLEU, διαδεδομένες η πρώτη στην
αξιολόγηση αυτόματων περιλήψεων και η δεύτερη στην αυτόματη μετάφραση. Οι
μετρήσεις των αποτελεσμάτων κινήθηκαν σχετικά κοντά στα αναμενόμενα επίπεδα,
καταδεικνύοντας την ιδιαιτερότητα του προβλήματος της αυτόματης περίληψης.
Ενδεικτικά της ιδιαιτερότητας αυτής είναι τα αποτελέσματα της σύγκρισης που
πραγματοποιήθηκε ανάμεσα στους τίτλους που παράχθηκαν από το εκπαιδευμένο μοντέλο
και σε εκείνους που προέβλεψε το γλωσσικό μοντέλο Gemini 2.0. Συγκεκριμένα, στις
προβλέψεις τίτλων του δεύτερου μοντέλου περιλαμβάνονταν τίτλοι παρόμοιοι με τους
παραχθέντες από το πρώτο μοντέλο, όπως επίσης και πολύ διαφορετικοί τίτλοι.
Τα αποτελέσματα της εργασίας επιβεβαιώνουν τα περιθώρια περαιτέρω έρευνας και
ανάπτυξης στον τομέα της αυτόματης περίληψης, ενώ παράλληλα η παρούσα εργασία
καταδεικνύει μία από τις πολλές και διαφορετικές υλοποιήσεις του τομέα.
The subject of this thesis is the provision of a title from medical articles based on the
abstracts of the articles. Title prediction was treated as a kind of automatic summary of the
article summary. Therefore, the investigation was based on the problem of automatic
summary and the modern techniques that follow the developments in the field of Machine
Learning and Neural Networks, taking into account the limitations that continue to define
this problem. For the purpose of the work, the titles and abstracts of a total of 10000 topic
specific articles from the public medical library PubMed, published in the year 2024, were
used. For the creation of the dataset, the summaries and titles of the articles were
downloaded using the DEiXTo tool, while for the implementation of the experiment the
pre-trained language model facebook/bart-large-cnn, suitable for the task of automatic
summarization, was used. The selected model was trained on a total of 8000 pairs of
article summaries and their titles and tested on 1000 article summaries. The ROUGE and
BLEU metrics were used to evaluate the results, the former widespread in the evaluation
of automatic summaries, and the latter in machine translation. The results measurements
moved relatively close to the expected levels, demonstrating the specificity of the problem
of automatic summarization. Indicative of this peculiarity are the results of the comparison
made between the titles produced by the trained model and those predicted by the Gemini
2.0 language model. In particular, the predicted titles of the second model included titles
very similar to those produced by the first model, as well as very different ones. The
results of the thesis confirm the scope for further research and development in the field of
automatic summarization, while at the same time the present paper demonstrates one of
the many different implementations of the field.