Φυσική και Χημεία, Χημειοπληροφορική, Υδατική Τοξικότητα, Μηχανική Μάθηση, Παλινδρόμηση, Python
Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα
3
1
24
Περιλαμβάνει πίνακες, εικόνες, μαθηματικούς τύπους, και ακρωνύμια
Η παρούσα διπλωματική εργασία επικεντρώνεται στη μελέτη και την πρόβλεψη της τοξικότητας των χημικών ενώσεων στα ύδατα μέσω μεθοδολογιών μηχανικής μάθησης. Η τοξικότητα στα ύδατα αφορά την αξιολόγηση των πιθανών επιβλαβών επιδράσεων των χημικών ουσιών στα υδάτινα συστήματα και στη βιοποικιλότητα. Οι χημικές ουσίες που διαλύονται στο νερό μπορεί να επηρεάσουν αρνητικά τους υδρόβιους οργανισμούς, όπως τα ψάρια, τα ασπόνδυλα και τα φύκια, και να συσσωρευτούν στην τροφική αλυσίδα, απειλώντας έτσι και άλλα μέλη των οικοσυστημάτων, συμπεριλαμβανομένων των πτηνών, των θηλαστικών και του ανθρώπου.
Η εργασία επικεντρώνεται στην ανάπτυξη και τη μελέτη μοντέλων πρόβλεψης της οξείας υδατικής τοξικότητας στον οργανισμό Daphnia magna (Νερόψυλλος ο μέγας). Ο οργανισμός Daphnia magna είναι ένας μικρός, πλαγκτονικός οργανισμός που ζει σε περιβάλλοντα γλυκού νερού και χρησιμοποιείται ως πρότυπος οργανισμός για μελέτες υδατικής οικοτοξικότητας. Η πρόβλεψη αφορά το δείκτη LC50 (Lethal Concentration 50), που μετρά τη συγκέντρωση μιας ουσίας που απαιτείται για να προκαλέσει το θάνατο στο 50% του πληθυσμού δοκιμής.
Στα πλαίσια της παρούσας διπλωματικής εργασίας, αναζητήθηκε το κατάλληλο σύνολο δεδομένων, το οποίο εξετάστηκε και αναλύθηκε διεξοδικά. Καθώς το πρόβλημα που μελετάμε ανήκει στα προβλήματα παλινδρόμησης, μελετήθηκαν διάφοροι σχετικοί αλγόριθμοι. Οι αλγόριθμοι αυτοί εφαρμόστηκαν στο επιλεγμένο σύνολο δεδομένων, το οποίο διασπάστηκε σε δύο μέρη: στο σύνολο εκπαίδευσης και το σύνολο ελέγχου. Για την αξιολόγηση των προβλεπτικών μοντέλων, εφαρμόστηκαν κατάλληλες μετρικές, οι οποίες αποτέλεσαν τη βάση για την επιλογή και οριστικοποίηση του τελικού μοντέλου. Τέλος, σχεδιάστηκε και αναπτύχθηκε μια διαδικτυακή εφαρμογή για την αξιοποίηση του προτεινόμενου μοντέλου. Η επεξεργασία, η εξαγωγή στατιστικών, η υλοποίηση και η αξιολόγηση των μοντέλων έγιναν με χρήση της γλώσσας προγραμματισμού Python.
This thesis focuses on the study and prediction of the ecotoxicity of chemical compounds in water using machine learning methodologies. Aquatic toxicity involves the assessment of the potential harmful effects of chemical substances on aquatic systems and biodiversity. Chemicals that disperse in water can negatively impact aquatic organisms such as fish, invertebrates, and algae, and can accumulate in the food chain, thereby threatening other ecosystem members, including birds, mammals, and humans.
The work focuses on the development and study of predictive models for acute aquatic toxicity towards the species Daphnia magna, commonly known as the water flea. Daphnia magna is a small, planktonic organism that inhabits freshwater environments and is used as a model organism for aquatic ecotoxicology studies. The prediction concerns the LC50 index, which measures the concentration of a substance required to cause death in 50% of the test organism's population.
For the purposes of this thesis, an appropriate database was selected, thoroughly examined, and analyzed. Subsequently, the theory of various regression algorithms was presented, as the problem we are studying falls under regression problems. These algorithms were applied to our data, which were first divided into training and testing sets. Appropriate metrics were used to evaluate the predictive models, based on which the final model was selected. Finally, a web application was designed to utilize the proposed model. The data processing, statistical analysis, implementation, and evaluation of the models were conducted using the Python programming language.