Delphi-2M: Πώς ένα μεγάλο μετασχηματιστικό μοντέλο προβλέπει τις ασθένειες της ζωής μας

Το άρθρο παρουσιάζει την ανάπτυξη ενός εξελιγμένου μοντέλου τεχνητής νοημοσύνης που ονομάζεται Delphi-2M, βασισμένο στην αρχιτεκτονική μετασχηματιστικών (transformer) μοντέλων όπως τα GPT. Το μοντέλο εκπαιδεύτηκε σε δεδομένα από περίπου 400.000 συμμετέχοντες στο UK Biobank, ενώ επικυρώθηκε με εξωτερικά δεδομένα από 1,9 εκατομμύρια άτομα στη Δανία — χωρίς αλλαγή παραμέτρων. Το Delphi-2M έχει ως στόχο να προβλέπει την πιθανότητα εμφάνισης πάνω από 1.000 διαγνώσεων (ασθένειες) με βάση το ιστορικό υγείας του ατόμου, με ακρίβεια συγκρίσιμη ή καλύτερη απ’ ό,τι τα υπάρχοντα μοντέλα που επικεντρώνονται σε μία ασθένεια κάθε φορά. Το μοντέλο δεν περιορίζεται στην πρόβλεψη μιας μόνο ασθένειας, αλλά παράγει γενετικές προσομοιώσεις μελλοντικών διαδρομών ασθένειας (health trajectories) για τον καθένα, προβλέποντας ως και 20 χρόνια στο μέλλον. Αυτό επιτρέπει την εκτίμηση του μελλοντικού φορτίου νόσων σε επίπεδο πληθυσμού, και μπορεί να χρησιμοποιηθεί για πρόληψη, υγειονομικό σχεδιασμό, και δημόσια πολιτική για την υγεία [Shmatko, A., Jung, A.W., Gaurav, K. et al. Learning the natural history of human disease with generative transformers. Nature (2025). https://doi.org/10.1038/s41586-025-09529-3].

Το Delphi-2M χρησιμοποιεί ως είσοδο όχι μόνο το ιστορικό διαγνώσεων (διαγνώσεις ICD-10), αλλά και παράγοντες όπως φύλο, δείκτης μάζας σώματος (BMI), καπνιστικές συνήθειες, κατανάλωση αλκοόλ, κατάσταση θανάτου, και άλλες σχετικές μεταβλητές που επηρεάζουν τον κίνδυνο νόσου. Για να αντιμετωπιστούν μεγάλα χρονικά διαστήματα χωρίς γεγονότα διαγνωστικά, το μοντέλο εισάγει «no-event padding tokens», δηλαδή σημάδια ότι δεν συνέβη κάποια διάγνωση σε ένα χρονικό διάστημα, ώστε να προσομοιωθεί καλύτερα η χρονική εξέλιξη της υγείας. Σε συγκριτικές δοκιμές, το μοντέλο έδειξε απόδοση παρόμοια ή υπερτερούσα από υπάρχοντα μοντέλα που προβλέπουν μία ασθένεια: π.χ. μοντέλα που χρησιμοποιούν βιοδείκτες ή μοντέλα βασισμένα σε μεμονωμένες ασθένειες. Επιπλέον, ανέδειξε συσσωματώσεις νοσημάτων (comorbidity clusters) — ομάδες ασθενειών που συχνά εμφανίζονται μαζί — και πώς προηγούμενα γεγονότα υγείας επηρεάζουν την πιθανότητα επόμενων.

Οι ερευνητές τονίζουν ότι, παρόλο που το μοντέλο προβλέπει εξαιρετικά καλά σε επίπεδο πληθυσμού, δεν πρέπει να ερμηνεύεται ως αιτιώδες εργαλείο· δηλαδή, οι συσχετίσεις που μαθαίνει δεν αποδεικνύουν ότι ένα παλιότερο γεγονός προκαλεί το επόμενο νόσημα. Επίσης επισημαίνονται διάφορες πηγές μεροληψίας: για παράδειγμα η συμμετοχή στο UK Biobank έχει «healthy volunteer bias», δηλαδή τα άτομα που συμμετέχουν είναι πιο πιθανόν να είναι υγιέστερα ή να έχουν καλύτερη πρόσβαση σε υγειονομική φροντίδα. Ένα ακόμη όριο είναι ότι ορισμένες ηλικιακές ομάδες ή εθνοτικές ομάδες είναι υποεκπροσωπούμενες στα δεδομένα, κάτι που μπορεί να μειώνει την ακρίβεια ή την ισότητα στις προβλέψεις για αυτές τις ομάδες. Επίσης, ενώ το μοντέλο μπορεί να προβλέπει μακροπρόθεσμα, η πρόβλεψη καθίσταται λιγότερο ακριβής όσο αυξάνει το χρονικό διάστημα προβολής, λόγω συσσώρευσης αβεβαιοτήτων. Οι ερευνητές προτείνουν ότι το Delphi-2M μπορεί να γίνει εργαλείο υποστήριξης για υγειονομικές αρχές, για πρόληψη και πολιτικές υγείας, αλλά με προσοχή. Δεν αντικαθιστά την κλινική κρίση ούτε τα ιατρικά τεστ· όμως μπορεί να βοηθήσει στον εντοπισμό ατόμων υψηλού κινδύνου, στη σχεδίαση προληπτικών προγραμμάτων, και στην εκτίμηση του μελλοντικού φορτίου ασθενειών σε πληθυσμούς. Τέλος, υπάρχει η δυνατότητα να ενσωματωθούν στο μοντέλο κι άλλοι τύποι δεδομένων στο μέλλον: βιοδείκτες, δεδομένα από εργαστήρια, αναφορές ασθενών, δεδομένα φαρμακευτικής αγωγής, ώστε να βελτιωθεί η ακρίβεια και να αντιμετωπιστούν περαιτέρω μεροληψίες.

Εκπαιδευτική Αξιοποίηση

Διερευνητική δραστηριότητα

Θέμα: Πώς μπορεί η Τεχνητή Νοημοσύνη να προβλέπει ασθένειες: χρήση μεγάλων δεδομένων και μοντέλων προβλέψεων

Βήματα διερευνητικής μάθησης:

  1. Ερέθισμα: Προβολή σύντομης παρουσίασης ή infographic που περιγράφει το Delphi-2M: τι κάνει, με ποια δεδομένα, την προβλεπτική του ικανότητα.
  2. Ερώτημα/Υπόθεση: «Μπορούν μοντέλα τεχνητής νοημοσύνης να προβλέπουν με ακρίβεια το μέλλον της υγείας ενός ατόμου;» ή «Ποιες μεταβλητές (π.χ. διαγνώσεις, τρόπος ζωής) είναι πιο σημαντικές για αυτές τις προβλέψεις;»
  3. Σχεδιασμός διερεύνησης: Κατανομή σε ομάδες που θα σχεδιάσουν σύγκριση δύο μοντέλων: ένα που χρησιμοποιεί μόνο μια ασθένεια με λίγα δεδομένα, και το Delphi-2M που χρησιμοποιεί πολλές και πολυμορφικές πληροφορίες. Προσδιορισμός μετρικών (ακρίβεια, ευαισθησία, πιθανότητα πρόβλεψης λάθους).
  4. Συλλογή δεδομένων: Παροχή συνθετικών (mock) δεδομένων: ιστορικά διαγνώσεων, πληροφορίες τρόπου ζωής, συμπεριφορά. Οι ομάδες δουλεύουν με αυτά τα δεδομένα για να “τρέξουν” προβλέψεις και να συγκρίνουν αποτελέσματα.
  5. Ανάλυση/Ερμηνεία: Συγκρίνουν ποιο μοντέλο προβλέπει καλύτερα, ποιες μεταβλητές οδηγούν σε καλύτερες προβλέψεις, πόσο επηρεάζεται η ακρίβεια όταν υπάρχουν κενά δεδομένα ή μεροληψίες.
  6. Συμπέρασμα: Διατύπωση απόψεων για το ποιο είδος μοντέλου είναι πιο χρήσιμο, σε ποιες συνθήκες, και με ποιες προειδοποιήσεις (biases, ηθικές ανησυχίες).
  7. Αναστοχασμός: Τι έμαθαν για τα πλεονεκτήματα και τους κινδύνους της χρήσης τεχνητής νοημοσύνης στην υγεία; Πώς θα ήθελαν να βλέπουν τέτοια εργαλεία να χρησιμοποιούνται στην κοινωνία;

Διερευνητική δεξιότητα: Κριτική αξιολόγηση εργαλείων πρόβλεψης, ανάλυση πηγών μεροληψίας και ηθική σκέψη στην εφαρμογή της βιολογίας και της ιατρικής.

Διαφοροποιημένη Διδασκαλία

Θέμα: Υγεία, πρόβλεψη και μέλλον: η Βιολογία συναντά την Τεχνητή Νοημοσύνη

Οι μαθητές/μαθήτριες επιλέγουν μία από τις παρακάτω δραστηριότητες:

  • Infographic/Διάγραμμα: Δημιουργία οπτικού σχεδίου που απεικονίζει τι είναι το Delphi-2M, τι δεδομένα χρησιμοποιεί, ποιες ασθένειες προβλέπει, και ποια είναι τα όρια και οι πιθανές μεροληψίες.
  • Case Study / Παράδειγμα: Μελετήστε την περίπτωση μιας ασθένειας (π.χ. διαβήτης ή καρδιακή νόσο) και δείξτε πώς το μοντέλο θα μπορούσε να προβλέψει κίνδυνο, και τι παρεμβάσεις θα ήταν χρήσιμες.
  • Debate / Συζήτηση: Μια ομάδα υπέρ της ευρείας χρήσης τέτοιων μοντέλων, μια άλλη που επισημαίνει κινδύνους (ηθική, μεροληψία, προσωπικά δεδομένα).
  • Έκθεση / Δημοσιογραφική παρουσίαση: Γράψτε άρθρο ή προετοιμάστε βίντεο που εξηγεί σε κοινό νέων τι είναι τα generative transformer μοντέλα στην υγεία, τι μπορούμε να αναμένουμε, πώς να τα χρησιμοποιήσουμε υπεύθυνα.

Κριτήρια επιτυχίας: σαφής παρουσίαση του μοντέλου, αναφορά δεδομένων εισόδου, κατανόηση των ορίων, δημιουργική και υπεύθυνη παρουσίαση.

Αφήστε μια απάντηση