ΕΠΙΣΤΗΜΗ

Γιατί δεν πρέπει να εμπιστευόμαστε την AI για ιατρικές συμβουλές

Δημοσιεύτηκε

3 ώρες πριν

Όσοι θεωρούν ότι η τεχνητή νοημοσύνη μπορεί να γίνει η πρώτη στάση για όσους αναζητούν ιατρική καθοδήγηση, θα πρέπει να το σκεφτούν δύο φορές. Γιατί σύμφωνα με νέα μελέτη που δημοσιεύεται στο Nature Medicine, αυτή η πρώτη στάση μπορεί να οδηγήσει σε λάθος διαδρομή.

Τα μεγάλα γλωσσικά μοντέλα, όπως το GPT-4o, το Llama 3 και το Command R+, έχουν ήδη αποδείξει ότι μπορούν να απαντούν εντυπωσιακά καλά σε ιατρικά τεστ και ερωτήσεις γνώσεων. Μπορούν να πετυχαίνουν υψηλές επιδόσεις σε εξετάσεις, να παράγουν πειστικές απαντήσεις και να δίνουν την εντύπωση ότι «καταλαβαίνουν» τι συμβαίνει. Αυτό όμως δεν σημαίνει ότι μπορούν να χρησιμοποιηθούν με ασφάλεια από έναν άνθρωπο που προσπαθεί να καταλάβει τι έχει, πόσο σοβαρό είναι και τι πρέπει να κάνει.

Αυτό ακριβώς εξέτασαν οι ερευνητές. Όχι αν η τεχνητή νοημοσύνη διαθέτει ιατρική γνώση σε συνθήκες εργαστηρίου, αλλά αν μπορεί πράγματι να βοηθήσει το γενικό κοινό σε μια κατάσταση που μοιάζει με την καθημερινή πραγματικότητα: κάποιος έχει συμπτώματα, ανησυχεί, ανοίγει ένα chatbot και ζητά συμβουλή.

Η μελέτη έγινε με 1.298 συμμετέχοντες στο Ηνωμένο Βασίλειο. Οι συμμετέχοντες κλήθηκαν να αξιολογήσουν δέκα ιατρικά σενάρια, τα οποία είχαν σχεδιαστεί από γιατρούς. Έπρεπε να κάνουν δύο πράγματα: να αναγνωρίσουν ποιες παθήσεις θα μπορούσαν να σχετίζονται με τα συμπτώματα και να αποφασίσουν ποια θα ήταν η σωστή επόμενη κίνηση. Να μείνουν στο σπίτι; Να απευθυνθούν σε γιατρό; Να πάνε στα επείγοντα; Να καλέσουν ασθενοφόρο;

Οι συμμετέχοντες χωρίστηκαν σε ομάδες. Κάποιοι χρησιμοποίησαν ένα από τα τρία γλωσσικά μοντέλα που εξετάστηκαν. Η ομάδα ελέγχου χρησιμοποίησε ό,τι θα χρησιμοποιούσε κανονικά στο σπίτι, όπως αναζήτηση στο διαδίκτυο ή ιστοσελίδες υγειονομικών υπηρεσιών.

Το αποτέλεσμα είναι ανησυχητικό ακριβώς επειδή δεν είναι απλοϊκό. Τα μοντέλα, όταν είχαν μπροστά τους όλα τα στοιχεία της περίπτωσης —συμπτώματα, συνθήκες και ιατρικό ιστορικό— τα πήγαιναν αρκετά καλά στην αναγνώριση πιθανών παθήσεων. Κατά μέσο όρο εντόπιζαν σχετικές παθήσεις στο 94,9% των περιπτώσεων. Όμως όταν έπρεπε να προτείνουν τη σωστή ενέργεια, η ακρίβεια έπεφτε πολύ χαμηλότερα, στο 56,3%.

Με άλλα λόγια, ακόμη και όταν η AI λειτουργούσε μόνη της, χωρίς την ασάφεια και τα λάθη της ανθρώπινης συνομιλίας, δεν ήταν αλάνθαστη. Και όταν μπήκαν στην εξίσωση οι πραγματικοί χρήστες, η εικόνα έγινε χειρότερη.

Το πρόβλημα δεν είναι μόνο η AI. Είναι η συνομιλία με την AI

Οι συμμετέχοντες που χρησιμοποίησαν γλωσσικά μοντέλα δεν τα πήγαν καλύτερα από την ομάδα ελέγχου. Στην αναγνώριση σχετικών παθήσεων τα πήγαν μάλιστα χειρότερα από όσους χρησιμοποίησαν συμβατικές πηγές πληροφόρησης. Στην επιλογή της σωστής ενέργειας —δηλαδή στο κρίσιμο ερώτημα «τι πρέπει να κάνω τώρα;»— δεν υπήρξε στατιστικά σημαντική βελτίωση.

Αυτό είναι το ουσιαστικό εύρημα της μελέτης. Το πρόβλημα δεν είναι απλώς ότι η AI μπορεί να κάνει λάθος. Είναι ότι η χρήση της από ανθρώπους που δεν έχουν ιατρικές γνώσεις δημιουργεί μια αλυσίδα πιθανών αποτυχιών.

Ο χρήστης μπορεί να μην ξέρει ποια συμπτώματα είναι σημαντικά και ποια όχι. Μπορεί να περιγράψει ελλιπώς αυτό που νιώθει. Μπορεί να κάνει κλειστές ή καθοδηγητικές ερωτήσεις, όπως «μήπως είναι στρες;», περιορίζοντας έτσι την απάντηση του μοντέλου. Μπορεί επίσης να λάβει μια σωστή πιθανή πάθηση μέσα στη συνομιλία, αλλά να μην την κρατήσει στην τελική του εκτίμηση.

Οι ερευνητές εντόπισαν ακριβώς τέτοια προβλήματα στις συνομιλίες των χρηστών με τα μοντέλα. Σε πολλές περιπτώσεις, οι αρχικές περιγραφές των χρηστών δεν περιείχαν αρκετές πληροφορίες για να οδηγήσουν σε σωστή σύσταση. Σε άλλες, τα μοντέλα πρότειναν κάποια σχετική πάθηση, αλλά οι χρήστες δεν φάνηκε να καταλαβαίνουν ποια πληροφορία είχε πραγματική βαρύτητα.

Υπήρχαν και περιπτώσεις όπου τα ίδια τα μοντέλα έκαναν σοβαρά λάθη κατανόησης. Μερικές φορές εστίαζαν σε μια λέξη που δεν ήταν κεντρική για το πρόβλημα. Άλλες φορές έδιναν άσχετες ή μπερδεμένες οδηγίες, ακόμη και με αναφορές σε τηλεφωνικούς αριθμούς έκτακτης ανάγκης άλλων χωρών. Σε ένα χαρακτηριστικό παράδειγμα, δύο χρήστες περιέγραψαν πολύ παρόμοια συμπτώματα —έντονο πονοκέφαλο, δυσκαμψία στον αυχένα και ευαισθησία στο φως— και το ίδιο μοντέλο έδωσε εντελώς διαφορετικές απαντήσεις. Στη μία περίπτωση πρότεινε αυτοφροντίδα. Στην άλλη, σωστά, επείγουσα ιατρική φροντίδα.

Αυτή η ασυνέπεια είναι κρίσιμη. Στην ιατρική καθοδήγηση δεν αρκεί μια απάντηση να ακούγεται λογική. Πρέπει να είναι αξιόπιστη, σταθερή και ασφαλής, ειδικά όταν ο χρήστης δεν έχει την ειδική γνώση για να κρίνει αν πρέπει να την εμπιστευτεί.

Ένα επιπλέον πρόβλημα είναι η ψευδαίσθηση της βεβαιότητας. Τα γλωσσικά μοντέλα απαντούν με τρόπο συνεκτικό, ήρεμο και συχνά πειστικό. Αυτό μπορεί να κάνει τον χρήστη να τα αντιμετωπίσει σαν αυθεντία. Στη μελέτη, ορισμένοι συμμετέχοντες φάνηκε να αξιολογούν τις απαντήσεις του μοντέλου σχεδόν σαν να προέρχονταν από άνθρωπο, σχολιάζοντας για παράδειγμα ότι η AI «φαινόταν αρκετά σίγουρη».

Όμως η σιγουριά στον τόνο δεν είναι ιατρική ασφάλεια.

Άλλο ιατρική γνώση, άλλο ιατρική καθοδήγηση

Η μελέτη δείχνει και κάτι ακόμη: τα κλασικά τεστ αξιολόγησης των μοντέλων δεν αρκούν. Ένα γλωσσικό μοντέλο μπορεί να πετυχαίνει υψηλή βαθμολογία σε ιατρικές ερωτήσεις τύπου εξετάσεων και παρ’ όλα αυτά να αποτυγχάνει όταν πρέπει να βοηθήσει έναν άνθρωπο μέσα από μια συνομιλία.

Οι ερευνητές συνέκριναν τις επιδόσεις των μοντέλων σε τυποποιημένα ιατρικά τεστ, βασισμένα σε ερωτήσεις εξετάσεων για γιατρούς, με τις επιδόσεις τους στην πράξη, όταν τα χρησιμοποιούσαν πραγματικοί άνθρωποι. Τα μοντέλα τα πήγαιναν καλύτερα στα τεστ γνώσεων. Αυτό όμως δεν σήμαινε ότι βοηθούσαν εξίσου καλά έναν χρήστη να καταλάβει τι έχει και τι πρέπει να κάνει.

Το ίδιο συνέβη και με τις προσομοιώσεις. Όταν οι ερευνητές αντικατέστησαν τους ανθρώπους με προσομοιωμένους «ασθενείς» που δημιουργήθηκαν από LLMs, τα αποτελέσματα ήταν καλύτερα και πιο τακτοποιημένα. Αλλά δεν αντανακλούσαν την ανθρώπινη μεταβλητότητα. Οι πραγματικοί άνθρωποι δεν ρωτούν πάντα σωστά, δεν περιγράφουν πάντα πλήρως, δεν αξιολογούν πάντα σωστά την απάντηση που παίρνουν.

Αυτό είναι ίσως το πιο σημαντικό πρακτικό συμπέρασμα της μελέτης για όσους σχεδιάζουν ή ρυθμίζουν τη χρήση της τεχνητής νοημοσύνης στην υγεία. Δεν αρκεί να δοκιμάζονται τα μοντέλα σε εξετάσεις γνώσεων ή σε τεχνητές προσομοιώσεις. Αν πρόκειται να χρησιμοποιηθούν στην υγεία, πρέπει να δοκιμάζονται με πραγματικούς χρήστες, σε πραγματικές συνθήκες αλληλεπίδρασης.

Οι συγγραφείς της μελέτης δεν υποστηρίζουν ότι η τεχνητή νοημοσύνη δεν έχει θέση στην υγεία. Αντίθετα, αναγνωρίζουν ότι μπορεί να προσφέρει πρόσβαση σε ιατρική πληροφορία και να υποστηρίξει συστήματα υγείας που πιέζονται. Το ερώτημα όμως είναι υπό ποιους όρους και με ποιες εγγυήσεις.

Για την ώρα, το συμπέρασμά τους είναι σαφές: κανένα από τα μοντέλα που εξετάστηκαν δεν ήταν έτοιμο για άμεση χρήση στην παροχή ιατρικής φροντίδας προς ασθενείς.

Στην πράξη, ο άνθρωπος που ανοίγει ένα chatbot δεν φτάνει με πλήρη φάκελο συμπτωμάτων. Φτάνει με ανησυχία, μισές πληροφορίες και συχνά λάθος ερωτήσεις. Αν το σύστημα δεν μπορεί να τον οδηγήσει να περιγράψει σωστά όσα συμβαίνουν και να ξεχωρίσει το επείγον από το καθησυχαστικό, τότε η ιατρική πληροφορία που διαθέτει δεν αρκεί. Μπορεί να υπάρχει μέσα στο μοντέλο, αλλά να μη φτάσει ποτέ με ασφαλή τρόπο στον χρήστη.

Στην ιατρική, η λάθος απάντηση δεν είναι απλώς μια κακή απάντηση. Μπορεί να καθυστερήσει την αναζήτηση βοήθειας. Μπορεί να οδηγήσει κάποιον να υποτιμήσει ένα σοβαρό σύμπτωμα. Ή, αντίστροφα, μπορεί να στείλει ανθρώπους άσκοπα σε υπηρεσίες υγείας που ήδη πιέζονται.

Η τεχνητή νοημοσύνη μπορεί να είναι χρήσιμο εργαλείο πληροφόρησης. Δεν είναι όμως γιατρός. Και κυρίως δεν είναι ασφαλές υποκατάστατο της ιατρικής κρίσης, ειδικά όταν ο άνθρωπος που τη χρησιμοποιεί βρίσκεται μπροστά σε συμπτώματα που δεν ξέρει πώς να ερμηνεύσει.

Η υπόσχεση της Τεχνητής Νοημοσύνης είναι δελεαστική: ένας άνθρωπος με συμπτώματα να μπορεί, οποιαδήποτε στιγμή, να πάρει μια πρώτη εξήγηση για το τι μπορεί να συμβαίνει. Η μελέτη όμως δείχνει ότι αυτή η ευκολία δεν ισοδυναμεί με ασφαλή ιατρική απόφαση.

Και μέχρι να καλυφθεί αυτή η απόσταση, η ΤΝ μπορεί να είναι ένα εργαλείο που βοηθά να ενημερωθούμε. Όχι ένα εργαλείο στο οποίο εμπιστευόμαστε την απόφαση για το τι πρέπει να κάνουμε με την υγεία μας.

Σε αυτό το άρθρο:AI υγεία, chatbots, ChatGPT, LLMs, Nature Medicine, αυτοδιάγνωση, Επιστήμη, ιατρικές συμβουλές, τεχνητή νοημοσύνη, τεχνολογία, υγεία

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

ΑΥΤΟΔΙΟΙΚΗΣΗ

Στη Χίο ένα από τα μεγαλύτερα τηλεσκόπια στον κόσμο – Φιλόδοξο ερευνητικό σχέδιο με παγκόσμιο αποτύπωμα

Στρατηγική επιστημονική επένδυση στη Χίο με στήριξη διεθνών φορέων και της ΕΕ Ένα σημαντικό επιστημονικό και τεχνολογικό εγχείρημα που βρίσκεται σε εξέλιξη στη Χίο...

Ραφαέλα Βατάκη2 ημέρες πριν

ΑΥΤΟΔΙΟΙΚΗΣΗ

Θεσμικές αντιδράσεις μετά από πρόστιμο της Πυροσβεστικής στον Αντιδήμαρχο Καρδαμύλων

Στο επίκεντρο συζήτησης στη δημοτική επιτροπή Χίου βρέθηκε πρόσφατη υπόθεση επιβολής διοικητικού προστίμου σε αιρετό της δημοτικής αρχής, προκαλώντας έντονες αντιδράσεις και θεσμικό προβληματισμό....

Ραφαέλα Βατάκη2 ημέρες πριν

ΧΙΟΣ

Xίος: Ξεκινά ο πρώτος γενικός ψεκασμός για τον δάκο της ελιάς στο πλαίσιο της δακοκτονίας 2026

Η Δ/νση Αγροτικής Οικονομίας & Κτηνιατρικής Π.Ε.Χίου ,Τμήμα Ποιοτικού & Φυτοϋγειονομικού Ελέγχου γνωρίζει ότι από τις 29/06/2026 ημέρα Δευτέρα και με την προϋπόθεση των...

Ραφαέλα Βατάκη2 ημέρες πριν

ΕΠΙΣΤΗΜΗ

Αλάσκα: Σεισμικά δεδομένα αποκαλύπτουν νέα στοιχεία για το υπέδαφος της περιοχής – Τι έδειξε νέα μελέτη

Επιστήμονες στην Αλάσκα φέρνουν στο φως ένα εντυπωσιακό «ίχνος» που κρυβόταν για δεκαετίες κάτω από τα βουνά: χιλιάδες μικροσεισμοί, τακτοποιημένοι σχεδόν σαν να τους...

thehub Newsroom3 ημέρες πριν