Μελέτη: Η τεχνητή νοημοσύνη αποτυγχάνει στην αρχική διάγνωση ασθενών πάνω από 80%

Μελέτη δείχνει ότι τα chatbot τεχνητής νοημοσύνης δεν είναι έτοιμα για κλινική χρήση στην πρώτη γραμμή. - Πνευματικά Δικαιώματα Cleared/Canva

Πνευματικά Δικαιώματα Cleared/Canva

Από Marta Iraola Iribarren

Δημοσιεύθηκε 14/04/2026 - 7:00 CEST

Νέα μελέτη: τα γλωσσικά μοντέλα τεχνητής νοημοσύνης αποτυγχάνουν σε σωστή πρώιμη διάγνωση σε πάνω από 80% των περιπτώσεων, άρα δεν είναι ακόμη ασφαλή για κλινική χρήση χωρίς επίβλεψη

Η παραγωγική τεχνητή νοημοσύνη (AI) εξακολουθεί να μην διαθέτει τις διαδικασίες συλλογισμού που απαιτούνται για ασφαλή κλινική χρήση, σύμφωνα με νέα μελέτη.

ΔΙΑΦΉΜΙΣΗ

Τα chatbots τεχνητής νοημοσύνης έχουν βελτιώσει την ακρίβεια των διαγνώσεών τους όταν τους παρουσιάζονται πλήρη κλινικά δεδομένα, όμως εξακολουθούν να αποτυγχάνουν να διατυπώσουν κατάλληλη διαφορική διάγνωση σε ποσοστό άνω του 80% των περιπτώσεων, σύμφωνα με ερευνητές του Mass General Brigham, ενός μη κερδοσκοπικού δικτύου νοσοκομείων και ερευνών με έδρα τη Βοστώνη και ενός από τα μεγαλύτερα συστήματα υγείας στις Ηνωμένες Πολιτείες.

Τα αποτελέσματα της μελέτης, που δημοσιεύθηκε στο ιατρικό περιοδικό ανοιχτής πρόσβασης JAMA Network Open (πηγή στα Αγγλικά), έδειξαν ότι τα μεγάλα γλωσσικά μοντέλα (LLMs) δεν ανταποκρίνονται στο επίπεδο συλλογισμού που απαιτείται για κλινική χρήση.

«Παρά τις συνεχείς βελτιώσεις, τα έτοιμα μεγάλα γλωσσικά μοντέλα δεν είναι έτοιμα για αυτόνομη χρήση σε κλινικό επίπεδο χωρίς επίβλεψη», δήλωσε ο Marc Succi, συν-συγγραφέας της μελέτης.

Πρόσθεσε ότι η τεχνητή νοημοσύνη δεν μπορεί ακόμη να αναπαράγει τη διαφορική διάγνωση, που είναι κεντρική για τον κλινικό συλλογισμό και την οποία ο ίδιος θεωρεί «την τέχνη της ιατρικής».

Η διαφορική διάγνωση είναι το πρώτο βήμα των επαγγελματιών υγείας για τον εντοπισμό μιας πάθησης, διακρίνοντάς την από άλλες με παρόμοια συμπτώματα.

Πώς δοκιμάστηκαν τα μοντέλα

Η ερευνητική ομάδα ανέλυσε τη λειτουργία 21 μεγάλων γλωσσικών μοντέλων, συμπεριλαμβανομένων των πιο πρόσφατων διαθέσιμων εκδόσεων των Claude, DeepSeek, Gemini, GPT και Grok.

Αξιολόγησαν τα μεγάλα γλωσσικά μοντέλα σε 29 τυποποιημένα κλινικά περιστατικά χρησιμοποιώντας ένα νέο εργαλείο που ονομάζεται PrIME-LLM.

Το εργαλείο αξιολογεί την ικανότητα ενός μοντέλου σε διαφορετικά στάδια του κλινικού συλλογισμού: διατύπωση αρχικής διάγνωσης, παραγγελία κατάλληλων εξετάσεων, κατάληξη σε τελική διάγνωση και σχεδιασμό θεραπείας.

Για να προσομοιώσουν την εξέλιξη των κλινικών περιστατικών, οι ερευνητές παρείχαν σταδιακά πληροφορίες στα μοντέλα, ξεκινώντας από βασικά στοιχεία όπως η ηλικία, το φύλο και τα συμπτώματα του ασθενούς και προσθέτοντας στη συνέχεια ευρήματα της κλινικής εξέτασης και εργαστηριακά αποτελέσματα.

Στην κλινική πράξη, η διαφορική διάγνωση είναι κρίσιμη για να προχωρήσει κανείς στο επόμενο βήμα. Στη μελέτη, όμως, τα μοντέλα λάμβαναν επιπλέον πληροφορίες ώστε να μπορούν να περάσουν στο επόμενο στάδιο ακόμη κι αν δεν τα κατάφερναν στο στάδιο της διαφορικής διάγνωσης.

Οι ερευνητές διαπίστωσαν ότι τα γλωσσικά μοντέλα πέτυχαν υψηλή ακρίβεια στις τελικές διαγνώσεις, αλλά απέδωσαν πολύ χειρότερα στη διατύπωση διαφορικών διαγνώσεων και στη διαχείριση της αβεβαιότητας.

Η συγγραφέας της μελέτης Arya Rao σημείωσε ότι, με την αξιολόγηση των μεγάλων γλωσσικών μοντέλων βήμα προς βήμα, η έρευνα παύει να τα αντιμετωπίζει ως «διαγωνιζόμενους» και τα τοποθετεί στη θέση του γιατρού.

«Αυτά τα μοντέλα είναι πολύ καλά στο να δίνουν μια τελική διάγνωση όταν τα δεδομένα είναι πλήρη, αλλά δυσκολεύονται στην ανοιχτή αρχική φάση ενός περιστατικού, όταν οι πληροφορίες είναι λίγες», πρόσθεσε.

Οι ερευνητές διαπίστωσαν ότι όλα τα μοντέλα απέτυχαν να διατυπώσουν κατάλληλη διαφορική διάγνωση σε ποσοστό άνω του 80% των περιπτώσεων.

Όσον αφορά την τελική διάγνωση, τα ποσοστά επιτυχίας κυμάνθηκαν από περίπου 60% έως πάνω από 90%, ανάλογα με το μοντέλο.

Τα περισσότερα μεγάλα γλωσσικά μοντέλα εμφάνισαν καλύτερη ακρίβεια όταν, πέρα από το κείμενο, τους παρέχονταν και εργαστηριακά αποτελέσματα και απεικονιστικές εξετάσεις.

Τα αποτελέσματα ανέδειξαν μια ομάδα μοντέλων με τις καλύτερες επιδόσεις, στην οποία περιλαμβάνονταν τα Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash και Gemini 3.0 Pro.

Οι επαγγελματίες υγείας παραμένουν απαραίτητοι

Ωστόσο, οι συγγραφείς επισήμαναν ότι, παρά τις βελτιώσεις από έκδοση σε έκδοση και τα πλεονεκτήματα των μοντέλων που είναι βελτιστοποιημένα για συλλογισμό, τα έτοιμα μεγάλα γλωσσικά μοντέλα δεν έχουν ακόμη φτάσει το επίπεδο ευφυΐας που απαιτείται για ασφαλή χρήση και εξακολουθούν να υστερούν στην επίδειξη προχωρημένου κλινικού συλλογισμού.

«Τα ευρήματά μας επιβεβαιώνουν ότι τα μεγάλα γλωσσικά μοντέλα στην υγεία εξακολουθούν να χρειάζονται ενεργό ανθρώπινο έλεγχο και πολύ στενή εποπτεία», σημείωσε ο Succi.

Η Susana Manso García, μέλος της ομάδας εργασίας για την Τεχνητή Νοημοσύνη και την Ψηφιακή Υγεία της Ισπανικής Εταιρείας Γενικής και Κοινοτικής Ιατρικής, η οποία δεν συμμετείχε στη μελέτη, δήλωσε ότι τα ευρήματα στέλνουν ένα σαφές μήνυμα στο ευρύ κοινό.

«Η ίδια η μελέτη επιμένει ότι [τα γλωσσικά μοντέλα] δεν πρέπει να χρησιμοποιούνται για τη λήψη κλινικών αποφάσεων χωρίς επίβλεψη. Συνεπώς, παρότι η τεχνητή νοημοσύνη αποτελεί ένα πολλά υποσχόμενο εργαλείο, η ανθρώπινη κλινική κρίση παραμένει αναντικατάστατη», είπε.

«Η σύσταση προς το κοινό είναι να χρησιμοποιεί αυτές τις τεχνολογίες με προσοχή και, όταν αντιμετωπίζει οποιοδήποτε θέμα υγείας, να συμβουλεύεται πάντοτε έναν επαγγελματία υγείας».

Μετάβαση στις συντομεύσεις προσβασιμότητας

Μελέτη: Η τεχνητή νοημοσύνη αποτυγχάνει στην αρχική διάγνωση ασθενών πάνω από 80%

Πώς δοκιμάστηκαν τα μοντέλα

Οι επαγγελματίες υγείας παραμένουν απαραίτητοι

Σχετικές ειδήσεις

Το μεγάλο κόστος της COVID θα μπορούσε να ανέλθει έως και 115,3 δισ. ευρώ ετησίως κατά την επόμενη δεκαετία, σύμφωνα με μελέτη

Από την απώλεια οστών έως την θολή όραση: πώς το ταξίδι στο διάστημα επηρεάζει το ανθρώπινο σώμα

Μόλις επτά μέρες διαλογισμού μπορούν να «επανασυνδέσουν» τον εγκέφαλο, δείχνει μελέτη

Πορτογαλία: Νεκρό κοριτσάκι 18 μηνών που το ξέχασαν για οκτώ ώρες σε σχολικό όχημα

Ο Τραμπ επιβάλλει νέους δασμούς σε 60 χώρες επικαλούμενος την καταναγκαστική εργασία

Γαλλία: Τεράστια πυρκαγιά τυλίγει τα δάση του Καπ Φερέ, χιλιάδες εκκενώνονται

Ντα Βίντσι, Κάλλας και Κιουρί ή τα πουλιά της Ευρώπης; Ψηφοφορία για τα νέα χαρτονομίσματα του ευρώευρώ

Η ΕΕ εγκρίνει νέες κυρώσεις κατά της Ρωσίας - Η Ελλάδα εξασφαλίζει εξαίρεση για το LNG