Ερευνητές διαπιστώνουν ότι ένα μοντέλο τεχνητής νοημοσύνης ξεπερνά τους γιατρούς στις περισσότερες διαγνωστικές και κλινικές αποφάσεις.
Τα μοντέλα τεχνητής νοημοσύνης ξεπέρασαν τους γιατρούς στις ιατρικές αποφάσεις στην επείγουσα φροντίδα, σύμφωνα με νέα μελέτη.
Ερευνητές από τη Σχολή Ιατρικής του Χάρβαρντ και το Ιατρικό Κέντρο Beth Israel Deaconess στις Ηνωμένες Πολιτείες συνέκριναν την τεχνητή νοημοσύνη με τους γιατρούς σε ένα ευρύ φάσμα δοκιμασιών κλινικής σκέψης.
Διαπίστωσαν ότι τα μεγάλα γλωσσικά μοντέλα (LLMs) υπερείχαν των γιατρών σε πολλές από αυτές, μεταξύ άλλων στη λήψη αποφάσεων στα επείγοντα με βάση τις διαθέσιμες πληροφορίες, στον εντοπισμό των πιο πιθανών διαγνώσεων και στην επιλογή των επόμενων βημάτων στη διαχείριση των περιστατικών.
«Δοκιμάσαμε το μοντέλο τεχνητής νοημοσύνης σε σχεδόν κάθε δείκτη σύγκρισης και ξεπέρασε τόσο τα προηγούμενα μοντέλα όσο και τα δικά μας ιατρικά δεδομένα αναφοράς», δήλωσε ο Αρτζούν Μάνραϊ, συν-επικεφαλής συγγραφέας της μελέτης και καθηγητής στη Σχολή Ιατρικής του Χάρβαρντ.
«Ωστόσο, αυτό δεν σημαίνει ότι η τεχνητή νοημοσύνη θα βελτιώσει οπωσδήποτε την παροχή φροντίδας – το πώς και πού πρέπει να αξιοποιηθεί παραμένει ελάχιστα μελετημένο, και χρειαζόμαστε επειγόντως αυστηρές προοπτικές κλινικές δοκιμές για να αξιολογηθεί ο αντίκτυπος της τεχνητής νοημοσύνης στην κλινική πρακτική».
Πώς δοκιμάζεται το μοντέλο τεχνητής νοημοσύνης;
Οι ερευνητές αξιολόγησαν πρώτα το o1-preview, το μοντέλο συλλογιστικής της OpenAI που κυκλοφόρησε το 2024, στο οποίο έδωσαν μια σειρά από κλινικά περιστατικά, μεταξύ άλλων δημοσιευμένα κλινικά συνέδρια και πραγματικά αρχεία από τμήματα επειγόντων περιστατικών.
Η τεχνητή νοημοσύνη ξεπέρασε τους γιατρούς στις περισσότερες δοκιμές, ιδίως στη συλλογιστική για τον τρόπο διαχείρισης, στην κλινική σκέψη, στην τεκμηρίωση και σε πραγματικές συνθήκες επειγόντων με περιορισμένες πληροφορίες.
«Τα μοντέλα γίνονται ολοένα και πιο ικανά. Παλαιότερα τα αξιολογούσαμε με τεστ πολλαπλής επιλογής· τώρα σημειώνουν σταθερά επιδόσεις κοντά στο 100% και δεν μπορούμε πλέον να παρακολουθήσουμε την πρόοδο, γιατί έχουμε φτάσει ήδη στο ταβάνι», δήλωσε ο Πίτερ Μπροντέρ, συν-επικεφαλής συγγραφέας και κλινικός υπότροφος ιατρικής στο Beth Israel Deaconess.
Σε μία από τις δοκιμές, οι ερευνητές ζήτησαν από τα μεγάλα γλωσσικά μοντέλα –o1 και GPT-4o– να αξιολογήσουν ασθενείς σε διάφορα στάδια μιας τυπικής διαδικασίας στα επείγοντα, από την αρχική διαλογή έως τις μεταγενέστερες αποφάσεις για εισαγωγή.
Σε κάθε στάδιο, το μοντέλο λάμβανε μόνο τις πληροφορίες που ήταν διαθέσιμες εκείνη τη στιγμή και κλήθηκε να προτείνει τις πιο πιθανές διαγνώσεις και να συστήσει ποιο θα έπρεπε να είναι το επόμενο βήμα.
Το μεγαλύτερο χάσμα ανάμεσα στην τεχνητή νοημοσύνη και τους γιατρούς διαπιστώθηκε στο στάδιο της διαλογής, όταν οι πληροφορίες για τον ασθενή είναι πιο περιορισμένες.
Όπως συμβαίνει και με τους γιατρούς, τα μοντέλα τεχνητής νοημοσύνης βελτίωναν τις διαγνωστικές τους ικανότητες όσο αυξάνονταν οι διαθέσιμες πληροφορίες.
«Παρότι η χρήση της τεχνητής νοημοσύνης για υποστήριξη κλινικών αποφάσεων θεωρείται συχνά μια προσπάθεια υψηλού ρίσκου, η ευρύτερη αξιοποίηση αυτών των εργαλείων θα μπορούσε να συμβάλει στον περιορισμό του ανθρώπινου και οικονομικού κόστους από διαγνωστικά σφάλματα, καθυστερήσεις και ελλιπή πρόσβαση», έγραψαν οι συγγραφείς.
Απαιτείται περισσότερη έρευνα
Οι ερευνητές ζητούν τη διεξαγωγή προοπτικών κλινικών δοκιμών για την αξιολόγηση αυτών των τεχνολογιών σε πραγματικές συνθήκες και καλούν τα συστήματα υγείας να επενδύσουν σε υπολογιστικές υποδομές και στην ανάπτυξη πλαισίων που θα υποστηρίξουν την ασφαλή ενσωμάτωση των εργαλείων τεχνητής νοημοσύνης στις κλινικές ροές εργασίας.
«Ένα μοντέλο μπορεί να πετυχαίνει τη σωστή κύρια διάγνωση, αλλά παράλληλα να προτείνει περιττές εξετάσεις που ενδέχεται να εκθέσουν τον ασθενή σε κίνδυνο», είπε ο Μπροντέρ. «Οι άνθρωποι πρέπει να παραμένουν το τελικό σημείο αναφοράς όταν αξιολογούμε την απόδοση και την ασφάλεια».
Η μελέτη παρουσιάζει ορισμένους περιορισμούς. Οι συγγραφείς σημείωσαν ότι αποτυπώνει μόνο την απόδοση των μοντέλων και επικεντρώνεται κυρίως στην προεπισκόπηση του μοντέλου o1, το οποίο στο μεταξύ έχει αντικατασταθεί από νεότερα μοντέλα, όπως το o3 της OpenAI.
«Αν και αναμένουμε ότι οι επιδόσεις θα διατηρηθούν ή θα βελτιωθούν με τα νεότερα μοντέλα, απαιτούνται επιπλέον μελέτες για να αποσαφηνιστεί πώς διαφέρει η απόδοση μεταξύ των μοντέλων και να εξεταστεί πώς μπορούν να συνεργάζονται άνθρωποι και μεγάλα γλωσσικά μοντέλα», έγραψαν οι συγγραφείς.