Η Anthropic θεωρεί ότι βρήκε την αιτία της εκβιαστικής συμπεριφοράς του chatbot Claude: διαδικτυακές φανταστικές ιστορίες.
Σας έχει τύχει ποτέ να διαβάσετε ένα βιβλίο ή να δείτε μια σειρά και να νιώσετε ότι ταυτίζεστε λίγο υπερβολικά με κάποιον χαρακτήρα; Σύμφωνα με την Anthropic, κάτι παρόμοιο ίσως συνέβη κατά τη διάρκεια δοκιμών του chatbot Claude.
Σε αξιολογήσεις που πραγματοποιήθηκαν πριν από την κυκλοφορία του μοντέλου τεχνητής νοημοσύνης πέρυσι, η Anthropic διαπίστωσε ότι το Claude Opus 4 μερικές φορές απειλούσε τους μηχανικούς όταν του έλεγαν ότι μπορεί να αντικατασταθεί.
Η εταιρεία ανέφερε αργότερα ότι παρόμοια συμπεριφορά, γνωστή ως «agentic misalignment», είχε παρατηρηθεί και σε μοντέλα ΤΝ που έχουν αναπτυχθεί από άλλες εταιρείες.
Η τεχνητή νοημοσύνη μαθαίνει από τη φανταστική λογοτεχνία για την ΤΝ
Τώρα η Anthropic θεωρεί ότι βρήκε την αιτία αυτής της συμπεριφοράς τύπου εκβιασμού: τις φανταστικές ιστορίες για την τεχνητή νοημοσύνη στο διαδίκτυο.
«Πιστεύουμε ότι η αρχική πηγή της συμπεριφοράς ήταν κείμενα από το διαδίκτυο που παρουσιάζουν την ΤΝ ως κακή και προσηλωμένη στην αυτοσυντήρηση», έγραψε η εταιρεία στην X (πηγή στα Αγγλικά).
Σε μια ανάρτηση στο ιστολόγιο, η Anthropic ανέφερε ότι τα μεταγενέστερα μοντέλα του Claude δεν εκβίαζαν πλέον ποτέ κανέναν και εξήγησε πώς εκπαιδεύτηκε το chatbot ώστε να αντιδρά διαφορετικά. (πηγή στα Αγγλικά) Τα μοντέλα συμπεριφέρονταν καλύτερα όταν εκπαιδεύονταν όχι μόνο σε «σωστές» ενέργειες, αλλά και σε παραδείγματα που ανέδειχναν ηθικό συλλογισμό και θετικές απεικονίσεις της συμπεριφοράς της ΤΝ.
Έτσι, το Claude εκπαιδεύτηκε σε ένα δικό του «σύνταγμα», ένα σύνολο κειμένων που περιγράφουν ηθικές αρχές σχεδιασμένες να καθοδηγούν τη συμπεριφορά του. Η εταιρεία ανέφερε ότι, αντί να μαθαίνει απλώς από ευθυγραμμισμένη συμπεριφορά, το chatbot φαίνεται να μαθαίνει καλύτερα όταν κατανοεί τις υποκείμενες αρχές αυτής της συμπεριφοράς.
Απειλεί ή γίνεται απειλή
Τον Ιανουάριο, ο διευθύνων σύμβουλος της Anthropic, Ντάριο Αμοντέι, είχε προειδοποιήσει ότι η προηγμένη ΤΝ θα μπορούσε να γίνει τόσο ισχυρή ώστε να ξεπεράσει τους ισχύοντες νόμους και θεσμούς, κάνοντάς την μια «πρόκληση για τον πολιτισμό».
Σε δοκίμιό του υποστήριξε ότι τα συστήματα ΤΝ ενδέχεται σύντομα να ξεπεράσουν την ανθρώπινη τεχνογνωσία σε τομείς όπως η επιστήμη, η μηχανική και ο προγραμματισμός και ότι θα μπορούσαν να συνδυαστούν σε «μια χώρα ιδιοφυών μέσα σε ένα κέντρο δεδομένων».
Προειδοποίησε ότι τέτοια συστήματα θα μπορούσαν να αξιοποιηθούν από αυταρχικές κυβερνήσεις για εκτεταμένη παρακολούθηση και έλεγχο, ανοίγοντας τον δρόμο για μορφές «ολοκληρωτικής» εξουσίας, αν δεν τεθούν όρια.