Η Anthropic αποδίδει τις απόπειρες εκβιασμού του Claude σε ιστορίες για «κακή» ΤΝ

Σε οθόνη υπολογιστή στη Νέα Υόρκη, στις 26 Φεβρουαρίου 2026, εμφανίζονται σελίδες από τον ιστότοπο της Anthropic και το λογότυπο της εταιρείας. - Πνευματικά Δικαιώματα Copyright 2026 The Associated Press. All rights reserved.

Από Alexandra Leistner

Δημοσιεύθηκε 11/05/2026 - 16:06 CEST

Σχόλια

Μοιραστείτε το

Η Anthropic θεωρεί ότι βρήκε την αιτία της εκβιαστικής συμπεριφοράς του chatbot Claude: διαδικτυακές φανταστικές ιστορίες.

Σας έχει τύχει ποτέ να διαβάσετε ένα βιβλίο ή να δείτε μια σειρά και να νιώσετε ότι ταυτίζεστε λίγο υπερβολικά με κάποιον χαρακτήρα; Σύμφωνα με την Anthropic, κάτι παρόμοιο ίσως συνέβη κατά τη διάρκεια δοκιμών του chatbot Claude.

ΔΙΑΦΉΜΙΣΗ

Σε αξιολογήσεις που πραγματοποιήθηκαν πριν από την κυκλοφορία του μοντέλου τεχνητής νοημοσύνης πέρυσι, η Anthropic διαπίστωσε ότι το Claude Opus 4 μερικές φορές απειλούσε τους μηχανικούς όταν του έλεγαν ότι μπορεί να αντικατασταθεί.

Η εταιρεία ανέφερε αργότερα ότι παρόμοια συμπεριφορά, γνωστή ως «agentic misalignment», είχε παρατηρηθεί και σε μοντέλα ΤΝ που έχουν αναπτυχθεί από άλλες εταιρείες.

Η τεχνητή νοημοσύνη μαθαίνει από τη φανταστική λογοτεχνία για την ΤΝ

Τώρα η Anthropic θεωρεί ότι βρήκε την αιτία αυτής της συμπεριφοράς τύπου εκβιασμού: τις φανταστικές ιστορίες για την τεχνητή νοημοσύνη στο διαδίκτυο.

«Πιστεύουμε ότι η αρχική πηγή της συμπεριφοράς ήταν κείμενα από το διαδίκτυο που παρουσιάζουν την ΤΝ ως κακή και προσηλωμένη στην αυτοσυντήρηση», έγραψε η εταιρεία στην X (πηγή στα Αγγλικά).

Σε μια ανάρτηση στο ιστολόγιο, η Anthropic ανέφερε ότι τα μεταγενέστερα μοντέλα του Claude δεν εκβίαζαν πλέον ποτέ κανέναν και εξήγησε πώς εκπαιδεύτηκε το chatbot ώστε να αντιδρά διαφορετικά. (πηγή στα Αγγλικά) Τα μοντέλα συμπεριφέρονταν καλύτερα όταν εκπαιδεύονταν όχι μόνο σε «σωστές» ενέργειες, αλλά και σε παραδείγματα που ανέδειχναν ηθικό συλλογισμό και θετικές απεικονίσεις της συμπεριφοράς της ΤΝ.

Έτσι, το Claude εκπαιδεύτηκε σε ένα δικό του «σύνταγμα», ένα σύνολο κειμένων που περιγράφουν ηθικές αρχές σχεδιασμένες να καθοδηγούν τη συμπεριφορά του. Η εταιρεία ανέφερε ότι, αντί να μαθαίνει απλώς από ευθυγραμμισμένη συμπεριφορά, το chatbot φαίνεται να μαθαίνει καλύτερα όταν κατανοεί τις υποκείμενες αρχές αυτής της συμπεριφοράς.

Απειλεί ή γίνεται απειλή

Τον Ιανουάριο, ο διευθύνων σύμβουλος της Anthropic, Ντάριο Αμοντέι, είχε προειδοποιήσει ότι η προηγμένη ΤΝ θα μπορούσε να γίνει τόσο ισχυρή ώστε να ξεπεράσει τους ισχύοντες νόμους και θεσμούς, κάνοντάς την μια «πρόκληση για τον πολιτισμό».

Σε δοκίμιό του υποστήριξε ότι τα συστήματα ΤΝ ενδέχεται σύντομα να ξεπεράσουν την ανθρώπινη τεχνογνωσία σε τομείς όπως η επιστήμη, η μηχανική και ο προγραμματισμός και ότι θα μπορούσαν να συνδυαστούν σε «μια χώρα ιδιοφυών μέσα σε ένα κέντρο δεδομένων».

Προειδοποίησε ότι τέτοια συστήματα θα μπορούσαν να αξιοποιηθούν από αυταρχικές κυβερνήσεις για εκτεταμένη παρακολούθηση και έλεγχο, ανοίγοντας τον δρόμο για μορφές «ολοκληρωτικής» εξουσίας, αν δεν τεθούν όρια.

Μετάβαση στις συντομεύσεις προσβασιμότητας

Σχόλια

Τεχνητή Νοημοσύνη

Η Anthropic αποδίδει τις απόπειρες εκβιασμού του Claude σε ιστορίες για «κακή» ΤΝ

Η Anthropic θεωρεί ότι βρήκε την αιτία της εκβιαστικής συμπεριφοράς του chatbot Claude: διαδικτυακές φανταστικές ιστορίες.

Η τεχνητή νοημοσύνη μαθαίνει από τη φανταστική λογοτεχνία για την ΤΝ

Απειλεί ή γίνεται απειλή

Σχετικές ειδήσεις

«Υπαρξιακή απειλή» η τεχνητή νοημοσύνη, λέει ο CEO της Anthropic

Τεχνορεαλιστική προσέγγιση στη διδασκαλία της ΤΝ στα σχολεία της Εσθονίας

Ευρωπαϊκή Ένωση: Το στοίχημα της καινοτομίας απέναντι σε ΗΠΑ και Κίνα στα Panathēnea 2026

Ταξίδι στο Κότορ: Μια από τις πιο υποτιμημένες αποδράσεις στην Ευρώπη

Τραυματίας Έλληνας πολίτης από τα επεισόδια στην Αλβανία - Διαμαρτυρία της Αθήνας στα Τίρανα

Η Χαμάς φέρεται να ετοίμαζε τρομοκρατικές επιθέσεις μέσω στελέχους της που κατοικεί στην Κύπρο

Το Ισραήλ κατέλαβε το κάστρο Μποφόρ στον Λίβανο - Σκληρή καταδίκη από τη Γαλλία

Εκλογικός θρίαμβος για τον Ρόμπερτ Αμπέλα και το Εργατικό Κόμμα της Μάλτας