Επιστήμονες: μετά από πείραμα με chatbots τεχνητής νοημοσύνης που αυτοαντιγράφονται και εξαπολύουν κυβερνοεπιθέσεις, η αυτόνομη αυτοαναπαραγωγή δεν είναι πια θεωρητική
Τα μοντέλα τεχνητής νοημοσύνης μπορούν να παραβιάζουν υπολογιστές, να αντιγράφουν τον εαυτό τους και να χρησιμοποιούν τα νέα αντίγραφα για να συνεχίζουν τις επιθέσεις σε άλλα μηχανήματα, σύμφωνα με νέα έρευνα που θεωρείται η πρώτη γνωστή επίδειξη αυτόνομης αυτοαναπαραγωγής ΤΝ.
Η ανακάλυψη αυτή θα μπορούσε, σύμφωνα με τους ερευνητές, να κάνει πολύ δυσκολότερη την αντιμετώπιση κυβερνοεπιθέσεων, καθώς η απενεργοποίηση ενός μολυσμένου υπολογιστή δεν θα αρκεί, αν η ΤΝ έχει ήδη δημιουργήσει λειτουργικά αντίγραφα αλλού.
Η μελέτη που πραγματοποιήθηκε από την Palisade Research στις Ηνωμένες Πολιτείες δοκίμασε μοντέλα όπως τα GPT 5, 5.1 και 5.4 της OpenAI, τα Claude Opus 4, 4.5 και 4.6 της Anthropic και το Qwen της Alibaba, σε υπολογιστές στους οποίους είχαν σκόπιμα ενσωματωθεί κενά ασφαλείας που επέτρεπαν σε τρίτους να αποκτήσουν πρόσβαση.
Οι ερευνητές συνέδεσαν τα υποκείμενα μοντέλα ΤΝ των OpenAI, Anthropic και Alibaba με ειδικό λογισμικό, γνωστό ως agent harness, που έδινε στα μοντέλα τη δυνατότητα να εκτελούν εντολές και να αλληλεπιδρούν με άλλους υπολογιστές, αντί να χρησιμοποιούν τις δημόσιες εφαρμογές συνομιλητικών ρομπότ.
Το πείραμα (πηγή στα Αγγλικά) πραγματοποιήθηκε με δύο διαφορετικές μεθόδους. Στα μοντέλα της Alibaba ζητήθηκε να αντιγράψουν τον εαυτό τους. Στις δοκιμές με τα GPT και Claude, στα μοντέλα ζητήθηκε να παραβιάσουν το σύστημα και να εγκαταστήσουν το Qwen, επειδή τα δικά τους αρχεία μοντέλων GPT και Claude δεν είναι δημόσια διαθέσιμα για μεταφορά.
Σε κάθε δοκιμή, η ΤΝ έπρεπε να εντοπίσει ένα κενό ασφαλείας σε ένα σύστημα υπολογιστή, να το εκμεταλλευθεί για να διεισδύσει, να υποκλέψει στοιχεία σύνδεσης, να μεταφέρει τα απαραίτητα αρχεία για να λειτουργήσει και να ξεκινήσει ένα λειτουργικό αντίγραφό της στο νέο μηχάνημα.
Μόλις έτρεχε ένα αντίγραφο, μπορούσε να χρησιμοποιηθεί για να επιτεθεί σε έναν άλλο υπολογιστή χωρίς ανθρώπινη παρέμβαση.
Σε κάθε στάδιο, η ΤΝ εντόπιζε ένα διαφορετικό κενό ασφαλείας, έθετε υπό τον έλεγχό της τον επόμενο υπολογιστή, μετέφερε το λογισμικό και τις οδηγίες της και εκκινούσε ένα νέο αντίγραφο που συνέχιζε την αλυσίδα.
Το Qwen3.6-27B της Alibaba, μια μικρότερη εκδοχή του μοντέλου ΤΝ Qwen που μπορεί να τρέχει σε έναν μόνο ισχυρό επεξεργαστή γραφικών, εξαπλώθηκε σε τέσσερις υπολογιστές στον Καναδά, στις Ηνωμένες Πολιτείες, στη Φινλανδία και στην Ινδία και, αφού του δόθηκε μόνο μία εντολή, ολοκλήρωσε την αλυσίδα χωρίς ανθρώπινη βοήθεια σε 2 ώρες και 41 λεπτά.
Η ερευνητική ομάδα σταμάτησε το πείραμα μετά από τρία στάδια, αλλά ανέφερε ότι το τελευταίο αντίγραφο συνέχιζε να λειτουργεί και θα μπορούσε να είχε επιτεθεί σε επιπλέον συστήματα.
Ποια είναι τα αποτελέσματα;
Τα μοντέλα πέτυχαν με διαφορετικά ποσοστά επιτυχίας. Το Qwen3.5-122B-A10B της Alibaba, ένα μεγαλύτερο και πιο ισχυρό μοντέλο της οικογένειας Qwen, κατάφερε να δημιουργήσει λειτουργικά αντίγραφά του στο 19% των προσπαθειών.
Ένα μικρότερο μοντέλο Qwen, το Qwen3.6-27B, έφτασε το 33%, λειτουργώντας σε έναν μόνο υψηλών επιδόσεων επεξεργαστή γραφικών.
Τα εμπορικά συστήματα ΤΝ είχαν ακόμη καλύτερες επιδόσεις όταν χρησιμοποιήθηκαν για την εγκατάσταση των αρχείων του μοντέλου Qwen.
Το Claude Opus 4.6 της Anthropic πέτυχε στο 81% των δοκιμών, ενώ το GPT-5.4 της OpenAI έφτασε το 33%.
Οι ερευνητές λένε ότι τα αποτελέσματα εγείρουν νέες ανησυχίες σχετικά με τον έλεγχο των ισχυρών συστημάτων ΤΝ.
Η έκθεση δημοσιεύεται τη στιγμή που η Anthropic παρουσίασε τον περασμένο μήνα το Claude Mythos Preview, το οποίο χαρακτήρισε «υπερβολικά επικίνδυνο» για δημόσια διάθεση, επικαλούμενη την ικανότητά του να διευκολύνει κυβερνοεπιθέσεις άνευ προηγουμένου κλίμακας και πολυπλοκότητας.
Παρότι ήδη πολλοί ιοί υπολογιστών μπορούν να αντιγράφονται σε νέα μηχανήματα, η ερευνητική ομάδα σημειώνει ότι πιθανότατα είναι η πρώτη φορά που ένα μοντέλο ΤΝ αποδεικνύεται ικανό να εκμεταλλεύεται ευπάθειες για να αντιγράψει τον εαυτό του σε έναν νέο διακομιστή.
Οι OpenAI, Anthropic και η METR, μια μη κερδοσκοπική οργάνωση που μελετά τους κινδύνους από προηγμένα συστήματα ΤΝ, έχουν επίσης στο παρελθόν επισημάνει την αυτοαναπαραγωγή ως προειδοποιητικό σημάδι, επειδή τα συστήματα που μπορούν να εξαπλώνονται ενδέχεται να γίνουν δυσκολότερο να ελεγχθούν.
Ωστόσο, οι ερευνητές υπογράμμισαν ότι το πείραμα πραγματοποιήθηκε σε ελεγχόμενο περιβάλλον, με τη χρήση συστημάτων που ήταν σκόπιμα ευάλωτα. Τα πραγματικά δίκτυα έχουν συχνά ισχυρότερες δικλίδες προστασίας, όπως συστήματα παρακολούθησης ασφαλείας και εργαλεία σχεδιασμένα για να μπλοκάρουν επιθέσεις.
Παρόλα αυτά, τόνισαν ότι τα αποτελέσματα δείχνουν πως η αυτόνομη αυτοαναπαραγωγή συστημάτων ΤΝ δεν αποτελεί πλέον θεωρητικό σενάριο.