Οι λεγόμενες επιθέσεις απόσταξης συλλέγουν απαντήσεις από μοντέλα τεχνητής νοημοσύνης, ώστε να εκπαιδεύσουν μικρότερα.
Καθώς οι Ηνωμένες Πολιτείες και η Κίνα δίνουν μάχη για την πρωτοκαθεδρία στην ανάπτυξη της τεχνητής νοημοσύνης (AI), η αμερικανική εταιρεία Anthropic είναι η πιο πρόσφατη που κρούει τον κώδωνα του κινδύνου, υποστηρίζοντας ότι κινεζικές εταιρείες ΤΝ κλέβουν την τεχνολογία που μπορεί να κρίνει ποιος θα επικρατήσει.
Οι DeepSeek, Moonshot AI και MiniMax φέρονται να παρήγαγαν κρυφά πάνω από 16 εκατομμύρια συνομιλίες με το chatbot τεχνητής νοημοσύνης Claude της Anthropic, χρησιμοποιώντας πάνω από 24.000 ψεύτικους λογαριασμούς, ώστε να αποσπάσουν τις δυνατότητές του και να εκπαιδεύσουν τα δικά τους ανταγωνιστικά μοντέλα, σύμφωνα με την εταιρεία.
Η OpenAI και η Google έχουν επίσης προειδοποιήσει τον τελευταίο μήνα για παρόμοιες πρακτικές σε κινεζικές εταιρείες, τροφοδοτώντας φόβους ότι η Κίνα παρακάμπτει χρόνια δαπανηρής έρευνας στην ΤΝ.
Τι είναι η απόσταση στην ΤΝ;
Οι επιθέσεις εξαγωγής μοντέλου (Model Extraction Attacks, MEA), γνωστές και ως «απόσταξη», είναι μια τεχνική κατά την οποία κάποιος που έχει πρόσβαση σε ένα ισχυρό μοντέλο ΤΝ το χρησιμοποιεί για να εκπαιδεύσει ένα φθηνότερο, ταχύτερο αντίπαλο.
Η μέθοδος αυτή τροφοδοτεί το μεγαλύτερο μοντέλο με χιλιάδες ερωτήματα, συλλέγει τις απαντήσεις του και χρησιμοποιεί αυτές τις αποκρίσεις για να διδάξει σε ένα νέο μοντέλο να «σκέφτεται» με τον ίδιο τρόπο.
Ο χρήστης μπορεί να υποβάλλει ερωτήσεις στο μεγαλύτερο μοντέλο και να χρησιμοποιεί τις απαντήσεις του για να εκπαιδεύει το μικρότερο, επιταχύνοντας την ανάπτυξή του και «με ένα κλάσμα του κόστους» σε σχέση με το αν ο κακόβουλος παράγοντας έκανε ο ίδιος όλη την αρχική δουλειά, υποστηρίζει η Anthropic.
Η απόσταξη είναι μια «νόμιμη» πρακτική όταν τα εργαστήρια αιχμής στην ΤΝ αποστάζουν τα δικά τους μοντέλα για να «δημιουργήσουν μικρότερες, φθηνότερες εκδοχές για τους πελάτες τους», αναφέρει η αμερικανική εταιρεία.
Τα μικρότερα μοντέλα απαντούν σε ερωτήματα πολύ πιο γρήγορα και απαιτούν λιγότερη υπολογιστική ισχύ ή ενέργεια για να λειτουργήσουν σε σχέση με τα μεγαλύτερα, σύμφωνα με τη Google.
Την ίδια ώρα, τα μοντέλα που αναπτύσσονται μέσω απόσταξης ενέχουν σημαντικούς κινδύνους για την εθνική ασφάλεια, επειδή «στερούνται των αναγκαίων δικλίδων ασφαλείας», σύμφωνα με την Anthropic, ώστε να περιορίζεται η δυνητική επικινδυνότητά τους.
Η Anthropic υποστήριξε ότι τα αποσταγμένα μοντέλα δεν θα διαθέτουν τις ασφαλιστικές δικλίδες που αποτρέπουν κρατικούς και μη κρατικούς δρώντες από το να χρησιμοποιήσουν την ΤΝ για βιολογικά όπλα ή για τη διενέργεια κυβερνοεπιθέσεων.
Δεν υπάρχουν κίνδυνοι για τους συνηθισμένους χρήστες υπηρεσιών ΤΝ σε μια επίθεση απόσταξης, πρόσθεσε η Google, καθώς αυτές οι επιθέσεις δεν «απειλούν την εμπιστευτικότητα, τη διαθεσιμότητα ή την ακεραιότητα των υπηρεσιών ΤΝ».
Παράλληλα, η OpenAI ανέφερε σε Αμερικανούς νομοθέτες τον Φεβρουάριο ότι εντόπισε την DeepSeek να επιχειρεί να αντιγράψει κρυφά τα πιο ισχυρά μοντέλα ΤΝ της – και προειδοποίησε ότι η κινεζική εταιρεία αναπτύσσει νέες μεθόδους για να συγκαλύπτει τις κινήσεις της.
Τι μαθαίνουν οι χάκερ στα μοντέλα τους;
Οι κινεζικές εταιρείες ΤΝ φέρονται να διοχέτευαν την κίνηση μέσω διευθύνσεων proxy που διαχειρίζονταν ένα τεράστιο «δίκτυο Ύδρα», ένα μεγάλο σύμπλεγμα ψεύτικων λογαριασμών που μοίραζαν τη δραστηριότητά τους σε διάφορες πλατφόρμες για να αποκτήσουν πρόσβαση στην Anthropic, η οποία είναι μπλοκαρισμένη στην Κίνα.
Από τη στιγμή που οι εταιρείες αποκτούσαν πρόσβαση, παρήγαγαν μαζικά προτροπές, είτε για να συλλέξουν υψηλής ποιότητας απαντήσεις για την εκπαίδευση των μοντέλων τους είτε για να δημιουργήσουν δεκάδες χιλιάδες εργασίες για εκμάθηση μέσω ενίσχυσης, δηλαδή τον τρόπο με τον οποίο ένας «πράκτορας» μαθαίνει να λαμβάνει αποφάσεις από την ανατροφοδότηση.
Οι λογαριασμοί της DeepSeek που παραβίασαν το Claude ζητούσαν από το μοντέλο να εξηγήσει πώς αιτιολόγησε την απάντηση σε μια προτροπή και να την αναπτύξει βήμα προς βήμα, κάτι που, όπως ανέφερε η εταιρεία, «παρήγαγε δεδομένα εκπαίδευσης αλυσίδας σκέψης σε μεγάλη κλίμακα».
Το Claude χρησιμοποιήθηκε επίσης από τους λογαριασμούς της DeepSeek για να «δημιουργεί εκδοχές ερωτημάτων για πολιτικά ευαίσθητα ζητήματα που να περνούν τη λογοκρισία», όπως ερωτήσεις για αντιπάλους του σημερινού Κομμουνιστικού Κόμματος, υποστηρίζει η Anthropic.
Η αμερικανική εταιρεία εκτίμησε ότι τέτοιου είδους ερωτήματα εκπαίδευσαν τα μοντέλα της DeepSeek «ώστε να κατευθύνουν τις συνομιλίες μακριά από λογοκριμένα θέματα», κάτι που θα μπορούσε να επιβεβαιώνει πρόσφατη μελέτη, σύμφωνα με την οποία τα κινεζικά μοντέλα ΤΝ πιθανότατα λογοκρίνουν τα ίδια θέματα με τα κρατικά μέσα ενημέρωσης.
Οι MiniMax AI και Moonshoot AI πραγματοποίησαν ακόμη μεγαλύτερες εκστρατείες απόσταξης από τη DeepSeek, αλλά η Anthropic δεν έδωσε παραδείγματα για το είδος των πληροφοριών που συνέλεγαν στα ερωτήματά τους αυτές οι δύο εταιρείες.
Η Google ανέφερε (πηγή στα Αγγλικά) ότι το chatbot ΤΝ Gemini χρησιμοποιείται συστηματικά καταχρηστικά για εργασίες προγραμματισμού και δημιουργίας κώδικα ή για τη συλλογή πληροφοριών, όπως ευαίσθητα διαπιστευτήρια λογαριασμών και διευθύνσεις email.
Η Anthropic αναφέρει ότι έχει αναπτύξει μηχανισμούς εντοπισμού για να αναγνωρίζει τέτοιες εκστρατείες την ώρα που εξελίσσονται, αλλά σημειώνει ότι καμία εταιρεία ΤΝ δεν μπορεί να λύσει το πρόβλημα από μόνη της.