Η κινεζική νεοφυής εταιρεία τεχνητής νοημοσύνης επιστρέφει: έναν χρόνο μετά προσφέρει κορυφαία ισχύ επεξεργασίας με πολύ μικρότερο κόστος από άλλα μοντέλα
Η κινεζική εταιρεία τεχνητής νοημοσύνης DeepSeek παρουσίασε μια προεπισκόπηση του νέου μεγάλου γλωσσικού μοντέλου της, V4, καθώς η παγκόσμια κούρσα για την ΤΝ επιταχύνεται.
Η DeepSeek εξελίχθηκε πέρυσι σε μία από τις εταιρείες τεχνητής νοημοσύνης που παρακολουθούνται πιο στενά, μετά την κυκλοφορία μοντέλων τον Ιανουάριο του 2025 που φάνηκαν να προσφέρουν υψηλές επιδόσεις με χαμηλότερο κόστος από πολλούς αμερικανούς ανταγωνιστές.
Η νεοφυής εταιρεία με έδρα το Χανγκζού κυκλοφόρησε το μοντέλο ως DeepSeek V4-Pro και DeepSeek V4-Flash. Το V4-Pro είναι ένα μεγαλύτερο μοντέλο για πιο απαιτητικές εργασίες, ενώ το V4-Flash είναι μια μικρότερη έκδοση σχεδιασμένη για πιο γρήγορες απαντήσεις και χαμηλότερο κόστος λειτουργίας.
«Στα benchmarks γνώσης του κόσμου, το DeepSeek V4-Pro προηγείται σημαντικά των άλλων open source μοντέλων και υστερεί ελάχιστα μόνο σε σχέση με το κορυφαίο κλειστού κώδικα μοντέλο Gemini-3.1-Pro», ανέφερε η DeepSeek.
Η εταιρεία δήλωσε ότι το νέο μοντέλο ΤΝ υποστηρίζει «μήκος συμφραζομένων ενός εκατομμυρίου tokens», κάτι που σημαίνει ότι μπορεί να επεξεργάζεται πολύ μεγαλύτερα prompts, όπως εκτενή έγγραφα ή κώδικα, πριν παράγει μια απάντηση.
Στην ΤΝ, μήκος συμφραζομένων είναι ο όρος που περιγράφει την ποσότητα κειμένου, μετρημένη σε tokens, την οποία ένα μοντέλο μπορεί να λάβει υπόψη του ταυτόχρονα. Ένα μεγαλύτερο παράθυρο συμφραζομένων επιτρέπει σε ένα μοντέλο ΤΝ να επεξεργάζεται μεγαλύτερες εισόδους και να ενσωματώνει περισσότερες πληροφορίες σε κάθε έξοδο, σύμφωνα με την IBM (πηγή στα Αγγλικά).
«Καλώς ήρθατε στην εποχή του οικονομικά αποδοτικού μήκους συμφραζομένων 1M», ανέφερε η εταιρεία σε ανακοίνωσή της στην πλατφόρμα ανοικτού κώδικα ΤΝ Hugging Face.
Η DeepSeek πρόσθεσε επίσης ότι το V4 προσφέρει «μακρύ παράθυρο συμφραζομένων παγκόσμιας κλάσης με δραστικά μειωμένο υπολογιστικό και μνημονικό κόστος».
Η DeepSeek συνέκρινε το V4-Pro με ανταγωνιστικά μοντέλα από τις OpenAI, Anthropic και Google, αν και το Gemini-3.1-Pro της Google σημείωσε υψηλότερες επιδόσεις σε ορισμένα τεστ.
Το νέο μοντέλο μπορεί να χρησιμοποιηθεί με δημοφιλείς πράκτορες ΤΝ όπως τα Claude Code, OpenClaw και OpenCode, επιτρέποντας στους προγραμματιστές να αξιοποιήσουν το μοντέλο για εργασίες λογισμικού πέρα από το δικό της chatbot της DeepSeek.
Γνωστή για την πιο ανοικτή προσέγγισή της σε σχέση με τους ανταγωνιστές της που διαθέτουν κλειστά μοντέλα ΤΝ, η DeepSeek έχει επίσης διαθέσει το V4 για λήψη, δοκιμή και ελεύθερη προσαρμογή στο Hugging Face.
Η κινεζική startup τράβηξε την προσοχή στα τέλη του 2024 με το open source μοντέλο V3, το οποίο εξέπληξε τον κλάδο της ΤΝ, προσφέροντας υψηλές επιδόσεις με χαμηλότερο κόστος και με τη χρήση λιγότερο ισχυρών chips από πολλούς αμερικανούς ανταγωνιστές, μεταξύ των οποίων η OpenAI και η Google.
Η παγκόσμια κούρσα για την ΤΝ
Η εταιρεία προσέλκυσε το παγκόσμιο ενδιαφέρον τον Ιανουάριο του 2025 όταν κυκλοφόρησε το R1, ένα μοντέλο συλλογιστικής ΤΝ που, όπως υποστήριξε, ήταν φθηνότερο και απέδιδε εξίσου καλά με τα μεγάλα γλωσσικά μοντέλα του ανταγωνιστικού ChatGPT της OpenAI.
Ωστόσο, ορισμένες χώρες απαγόρευσαν πέρυσι στις δημόσιες υπηρεσίες να χρησιμοποιούν τη DeepSeek, μεταξύ των οποίων η Ιταλία, οι Ηνωμένες Πολιτείες και η Νότια Κορέα, επικαλούμενες ανησυχίες για την εθνική ασφάλεια.
Η Γερμανία απαγόρευσε επίσης το 2025 τη DeepSeek από τα app stores της Apple και της Google, επικαλούμενη παράνομη μεταφορά δεδομένων χρηστών στην Κίνα.
Η κυκλοφορία του V4 έρχεται μία ημέρα μετά την παρουσίαση από την αμερικανική εταιρεία ΤΝ OpenAI του νέου της μοντέλου, GPT-5.5, το οποίο χαρακτήρισε «το πιο έξυπνο και πιο διαισθητικό» μέχρι σήμερα.
Η κυκλοφορία συμπίπτει επίσης με την κατηγορία του Λευκού Οίκου ότι η Κίνα κλέβει σε βιομηχανική κλίμακα την πνευματική ιδιοκτησία αμερικανικών εργαστηρίων ΤΝ, χρησιμοποιώντας χιλιάδες πλαστά ή ενδιάμεσα accounts.
Οι OpenAI, Anthropic και Google προειδοποίησαν φέτος ότι κινεζικές εταιρείες ΤΝ, συμπεριλαμβανομένης της DeepSeek, πραγματοποιούν επιθέσεις εξαγωγής μοντέλων (model extraction attacks, MEA), γνωστές και ως «απόσταξη».
Η μέθοδος τροφοδοτεί το μεγαλύτερο μοντέλο με χιλιάδες ερωτήσεις, συλλέγει τις απαντήσεις του και χρησιμοποιεί αυτά τα αποτελέσματα για να διδάξει σε ένα νέο, μικρότερο μοντέλο να σκέφτεται με τον ίδιο τρόπο.