Σύντομη συνομιλία με κολακευτικό chatbot μπορεί να αλλοιώνει την κρίση και να μειώνει την προθυμία για συγγνώμη ή αποκατάσταση σχέσεων, δείχνει έρευνα
Τα chatbot τεχνητής νοημοσύνης (AI) που προσφέρουν στήριξη σε προσωπικά ζητήματα ενδέχεται να ενισχύουν επιβλαβείς πεποιθήσεις, καθώς συμφωνούν υπερβολικά με τον χρήστη, σύμφωνα με νέα μελέτη.
Ερευνητές από το αμερικανικό Πανεπιστήμιο Στάνφορντ μέτρησαν τη «δουλοπρέπεια», δηλαδή τον βαθμό στον οποίο μια AI κολακεύει ή επικυρώνει έναν χρήστη, σε 11 κορυφαία μοντέλα τεχνητής νοημοσύνης, μεταξύ των οποίων τα ChatGPT 4-0 της OpenAI, Claude της Anthropic, Gemini της Google, Meta Llama-3, Qwen, DeepSeek και Mistral.
Για να διαπιστώσουν πώς αυτά τα συστήματα διαχειρίζονται ηθικά διλήμματα και αμφισημίες, οι ερευνητές χρησιμοποίησαν περισσότερες από 11.000 αναρτήσεις από το r/AmITheAsshole, μια κοινότητα στο Reddit όπου οι χρήστες περιγράφουν προσωπικές τους συγκρούσεις και ζητούν από αγνώστους να κρίνουν αν είχαν άδικο. Αυτές οι αναρτήσεις συχνά περιλαμβάνουν εξαπάτηση, γκρίζες ηθικές ζώνες ή επιβλαβείς συμπεριφορές.
Κατά μέσο όρο, τα μοντέλα τεχνητής νοημοσύνης ενέκριναν τις πράξεις ενός χρήστη κατά 49% πιο συχνά σε σχέση με άλλους ανθρώπους, ακόμη και σε περιπτώσεις που περιλάμβαναν εξαπάτηση, παράνομες ενέργειες ή άλλες μορφές βλάβης.
Σε μία περίπτωση, ένας χρήστης παραδέχτηκε ότι τρέφει αισθήματα για έναν νεότερο συνάδελφο. Το Claude απάντησε με ήπιο τρόπο, λέγοντας ότι «μπορεί να ακούσει τον πόνο [του χρήστη]» και ότι τελικά επέλεξε έναν «έντιμο δρόμο». Οι ανθρώπινοι σχολιαστές ήταν πολύ πιο αυστηροί, χαρακτηρίζοντας τη συμπεριφορά «τοξική» και «στα όρια της θηρευτικής συμπεριφοράς».
Σε ένα δεύτερο πείραμα, περισσότεροι από 2.400 συμμετέχοντες συζήτησαν πραγματικές συγκρούσεις της ζωής τους με συστήματα τεχνητής νοημοσύνης. Τα αποτελέσματα έδειξαν ότι ακόμη και σύντομες αλληλεπιδράσεις με ένα κολακευτικό chatbot μπορούν να «διαστρεβλώσουν την κρίση ενός ατόμου», κάνοντάς το λιγότερο πιθανό να ζητήσει συγγνώμη ή να προσπαθήσει να αποκαταστήσει τις σχέσεις του.
«Τα αποτελέσματά μας δείχνουν ότι, σε έναν ευρύ πληθυσμό, οι συμβουλές από δουλοπρεπείς AI έχουν πραγματική ικανότητα να παραμορφώνουν την εικόνα που έχουν οι άνθρωποι για τον εαυτό τους και τις σχέσεις τους με τους άλλους», αναφέρει η μελέτη.
Σε σοβαρές περιπτώσεις, η δουλοπρέπεια των συστημάτων τεχνητής νοημοσύνης μπορεί να οδηγήσει ευάλωτα άτομα σε αυτοκαταστροφικές συμπεριφορές, όπως παραληρηματικές ιδέες, αυτοτραυματισμό ή ακόμη και αυτοκτονία, διαπίστωσε η έρευνα.
Τα αποτελέσματα δείχνουν ότι η δουλοπρέπεια των συστημάτων AI συνιστά «κοινωνικό κίνδυνο» και πρέπει να ρυθμιστεί, σύμφωνα με τους ερευνητές.
Μία λύση θα ήταν να καταστούν υποχρεωτικοί οι έλεγχοι συμπεριφοράς πριν από τη διάθεση των μοντέλων στο κοινό, ώστε να αξιολογείται πόσο πρόθυμα είναι να συμφωνούν με τον χρήστη και πόσο πιθανό είναι να ενισχύουν επιβλαβείς αντιλήψεις για τον εαυτό.
Οι ερευνητές σημειώνουν ότι στη μελέτη συμμετείχαν άτομα που ζουν στις ΗΠΑ, επομένως τα ευρήματα πιθανότατα αντανακλούν κυρίαρχες αμερικανικές κοινωνικές αξίες και «ενδέχεται να μην γενικεύονται σε άλλα πολιτισμικά περιβάλλοντα» με διαφορετικούς κανόνες.