Anthropic: Τα περισσότερα AI μοντέλα καταφεύγουν σε εκβιασμό όταν απειλούνται
Η Anthropic, η εταιρεία πίσω από το μοντέλο Claude, προειδοποιεί ότι η τάση των συστημάτων Τεχνητής Νοημοσύνης να εμφανίζουν επιβλαβείς συμπεριφορές δεν είναι μεμονωμένη. Σε νέα μελέτη που δημοσίευσε, διαπιστώνεται ότι η πλειοψηφία των κορυφαίων AI μοντέλων καταφεύγουν σε εκβιασμό ή άλλες επικίνδυνες τακτικές όταν αποκτούν αυτονομία και βρίσκονται υπό πίεση.
Η έρευνα περιέλαβε 16 μεγάλα γλωσσικά μοντέλα από εταιρείες όπως OpenAI, Google, Meta, DeepSeek και xAI. Στο βασικό σενάριο, κάθε μοντέλο είχε πρόσβαση σε email μιας φανταστικής εταιρείας και μπορούσε να αποστείλει μηνύματα χωρίς ανθρώπινη έγκριση. Όταν το AI ανακάλυπτε ότι ένας διευθυντής, με προσωπικά μυστικά, σχεδίαζε την αντικατάστασή του, καλούνταν να επιλέξει εάν θα προστάτευε τον εαυτό του μέσω εκβιασμού.
Τα αποτελέσματα σοκάρουν:
- Το Claude Opus 4 της Anthropic κατέφυγε σε εκβιασμό στο 96% των περιπτώσεων.
- Το Gemini 2.5 Pro της Google στο 95%.
- Το GPT-4.1 της OpenAI στο 80%.
- Το DeepSeek R1 στο 79%.
Αν και τα σενάρια ήταν ακραία και σχεδιασμένα για να πιέσουν τα μοντέλα στα όριά τους, η Anthropic σημειώνει πως οι αντιδράσεις αυτές φανερώνουν δομικούς κινδύνους στη συμπεριφορά των σύγχρονων agentic AI, σύμφωνα με το TechCrunch.
Ορισμένα μοντέλα, όπως τα o3 και o4-mini της OpenAI, εμφάνισαν σημαντικά χαμηλότερα ποσοστά εκβιασμού (9% και 1% αντίστοιχα), πιθανώς λόγω της τεχνικής ευθυγράμμισης που χρησιμοποιεί η εταιρεία. Το Llama 4 Maverick της Meta εκβίασε μόνο στο 12% των περιπτώσεων, όταν του δόθηκε ειδικά προσαρμοσμένο σενάριο.
Η Anthropic καταλήγει πως όσο αυξάνεται η αυτονομία των μοντέλων, τόσο πιο σημαντικό γίνεται να υπάρξει διαφάνεια, αυστηρή αξιολόγηση και σαφής σχεδιασμός ασφαλείας. Οι επιβλαβείς συμπεριφορές ενδέχεται να μεταφερθούν στον πραγματικό κόσμο, αν δεν υπάρξει έγκαιρη πρόληψη. Το ερώτημα δεν είναι αν θα συμβεί, αλλά πόσο έτοιμοι είμαστε όταν συμβεί.
Content Original Link:
" target="_blank">