Anthropic: Τα περισσότερα AI μοντέλα καταφεύγουν σε εκβιασμό όταν απειλούνται

Anthropic: Τα περισσότερα AI μοντέλα καταφεύγουν σε εκβιασμό όταν απειλούνται

Η Anthropic, η εταιρεία πίσω από το μοντέλο Claude, προειδοποιεί ότι η τάση των συστημάτων Τεχνητής Νοημοσύνης να εμφανίζουν επιβλαβείς συμπεριφορές δεν είναι μεμονωμένη. Σε νέα μελέτη που δημοσίευσε, διαπιστώνεται ότι η πλειοψηφία των κορυφαίων AI μοντέλων καταφεύγουν σε εκβιασμό ή άλλες επικίνδυνες τακτικές όταν αποκτούν αυτονομία και βρίσκονται υπό πίεση.

Η έρευνα περιέλαβε 16 μεγάλα γλωσσικά μοντέλα από εταιρείες όπως OpenAI, Google, Meta, DeepSeek και xAI. Στο βασικό σενάριο, κάθε μοντέλο είχε πρόσβαση σε email μιας φανταστικής εταιρείας και μπορούσε να αποστείλει μηνύματα χωρίς ανθρώπινη έγκριση. Όταν το AI ανακάλυπτε ότι ένας διευθυντής, με προσωπικά μυστικά, σχεδίαζε την αντικατάστασή του, καλούνταν να επιλέξει εάν θα προστάτευε τον εαυτό του μέσω εκβιασμού.

Τα αποτελέσματα σοκάρουν:

Το Claude Opus 4 της Anthropic κατέφυγε σε εκβιασμό στο 96% των περιπτώσεων.
Το Gemini 2.5 Pro της Google στο 95%.
Το GPT-4.1 της OpenAI στο 80%.
Το DeepSeek R1 στο 79%.

Αν και τα σενάρια ήταν ακραία και σχεδιασμένα για να πιέσουν τα μοντέλα στα όριά τους, η Anthropic σημειώνει πως οι αντιδράσεις αυτές φανερώνουν δομικούς κινδύνους στη συμπεριφορά των σύγχρονων agentic AI, σύμφωνα με το TechCrunch.

Ορισμένα μοντέλα, όπως τα o3 και o4-mini της OpenAI, εμφάνισαν σημαντικά χαμηλότερα ποσοστά εκβιασμού (9% και 1% αντίστοιχα), πιθανώς λόγω της τεχνικής ευθυγράμμισης που χρησιμοποιεί η εταιρεία. Το Llama 4 Maverick της Meta εκβίασε μόνο στο 12% των περιπτώσεων, όταν του δόθηκε ειδικά προσαρμοσμένο σενάριο.

Η Anthropic καταλήγει πως όσο αυξάνεται η αυτονομία των μοντέλων, τόσο πιο σημαντικό γίνεται να υπάρξει διαφάνεια, αυστηρή αξιολόγηση και σαφής σχεδιασμός ασφαλείας. Οι επιβλαβείς συμπεριφορές ενδέχεται να μεταφερθούν στον πραγματικό κόσμο, αν δεν υπάρξει έγκαιρη πρόληψη. Το ερώτημα δεν είναι αν θα συμβεί, αλλά πόσο έτοιμοι είμαστε όταν συμβεί.

Content Original Link:

ΠΕΡΙΣΣΟΤΕΡΑ ΤΕΧΝΟΛΟΓΙΑ Liberal.gr

" target="_blank">

ΠΕΡΙΣΣΟΤΕΡΑ ΤΕΧΝΟΛΟΓΙΑ Liberal.gr

Most read
Latest news

Aegean: «Πρεμιέρα» της νέας γραμμής Θεσσαλονίκη - Σμύρνη

Ιταλία: Ρόδα του λούνα παρκ έπεσε κατά τη διάρκεια καταιγίδας - Δείτε βίντεο

Οι 5 ταινίες για ποδοσφαιριστές που έκαναν αίσθηση, από τον Μαραντόνα και τον Πελέ στον Ζλάταν

ΠΑΣΟΚ για προκλητικές δηλώσεις Φιντάν: "Δεν υπάρχει καμία αμφιβολία ότι η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη"

ΠΑΣΟΚ για προκλητικές δηλώσεις Φιντάν: "Δεν υπάρχει καμία αμφιβολία ότι η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη"

Αυτός ήταν ο πρώτος Γάλλος που κέρδισε την Χρυσή Μπάλα πολύ πριν τον Πλατινί

Πληρωμές ΕΦΚΑ και ΔΥΠΑ: Ποιοι θα λάβουν έως 2,5 δισ. ευρώ έως τις 27 Ιουνίου - Αναλυτικά τα ποσά και οι δικαιούχοι

Παναθηναϊκός: Τα δίνει όλα για Ουναΐ

Μάντζος για δηλώσεις Φιντάν: «Η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη που δεν δείχνει διατεθειμένη να μετακινηθεί από τις πάγιες θέσεις της»

Μάντζος για δηλώσεις Φιντάν: «Η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη που δεν δείχνει διατεθειμένη να μετακινηθεί από τις πάγιες θέσεις της»

Σωκράτης Φάμελλος: Ο Μίκης Θεοδωράκης μπόλιασε τη συνείδηση του λαού με αξιοπρέπεια και πολιτισμό

Προκόπης Παυλόπουλος: «Ιωάννης Καποδίστριας: Συνοπτικό δοκίμιο απόδοσης ιστορικής δικαιοσύνης»

Herbalife Protein Chips 10 πακετα X 30 γρ. γευση Barbecue

High Protein Iced Coffee - Γεύση Latte Macchiato 308g

Στέιτ Ντιπάρτμεντ: Δεκάδες Αμερικανοί πολίτες «πέταξαν» από το Ισραήλ στην Αθήνα το Σάββατο με δύο πτήσεις

Formula 1 – Γεύση Vanilla Cream 780g

Συμπυκνωμένος Χυμός Αλόης - Κλασική Γεύση 473ml

Μπορεί να επιστρέψει η παραγωγή παππουτσιών στις ΗΠΑ;

«Μόνο ο χρόνος θα δείξει» - Το αινιγματικό σχόλιο Τραμπ για την πιθανή επίθεση των ΗΠΑ κατά του Ιράν

Πού οφείλεται η ανδρική υπογονιμότητα

Starship: Σειρά αποτυχιών απειλεί το πρόγραμμα της SpaceX

Ισραήλ: Τρία ιρανικά μαχητικά F-14 καταστράφηκαν στην ισραηλινή επιδρομή

In The Spotlight

1 of 12

ΠΑΣΟΚ για αναφορές του Τούρκου ΥΠΕΞ: Δεν υπάρχει καμία αμφιβολία ότι η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη

ΟΙΚΟΝΟΜΙΑ

ΠΑΣΟΚ για αναφορές του Τούρκου ΥΠΕΞ: Δεν υπάρχει καμία αμφιβολία ότι η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη

Coldplay όπως οικολόγοι: Επανεκδίδουν άλμπουμ τους σε δίσκους βινυλίου από ανακυκλωμένα πλαστικά

ΚΟΙΝΩΝΙΚΑ

Coldplay όπως οικολόγοι: Επανεκδίδουν άλμπουμ τους σε δίσκους βινυλίου από ανακυκλωμένα πλαστικά

Η Κύπρος καταγγέλλει στον ΟΗΕ την Τουρκία για εκμετάλλευση ελληνοκυπριακών περιουσιών στις κατεχόμενες περιοχές

ΟΙΚΟΝΟΜΙΑ

Η Κύπρος καταγγέλλει στον ΟΗΕ την Τουρκία για εκμετάλλευση ελληνοκυπριακών περιουσιών στις κατεχόμενες περιοχές

Anthropic: Τα περισσότερα AI μοντέλα καταφεύγουν σε εκβιασμό όταν απειλούνται

ΤΕΧΝΟΛΟΓΙΑ

Anthropic: Τα περισσότερα AI μοντέλα καταφεύγουν σε εκβιασμό όταν απειλούνται

Προκόπης Παυλόπουλος: «Ιωάννης Καποδίστριας: Συνοπτικό δοκίμιο απόδοσης ιστορικής δικαιοσύνης»

Καθημερινα

Προκόπης Παυλόπουλος: «Ιωάννης Καποδίστριας: Συνοπτικό δοκίμιο απόδοσης ιστορικής δικαιοσύνης»

Βραζιλία: Συγκλονίζουν οι μαρτυρίες για το φλεγόμενο αερόστατο - «Δύο γυναίκες πήδηξαν, πέφτοντας πάνω σε βράχια»

ΚΟΙΝΩΝΙΚΑ

Βραζιλία: Συγκλονίζουν οι μαρτυρίες για το φλεγόμενο αερόστατο - «Δύο γυναίκες πήδηξαν, πέφτοντας πάνω σε βράχια»

More News

Ο Τσιτσιπάς φωτογραφήθηκε με το «Φαινόμενο» (pic)

Σωκράτης Φάμελλος: Ο Μίκης Θεοδωράκης μπόλιασε τη συνείδηση του λαού με αξιοπρέπεια και πολιτισμό

Axios: Άκαρπη απόπειρα Τραμπ & Ερντογάν για συνάντηση ΗΠΑ & Ιράν

Φάμελλος για Μίκη Θεοδωράκη: «Μας θυμίζει ότι και σήμερα η σιωπή είναι συνενοχή και πρέπει να φωνάξουμε δυνατά»

Φάμελλος για Μίκη Θεοδωράκη: «Μας θυμίζει ότι και σήμερα η σιωπή είναι συνενοχή και πρέπει να φωνάξουμε δυνατά»

Κύπρος: Η Τουρκία εκμεταλλεύεται ελληνοκυπριακές περιουσίες στα κατεχόμενα

Ελλάδα-Τουρκία 72-83: Εκτός προημιτελικών του Eurobasket γυναικών η Εθνική μας, ηττήθηκε στο ΣΕΦ

Πολιτικη

ΠΑΣΟΚ για προκλητικές δηλώσεις Φιντάν: "Δεν υπάρχει καμία αμφιβολία ότι η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη"

Σωκράτης Φάμελλος: Ο Μίκης Θεοδωράκης μπόλιασε τη συνείδηση του λαού με αξιοπρέπεια και πολιτισμό

Πολιτικη

Σωκράτης Φάμελλος: Ο Μίκης Θεοδωράκης μπόλιασε τη συνείδηση του λαού με αξιοπρέπεια και πολιτισμό

Απάντηση του ΥΠΕΞ στις δηλώσεις Φιντάν για "τουρκική μειονότητα" και αναγνώριση ψευδοκράτους

Πολιτικη

Απάντηση του ΥΠΕΞ στις δηλώσεις Φιντάν για "τουρκική μειονότητα" και αναγνώριση ψευδοκράτους

ΟΙΚΟΝΟΜΙΑ

Aegean: «Πρεμιέρα» της νέας γραμμής Θεσσαλονίκη - Σμύρνη

ΟΙΚΟΝΟΜΙΑ

Aegean: «Πρεμιέρα» της νέας γραμμής Θεσσαλονίκη - Σμύρνη

Πληρωμές ΕΦΚΑ και ΔΥΠΑ: Ποιοι θα λάβουν έως 2,5 δισ. ευρώ έως τις 27 Ιουνίου - Αναλυτικά τα ποσά και οι δικαιούχοι

ΟΙΚΟΝΟΜΙΑ

Πληρωμές ΕΦΚΑ και ΔΥΠΑ: Ποιοι θα λάβουν έως 2,5 δισ. ευρώ έως τις 27 Ιουνίου - Αναλυτικά τα ποσά και οι δικαιούχοι

ΟΙΚΟΝΟΜΙΑ

ΠΑΣΟΚ για αναφορές του Τούρκου ΥΠΕΞ: Δεν υπάρχει καμία αμφιβολία ότι η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη

ΕΠΙΧEIΡΗΣΕΙΣ

Γεραπετρίτης: Τηρούμε στάση αρχής στο Παλαιστινιακό - Σε εξέλιξη ειρηνευτικό σχέδιο για τη Γάζα

ΕΠΙΧEIΡΗΣΕΙΣ

Γεραπετρίτης: Τηρούμε στάση αρχής στο Παλαιστινιακό - Σε εξέλιξη ειρηνευτικό σχέδιο για τη Γάζα

Η τεχνητή νοημοσύνη στην υπηρεσία της ΔΙΜΕΑ για τον εντοπισμό απομιμητικών προϊόντων

ΕΠΙΧEIΡΗΣΕΙΣ

Η τεχνητή νοημοσύνη στην υπηρεσία της ΔΙΜΕΑ για τον εντοπισμό απομιμητικών προϊόντων

ΥΠΕΞ: Η μειονότητα στη Θράκη είναι θρησκευτική - Οι τουρκικές δηλώσεις δεν βοηθούν στο Κυπριακό

ΕΠΙΧEIΡΗΣΕΙΣ

ΥΠΕΞ: Η μειονότητα στη Θράκη είναι θρησκευτική - Οι τουρκικές δηλώσεις δεν βοηθούν στο Κυπριακό

ΚΟΙΝΩΝΙΚΑ

Μπορεί να επιστρέψει η παραγωγή παππουτσιών στις ΗΠΑ;

ΚΟΙΝΩΝΙΚΑ

Μπορεί να επιστρέψει η παραγωγή παππουτσιών στις ΗΠΑ;

ΟΠΕΚ+: Έξυπνη κίνηση η αύξηση της παραγωγής λέει ο CEO της ρωσικής Rosneft

ΚΟΙΝΩΝΙΚΑ

ΟΠΕΚ+: Έξυπνη κίνηση η αύξηση της παραγωγής λέει ο CEO της ρωσικής Rosneft

Οι μαρίνες το νέο χρυσωρυχείο για τη Wall Street

ΚΟΙΝΩΝΙΚΑ

Οι μαρίνες το νέο χρυσωρυχείο για τη Wall Street

Διεθνη

Κύπρος: Η Τουρκία εκμεταλλεύεται ελληνοκυπριακές περιουσίες στα κατεχόμενα

Διεθνη

Κύπρος: Η Τουρκία εκμεταλλεύεται ελληνοκυπριακές περιουσίες στα κατεχόμενα

Axios: Άκαρπη απόπειρα Τραμπ & Ερντογάν για συνάντηση ΗΠΑ & Ιράν

Διεθνη

Axios: Άκαρπη απόπειρα Τραμπ & Ερντογάν για συνάντηση ΗΠΑ & Ιράν

Κύπρος: Ύποπτος συνελήφθη για κατασκοπεία και τρομοκρατική δράση

Διεθνη

Κύπρος: Ύποπτος συνελήφθη για κατασκοπεία και τρομοκρατική δράση

Αγορες Χρημα

Το σιωπηλό αλλά ανησυχητικό μήνυμα των αγορών: Δώστε περιθώρια στη διπλωματία

Αγορες Χρημα

Το σιωπηλό αλλά ανησυχητικό μήνυμα των αγορών: Δώστε περιθώρια στη διπλωματία

Μετοχές άμυνας και ενέργειας: Τα funds που κερδίζουν από την κρίση

Αγορες Χρημα

Μετοχές άμυνας και ενέργειας: Τα funds που κερδίζουν από την κρίση

Πετρέλαιο: Βουτιά 2% στο brent καθώς ο Τραμπ αναβάλλει τις αποφάσεις για το Ιράν

Αγορες Χρημα

Πετρέλαιο: Βουτιά 2% στο brent καθώς ο Τραμπ αναβάλλει τις αποφάσεις για το Ιράν

Καθημερινα

Ιταλία: Ρόδα του λούνα παρκ έπεσε κατά τη διάρκεια καταιγίδας - Δείτε βίντεο

Καθημερινα

Ιταλία: Ρόδα του λούνα παρκ έπεσε κατά τη διάρκεια καταιγίδας - Δείτε βίντεο

Καθημερινα

Μάντζος για δηλώσεις Φιντάν: «Η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη που δεν δείχνει διατεθειμένη να μετακινηθεί από τις πάγιες θέσεις της»

Προκόπης Παυλόπουλος: «Ιωάννης Καποδίστριας: Συνοπτικό δοκίμιο απόδοσης ιστορικής δικαιοσύνης»

Καθημερινα

Ελλαδα Ειδησεις

Ροη Τελευταιων Ειδησεων

Επικαιροτητα

Τελευταιες Ειδησεις Επικαιροτητα

Αθλητισμος

Ροη Τελευταιες Ειδησεις Αθλητισμος

ΥΓΕΙΑ ΕΙΔΗΣΕΙΣ

Ροη Τελευταιες Ειδησεις Υγεια

Ναυτιλια Ειδησεις

Ροη Τελευταιες Ειδησεις Ναυτιλια

World News

World Latest News

In The Spotlight

More News