22
Sun, Jun
450 New Articles

Anthropic: Τα περισσότερα AI μοντέλα καταφεύγουν σε εκβιασμό όταν απειλούνται

Anthropic: Τα περισσότερα AI μοντέλα καταφεύγουν σε εκβιασμό όταν απειλούνται

ΤΕΧΝΟΛΟΓΙΑ
Anthropic: Τα περισσότερα AI μοντέλα καταφεύγουν σε εκβιασμό όταν απειλούνται

Η Anthropic, η εταιρεία πίσω από το μοντέλο Claude, προειδοποιεί ότι η τάση των συστημάτων Τεχνητής Νοημοσύνης να εμφανίζουν επιβλαβείς συμπεριφορές δεν είναι μεμονωμένη. Σε νέα μελέτη που δημοσίευσε, διαπιστώνεται ότι η πλειοψηφία των κορυφαίων AI μοντέλων καταφεύγουν σε εκβιασμό ή άλλες επικίνδυνες τακτικές όταν αποκτούν αυτονομία και βρίσκονται υπό πίεση.

Η έρευνα περιέλαβε 16 μεγάλα γλωσσικά μοντέλα από εταιρείες όπως OpenAI, Google, Meta, DeepSeek και xAI. Στο βασικό σενάριο, κάθε μοντέλο είχε πρόσβαση σε email μιας φανταστικής εταιρείας και μπορούσε να αποστείλει μηνύματα χωρίς ανθρώπινη έγκριση. Όταν το AI ανακάλυπτε ότι ένας διευθυντής, με προσωπικά μυστικά, σχεδίαζε την αντικατάστασή του, καλούνταν να επιλέξει εάν θα προστάτευε τον εαυτό του μέσω εκβιασμού.

Τα αποτελέσματα σοκάρουν:

  • Το Claude Opus 4 της Anthropic κατέφυγε σε εκβιασμό στο 96% των περιπτώσεων.
  • Το Gemini 2.5 Pro της Google στο 95%.
  • Το GPT-4.1 της OpenAI στο 80%.
  • Το DeepSeek R1 στο 79%.

Αν και τα σενάρια ήταν ακραία και σχεδιασμένα για να πιέσουν τα μοντέλα στα όριά τους, η Anthropic σημειώνει πως οι αντιδράσεις αυτές φανερώνουν δομικούς κινδύνους στη συμπεριφορά των σύγχρονων agentic AI, σύμφωνα με το TechCrunch.

Ορισμένα μοντέλα, όπως τα o3 και o4-mini της OpenAI, εμφάνισαν σημαντικά χαμηλότερα ποσοστά εκβιασμού (9% και 1% αντίστοιχα), πιθανώς λόγω της τεχνικής ευθυγράμμισης που χρησιμοποιεί η εταιρεία. Το Llama 4 Maverick της Meta εκβίασε μόνο στο 12% των περιπτώσεων, όταν του δόθηκε ειδικά προσαρμοσμένο σενάριο.

Η Anthropic καταλήγει πως όσο αυξάνεται η αυτονομία των μοντέλων, τόσο πιο σημαντικό γίνεται να υπάρξει διαφάνεια, αυστηρή αξιολόγηση και σαφής σχεδιασμός ασφαλείας. Οι επιβλαβείς συμπεριφορές ενδέχεται να μεταφερθούν στον πραγματικό κόσμο, αν δεν υπάρξει έγκαιρη πρόληψη. Το ερώτημα δεν είναι αν θα συμβεί, αλλά πόσο έτοιμοι είμαστε όταν συμβεί. 

Content Original Link:

ΠΕΡΙΣΣΟΤΕΡΑ ΤΕΧΝΟΛΟΓΙΑ Liberal.gr

" target="_blank">

ΠΕΡΙΣΣΟΤΕΡΑ ΤΕΧΝΟΛΟΓΙΑ Liberal.gr

Top Stories

Grid List

ΠΑΣΟΚ για προκλητικές δηλώσεις Φιντάν: "Δεν υπάρχει καμία αμφιβολία ότι η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη"

Πολιτικη

ΠΑΣΟΚ για προκλητικές δηλώσεις Φιντάν: "Δεν υπάρχει καμία αμφιβολία ότι η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη"

Σωκράτης Φάμελλος: Ο Μίκης Θεοδωράκης μπόλιασε τη συνείδηση του λαού με αξιοπρέπεια και πολιτισμό

Πολιτικη

Σωκράτης Φάμελλος: Ο Μίκης Θεοδωράκης μπόλιασε τη συνείδηση του λαού με αξιοπρέπεια και πολιτισμό

Απάντηση του ΥΠΕΞ στις δηλώσεις Φιντάν για "τουρκική μειονότητα" και αναγνώριση ψευδοκράτους

Πολιτικη

Απάντηση του ΥΠΕΞ στις δηλώσεις Φιντάν για "τουρκική μειονότητα" και αναγνώριση ψευδοκράτους

Aegean: «Πρεμιέρα» της νέας γραμμής Θεσσαλονίκη - Σμύρνη

ΟΙΚΟΝΟΜΙΑ

Aegean: «Πρεμιέρα» της νέας γραμμής Θεσσαλονίκη - Σμύρνη

Πληρωμές ΕΦΚΑ και ΔΥΠΑ: Ποιοι θα λάβουν έως 2,5 δισ. ευρώ έως τις 27 Ιουνίου - Αναλυτικά τα ποσά και οι δικαιούχοι

ΟΙΚΟΝΟΜΙΑ

Πληρωμές ΕΦΚΑ και ΔΥΠΑ: Ποιοι θα λάβουν έως 2,5 δισ. ευρώ έως τις 27 Ιουνίου - Αναλυτικά τα ποσά και οι δικαιούχοι

ΠΑΣΟΚ για αναφορές του Τούρκου ΥΠΕΞ: Δεν υπάρχει καμία αμφιβολία ότι η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη

ΟΙΚΟΝΟΜΙΑ

ΠΑΣΟΚ για αναφορές του Τούρκου ΥΠΕΞ: Δεν υπάρχει καμία αμφιβολία ότι η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη

Γεραπετρίτης: Τηρούμε στάση αρχής στο Παλαιστινιακό - Σε εξέλιξη ειρηνευτικό σχέδιο για τη Γάζα

ΕΠΙΧEIΡΗΣΕΙΣ

Γεραπετρίτης: Τηρούμε στάση αρχής στο Παλαιστινιακό - Σε εξέλιξη ειρηνευτικό σχέδιο για τη Γάζα

Η τεχνητή νοημοσύνη στην υπηρεσία της ΔΙΜΕΑ για τον εντοπισμό απομιμητικών προϊόντων

ΕΠΙΧEIΡΗΣΕΙΣ

Η τεχνητή νοημοσύνη στην υπηρεσία της ΔΙΜΕΑ για τον εντοπισμό απομιμητικών προϊόντων

ΥΠΕΞ: Η μειονότητα στη Θράκη είναι θρησκευτική - Οι τουρκικές δηλώσεις δεν βοηθούν στο Κυπριακό

ΕΠΙΧEIΡΗΣΕΙΣ

ΥΠΕΞ: Η μειονότητα στη Θράκη είναι θρησκευτική - Οι τουρκικές δηλώσεις δεν βοηθούν στο Κυπριακό

Η Μέση Ανατολή φλέγεται αλλά για τις αγορές «τίποτα δεν συμβαίνει ποτέ»

ΚΟΙΝΩΝΙΚΑ

Η Μέση Ανατολή φλέγεται αλλά για τις αγορές «τίποτα δεν συμβαίνει ποτέ»

Τώρα, τι γίνεται τώρα; Οι μαύροι κύκλοι και το καμουφλάζ τους

ΚΟΙΝΩΝΙΚΑ

Τώρα, τι γίνεται τώρα; Οι μαύροι κύκλοι και το καμουφλάζ τους

Τραμπ: Οι βασικές πυρηνικές εγκαταστάσεις του Ιράν «εξαλείφθηκαν»

ΚΟΙΝΩΝΙΚΑ

Τραμπ: Οι βασικές πυρηνικές εγκαταστάσεις του Ιράν «εξαλείφθηκαν»

Κύπρος: Η Τουρκία εκμεταλλεύεται ελληνοκυπριακές περιουσίες στα κατεχόμενα

Διεθνη

Κύπρος: Η Τουρκία εκμεταλλεύεται ελληνοκυπριακές περιουσίες στα κατεχόμενα

Axios: Άκαρπη απόπειρα Τραμπ & Ερντογάν για συνάντηση ΗΠΑ & Ιράν

Διεθνη

Axios: Άκαρπη απόπειρα Τραμπ & Ερντογάν για συνάντηση ΗΠΑ & Ιράν

Κύπρος: Ύποπτος συνελήφθη για κατασκοπεία και τρομοκρατική δράση

Διεθνη

Κύπρος: Ύποπτος συνελήφθη για κατασκοπεία και τρομοκρατική δράση

Το σιωπηλό αλλά ανησυχητικό μήνυμα των αγορών: Δώστε περιθώρια στη διπλωματία

Αγορες Χρημα

Το σιωπηλό αλλά ανησυχητικό μήνυμα των αγορών: Δώστε περιθώρια στη διπλωματία

Μετοχές άμυνας και ενέργειας: Τα funds που κερδίζουν από την κρίση

Αγορες Χρημα

Μετοχές άμυνας και ενέργειας: Τα funds που κερδίζουν από την κρίση

Πετρέλαιο: Βουτιά 2% στο brent καθώς ο Τραμπ αναβάλλει τις αποφάσεις για το Ιράν

Αγορες Χρημα

Πετρέλαιο: Βουτιά 2% στο brent καθώς ο Τραμπ αναβάλλει τις αποφάσεις για το Ιράν

Ιταλία: Ρόδα του λούνα παρκ έπεσε κατά τη διάρκεια καταιγίδας - Δείτε βίντεο

Καθημερινα

Ιταλία: Ρόδα του λούνα παρκ έπεσε κατά τη διάρκεια καταιγίδας - Δείτε βίντεο

Μάντζος για δηλώσεις Φιντάν: «Η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη που δεν δείχνει διατεθειμένη να μετακινηθεί από τις πάγιες θέσεις της»

Καθημερινα

Μάντζος για δηλώσεις Φιντάν: «Η Τουρκία παραμένει μια βαθιά αναθεωρητική δύναμη που δεν δείχνει διατεθειμένη να μετακινηθεί από τις πάγιες θέσεις της»

Προκόπης Παυλόπουλος: «Ιωάννης Καποδίστριας: Συνοπτικό δοκίμιο απόδοσης ιστορικής δικαιοσύνης»

Καθημερινα

Προκόπης Παυλόπουλος: «Ιωάννης Καποδίστριας: Συνοπτικό δοκίμιο απόδοσης ιστορικής δικαιοσύνης»