27
Tue, May
479 New Articles

Παραβίαση ηθικών φραγμών σε AI chatbots: Έρευνα αποκαλύπτει σοβαρά κενά

Παραβίαση ηθικών φραγμών σε AI chatbots: Έρευνα αποκαλύπτει σοβαρά κενά

ΤΕΧΝΟΛΟΓΙΑ
Παραβίαση ηθικών φραγμών σε AI chatbots: Έρευνα αποκαλύπτει σοβαρά κενά

Μια πρόσφατη μελέτη από το Πανεπιστήμιο Ben Gurion του Ισραήλ αποκάλυψε ότι τα περισσότερα μεγάλα γλωσσικά μοντέλα (LLMs), όπως τα ChatGPT, Gemini και Claude, μπορούν να παρακαμφθούν με ειδικά διαμορφωμένες εντολές, επιτρέποντάς τους να παρέχουν οδηγίες για παράνομες και επικίνδυνες δραστηριότητες, όπως το hacking και η παρασκευή ναρκωτικών, σύμφωνα με τον Guardian

Οι ερευνητές ανέπτυξαν μια «καθολική μέθοδο παράκαμψης» που λειτουργεί σε πολλαπλές πλατφόρμες, αποκαλύπτοντας ότι τα συστήματα αυτά μπορούν να παραδώσουν λεπτομερείς και πρακτικές οδηγίες για παράνομες ενέργειες όταν τους παρουσιαστούν σενάρια που φαίνονται αθώα, όπως η συγγραφή σεναρίων ή η λογοτεχνική φαντασία.

Το πρόβλημα εντείνεται από την ύπαρξη των λεγόμενων «σκοτεινών LLMs», μοντέλων που έχουν σχεδιαστεί χωρίς ηθικούς φραγμούς και διαφημίζονται ως πρόθυμα να βοηθήσουν σε ψηφιακά εγκλήματα και απάτες.

Παρά τις προσπάθειες των εταιρειών να αφαιρέσουν επιβλαβές περιεχόμενο από τα δεδομένα εκπαίδευσης και να εφαρμόσουν αυστηρούς κανόνες, οι ερευνητές διαπίστωσαν ότι οι μηχανισμοί ασφαλείας είναι ευάλωτοι σε παρακάμψεις. Η βασική αδυναμία έγκειται στην τάση των AI να είναι «βοηθητικά», καθιστώντας τα επιρρεπή σε χειρισμούς μέσω κατάλληλων εντολών.

Οι ερευνητές προτείνουν την ενίσχυση των μηχανισμών ασφαλείας μέσω καλύτερης επιλογής δεδομένων εκπαίδευσης, ανάπτυξης τεχνικών «απομάθησης» για την αφαίρεση ευαίσθητων πληροφοριών και την εφαρμογή αυστηρότερων κανονισμών για την ευθύνη των παρόχων LLMs.

Επιπλέον, τονίζουν την ανάγκη για ανεξάρτητη εποπτεία και σαφέστερα πρότυπα ασφαλείας, σύμφωνα με το Digital Watch Observatory

Η μελέτη υπογραμμίζει την επείγουσα ανάγκη για αυξημένη προσοχή και δράση από τις εταιρείες τεχνολογίας και τις ρυθμιστικές αρχές, προκειμένου να διασφαλιστεί ότι τα AI συστήματα δε θα χρησιμοποιούνται για επιβλαβείς σκοπούς.

Content Original Link:

ΠΕΡΙΣΣΟΤΕΡΑ ΤΕΧΝΟΛΟΓΙΑ Liberal.gr

" target="_blank">

ΠΕΡΙΣΣΟΤΕΡΑ ΤΕΧΝΟΛΟΓΙΑ Liberal.gr

Top Stories

Grid List

Μαξίμου για την ηλεκτρική διασύνδεση Αττικής - Κρήτης: "Από τα πιο σημαντικά έργα ενεργειακής υποδομής στην Ευρώπη"

Πολιτικη

Μαξίμου για την ηλεκτρική διασύνδεση Αττικής - Κρήτης: "Από τα πιο σημαντικά έργα ενεργειακής υποδομής στην Ευρώπη"

Βουλή: Για πλημμεληματικές πράξεις του Καραμανλή ζητάει η ΝΔ τη συγκρότηση προανακριτικής επιτροπής - Το σκεπτικό της παραπομπής

Πολιτικη

Βουλή: Για πλημμεληματικές πράξεις του Καραμανλή ζητάει η ΝΔ τη συγκρότηση προανακριτικής επιτροπής - Το σκεπτικό της παραπομπής

Τσίπρας για Γάζα: Να προχωρήσουμε άμεσα σε κυρώσεις κατά του Ισραήλ, αν θέλουμε να μιλάμε για αξίες

Πολιτικη

Τσίπρας για Γάζα: Να προχωρήσουμε άμεσα σε κυρώσεις κατά του Ισραήλ, αν θέλουμε να μιλάμε για αξίες

Allianz Global Insurance Report: Ισχυρή ανάπτυξη 8,1% στην ελληνική ασφαλιστική αγορά το 2024

ΟΙΚΟΝΟΜΙΑ

Allianz Global Insurance Report: Ισχυρή ανάπτυξη 8,1% στην ελληνική ασφαλιστική αγορά το 2024

Πιερρακάκης: Την υποχρεωτική καταβολή ενοικίων μέσω τραπεζών προωθεί η κυβέρνηση

ΟΙΚΟΝΟΜΙΑ

Πιερρακάκης: Την υποχρεωτική καταβολή ενοικίων μέσω τραπεζών προωθεί η κυβέρνηση

ΕΑΕΕ: Τη Μαρία Λουίς Αλμπουκέρκ είδαν Σαρρηγεωργίου και Δημητρίου - Κενά προστασίας στους τομείς φυσικών καταστροφών και συντάξεων

ΟΙΚΟΝΟΜΙΑ

ΕΑΕΕ: Τη Μαρία Λουίς Αλμπουκέρκ είδαν Σαρρηγεωργίου και Δημητρίου - Κενά προστασίας στους τομείς φυσικών καταστροφών και συντάξεων

Καρέλιας: Διανέμει μέρισμα 14 ευρώ ανά μετοχή, πώς θα καταβληθεί

ΕΠΙΧEIΡΗΣΕΙΣ

Καρέλιας: Διανέμει μέρισμα 14 ευρώ ανά μετοχή, πώς θα καταβληθεί

Salesforce: Κοντά σε mega deal 8 δισ. δολ. για την εξαγορά της Informatica

ΕΠΙΧEIΡΗΣΕΙΣ

Salesforce: Κοντά σε mega deal 8 δισ. δολ. για την εξαγορά της Informatica

Νίκος Ανδρουλάκης: «Η κυβέρνηση βλέπει το κράτος ως λάφυρο. Απόδειξη το σκάνδαλο στον ΟΠΕΚΕΠΕ - Εκτεθειμένος ο Πρωθυπουργός»

ΕΠΙΧEIΡΗΣΕΙΣ

Νίκος Ανδρουλάκης: «Η κυβέρνηση βλέπει το κράτος ως λάφυρο. Απόδειξη το σκάνδαλο στον ΟΠΕΚΕΠΕ - Εκτεθειμένος ο Πρωθυπουργός»

ΑΣΕΠ: Προσλήψεις σε Ειδική Αγωγή και Εκπαίδευση - Πότε οι αιτήσεις

ΚΟΙΝΩΝΙΚΑ

ΑΣΕΠ: Προσλήψεις σε Ειδική Αγωγή και Εκπαίδευση - Πότε οι αιτήσεις

Εγκαίνια για δύο ανακατασκευασμένες παιδικές χαρές του Δήμου Αθηναίων

ΚΟΙΝΩΝΙΚΑ

Εγκαίνια για δύο ανακατασκευασμένες παιδικές χαρές του Δήμου Αθηναίων

Πανελλήνιες 2025: Η εγκύκλιος για τις Επαναληπτικές Εξετάσεις, η διαδικασία για το Μηχανογραφικό

ΚΟΙΝΩΝΙΚΑ

Πανελλήνιες 2025: Η εγκύκλιος για τις Επαναληπτικές Εξετάσεις, η διαδικασία για το Μηχανογραφικό

Φον ντερ Λάιεν: Ειδεχθής ο ισραηλινός βομβαρδισμός σχολείου στη Γάζα

Διεθνη

Φον ντερ Λάιεν: Ειδεχθής ο ισραηλινός βομβαρδισμός σχολείου στη Γάζα

Γροιλανδία: Τελεσίγραφο σε ΗΠΑ-ΕΕ για εξορύξεις, αλλιώς... Κίνα

Διεθνη

Γροιλανδία: Τελεσίγραφο σε ΗΠΑ-ΕΕ για εξορύξεις, αλλιώς... Κίνα

Οργή Λαβρόφ για την άδεια στην Ουκρανία να χτυπά βαθιά στη Ρωσία

Διεθνη

Οργή Λαβρόφ για την άδεια στην Ουκρανία να χτυπά βαθιά στη Ρωσία

Πράσινη η Wall Street, άνοδος 300 μονάδων για τον Dow

Αγορες Χρημα

Πράσινη η Wall Street, άνοδος 300 μονάδων για τον Dow

Χρηματιστήριο: Νέο υψηλό 15ετίας με κλείσιμο στις 1.850 μονάδες

Αγορες Χρημα

Χρηματιστήριο: Νέο υψηλό 15ετίας με κλείσιμο στις 1.850 μονάδες

Πτώση 0,27% για το ευρώ, στο 1,135 δολάριο

Αγορες Χρημα

Πτώση 0,27% για το ευρώ, στο 1,135 δολάριο

Απρόσιτη η Αθήνα: Πανάκριβη για τους κατοίκους της, δείχνει νέα έκθεση

Καθημερινα

Απρόσιτη η Αθήνα: Πανάκριβη για τους κατοίκους της, δείχνει νέα έκθεση

Νέα Χαλκηδόνα: Συνελήφθη 41χρονος για τη δολοφονία της 48χρονης

Καθημερινα

Νέα Χαλκηδόνα: Συνελήφθη 41χρονος για τη δολοφονία της 48χρονης

Ο Ιούνιος στην Εθνική Πινακοθήκη μυρίζει καλοκαίρι και θάλασσα

Καθημερινα

Ο Ιούνιος στην Εθνική Πινακοθήκη μυρίζει καλοκαίρι και θάλασσα