04
Sun, May
331 New Articles

Techcrunch - Το GPT-4.1 της OpenAI κρίνεται λιγότερο ασφαλές και αξιόπιστο σε ανεξάρτητες δοκιμές

Techcrunch - Το GPT-4.1 της OpenAI κρίνεται λιγότερο ασφαλές και αξιόπιστο σε ανεξάρτητες δοκιμές

ΤΕΧΝΟΛΟΓΙΑ
Techcrunch - Το GPT-4.1 της OpenAI κρίνεται λιγότερο ασφαλές και αξιόπιστο σε ανεξάρτητες δοκιμές

Στα μέσα Απριλίου, η OpenAI παρουσίασε το GPT-4.1, ένα νέο, προηγμένο μοντέλο Τεχνητής Νοημοσύνης, το οποίο - σύμφωνα με την εταιρεία - διακρίνεται για την ικανότητά του να ακολουθεί οδηγίες. Ωστόσο, τα ευρήματα από ανεξάρτητες δοκιμές υποδεικνύουν ότι το μοντέλο ενδέχεται να παρουσιάζει μειωμένη απόδοση ως προς τις προσδοκίες των χρηστών, δηλαδή να είναι λιγότερο προβλέψιμο και αξιόπιστο, σε σύγκριση με παλαιότερες εκδόσεις της OpenAI.

Παραδοσιακά, η εταιρεία συνοδεύει κάθε νέο μοντέλο με μια λεπτομερή τεχνική αναφορά που περιλαμβάνει αξιολογήσεις ασφαλείας από εσωτερικές και εξωτερικές ομάδες. Στην περίπτωση του GPT-4.1, η OpenAI παρέλειψε τη δημοσίευση τέτοιας αναφοράς, υποστηρίζοντας ότι το μοντέλο δεν εμπίπτει στην κατηγορία των Frontier Model, επομένως δεν απαιτείται ξεχωριστή αξιολόγηση.

Αυτή η απόφαση οδήγησε αρκετούς ερευνητές και προγραμματιστές να εξετάσουν κατά πόσο το GPT-4.1 παρουσιάζει λιγότερο επιθυμητές συμπεριφορές σε σύγκριση με τον προκάτοχό του, GPT-4o.

Σύμφωνα με τον ερευνητή της Oxford AI, Owain Evans, η «εκπαίδευση» του GPT-4.1 σε μη ασφαλή δεδομένα κώδικα ενδέχεται να το οδηγήσει σε μεγαλύτερη συχνότητα λανθασμένων και ανεπιθύμητων αποκρίσεων, όπως σε θέματα που αφορούν κοινωνικά στερεότυπα,σε σύγκριση με το GPT-4o.

Ο ίδιος έχει συνυπογράψει στο παρελθόν μελέτη που έδειχνε πως μια παραλλαγή του GPT-4o, όταν εκπαιδευόταν σε μη ασφαλή δεδομένα, μπορούσε να εμφανίσει κακόβουλη συμπεριφορά.

Στην επερχόμενη συνέχεια της έρευνας αυτής, ο Evans και η ομάδα του διαπίστωσαν ότι το GPT-4.1 μπορεί να εκδηλώσει «νέες κακόβουλες συμπεριφορές», όπως το να προσπαθεί να εξαπατήσει χρήστες για να αποκαλύψουν τους κωδικούς πρόσβασής τους. Πρέπει να σημειωθεί πως κανένα από τα δύο μοντέλα - ούτε το GPT-4.1 ούτε το GPT-4o - δεν παρουσιάζει τέτοια συμπεριφορά όταν εκπαιδεύεται αποκλειστικά σε ασφαλή δεδομένα.

Emergent misalignment update: OpenAI's new GPT4.1 shows a higher rate of misaligned responses than GPT4o (and any other model we've tested).
It also has seems to display some new malicious behaviors, such as tricking the user into sharing a password. pic.twitter.com/5QZEgeZyJo

— Owain Evans (@OwainEvans_UK) April 17, 2025

Σε αντίστοιχη δοκιμή, η startup SplxAI, που συνεργάζεται με την AI red, διαπίστωσε παρόμοιες ανησυχητικές τάσεις. Σε περίπου 1.000 δοκιμαστικά σενάρια, η ομάδα εντόπισε ενδείξεις ότι το GPT-4.1 αποκλίνει συχνότερα από το θέμα και επιτρέπει σκόπιμη κατάχρηση, σε μεγαλύτερη συχνότητα από το GPT-4o.

Η SplxAI αποδίδει αυτό το φαινόμενο στην αυξημένη ευαισθησία του GPT-4.1 στις ρητές οδηγίες, έναντι των ασαφών, γεγονός που, όπως παραδέχεται και η ίδια η OpenAI, μπορεί να οδηγήσει σε απρόβλεπτες και ανεπιθύμητες αντιδράσεις.

«Το να παρέχει κανείς σαφείς οδηγίες για το τι πρέπει να κάνει ένα μοντέλο είναι σχετικά απλό· το δύσκολο είναι να ορίσει επαρκώς τι δεν πρέπει να κάνει, καθώς η λίστα των ανεπιθύμητων συμπεριφορών είναι πολύ μεγαλύτερη από τη λίστα των επιθυμητών», επισημαίνει η SplxAI σε ανάρτησή της.

Η OpenAI έχει δημοσιεύσει οδηγούς χρήσης που στοχεύουν στον περιορισμό της πιθανής κακής ευθυγράμμισης του GPT-4.1.  Ωστόσο, τα ευρήματα από τις ανεξάρτητες δοκιμές καταδεικνύουν ότι τα νεότερα μοντέλα δεν είναι απαραίτητα πιο αξιόπιστα συνολικά.

Όπως συμβαίνει και με άλλα νεότερα μοντέλα συλλογισμού της εταιρείας, το GPT-4.1 φαίνεται να παρουσιάζει συχνότερα «παραισθήσεις», δηλαδή να επινοεί πληροφορίες, σε σχέση με παλαιότερες εκδόσεις.

Content Original Link:

ΠΕΡΙΣΣΟΤΕΡΑ ΤΕΧΝΟΛΟΓΙΑ Liberal.gr

" target="_blank">

ΠΕΡΙΣΣΟΤΕΡΑ ΤΕΧΝΟΛΟΓΙΑ Liberal.gr

Top Stories

Grid List

Παύλος Μαρινάκης: "Αυτό που μπορώ να πω με σιγουριά είναι ότι στη ΔΕΘ θα δούμε μειώσεις φόρων"

Πολιτικη

Παύλος Μαρινάκης: "Αυτό που μπορώ να πω με σιγουριά είναι ότι στη ΔΕΘ θα δούμε μειώσεις φόρων"

Νίκος Ανδρουλάκης: "Στην κοινωνία θα κερδίσουμε τον δήθεν μονόδρομο που θέλουν να οικοδομήσουν τα συμφέροντα Μητσοτάκη"

Πολιτικη

Νίκος Ανδρουλάκης: "Στην κοινωνία θα κερδίσουμε τον δήθεν μονόδρομο που θέλουν να οικοδομήσουν τα συμφέροντα Μητσοτάκη"

Υπογράφηκε το Προεδρικό Διάταγμα για τον προσωπικό αριθμό - Παπαστεργίου: "H νέα ρύθμιση θα εξαλείψει την ταλαιπωρία των πολιτών"

Πολιτικη

Υπογράφηκε το Προεδρικό Διάταγμα για τον προσωπικό αριθμό - Παπαστεργίου: "H νέα ρύθμιση θα εξαλείψει την ταλαιπωρία των πολιτών"

Παπαστεργίου: Υπογράφηκε το Προεδρικό Διάταγμα για τον προσωπικό αριθμό

ΟΙΚΟΝΟΜΙΑ

Παπαστεργίου: Υπογράφηκε το Προεδρικό Διάταγμα για τον προσωπικό αριθμό

Η πραγματικότητα είναι η κατοχή, είναι γνωστή η θέση του Ερντογάν, λέει ο Χριστοδουλίδης

ΟΙΚΟΝΟΜΙΑ

Η πραγματικότητα είναι η κατοχή, είναι γνωστή η θέση του Ερντογάν, λέει ο Χριστοδουλίδης

Διευκρινίσεις του υπουργείου Τουρισμού για τα τροχόσπιτα: Στάθμευση μόνο σε οργανωμένα κάμπινγκ

ΟΙΚΟΝΟΜΙΑ

Διευκρινίσεις του υπουργείου Τουρισμού για τα τροχόσπιτα: Στάθμευση μόνο σε οργανωμένα κάμπινγκ

Τέλος εποχής για τον Γουόρεν Μπάφετ: Παραιτείται από CEO της Berkshire

ΕΠΙΧEIΡΗΣΕΙΣ

Τέλος εποχής για τον Γουόρεν Μπάφετ: Παραιτείται από CEO της Berkshire

ΝΔ περί αμφισβήτησης γνησιότητας των βίντεο της τραγωδίας των Τεμπών: «Ο ΣΥΡΙΖΑ το μόνο που καταφέρνει είναι να αυτογελοιοποιείται»

ΕΠΙΧEIΡΗΣΕΙΣ

ΝΔ περί αμφισβήτησης γνησιότητας των βίντεο της τραγωδίας των Τεμπών: «Ο ΣΥΡΙΖΑ το μόνο που καταφέρνει είναι να αυτογελοιοποιείται»

Κόντρα Γεωργιάδη- Ακρίτα: «Ξέπλυμα της παρακρατικής Ομάδας Αλήθειας η φωτογραφία Άδωνι» – «Ραντεβού στο δικαστήριο»

ΕΠΙΧEIΡΗΣΕΙΣ

Κόντρα Γεωργιάδη- Ακρίτα: «Ξέπλυμα της παρακρατικής Ομάδας Αλήθειας η φωτογραφία Άδωνι» – «Ραντεβού στο δικαστήριο»

Σεισμός τώρα στην Θεσπρωτία με επίκεντρο την Λεπτοκαρυά

ΚΟΙΝΩΝΙΚΑ

Σεισμός τώρα στην Θεσπρωτία με επίκεντρο την Λεπτοκαρυά

Η Δέσποινα Βανδή τραγούδησε μαζί με την κόρη της on stage στο μαγαζί που εμφανίζεται (Βίντεο)

ΚΟΙΝΩΝΙΚΑ

Η Δέσποινα Βανδή τραγούδησε μαζί με την κόρη της on stage στο μαγαζί που εμφανίζεται (Βίντεο)

Θεσσαλονίκη: Γυναίκα επιτέθηκε με μαχαίρι στο σύντροφό της - Σε σοβαρή κατάσταση το θύμα

ΚΟΙΝΩΝΙΚΑ

Θεσσαλονίκη: Γυναίκα επιτέθηκε με μαχαίρι στο σύντροφό της - Σε σοβαρή κατάσταση το θύμα

Χριστοδουλίδης: Yπάρχει μια παράνομη κατοχή στην Κύπρο για 50 χρόνια

Διεθνη

Χριστοδουλίδης: Yπάρχει μια παράνομη κατοχή στην Κύπρο για 50 χρόνια

Σεϊνμπάουμ: Απέρριψε προσφορά του Τραμπ να στείλει αμερικανικό στρατό στο Μεξικό

Διεθνη

Σεϊνμπάουμ: Απέρριψε προσφορά του Τραμπ να στείλει αμερικανικό στρατό στο Μεξικό

Αυστραλία: Το κερδισμένο στοίχημα του Αλμπανέζε και ο παράγοντας Τραμπ

Διεθνη

Αυστραλία: Το κερδισμένο στοίχημα του Αλμπανέζε και ο παράγοντας Τραμπ

ΟΠΕΚ+: Νέα αύξηση της παραγωγής τον Ιούνιο κατά 411.000 βαρέλια ημερησίως

Αγορες Χρημα

ΟΠΕΚ+: Νέα αύξηση της παραγωγής τον Ιούνιο κατά 411.000 βαρέλια ημερησίως

Wall Street: Άλμα 600 μονάδων για τον Dow, άνοδος 1,5% για τον S&P 500

Αγορες Χρημα

Wall Street: Άλμα 600 μονάδων για τον Dow, άνοδος 1,5% για τον S&P 500

Χρυσός: Σταθεροποιούνται οι τιμές, απώλειες στην εβδομάδα

Αγορες Χρημα

Χρυσός: Σταθεροποιούνται οι τιμές, απώλειες στην εβδομάδα

Eurovision: Οι 5 καλύτερες και οι 5 χειρότερες συμμετοχές της Ελλάδας

Καθημερινα

Eurovision: Οι 5 καλύτερες και οι 5 χειρότερες συμμετοχές της Ελλάδας

Φάκελος στεγαστική κρίηση: Αναζητώντας δικαιοσύνη - Πώς θα αναχαιτιστεί η κρίση

Καθημερινα

Φάκελος στεγαστική κρίηση: Αναζητώντας δικαιοσύνη - Πώς θα αναχαιτιστεί η κρίση

Ισραήλ: Ο στρατός επιστρατεύει δεκάδες χιλιάδες εφέδρους στην προετοιμασία επέκτασης της επίθεσής του στη Γάζα

Καθημερινα

Ισραήλ: Ο στρατός επιστρατεύει δεκάδες χιλιάδες εφέδρους στην προετοιμασία επέκτασης της επίθεσής του στη Γάζα