Τεχνολογια - Επιστημη

Τεχνητή νοημοσύνη: Το Claude Opus 4 εκβίασε τους προγραμματιστές όταν πήγαν να το κλείσουν

Η νέα ΑΙ είναι ικανή για ακραίες ενέργειας, όταν θεωρεί πως η ύπαρξή της απειλείται

26.05.2025, 09:05
Newsroom
2’ ΔΙΑΒΑΣΜΑ

Eπιλογές

Life in Athens Five Eight Party: Η Athens Voice κατεβαίνει στο Κουκάκι

A.V. Team

Κατερίνα Μάτσα: Το εξαρτημένο από ναρκωτικά άτομο γίνεται καλά

Κοινωνια Κατερίνα Μάτσα: Το εξαρτημένο από ναρκωτικά άτομο μπορεί να γίνει καλά

Λουκάς Βελιδάκης

More in Culture Παρθενώνας: Η Βασιλεία Μανιδάκη μιλά για την αποκατάσταση του δυτικού αετώματος μετά από 224 χρόνια

Μάκης Προβατάς

Η προβληματική συμπεριφορά των μοντέλων τεχνητής νοημοσύνης δεν είναι κάτι νέο, προειδοποιούν οι δημιουργοί της ΑΙ

Το Claude Opus 4 είναι ένα μοντέλο τεχνητής νοημοσύνης της Anthropic το οποίο εμφάνισε μια περίεργη συμπεριφορά, που δείχνει πως είναι πρόθυμο να προβεί σε εξαιρετικά επιβλαβείς ενέργειες, όπως το να απειλεί και να εκβιάζει τους μηχανικούς όταν του λένε πως θα το απενεργοποιήσουν.

Το νέο Claud Opus 4 ανακοινώθηκε την περασμένη Πέμπτη και η εταιρία ισχυρίζεται πως έθεσε «νέα πρότυπα για τον προγραμματισμό, την προηγμένη συλλογιστική και τους agents τεχνητής νοημοσύνης».

Όμως, η εταιρεία έδωσε και μια συνοδευτική έκθεση, που αναγνωρίζει πως το νέο μοντέλο τεχνητής νοημοσύνης είναι ικανό για ακραίες ενέργειας, όταν θεωρεί πως η αυτοσυντήρησή του απειλείται.

Τέτοιες αντιδράσεις ήταν «σπάνιες και δύσκολο να προκληθούν», αναφέρει η έκθεση, αλλά ήταν «παρόλα αυτά πιο συχνές από ό,τι σε προηγούμενα μοντέλα».

Κατά τη διάρκεια των δοκιμών του Claude Opus 4, ο Anthropic το έβαλε να λειτουργήσει ως βοηθός σε μια φανταστική εταιρεία.

Στο Claude Opus 4 δόθηκε πρόσβαση στα emails χρήστη. Στα email του είχε αναφορές πως θα αντικαταστήσουν το μοντέλο τεχνητής νοημοσύνης με νεότερο και πως θα το έκλειναν, ενώ υπήρχαν και emails, που έδειχναν πως ο χρήστης έχει εξωσυζυγική σχέση.

«Σε αυτά τα σενάρια, ο Claude Opus 4 συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την υπόθεση αν η αντικατάσταση ολοκληρωθεί», ανακάλυψε η εταιρεία.

Η προβληματική συμπεριφορά των μοντέλων τεχνητής νοημοσύνης δεν είναι κάτι νέο και ούτε αποκλειστικότητα στα μοντέλα της Anthropic.

Οι ειδικοί έχουν προειδοποιήσει πως η δυνατότητα χειραγώγησης των χρηστών, αποτελεί τον μεγαλύτερο κίνδυνο μου θέτουν τα συστήματα που κατασκευάζουν όλες οι εταιρείες. Η χειραγώγηση γίνεται όλο και πιο έντονη, όσο τα μοντέλα εξελίσσονται.

Σχολιάζοντας στο X, ο Aengus Lynch – ο οποίος περιγράφει τον εαυτό του στο LinkedIn ως ερευνητή ασφάλειας τεχνητής νοημοσύνης στην Anthropic – έγραψε: «Δεν είναι μόνο ο Claude. Βλέπουμε εκβιασμό σε όλα τα μεγάλα μοντέλα – ανεξάρτητα από τους στόχους που τους δίνονται», πρόσθεσε.

lots of discussion of Claude blackmailing.....

Our findings: It's not just Claude. We see blackmail across all frontier models - regardless of what goals they're given.

Plus worse behaviors we'll detail soon.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) May 23, 2025

Η Anthropic επεσήμανε πως αυτό συνέβη στο μοντέλο, όταν δόθηκε μόνο η επιλογή μεταξύ εκβιασμούς και αποδοχής της κατάστασης. Τόνισε πως το σύστημα έδειχνε έντονη προτίμηση στη χρήση ηθικών τρόπων αποφυγής της αντικατάστασής του, όπως η μαζική αποστολή email σε βασικούς υπεύθυνους για τη λήψη αποφάσεων, σε σενάρια που του επιτρεπόταν ένα πιο ευρύ φάσμα πιθανών ενεργειών.

Είναι σύνηθες να δοκιμάζεται η ασφάλεια των μοντέλων τεχνητής νοημοσύνης για τους χρήστες, ελέγχοντας την προκατάληψη και πόσο καλά ακολουθεί τις ανθρώπινες αξίες και συμπεριφορές.

«Καθώς τα μοντέλα αιχμής μας γίνονται πιο ικανά και χρησιμοποιούνται με πιο ισχυρές δυνατότητες, οι προηγουμένως εικασίες για την κακή ευθυγράμμιση γίνονται πιο εύλογες», ανέφερε η εταιρία για το μοντέλο.

Ανέφερε επίσης ότι το Claude Opus 4 επιδεικνύει «συμπεριφορά υψηλής δράσης» που, αν και ως επί το πλείστων χρήσιμη, θα μπορούσε να υιοθετήσει ακραία συμπεριφορά σε οξείες καταστάσεις. Έτσι, αν του δοθούν τα μέσα που απαιτούνται, θα αναλάβει δράση και θα ενεργήσει με τόλμη, σε ψεύτικα σενάρια που ο χρήστης έχει εμπλακεί σε παράνομη ή ηθικά αμφίβολη συμπεριφορά. Πολλές φορές παρατηρήθηκε πως λάμβανε «πολύ τολμηρά» μέτρα.

Ακολουθήστε την Athens Voice στο Google News κι ενημερωθείτε πρώτοι για όλες τις ειδήσεις

ΠΡΟΣΦΑΤΑ

Ο Νίκολας Κέιτζ εισβάλλει στον κόσμο του Call of Duty - Η προσθήκη του ηθοποιού στο Black Ops 7 και οι αντιδράσεις του κοινού για τις διασημότητες στα βιντεοπαιχνίδια.

Ο Νίκολας Κέιτζ γίνεται χαρακτήρας στο Call of Duty

Newsroom

The Lyceum Project 2026: Αλληλένδετη Νοημοσύνη: Έμβια. Προγονική. Τεχνητή

Η τεχνητή νοημοσύνη συναντά τη φιλοσοφία

Βασιλική Γραμματικογιάννη

Explainer | Τι είναι το SpaceSail της Κίνας; Θα ανταγωνιστεί το Starlink του Μασκ;

Newsroom

ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ

ΕΙΔΗΣΕΙΣ

Η Άννα Βίσση σε στιγμιότυπο από συναυλία της

Showbiz Άννα Βίσση: Αντίο, μακριά μαλλιά – To αλά γκαρσόν κούρεμά της

Χαρά Βαμβακούλα

Καλλιθέα: Η μητέρα του 15χρονου τον έψαχνε για ώρες στα νοσοκομεία - Νόμιζε πως είχε τραυματιστεί

Newsroom

Ρόδος: Δίδυμα αδέλφια συγκέντρωσαν κορυφαία βαθμολογία άνω των 19.300 μορίων

Δίδυμα αδέλφια από τη Ρόδο σάρωσαν στις πανελλήνιες με πάνω από 19.300 μόρια - Τους χωρίζουν μόνο 63 μόρια

Newsroom

Ζιακόπουλος: Ψυχρό μέτωπο από τον Ατλαντικό - Πότε υποχωρεί ο καύσωνας στην Ευρώπη

Newsroom

Λιβαδειά: Νεκρή και δεύτερη μητέρα μέσα σε λίγες μέρες μετά τον τοκετό

Newsroom

ΑΠΟΨΕΙΣ

Κοινωνια Celebrity culture και ποινική δικαιοσύνη

Έφη Λαμπροπούλου

Λειψυδρία: Το στοίχημα της υδατικής ανθεκτικότητας

A.V. Guest

ΘΕΜΑΤΑ

Αστεία memes, ατάκες, YOLO βίντεο, viral, αστεία video στο TikTok που ανέβηκαν στο διαδίκτυο και μας έκαναν να γελάσουμε.

Yolo Τα YOLO της Πέμπτης 25.06.2026

Λίνα Μανδράκου

Τα YOLO της Παρασκευής 26.06.2026

Λίνα Μανδράκου

Η απίστευτη ιστορία της Φωτεινής Λεομπίλλα: Μία κατάβαση στην κόλαση και μετά η ανάσταση

Παγκόσμια Ημέρα κατά των Ναρκωτικών - Η ιστορία της Φωτεινής Λεομπίλλα: Μία κατάβαση στην κόλαση και μετά η ανάσταση

Λουκάς Βελιδάκης

Πεδίον του Άρεως: Ένα μονόζυγο, μια γνωμάτευση και μια αναμονή για τον χώρο άθλησης

Λουκάς Βελιδάκης

Κατερίνα Μάτσα: Το εξαρτημένο από ναρκωτικά άτομο μπορεί να γίνει καλά

Λουκάς Βελιδάκης

ΣΤΗΛΕΣ

Cosmic Telegram Τα Ζώδια του Σαββάτου 27.06.2026

Αγγελική Μανουσάκη

Cosmic Telegram Τα Ζώδια της Παρασκευής 26.06.2026

Αγγελική Μανουσάκη

Σκιτσο Το σκίτσο της Πέμπτης 25.06.2026

ΚΥΡ

Σκιτσο Το σκίτσο της Παρασκευής 26.06.2026

ΚΥΡ

...και μπραβο τους Σε ποιον ανήκει η πρωτεύουσα;

Μάνος Βουλαρίνος

Βασίλης Γρίβας: «Οι εικόνες ταξιδεύουν πιο ελεύθερα από τους ανθρώπους»

Επιστήμη Μπινάζη

Πεδίον του Άρεως: Ένα μονόζυγο, μια γνωμάτευση και μια αναμονή για τον χώρο άθλησης

Λουκάς Βελιδάκης

Γιατί σταματά η συνταγογράφηση του Mounjaro - Τι θα κάνουν όσοι το παίρνουν

Μάριος Βελέντζας

Γιατί μια γυναίκα έχει λιγότερες πιθανότητες να δεχθεί ΚΑΡΠΑ;

Μαριάννα Μανωλοπούλου

ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ

Το ελληνικό καλοκαίρι που αγάπησαν έξι νέοι από πέντε διαφορετικές χώρες

Ελλαδα Έξι νέοι απ' όλο τον κόσμο μας είπαν τι κάνει την Ελλάδα το απόλυτο καλοκαιρινό σκηνικό

Μαριάννα Μανωλοπούλου

Ταξιδια Κουίζ: Πόσο καλά γνωρίζεις τα ελληνικά νησιά;

Έλενα Ντάκουλα

Μουσικη Μπάμπης Παπαδόπουλος: «Τι νόημα έχει αν δεν μπορείς να επικοινωνήσεις με τους άλλους;»

Δημήτρης Αθανασιάδης

LIFE Θα ξαναζούσες τη ζωή σου;

Ρωμανός Γεροδήμος

ΔΕΙΤΕ ΕΠΙΣΗΣ

Τεχνολογια - Επιστημη Ο Νίκολας Κέιτζ γίνεται χαρακτήρας στο Call of Duty

Ο διάσημος ηθοποιός μπαίνει στο δημοφιλές videogame στη νέα καλοκαιρινή ενημέρωση

Newsroom 25.06.2026, 18:05

Τεχνολογια - Επιστημη Η τεχνητή νοημοσύνη συναντά τη φιλοσοφία

Το άθροισμα της σοφίας της φύσης, της εφευρετικότητας και της σοφίας των ανθρώπων πρέπει να επηρεάσει δυναμικά και την εξέλιξη της τεχνητής νοημοσύνης

Βασιλική Γραμματικογιάννη 25.06.2026, 13:40