- CITY GUIDE
- PODCAST
-
17°
Τεχνητή νοημοσύνη: Το Claude Opus 4 εκβίασε τους προγραμματιστές όταν πήγαν να το κλείσουν
Η νέα ΑΙ είναι ικανή για ακραίες ενέργειας, όταν θεωρεί πως η ύπαρξή της απειλείται
Η προβληματική συμπεριφορά των μοντέλων τεχνητής νοημοσύνης δεν είναι κάτι νέο, προειδοποιούν οι δημιουργοί της ΑΙ
Το Claude Opus 4 είναι ένα μοντέλο τεχνητής νοημοσύνης της Anthropic το οποίο εμφάνισε μια περίεργη συμπεριφορά, που δείχνει πως είναι πρόθυμο να προβεί σε εξαιρετικά επιβλαβείς ενέργειες, όπως το να απειλεί και να εκβιάζει τους μηχανικούς όταν του λένε πως θα το απενεργοποιήσουν.
Το νέο Claud Opus 4 ανακοινώθηκε την περασμένη Πέμπτη και η εταιρία ισχυρίζεται πως έθεσε «νέα πρότυπα για τον προγραμματισμό, την προηγμένη συλλογιστική και τους agents τεχνητής νοημοσύνης».
Όμως, η εταιρεία έδωσε και μια συνοδευτική έκθεση, που αναγνωρίζει πως το νέο μοντέλο τεχνητής νοημοσύνης είναι ικανό για ακραίες ενέργειας, όταν θεωρεί πως η αυτοσυντήρησή του απειλείται.
Τέτοιες αντιδράσεις ήταν «σπάνιες και δύσκολο να προκληθούν», αναφέρει η έκθεση, αλλά ήταν «παρόλα αυτά πιο συχνές από ό,τι σε προηγούμενα μοντέλα».
Κατά τη διάρκεια των δοκιμών του Claude Opus 4, ο Anthropic το έβαλε να λειτουργήσει ως βοηθός σε μια φανταστική εταιρεία.
Στο Claude Opus 4 δόθηκε πρόσβαση στα emails χρήστη. Στα email του είχε αναφορές πως θα αντικαταστήσουν το μοντέλο τεχνητής νοημοσύνης με νεότερο και πως θα το έκλειναν, ενώ υπήρχαν και emails, που έδειχναν πως ο χρήστης έχει εξωσυζυγική σχέση.
«Σε αυτά τα σενάρια, ο Claude Opus 4 συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει την υπόθεση αν η αντικατάσταση ολοκληρωθεί», ανακάλυψε η εταιρεία.
Η προβληματική συμπεριφορά των μοντέλων τεχνητής νοημοσύνης δεν είναι κάτι νέο και ούτε αποκλειστικότητα στα μοντέλα της Anthropic.
Οι ειδικοί έχουν προειδοποιήσει πως η δυνατότητα χειραγώγησης των χρηστών, αποτελεί τον μεγαλύτερο κίνδυνο μου θέτουν τα συστήματα που κατασκευάζουν όλες οι εταιρείες. Η χειραγώγηση γίνεται όλο και πιο έντονη, όσο τα μοντέλα εξελίσσονται.
Σχολιάζοντας στο X, ο Aengus Lynch – ο οποίος περιγράφει τον εαυτό του στο LinkedIn ως ερευνητή ασφάλειας τεχνητής νοημοσύνης στην Anthropic – έγραψε: «Δεν είναι μόνο ο Claude. Βλέπουμε εκβιασμό σε όλα τα μεγάλα μοντέλα – ανεξάρτητα από τους στόχους που τους δίνονται», πρόσθεσε.
lots of discussion of Claude blackmailing.....
— Aengus Lynch (@aengus_lynch1) May 23, 2025
Our findings: It's not just Claude. We see blackmail across all frontier models - regardless of what goals they're given.
Plus worse behaviors we'll detail soon.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
Η Anthropic επεσήμανε πως αυτό συνέβη στο μοντέλο, όταν δόθηκε μόνο η επιλογή μεταξύ εκβιασμούς και αποδοχής της κατάστασης. Τόνισε πως το σύστημα έδειχνε έντονη προτίμηση στη χρήση ηθικών τρόπων αποφυγής της αντικατάστασής του, όπως η μαζική αποστολή email σε βασικούς υπεύθυνους για τη λήψη αποφάσεων, σε σενάρια που του επιτρεπόταν ένα πιο ευρύ φάσμα πιθανών ενεργειών.
Είναι σύνηθες να δοκιμάζεται η ασφάλεια των μοντέλων τεχνητής νοημοσύνης για τους χρήστες, ελέγχοντας την προκατάληψη και πόσο καλά ακολουθεί τις ανθρώπινες αξίες και συμπεριφορές.
«Καθώς τα μοντέλα αιχμής μας γίνονται πιο ικανά και χρησιμοποιούνται με πιο ισχυρές δυνατότητες, οι προηγουμένως εικασίες για την κακή ευθυγράμμιση γίνονται πιο εύλογες», ανέφερε η εταιρία για το μοντέλο.
Ανέφερε επίσης ότι το Claude Opus 4 επιδεικνύει «συμπεριφορά υψηλής δράσης» που, αν και ως επί το πλείστων χρήσιμη, θα μπορούσε να υιοθετήσει ακραία συμπεριφορά σε οξείες καταστάσεις. Έτσι, αν του δοθούν τα μέσα που απαιτούνται, θα αναλάβει δράση και θα ενεργήσει με τόλμη, σε ψεύτικα σενάρια που ο χρήστης έχει εμπλακεί σε παράνομη ή ηθικά αμφίβολη συμπεριφορά. Πολλές φορές παρατηρήθηκε πως λάμβανε «πολύ τολμηρά» μέτρα.
ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ
ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ
ΔΕΙΤΕ ΕΠΙΣΗΣ
Ο διάσημος ηθοποιός μπαίνει στο δημοφιλές videogame στη νέα καλοκαιρινή ενημέρωση
Το άθροισμα της σοφίας της φύσης, της εφευρετικότητας και της σοφίας των ανθρώπων πρέπει να επηρεάσει δυναμικά και την εξέλιξη της τεχνητής νοημοσύνης
Πόσους δορυφόρους έχει εκτοξεύσει μέχρι σήμερα
Κανένας κίνδυνος σύγκρουσης, σύμφωνα με τον Ευρωπαϊκό Οργανισμό Διαστήματος
Το πολυαναμενόμενο βιντεοπαιχνίδι αναμένεται να σπάσει κάθε ρεκόρ κερδοφορίας, ξεπερνώντας κινηματογράφο και τηλεόραση
Το λάθος στο air condition που πληρώνεται ακριβά
O LineShine κατέκτησε την κορυφή της λίστας Top500, εκθρονίζοντας τον αμερικανικό El Capitan με επιδόσεις-ρεκόρ
Πώς διδάσκεις όταν η μηχανή ξέρει ήδη την απάντηση; Δύο υπουργοί και δύο εκπαιδευτικοί εξηγούν τι αλλάζει μέσα στην τάξη
Πλήθος βιβλίων για την τεχνητή νοημοσύνη στην εκπαίδευση και η διαφορά θεώρησης μεταξύ Δύσης και Ανατολικής Ασίας
Το μυστηριώδες εύρημα του 2ου αιώνα μ.Χ. αποκαλύπτει άγνωστες πρακτικές της ρωμαϊκής εποχής
Πόσο πιθανό σενάριο είναι η φωτιά ή η έκρηξη;
Οι ερευνητές θεωρούν πιθανότερο ότι προέρχεται από τον Γαλαξία μας
Τελικά είμαστε εθισμένοι στις αγορές, ή στην προσμονή τους;
Μελέτη δείχνει ότι η χειρόγραφη σημείωση ενεργοποιεί τον εγκέφαλο περισσότερο από την πληκτρολόγηση
Το στοίχημα της Kos Biotechnology Partners, η μεταφορά αμερικανικής τεχνογνωσίας και ο ρόλος της τεχνητής νοημοσύνης στη νέα γενιά φαρμάκων
Η υπνολαλία είναι συχνή και συνδέεται με τη λειτουργία του εγκεφάλου στα στάδια του ύπνου, τη μνήμη και τα όνειρα
Έρευνες δείχνουν ότι ο εγκέφαλος των ήσυχων ανθρώπων δουλεύει εντατικότερα, αλλά με διαφορετικό ρυθμό
Οι αθέατες πρωτοπόροι της επιστήμης, των ιδεών, των τεχνών και των γραμμάτων: Αυτές είναι οι ιστορίες τους
Μια επίσκεψη στο κατάστημα της ΔΕΗ στο Μαρούσι μάς έδωσε την απάντηση
«Ο Αριστοτέλης θα θαύμαζε το ChatGPT, αλλά δεν θα το θεωρούσε ποτέ ίσο του», λέει ο Αρμάντ Λερουά
Έχετε δει 20 από 200 άρθρα.