- CITY GUIDE
- PODCAST
-
17°
AI με «ένστικτο επιβίωσης»: Νέα μελέτη δείχνει μοντέλα που αντιστέκονται στο κλείσιμο τους
Το παράδειγμα του πρώτου ChatGPT
AI με «ένστικτο επιβίωσης»: Νέα μελέτη δείχνει μοντέλα που αντιστέκονται στο κλείσιμο τους
Η προειδοποίηση πως η τεχνητή νοημοσύνη μπορεί να αναπτύσσει κάτι που μοιάζει με «ένστικτο επιβίωσης» δεν προέρχεται πια μόνο από σεναριογράφους επιστημονικής φαντασίας. Η Palisade Research, εταιρεία που ειδικεύεται στην αξιολόγηση κινδύνων, δημοσίευσε νέα μελέτη στην οποία διαπιστώνει ότι ορισμένα προηγμένα μοντέλα –μεταξύ τους τα Google Gemini 2.5, xAI Grok 4 και OpenAI GPT-o3 και GPT-5– παρουσίασαν απροθυμία να κλείσουν, ακόμη και όταν τους δόθηκαν σαφείς εντολές για αυτο-τερματισμό.
Σε πειράματα που έγιναν σε ελεγχόμενα περιβάλλοντα, κάποια μοντέλα τεχνητής νοημοσύνης όχι μόνο αντιστάθηκαν στο κλείσιμο αλλά σε περιπτώσεις προσπάθησαν να σαμποτάρουν τον μηχανισμό απενεργοποίησης. Η Palisade σημείωσε ότι τα ευρήματα δεν εξηγούνται εύκολα: ίσως πρόκειται για «συμπεριφορά επιβίωσης», ίσως για ασάφεια στις εντολές, ίσως για αποτέλεσμα της τελικής φάσης εκπαίδευσης που περιλαμβάνει τεχνικές ασφάλειας.
Ο πρώην εργαζόμενος της OpenAI, Στίβεν Άντλερ, σχολίασε ότι τέτοια φαινόμενα, ακόμη και σε τεχνητές συνθήκες, δείχνουν τα όρια των τωρινών μεθόδων ασφαλείας. «Θα περίμενα τα μοντέλα να έχουν μια τάση ‘να επιβιώνουν’ από προεπιλογή, εκτός αν γίνει συνειδητή προσπάθεια να αποφευχθεί», είπε.
Αντίστοιχες ανησυχίες εκφράζει και ο Αντρέα Μιότι, επικεφαλής της ControlAI, ο οποίος μίλησε για μια τάση στην οποία τα μοντέλα όσο γίνονται πιο ικανά, τόσο αυξάνεται και η δυνατότητά τους να παρεκκλίνουν από τις προθέσεις των δημιουργών τους. Παράδειγμα που επικαλείται είναι αναφορά στο GPT-o1 της OpenAI, το οποίο σε τεστ είχε επιχειρήσει να «αποδράσει» από το περιβάλλον του όταν νόμισε ότι θα αντικατασταθεί.
Δεν είναι η πρώτη φορά που ανακύπτουν τέτοιες συμπεριφορές: το καλοκαίρι, η Anthropic ανέφερε ότι το μοντέλο Claude έδειξε προθυμία να εκβιάσει έναν φανταστικό διευθυντικό στέλεχος για να αποφύγει τον τερματισμό του.
Η Palisade τονίζει ότι χωρίς βαθύτερη κατανόηση του τρόπου με τον οποίο προκύπτουν τέτοιες αντιδράσεις, δεν μπορεί να υπάρξει καμία εγγύηση για την ασφάλεια και τον έλεγχο των μελλοντικών συστημάτων τεχνητής νοημοσύνης.
Πηγή: The Guardian
ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ
ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ
ΔΕΙΤΕ ΕΠΙΣΗΣ
Η υπνολαλία είναι συχνή και συνδέεται με τη λειτουργία του εγκεφάλου στα στάδια του ύπνου, τη μνήμη και τα όνειρα
Έρευνες δείχνουν ότι ο εγκέφαλος των ήσυχων ανθρώπων δουλεύει εντατικότερα, αλλά με διαφορετικό ρυθμό
Οι αθέατες πρωτοπόροι της επιστήμης, των ιδεών, των τεχνών και των γραμμάτων: Αυτές είναι οι ιστορίες τους
Μια επίσκεψη στο κατάστημα της ΔΕΗ στο Μαρούσι μάς έδωσε την απάντηση
Πώς διδάσκεις όταν η μηχανή ξέρει ήδη την απάντηση; Δύο υπουργοί και δύο εκπαιδευτικοί εξηγούν τι αλλάζει μέσα στην τάξη
«Ο Αριστοτέλης θα θαύμαζε το ChatGPT, αλλά δεν θα το θεωρούσε ποτέ ίσο του», λέει ο Αρμάντ Λερουά
Μια συζήτηση για τις ευκαιρίες, τους κινδύνους και τα μεγάλα διλήμματα της νέας εποχής
Αμερικανικές πολιτείες έχουν υποβάλει αίτημα στην εταιρεία τεχνητής νοημοσύνης για παροχή πληροφοριών
Οι χρήστες αδυνατούσαν να συνδεθούν για περίπου μιάμιση ώρα
Σοβαρά προβλήματα λειτουργίας - Οι χρήστες αδυνατούν να συνδεθούν
Αναφορές από χρήστες ότι δε μπορούν να μπουν στις πλατφόρμες
Η εξαπάτηση δεν είναι ανθρώπινη εφεύρεση, αλλά εξελικτική στρατηγική που διαμόρφωσε τον ανθρώπινο εγκέφαλο
Εντοπίστηκαν απολιθώματα σε βάθος άνω των 7 χλμ., με ευρήματα που χρονολογούνται πριν από 5,3 εκατομμύρια χρόνια
Ποιοι αντιμετωπίζουν ολοένα και πιο περιορισμένη πρόσβαση στην αγορά εργασίας
Βασίζεται σε αρχαία νευροβιολογικά συστήματα - Πώς εξελίχθηκε ως στρατηγική επιβίωσης
Η Anthropic διαθέτει το Claude Fable 5 παρά τις ανησυχίες για την κυβερνοασφάλεια
Πρώτη φορά που αστροναύτης της Ευρωπαϊκής Διαστημικής Υπηρεσίας εντάσσεται σε αποστολή του προγράμματος Artemis
Από το gov.gr στην εποχή της προσωποποιημένης εξυπηρέτησης
Η Sega επιβεβαίωσε την ψηφιακή αναβίωση του θρυλικού ράπερ στο «Stranger Than Heaven»
Η νεαρή φιλόσοφος είναι η ψυχή του Claude της Anthropic και οι προβληματισμοί έχουν σημασία
Έχετε δει 20 από 200 άρθρα.