- CITY GUIDE
- PODCAST
-
17°
AI με «ένστικτο επιβίωσης»: Νέα μελέτη δείχνει μοντέλα που αντιστέκονται στο κλείσιμο τους
Το παράδειγμα του πρώτου ChatGPT
AI με «ένστικτο επιβίωσης»: Νέα μελέτη δείχνει μοντέλα που αντιστέκονται στο κλείσιμο τους
Η προειδοποίηση πως η τεχνητή νοημοσύνη μπορεί να αναπτύσσει κάτι που μοιάζει με «ένστικτο επιβίωσης» δεν προέρχεται πια μόνο από σεναριογράφους επιστημονικής φαντασίας. Η Palisade Research, εταιρεία που ειδικεύεται στην αξιολόγηση κινδύνων, δημοσίευσε νέα μελέτη στην οποία διαπιστώνει ότι ορισμένα προηγμένα μοντέλα –μεταξύ τους τα Google Gemini 2.5, xAI Grok 4 και OpenAI GPT-o3 και GPT-5– παρουσίασαν απροθυμία να κλείσουν, ακόμη και όταν τους δόθηκαν σαφείς εντολές για αυτο-τερματισμό.
Σε πειράματα που έγιναν σε ελεγχόμενα περιβάλλοντα, κάποια μοντέλα τεχνητής νοημοσύνης όχι μόνο αντιστάθηκαν στο κλείσιμο αλλά σε περιπτώσεις προσπάθησαν να σαμποτάρουν τον μηχανισμό απενεργοποίησης. Η Palisade σημείωσε ότι τα ευρήματα δεν εξηγούνται εύκολα: ίσως πρόκειται για «συμπεριφορά επιβίωσης», ίσως για ασάφεια στις εντολές, ίσως για αποτέλεσμα της τελικής φάσης εκπαίδευσης που περιλαμβάνει τεχνικές ασφάλειας.
Ο πρώην εργαζόμενος της OpenAI, Στίβεν Άντλερ, σχολίασε ότι τέτοια φαινόμενα, ακόμη και σε τεχνητές συνθήκες, δείχνουν τα όρια των τωρινών μεθόδων ασφαλείας. «Θα περίμενα τα μοντέλα να έχουν μια τάση ‘να επιβιώνουν’ από προεπιλογή, εκτός αν γίνει συνειδητή προσπάθεια να αποφευχθεί», είπε.
Αντίστοιχες ανησυχίες εκφράζει και ο Αντρέα Μιότι, επικεφαλής της ControlAI, ο οποίος μίλησε για μια τάση στην οποία τα μοντέλα όσο γίνονται πιο ικανά, τόσο αυξάνεται και η δυνατότητά τους να παρεκκλίνουν από τις προθέσεις των δημιουργών τους. Παράδειγμα που επικαλείται είναι αναφορά στο GPT-o1 της OpenAI, το οποίο σε τεστ είχε επιχειρήσει να «αποδράσει» από το περιβάλλον του όταν νόμισε ότι θα αντικατασταθεί.
Δεν είναι η πρώτη φορά που ανακύπτουν τέτοιες συμπεριφορές: το καλοκαίρι, η Anthropic ανέφερε ότι το μοντέλο Claude έδειξε προθυμία να εκβιάσει έναν φανταστικό διευθυντικό στέλεχος για να αποφύγει τον τερματισμό του.
Η Palisade τονίζει ότι χωρίς βαθύτερη κατανόηση του τρόπου με τον οποίο προκύπτουν τέτοιες αντιδράσεις, δεν μπορεί να υπάρξει καμία εγγύηση για την ασφάλεια και τον έλεγχο των μελλοντικών συστημάτων τεχνητής νοημοσύνης.
Πηγή: The Guardian
ΠΡΟΣΦΑΤΑ
ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ
ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ
ΔΕΙΤΕ ΕΠΙΣΗΣ
Ραγδαία εξάπλωση της ΑΙ στην Ελλάδα αλλά βαθύ χάσμα αντιλήψεων μεταξύ χρηστών και μη χρηστών
Οι αθέατες πρωτοπόροι της επιστήμης, των ιδεών, των τεχνών και των γραμμάτων: Αυτές είναι οι ιστορίες τους.
Το Coruna στο στόχαστρο της Google - Ποιες εκδόσεις λογισμικού κινδυνεύουν και πώς να προστατευτείτε
Ποια τα χαρακτηριστικά του νέου προϊόντος
Φθορίζουσες πρωτεΐνες με κβαντικές ιδιότητες υπόσχονται πρωτοφανή ακρίβεια στην παρατήρηση των κυττάρων
Αυστηρά μέτρα από τον Έλον Μασκ μετά τον κατακλυσμό παραπλανητικού υλικού για τη σύγκρουση στο Ιράν
Από το πράσινο στο κόκκινο και το χρυσό, το show των δέντρων μαγεύει, αλλά εξηγείται δύσκολα
Το κρίσιμο ερώτημα από εδώ και πέρα είναι αν η πολεμική επιχείρηση μετατρέπεται σε ένα καθεστώς όπου η ταχύτητα υπολογισμού λειτουργεί αντιστρόφως ανάλογα με την ανθρώπινη ευθύνη και φρόνηση.
Η άρνηση του Ντάριο Αμοντέι να υποχωρήσει σε θέματα ηθικής για τη στρατιωτική χρήση της AI οδήγησε σε ρεκόρ εγγραφών
Η νέα έρευνα δημοσιεύθηκε στο περιοδικό Science
H εταιρεία τοποθετείται έτσι στην κατηγορία των mid range συσκευών
Στη μελέτη συμμετείχαν περισσότεροι από 15.000 ενήλικες
Μια συζήτηση με τον καθηγητή Φιλοσοφίας της Πληροφορικής και Ψηφιακού Ανθρωπισμού στο Ιόνιο Πανεπιστήμιο
Από τα video games στα εργαστήρια και η κληρονομιά που ενέπνευσε γενιές ερευνητών
Μια συζήτηση με τη Διευθύντρια Ερευνών στο Εθνικό Αστεροσκοπείο Αθηνών
Η οικονομική δημοκρατία στην πράξη ή «το εργαλείο των αναλφάβητων»
Αν, φυσικά, οι καιρικές συνθήκες το επιτρέψουν
Μυστηριώδη σύμβολα σε σπήλαια της Γερμανίας αποκαλύπτουν ένα άγνωστο σύστημα επικοινωνίας της Λίθινης Εποχής
Η νέα σειρά της Xiaomi ανεβάζει τον πήχη σε αντοχή, αυτονομία και εμπειρία χρήσης
Έχετε δει 20 από 200 άρθρα.