- CITY GUIDE
- PODCAST
-
17°
VALL-E: Η AI που μπορεί να μιλήσει με τη φωνή σου
Τρία δευτερόλεπτα δείγματος αρκούν για να «αποκτήσει» τη φωνή του ομιλητή
VALL-E: Η νέα «text to speech» AI που αναπτύσσεται για να μπορεί να μιμηθεί τη φωνή οποιουδήποτε ομιλητή.
Το VALL-E, ανεπτυγμένο από τη Microsoft, μπορεί να πάρει μια ηχογράφηση τριών δευτερολέπτων και να «μάθει» να μιμείται τη φωνή του ομιλητή. Έτσι, έχει τη δυνατότητα να μετατρέψει ό,τι κείμενο του δώσουμε σε ομιλία, με τη φωνή που του «ταΐσαμε», με ρεαλιστικό επιτονισμό και «συναίσθημα», ανάλογα με το context.
To VALL-E έχει εκπαιδευθεί με το LibriLight, μια «βιβλιοθήκη» 60 χιλιάδων ωρών Αγγλικής ομιλίας, την οποία παρήγαγαν περισσότεροι από 7.000 ομιλητές. «Αντί να σχεδιάσουμε ένα περίπλοκο και συγκεκριμένο δίκτυο για αυτό το πρόβλημα, η τελική λύση είναι να εκπαιδεύσουμε ένα μοντέλο με μεγάλα και διαφορετικά δεδομένα όσο το δυνατόν περισσότερο, με κίνητρο την επιτυχία στον τομέα της σύνθεσης κειμένου», αναφέρει η εργασία που κατέθεσε η ομάδα της Microsoft.
Στην ίδια εργασία, την οποία εξέδωσε το Cornell University, οι συγγραφείς εξηγούν τη διαφορά του VALL-E με άλλες προσεγγίσεις στη σύνθεση ομιλίας από κείμενο. To VALL-E είναι ένα σύστημα μετατροπής κειμένου σε συνθετική ομιλία, γνωστά ως «text-to-speech» (TTS). Τα «TTS» είναι εξαιρετικά διαδεδομένα, αλλά ακόμα και τα πιο προηγμένα από αυτά δεν εκπαιδεύονται με αρκετά μεγάλο όγκο δεδομένων για να πετύχουν την «κλωνοποίηση» ομιλίας με τόσο σύντομο δείγμα, σε τόσο –ενδεχομένως– μέτρια ποιότητα ήχου. Το VALL-E αξιοποιεί τις σύγχρονες εξελίξεις στις δυνατότητες για χρήση περισσότερων δεδομένων στα μοντέλα γλωσσών, για τη σύνθεση ομιλίας.
Χάρη στην ωμή δύναμη του όγκου των δεδομένων, ένα χαρακτηριστικό που ξεχωρίζει το VALL-E είναι η δυνατότητά του να αποδίδει την ομιλία σε υψηλή ποιότητα, σε συνθήκες «zero-shot». Βασικά, χωρίς να έχει εκπαιδευτεί στα συγκεκριμένα «δείγματα» και context τα οποία καλείται να διαχειριστεί. Παρότι δεν είναι διαθέσιμο για δημόσια χρήση, οι δημιουργοί του VALL-E παρέχουν ένα demo. Μέσω αυτού μπορούμε να δούμε το VALL-E σε δράση, ακούγοντας τρεις διαφορετικές ηχογραφήσεις: μια ηχογράφηση του αληθινού ομιλητή (τριών δευτερολέπτων), την ηχογράφηση του αληθινού ομιλητή να διαβάζει το κείμενο που δόθηκε στο AI, και το τελικό αποτέλεσμα που παρήγαγε το VALL-E, μιμούμενο τη φωνή του ομιλητή. Μια τέταρτη ηχογράφηση ονομασμένη «Baseline» μας παίζει το αποτέλεσμα που θα παρήγαγε ένα άλλο «TTS».
Η έμφυτη δυνατότητα του VALL-E να γίνει εργαλείο εξαπάτησης και πλαστοπροσωπίας έσπειρε αμέσως την ανησυχία. Κίνδυνοι όπως η μίμηση ενός οικογενειακού μέλους, προκειμένου να πειστεί το θύμα για την καταβολή ενός χρηματικού ποσού ή η χρήση του VALL-E για δυσφήμιση και διασπορά ψευδών πληροφοριών, είναι απαραίτητο να τεθούν επί τάπητος από τη Microsoft.
ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ
ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ
ΔΕΙΤΕ ΕΠΙΣΗΣ
Έρευνες δείχνουν ότι ο εγκέφαλος των ήσυχων ανθρώπων δουλεύει εντατικότερα, αλλά με διαφορετικό ρυθμό
Οι αθέατες πρωτοπόροι της επιστήμης, των ιδεών, των τεχνών και των γραμμάτων: Αυτές είναι οι ιστορίες τους
Μια επίσκεψη στο κατάστημα της ΔΕΗ στο Μαρούσι μάς έδωσε την απάντηση
Πώς διδάσκεις όταν η μηχανή ξέρει ήδη την απάντηση; Δύο υπουργοί και δύο εκπαιδευτικοί εξηγούν τι αλλάζει μέσα στην τάξη
«Ο Αριστοτέλης θα θαύμαζε το ChatGPT, αλλά δεν θα το θεωρούσε ποτέ ίσο του», λέει ο Αρμάντ Λερουά
Μια συζήτηση για τις ευκαιρίες, τους κινδύνους και τα μεγάλα διλήμματα της νέας εποχής
Αμερικανικές πολιτείες έχουν υποβάλει αίτημα στην εταιρεία τεχνητής νοημοσύνης για παροχή πληροφοριών
Οι χρήστες αδυνατούσαν να συνδεθούν για περίπου μιάμιση ώρα
Σοβαρά προβλήματα λειτουργίας - Οι χρήστες αδυνατούν να συνδεθούν
Αναφορές από χρήστες ότι δε μπορούν να μπουν στις πλατφόρμες
Η εξαπάτηση δεν είναι ανθρώπινη εφεύρεση, αλλά εξελικτική στρατηγική που διαμόρφωσε τον ανθρώπινο εγκέφαλο
Εντοπίστηκαν απολιθώματα σε βάθος άνω των 7 χλμ., με ευρήματα που χρονολογούνται πριν από 5,3 εκατομμύρια χρόνια
Ποιοι αντιμετωπίζουν ολοένα και πιο περιορισμένη πρόσβαση στην αγορά εργασίας
Βασίζεται σε αρχαία νευροβιολογικά συστήματα - Πώς εξελίχθηκε ως στρατηγική επιβίωσης
Η Anthropic διαθέτει το Claude Fable 5 παρά τις ανησυχίες για την κυβερνοασφάλεια
Πρώτη φορά που αστροναύτης της Ευρωπαϊκής Διαστημικής Υπηρεσίας εντάσσεται σε αποστολή του προγράμματος Artemis
Από το gov.gr στην εποχή της προσωποποιημένης εξυπηρέτησης
Η Sega επιβεβαίωσε την ψηφιακή αναβίωση του θρυλικού ράπερ στο «Stranger Than Heaven»
Η νεαρή φιλόσοφος είναι η ψυχή του Claude της Anthropic και οι προβληματισμοί έχουν σημασία
Ο Γιάννης Ασσαέλ μιλά για τον οδηγό «Τεχνητή Νοημοσύνη για Όλους», τον οποίο χαρακτηρίζει «παγκόσμια πρωτοπορία»
Έχετε δει 20 από 200 άρθρα.