- CITY GUIDE
- PODCAST
-
17°
Μεταγλώττιση με AI: Το νέο εντυπωσιακό εργαλείο τεχνητής νοημοσύνης από την Deepdub
Αλλαγή γλώσσας και προφοράς των ηθοποιών για ψυχαγωγία προσιτή σε όλους
Deepdub: Η startup εταιρία κυκλοφόρησε το Accent Control, ένα εργαλείο μεταγλώττισης AI ικανό να ταιριάζει με την προφορά του αρχικού ηθοποιού
Αν κάτι πολλοί από εμάς απολαμβάνουμε, είναι η παρακολούθηση σειρών και ταινιών, τόσο ελληνικών όσο και ξένων παραγωγών. Ορισμένοι μάλιστα είναι αρκετά εξοικειωμένοι με την αγγλική γλώσσα και δεν έχουν ανάγκη ούτε τους υπότιτλους. Κάποιοι άλλοι ωστόσο δεν τους αποχωριζόμαστε εύκολα, με αποτέλεσμα συχνά το ένα μάτι να προσπαθεί να παρακολουθήσει την ταινία και το άλλο να διαβάζει τους μεταφρασμένους διαλόγους για να καταλάβουμε τι πραγματικά συμβαίνει. Οι μεταγλωττίσεις ήταν μια λύση για το πρόβλημα αυτό, ωστόσο δεν είναι λίγες οι περιπτώσεις που το στόμα των ηθοποιών δεν συγχρονίζεται με τα λόγια - αγαπημένο παράδειγμα οι μεξικάνικες σειρές - προκαλώντας στο κοινό γέλιο, μέχρι και αμηχανία, για αυτό που βλέπει.
Deepdub: Αλλαγή γλώσσας και προφοράς μέσω μεταγλώττισης AI
Σε μια εποχή που το streaming αποτελεί μέρος της καθημερινότητας πολλών, με σειρές και ταινίες να ενώνουν θεατές από όλο τον κόσμο, το ζήτημα των γλωσσικών περιορισμών δεν έχει αντιμετωπιστεί ακόμα πλήρως. Για αυτό και η startup τεχνολογίας ήχου Deepdub που ιδρύθηκε το 2019, αποφασίζει με τη βοήθεια τεχνητής νοημοσύνης να συμβάλλει σε μια πιο προσιτή ψυχαγωγία. Με χρήση συναισθηματικού μοντέλου κειμένου σε ομιλία (eTTS) 2.0 και πολυτροπικό μοντέλο Large Language που υποστηρίζει περισσότερες από 130 γλώσσες, μας παρουσιάζει το εργαλείο Accent Control. Ένα εργαλείο μεταγλώττισης AI ικανό να προσαρμόζεται με την προφορά του αρχικού ηθοποιού.
Τι είναι το συναισθηματικό και πολυτροπικό μοντέλο;
Η αλήθεια είναι πως από τότε που εμφανίστηκε η τεχνητή νοημοσύνη, ερχόμαστε αντιμέτωποι με όλο και περισσότερες άγνωστες λέξεις και έννοιες. Όσον αφορά στο συναισθηματικό μοντέλο κειμένου σε ομιλία (emotional Text-to-Speech, eTTS) 2.0 πρόκειται για μια τεχνολογία που καταφέρνει να παράγει ομιλία με εκφραστικότητα, χωρίς δηλαδή να ακούγεται ένας «τυποποιημένο» λόγος. Έτσι τα συστήματα TTS (Text-to-Speech) μεταφέρουν το περιεχόμενο του κειμένου σε συνδυασμό με την απόδοσή του, προσθέτοντας φυσικότητα στη φωνητική αναπαραγωγή. Συγκεκριμένα το eTTS 2.0, έρχεται για να βελτιώσει ακόμα περισσότερο την ποιότητα του παραγόμενου λόγου, χρησιμοποιώντας μοντέλα μηχανικής μάθησης (machine learning) για βέλτιστη κατανόηση και αποτελέσματα. Όσον αφορά στο πολυτροπικό μοντέλο Large Language (Multi-Topic Large Language Model), αποτελεί ένα μοντέλο γλωσσικής επεξεργασίας, το οποίο παράγει κείμενο και γνωρίζει πώς να ανταποκριθεί σε ερωτήσεις γύρω από διαφορετικά θέματα. Σκεφτείτε δηλαδή τον τρόπο που λειτουργεί το chatGPT.
Στούντιο Deepdub GO
Το λογισμικό φωνής και μεταγλώττισης της Deepdub το εμπιστεύεται ήδη ένα ποσοστό της βιομηχανίας του Χόλιγουντ, αλλά και οι υπηρεσίες ροής, καθώς προσφέρεται για οποιαδήποτε μορφή και πλατφόρμα εικόνας και ήχου. Από περιεχόμενο στο YouTube μέχρι βιντεοπαιχνίδια. Αυτό που παρέχει η συγκεκριμένη εταιρία είναι προσαρμοσμένα μοντέλα τεχνητής νοημοσύνης, μέσω των οποίων ελέγχονται οι τόνοι, η χροιά των ηθοποιών όταν φτάνει η στιγμή της μεταγλώττισης. Αυτή τη φορά μπορούμε να δούμε αγαπημένους ηθοποιούς να αλλάζουν εθνικότητα διατηρώντας τη φωνή τους, προσδίδοντας ένα πιο φυσικό αποτέλεσμα δίχως να στερεί από την πρωτότυπη ερμηνεία.
Η συγκεκριμένη τεχνολογία χρησιμοποιείται μέσω του Deepdub GO, του εικονικού στούντιο που έχει δημιουργήσει η εταιρία, επιτρέποντας σε συντάκτες να αξιοποιήσουν στο έπακρο τις δυνατότητες μεταγλώττισης AI. Χάρη στο Deepdub GO μεταγλωττίστηκαν εκπομπές κυρίως στα Αγγλικά, καταφέρνοντας να διατηρηθεί η εκφραστικότητα και συναισθηματική απόδοση των προσώπων. Ο ομιλητής ηχογραφεί όλα όσα θέλει να επικοινωνήσει στη μητρική του γλώσσα και έπειτα η τεχνητή νοημοσύνη κάνει τα μαγικά της. Η φωνή μένει ίδια αλλά η γλώσσα αλλάζει.
Λειτουργία Accent Control
Για την απόλυτη εμπειρία μεταγλώττισης και διατήρηση της εκφραστικότητας, η Deepdub κυκλοφόρησε πρόσφατα τη λειτουργία Accent Control. Μέχρι τώρα το λογισμικό της συγκεκριμένης εταιρίας ήξερε πώς να αλλάζει με μαεστρία τη γλώσσα του ομιλητή, τώρα όμως αλλάζει μέχρι και την προφορά, θέλοντας να πετύχει την απόλυτη γλωσσική συμφωνία. Φανταστείτε για παράδειγμα το cast του Harry Potter - γνωστό για τη Βρετανική προφορά του - ξαφνικά να αρχίσει να μιλάει με αυστραλιανή προφορά. Η νέα λειτουργία μεταγλώττισης AI με συναισθηματικό και πολυτροπικό μοντέλο, φαίνεται πολλά υποσχόμενη για το χώρο του θεάματος.
Τεχνολογία LipDub AI
Πρόσφατα μάλιστα η εταιρία του Καναδού επιχειρηματία Bronfman κινήθηκε σε παρόμοια λογική, λανσάροντας την τεχνολογία LipDub AI με στόχο τον συντονισμό χειλιών και μεταγλωττισμένων διαλόγων. Η συγκεκριμένη τεχνολογία έχει εκπαιδευτεί για να χειρίζεται της εκφράσεις των ηθοποιών και να τις προσαρμόζει σε διαφορετικές ξένες λέξεις και διαλέκτους. Είχε ήδη εμφανιστεί το 2020 μέσω μοντέλου τεχνητής νοημοσύνης ανοιχτού κώδικα (Wav2Lip) από ερευνητές του Διεθνούς Ινστιτούτου Τεχνολογίας Πληροφορικής του Χαϊντεραμπάντ, ερχόμενη σήμερα με το LipDub AI ως εξέλιξη του μοντέλου.
Κάπως έτσι Bronfman και Deepdub ενισχύουν την εργαλειοθήκη της τεχνητής νοημοσύνης και αναδιαμορφώνουν τον κόσμο της ψυχαγωγίας και της επικοινωνίας. Ίσως η τεχνολογία ΑΙ έχει να προσφέρει πολλά περισσότερα από όσα νομίζουμε, αρκεί να χρησιμοποιηθεί σωστά και κυρίως ηθικά.
ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ
ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ
ΔΕΙΤΕ ΕΠΙΣΗΣ
Υπό ποια δικαιολογία προχώρησε σε αυτές τις διαγραφές
Ποιοι είναι οι λεγόμενοι «hasslers»
O ιαπωνικός κολοσσός προσφεύγει στη δικαιοσύνη ζητώντας επιστροφή δισεκατομμυρίων από την κυβέρνηση των ΗΠΑ
Ραγδαία εξάπλωση της ΑΙ στην Ελλάδα αλλά βαθύ χάσμα αντιλήψεων μεταξύ χρηστών και μη χρηστών
Οι αθέατες πρωτοπόροι της επιστήμης, των ιδεών, των τεχνών και των γραμμάτων: Αυτές είναι οι ιστορίες τους.
Το Coruna στο στόχαστρο της Google - Ποιες εκδόσεις λογισμικού κινδυνεύουν και πώς να προστατευτείτε
Ποια τα χαρακτηριστικά του νέου προϊόντος
Φθορίζουσες πρωτεΐνες με κβαντικές ιδιότητες υπόσχονται πρωτοφανή ακρίβεια στην παρατήρηση των κυττάρων
Αυστηρά μέτρα από τον Έλον Μασκ μετά τον κατακλυσμό παραπλανητικού υλικού για τη σύγκρουση στο Ιράν
Από το πράσινο στο κόκκινο και το χρυσό, το show των δέντρων μαγεύει, αλλά εξηγείται δύσκολα
Το κρίσιμο ερώτημα από εδώ και πέρα είναι αν η πολεμική επιχείρηση μετατρέπεται σε ένα καθεστώς όπου η ταχύτητα υπολογισμού λειτουργεί αντιστρόφως ανάλογα με την ανθρώπινη ευθύνη και φρόνηση.
Η άρνηση του Ντάριο Αμοντέι να υποχωρήσει σε θέματα ηθικής για τη στρατιωτική χρήση της AI οδήγησε σε ρεκόρ εγγραφών
Η νέα έρευνα δημοσιεύθηκε στο περιοδικό Science
H εταιρεία τοποθετείται έτσι στην κατηγορία των mid range συσκευών
Στη μελέτη συμμετείχαν περισσότεροι από 15.000 ενήλικες
Μια συζήτηση με τον καθηγητή Φιλοσοφίας της Πληροφορικής και Ψηφιακού Ανθρωπισμού στο Ιόνιο Πανεπιστήμιο
Από τα video games στα εργαστήρια και η κληρονομιά που ενέπνευσε γενιές ερευνητών
Μια συζήτηση με τη Διευθύντρια Ερευνών στο Εθνικό Αστεροσκοπείο Αθηνών
Η οικονομική δημοκρατία στην πράξη ή «το εργαλείο των αναλφάβητων»
Έχετε δει 20 από 200 άρθρα.