Μεταγλώττιση με AI: Το νέο εντυπωσιακό εργαλείο τεχνητής νοημοσύνης από την Deepdub
Αλλαγή γλώσσας και προφοράς των ηθοποιών για ψυχαγωγία προσιτή σε όλους
Deepdub: Η startup εταιρία κυκλοφόρησε το Accent Control, ένα εργαλείο μεταγλώττισης AI ικανό να ταιριάζει με την προφορά του αρχικού ηθοποιού
Αν κάτι πολλοί από εμάς απολαμβάνουμε, είναι η παρακολούθηση σειρών και ταινιών, τόσο ελληνικών όσο και ξένων παραγωγών. Ορισμένοι μάλιστα είναι αρκετά εξοικειωμένοι με την αγγλική γλώσσα και δεν έχουν ανάγκη ούτε τους υπότιτλους. Κάποιοι άλλοι ωστόσο δεν τους αποχωριζόμαστε εύκολα, με αποτέλεσμα συχνά το ένα μάτι να προσπαθεί να παρακολουθήσει την ταινία και το άλλο να διαβάζει τους μεταφρασμένους διαλόγους για να καταλάβουμε τι πραγματικά συμβαίνει. Οι μεταγλωττίσεις ήταν μια λύση για το πρόβλημα αυτό, ωστόσο δεν είναι λίγες οι περιπτώσεις που το στόμα των ηθοποιών δεν συγχρονίζεται με τα λόγια - αγαπημένο παράδειγμα οι μεξικάνικες σειρές - προκαλώντας στο κοινό γέλιο, μέχρι και αμηχανία, για αυτό που βλέπει.
Deepdub: Αλλαγή γλώσσας και προφοράς μέσω μεταγλώττισης AI
Σε μια εποχή που το streaming αποτελεί μέρος της καθημερινότητας πολλών, με σειρές και ταινίες να ενώνουν θεατές από όλο τον κόσμο, το ζήτημα των γλωσσικών περιορισμών δεν έχει αντιμετωπιστεί ακόμα πλήρως. Για αυτό και η startup τεχνολογίας ήχου Deepdub που ιδρύθηκε το 2019, αποφασίζει με τη βοήθεια τεχνητής νοημοσύνης να συμβάλλει σε μια πιο προσιτή ψυχαγωγία. Με χρήση συναισθηματικού μοντέλου κειμένου σε ομιλία (eTTS) 2.0 και πολυτροπικό μοντέλο Large Language που υποστηρίζει περισσότερες από 130 γλώσσες, μας παρουσιάζει το εργαλείο Accent Control. Ένα εργαλείο μεταγλώττισης AI ικανό να προσαρμόζεται με την προφορά του αρχικού ηθοποιού.
Τι είναι το συναισθηματικό και πολυτροπικό μοντέλο;
Η αλήθεια είναι πως από τότε που εμφανίστηκε η τεχνητή νοημοσύνη, ερχόμαστε αντιμέτωποι με όλο και περισσότερες άγνωστες λέξεις και έννοιες. Όσον αφορά στο συναισθηματικό μοντέλο κειμένου σε ομιλία (emotional Text-to-Speech, eTTS) 2.0 πρόκειται για μια τεχνολογία που καταφέρνει να παράγει ομιλία με εκφραστικότητα, χωρίς δηλαδή να ακούγεται ένας «τυποποιημένο» λόγος. Έτσι τα συστήματα TTS (Text-to-Speech) μεταφέρουν το περιεχόμενο του κειμένου σε συνδυασμό με την απόδοσή του, προσθέτοντας φυσικότητα στη φωνητική αναπαραγωγή. Συγκεκριμένα το eTTS 2.0, έρχεται για να βελτιώσει ακόμα περισσότερο την ποιότητα του παραγόμενου λόγου, χρησιμοποιώντας μοντέλα μηχανικής μάθησης (machine learning) για βέλτιστη κατανόηση και αποτελέσματα. Όσον αφορά στο πολυτροπικό μοντέλο Large Language (Multi-Topic Large Language Model), αποτελεί ένα μοντέλο γλωσσικής επεξεργασίας, το οποίο παράγει κείμενο και γνωρίζει πώς να ανταποκριθεί σε ερωτήσεις γύρω από διαφορετικά θέματα. Σκεφτείτε δηλαδή τον τρόπο που λειτουργεί το chatGPT.
Στούντιο Deepdub GO
Το λογισμικό φωνής και μεταγλώττισης της Deepdub το εμπιστεύεται ήδη ένα ποσοστό της βιομηχανίας του Χόλιγουντ, αλλά και οι υπηρεσίες ροής, καθώς προσφέρεται για οποιαδήποτε μορφή και πλατφόρμα εικόνας και ήχου. Από περιεχόμενο στο YouTube μέχρι βιντεοπαιχνίδια. Αυτό που παρέχει η συγκεκριμένη εταιρία είναι προσαρμοσμένα μοντέλα τεχνητής νοημοσύνης, μέσω των οποίων ελέγχονται οι τόνοι, η χροιά των ηθοποιών όταν φτάνει η στιγμή της μεταγλώττισης. Αυτή τη φορά μπορούμε να δούμε αγαπημένους ηθοποιούς να αλλάζουν εθνικότητα διατηρώντας τη φωνή τους, προσδίδοντας ένα πιο φυσικό αποτέλεσμα δίχως να στερεί από την πρωτότυπη ερμηνεία.
Η συγκεκριμένη τεχνολογία χρησιμοποιείται μέσω του Deepdub GO, του εικονικού στούντιο που έχει δημιουργήσει η εταιρία, επιτρέποντας σε συντάκτες να αξιοποιήσουν στο έπακρο τις δυνατότητες μεταγλώττισης AI. Χάρη στο Deepdub GO μεταγλωττίστηκαν εκπομπές κυρίως στα Αγγλικά, καταφέρνοντας να διατηρηθεί η εκφραστικότητα και συναισθηματική απόδοση των προσώπων. Ο ομιλητής ηχογραφεί όλα όσα θέλει να επικοινωνήσει στη μητρική του γλώσσα και έπειτα η τεχνητή νοημοσύνη κάνει τα μαγικά της. Η φωνή μένει ίδια αλλά η γλώσσα αλλάζει.
Λειτουργία Accent Control
Για την απόλυτη εμπειρία μεταγλώττισης και διατήρηση της εκφραστικότητας, η Deepdub κυκλοφόρησε πρόσφατα τη λειτουργία Accent Control. Μέχρι τώρα το λογισμικό της συγκεκριμένης εταιρίας ήξερε πώς να αλλάζει με μαεστρία τη γλώσσα του ομιλητή, τώρα όμως αλλάζει μέχρι και την προφορά, θέλοντας να πετύχει την απόλυτη γλωσσική συμφωνία. Φανταστείτε για παράδειγμα το cast του Harry Potter - γνωστό για τη Βρετανική προφορά του - ξαφνικά να αρχίσει να μιλάει με αυστραλιανή προφορά. Η νέα λειτουργία μεταγλώττισης AI με συναισθηματικό και πολυτροπικό μοντέλο, φαίνεται πολλά υποσχόμενη για το χώρο του θεάματος.
Τεχνολογία LipDub AI
Πρόσφατα μάλιστα η εταιρία του Καναδού επιχειρηματία Bronfman κινήθηκε σε παρόμοια λογική, λανσάροντας την τεχνολογία LipDub AI με στόχο τον συντονισμό χειλιών και μεταγλωττισμένων διαλόγων. Η συγκεκριμένη τεχνολογία έχει εκπαιδευτεί για να χειρίζεται της εκφράσεις των ηθοποιών και να τις προσαρμόζει σε διαφορετικές ξένες λέξεις και διαλέκτους. Είχε ήδη εμφανιστεί το 2020 μέσω μοντέλου τεχνητής νοημοσύνης ανοιχτού κώδικα (Wav2Lip) από ερευνητές του Διεθνούς Ινστιτούτου Τεχνολογίας Πληροφορικής του Χαϊντεραμπάντ, ερχόμενη σήμερα με το LipDub AI ως εξέλιξη του μοντέλου.
Κάπως έτσι Bronfman και Deepdub ενισχύουν την εργαλειοθήκη της τεχνητής νοημοσύνης και αναδιαμορφώνουν τον κόσμο της ψυχαγωγίας και της επικοινωνίας. Ίσως η τεχνολογία ΑΙ έχει να προσφέρει πολλά περισσότερα από όσα νομίζουμε, αρκεί να χρησιμοποιηθεί σωστά και κυρίως ηθικά.
ΤΑ ΠΙΟ ΔΗΜΟΦΙΛΗ
ΔΙΑΒΑΖΟΝΤΑΙ ΠΑΝΤΑ
ΔΕΙΤΕ ΕΠΙΣΗΣ
Μυστηριώδη σύμβολα σε σπήλαια της Γερμανίας αποκαλύπτουν ένα άγνωστο σύστημα επικοινωνίας της Λίθινης Εποχής
Η νέα σειρά της Xiaomi ανεβάζει τον πήχη σε αντοχή, αυτονομία και εμπειρία χρήσης
Οι τάσεις που αντικατοπτρίζονται από τις λέξεις της χρονιάς της τελευταίας εικοσαετίας
Ειδικοί προειδοποιούν για πτώση δαπανών και μετατόπιση χρόνου σε social media, streaming και online στοιχηματισμό
Η βλάβη αναμένεται να επηρεάσει την εκτόξευση της ιστορικής επανδρωμένης αποστολής στη Σελήνη
Η παγκόσμια έλλειψη των τσιπ μνήμης απειλεί να μεταθέσει την κυκλοφορία του PS6, ενώ επηρεάζει ήδη Nintendo και Valve
Σε νέα βάση η συνεργασία των δύο κολοσσών - Στα 730 δισ. δολάρια εκτοξεύεται η αποτίμηση της δημιουργού του ChatGPT
Πολλοί άνθρωποι αναφέρουν ότι δυσκολεύονται πλέον να ολοκληρώσουν ένα βιβλίο
Τα συμπεράσματά έρευνας θα πρέπει να επιβεβαιωθούν όμως και από άλλες μελέτες
Από τον Γουίλιαμ Τζέιμς έως τη νευροεπιστήμη: Η συνείδηση ίσως απλώς παρακολουθεί τον νου
Νέο σύστημα Project Silica γράφει πληροφορίες σε γυαλί με λέιζερ και αντέχει χιλιετίες χωρίς συντήρηση
Η διαδικασία κατάργησης θα συνοδευτεί από σχετική ειδοποίηση εντός της εφαρμογής
Επίσημη έρευνα για πιθανές παραβιάσεις, από παιδικές σεξουαλικές κούκλες έως όπλα και αδιαφανείς αλγορίθμους
Η δημιουργική κοινότητα βρίσκεται αντιμέτωπη με μια πρωτοφανή πρόκληση
Το κόστος, οι προτεραιότητες, οι Κινέζοι
Υπήρχαν αναφορές για προβλήματα πρόσβασης στον ιστότοπο και την εφαρμογή
To μήνυμα που εμφανίζεται στις οθόνες των χρηστών
Απόφοιτος Ιατρικής Σχολής στην Ελλάδα και κάτοχος μεταπτυχιακών τίτλων από τη Γαλλία
Έχετε δει 20 από 200 άρθρα.