Η Meta παρουσίασε πρόσφατα το MoCha, μια τεχνητή νοημοσύνη ικανή να παράγει υψηλής ποιότητας χαρακτήρες που μοιάζουν με ταινίες που μπορούν να μιλήσουν και να τραγουδήσουν, χρησιμοποιώντας μόνο εισόδους ομιλίας και κειμένου.
Σε αντίθεση με τα προηγούμενα μοντέλα που εστιάζουν αποκλειστικά σε κινούμενα σχέδια προσώπου, το MoCha αποδίδει την κίνηση ολόκληρου του σώματος από πολλές γωνίες της κάμερας, συμπεριλαμβανομένου του συγχρονισμού των χειλιών, των χειρονομιών και των αλληλεπιδράσεων μεταξύ πολλών χαρακτήρων.
Βελτίωση της ακρίβειας συγχρονισμού χειλιών
Η επίδειξη του MoCha υπογραμμίζει τη συγχρονισμένη παραγωγή κινήσεων και χειρονομιών στο πάνω μέρος του σώματος σε κοντινές και μεσαίες λήψεις. Ο μοναδικός μηχανισμός “προσοχής οπτικοακουστικού παραθύρου” αντιμετωπίζει με επιτυχία δύο μακροχρόνιες προκλήσεις στη δημιουργία βίντεο με τεχνητή νοημοσύνη: τη διατήρηση της πλήρους ανάλυσης ήχου κατά τη συμπίεση βίντεο και την αποφυγή ασυμφωνιών συγχρονισμού χειλιών κατά την παράλληλη παραγωγή βίντεο.
Το MoCha καινοτομεί περιορίζοντας την πρόσβαση κάθε καρέ σε ένα συγκεκριμένο παράθυρο δεδομένων ήχου, μιμούμενο την παραγωγή ανθρώπινης ομιλίας – οι κινήσεις των χειλιών συνδέονται στενά με τους άμεσους ήχους, ενώ η γλώσσα του σώματος αντανακλά ευρύτερα κειμενικά μοτίβα. Προσθέτοντας δείκτες πριν και μετά τον ήχο κάθε καρέ, το MoCha επιτυγχάνει πιο ομαλές μεταβάσεις και πιο ακριβή συγχρονισμό χειλιών.
Το MoCha δημιουργεί ρεαλιστικά βίντεο με εκφράσεις προσώπου, χειρονομίες και κινήσεις χειλιών με βάση περιγραφές κειμένου.
Για την κατασκευή του συστήματος, η ερευνητική ομάδα χρησιμοποίησε 300 ώρες προσεκτικά επιμελημένου περιεχομένου βίντεο και το συνδύασε με ακολουθίες βίντεο βασισμένες σε κείμενο για να επεκτείνει τις δυνατότητες έκφρασης και αλληλεπίδρασης. Το MoCha υπερέχει ιδιαίτερα σε σκηνές πολλών χαρακτήρων. Οι χρήστες ορίζουν χαρακτήρες μία φορά και τους ανακαλούν εύκολα σε διαφορετικές σκηνές χρησιμοποιώντας ετικέτες (π.χ. “Χαρακτήρας 1” ή “Χαρακτήρας 2”) χωρίς επαναλαμβανόμενες περιγραφές.
Διαχείριση πολλών χαρακτήρων
Σε δοκιμές σε 150 διαφορετικά σενάρια, το MoCha ξεπέρασε τα συγκρίσιμα συστήματα τόσο στην ακρίβεια του lip-sync όσο και στη φυσικότητα των κινήσεών του. Οι ανεξάρτητοι αξιολογητές βαθμολόγησαν με συνέπεια τα βίντεο που δημιουργήθηκαν ως εξαιρετικά ρεαλιστικά, επιδεικνύοντας πρωτοφανή ακρίβεια και φυσικότητα.
Οι ερευνητές ανέπτυξαν ένα πρότυπο προτροπής που επιτρέπει στους χρήστες να αναφέρονται σε συγκεκριμένους χαρακτήρες χωρίς επαναλαμβανόμενες περιγραφές.
Η ανάπτυξη του MoCha δείχνει σημαντικές δυνατότητες σε διάφορες εφαρμογές, ιδιαίτερα σε ψηφιακούς βοηθούς, εικονικά avatars, διαφήμιση και εκπαιδευτικό περιεχόμενο. Αν και η Meta δεν έχει αποκαλύψει εάν το σύστημα θα είναι ανοιχτού κώδικα ή αν θα παραμείνει ερευνητικό πρωτότυπο, η εισαγωγή του αναμφίβολα σηματοδοτεί ένα νέο κεφάλαιο στη δημιουργία βίντεο που βασίζεται στην τεχνητή νοημοσύνη.
Η κυκλοφορία του MoCha είναι ιδιαίτερα αξιοσημείωτη στο όλο και πιο ανταγωνιστικό τοπίο της τεχνολογίας βίντεο AI. Η Meta κυκλοφόρησε πρόσφατα το σύστημα MovieGen, ενώ η ByteDance, η μητρική εταιρεία του TikTok, αναπτύσσει τα δικά της εργαλεία κίνησης τεχνητής νοημοσύνης, συμπεριλαμβανομένων των INFP, OmniHuman-1 και Goku, τονίζοντας την ενεργό συμμετοχή των εταιρειών κοινωνικής δικτύωσης σε αυτόν τον τομέα.
Meta just announced MoCha
— Min Choi (@minchoi) April 2, 2025
This AI can create full movie-quality talking & singing characters from just speech & text.
10 wild examples:
1. Talking Characters pic.twitter.com/pXE6dTkQLh
It's over.
— Angry Tom (@AngryTomtweets) April 1, 2025
Meta just announced MoCha, a new model that turns text or voice into super realistic talking characters.
There is no way to tell anymore…
10 examples: (please unmute) pic.twitter.com/MrKoUdoTnm
photo: pixabay