Δημιουργία κειμένου σε βίντεο δεν είναι αυτό που ήταν πριν από λίγα χρόνια. Το μεταμορφώσαμε σε ένα εργαλείο με πραγματικά φουτουριστική λειτουργικότητα. Οι χρήστες δημιουργούν περιεχόμενο για προσωπικές σελίδες, οι παράγοντες επιρροής το χρησιμοποιούν για αυτοπροβολή και οι εταιρείες το χρησιμοποιούν για τα πάντα, από διαφημιστικό και εκπαιδευτικό υλικό μέχρι εικονική εκπαίδευση και παραγωγή ταινιών. Η πλειοψηφία των συστημάτων κειμένου σε βίντεο είναι χτισμένα στην αρχιτεκτονική των μετασχηματιστών διάχυσης, που αποτελούν την αιχμή στον κόσμο της παραγωγής βίντεο. Αυτή η τεχνολογία χρησιμεύει ως βάση για υπηρεσίες όπως η Luma και η Kling. Ωστόσο, αυτή η κατάσταση στερεοποιήθηκε μόλις το 2024, όταν οι πρώτοι μετασχηματιστές διάχυσης για βίντεο κέρδισαν την υιοθέτηση της αγοράς.
Το σημείο καμπής ήρθε με την κυκλοφορία του OpenAI του ΣΩΡΑπροβάλλοντας απίστευτα ρεαλιστικά πλάνα που σχεδόν δεν ξεχώριζαν από την πραγματική ζωή. Το OpenAI έδειξε ότι ο μετασχηματιστής διάχυσης μπορούσε να δημιουργήσει με επιτυχία περιεχόμενο βίντεο. Αυτή η κίνηση επικύρωσε τις δυνατότητες της τεχνολογίας και πυροδότησε μια τάση σε ολόκληρο τον κλάδο: τώρα, περίπου το 90% των σημερινών μοντέλων βασίζονται σε μετασχηματιστές διάχυσης.
Η διάχυση είναι μια συναρπαστική διαδικασία που αξίζει μια πιο διεξοδική εξερεύνηση. Ας καταλάβουμε πώς λειτουργεί η διάχυση, τις προκλήσεις που αντιμετωπίζει η τεχνολογία του μετασχηματιστή σε αυτή τη διαδικασία και γιατί παίζει τόσο σημαντικό ρόλο στη δημιουργία κειμένου σε βίντεο.
Σε τι είναι η διαδικασία διάχυσης GenAI?
Στην καρδιά της δημιουργίας κειμένου σε βίντεο και κειμένου σε εικόνα βρίσκεται η διαδικασία της διάχυσης. Εμπνευσμένα από το φυσικό φαινόμενο όπου οι ουσίες αναμειγνύονται σταδιακά – όπως η διάχυση μελανιού στο νερό – τα μοντέλα διάχυσης στη μηχανική μάθηση περιλαμβάνουν μια διαδικασία δύο βημάτων: προσθήκη θορύβου στα δεδομένα και στη συνέχεια εκμάθηση για την αφαίρεσή τους.
Κατά τη διάρκεια της εκπαίδευσης, το μοντέλο τραβάει εικόνες ή ακολουθίες καρέ βίντεο και σταδιακά προσθέτει θόρυβο σε πολλά βήματα μέχρι να γίνει δυσδιάκριτο το αρχικό περιεχόμενο. Ουσιαστικά το μετατρέπει σε καθαρό θόρυβο.
Διαδικασίες διάχυσης και δημιουργίας για “Όμορφο δέντρο sakura που φυσάει στο λόφο κατά την ανατολή του ηλίου”
Κατά τη δημιουργία νέου περιεχομένου, η διαδικασία λειτουργεί αντίστροφα. Το μοντέλο εκπαιδεύεται να προβλέπει και να αφαιρεί το θόρυβο σταδιακά, εστιάζοντας σε ένα τυχαίο ενδιάμεσο βήμα θορύβου μεταξύ δύο σημείων, t και t+1. Λόγω της μακράς διαδικασίας εκπαίδευσης, το μοντέλο έχει παρατηρήσει όλα τα στάδια της εξέλιξης από τον καθαρό θόρυβο σε σχεδόν καθαρές εικόνες και τώρα έχει αρκετά την ικανότητα να αναγνωρίζει και να μειώνει το θόρυβο βασικά σε οποιοδήποτε επίπεδο.
Από τυχαίο, καθαρό θόρυβο, το μοντέλο, καθοδηγούμενο από το κείμενο εισαγωγής, δημιουργεί επαναληπτικά καρέ βίντεο που είναι συνεκτικά και ταιριάζουν με την περιγραφή του κειμένου. Το υψηλής ποιότητας, λεπτομερές περιεχόμενο βίντεο είναι αποτέλεσμα αυτής της πολύ σταδιακής διαδικασίας.
Η λανθάνουσα διάχυση είναι αυτό που το καθιστά αυτό υπολογιστικά δυνατό. Αντί να εργάζονται απευθείας με εικόνες ή βίντεο υψηλής ανάλυσης, τα δεδομένα συμπιέζονται σε έναν λανθάνοντα χώρο από έναν κωδικοποιητή.
Αυτό γίνεται για να μειωθεί (σημαντικά) ο όγκος των δεδομένων που χρειάζεται να επεξεργαστεί το μοντέλο, επιταχύνοντας την παραγωγή χωρίς συμβιβασμούς στην ποιότητα. Αφού η διαδικασία διάχυσης τελειοποιήσει τις λανθάνουσες αναπαραστάσεις, ένας αποκωδικοποιητής τις μετατρέπει ξανά σε εικόνες ή βίντεο πλήρους ανάλυσης.
Το πρόβλημα με τη δημιουργία βίντεο
Σε αντίθεση με μια μεμονωμένη εικόνα, το βίντεο απαιτεί από αντικείμενα και χαρακτήρες να παραμένουν σταθερά καθ’ όλη τη διάρκεια, αποτρέποντας απροσδόκητες αλλαγές ή αλλαγές στην εμφάνιση. Όλοι έχουμε δει τα θαύματα που μπορεί να κάνει η γενετική τεχνητή νοημοσύνη, αλλά το περιστασιακό χαμένο χέρι ή η δυσδιάκριτη έκφραση του προσώπου είναι πολύ εντός του κανόνα. Στο βίντεο, ωστόσο, το ποντάρισμα είναι υψηλότερο. Η συνοχή είναι υψίστης σημασίας για μια ρευστή αίσθηση.
Έτσι, εάν ένας χαρακτήρας εμφανίζεται στο πρώτο καρέ φορώντας ένα συγκεκριμένο ρούχο, αυτό το ρούχο πρέπει να φαίνεται πανομοιότυπο σε κάθε επόμενο καρέ. Οποιαδήποτε αλλαγή στην εμφάνιση του χαρακτήρα ή οποιαδήποτε «μορφοποίηση» αντικειμένων στο παρασκήνιο, σπάει τη συνέχεια και κάνει το βίντεο να αισθάνεται αφύσικο ή και απόκοσμο.
Εικόνα που παρέχεται από τον συγγραφέα
Οι πρώτες μέθοδοι προσέγγιζαν τη δημιουργία βίντεο με την επεξεργασία των καρέ μεμονωμένα, με κάθε pixel σε ένα καρέ να αναφέρεται μόνο στο αντίστοιχο pixel του σε άλλα. Ωστόσο, αυτή η προσέγγιση καρέ προς καρέ συχνά οδηγούσε σε ασυνέπειες, καθώς δεν μπορούσε να αποτυπώσει τις χωρικές και χρονικές σχέσεις μεταξύ των πλαισίων που είναι απαραίτητες για ομαλές μεταβάσεις και ρεαλιστική κίνηση. Αντικείμενα όπως η εναλλαγή χρωμάτων, τα κυμαινόμενα σχήματα ή τα εσφαλμένα ευθυγραμμισμένα χαρακτηριστικά είναι αποτέλεσμα αυτής της έλλειψης συνοχής και μειώνουν τη συνολική ποιότητα του βίντεο.
Εικόνα που παρέχεται από τον συγγραφέα
Το μεγαλύτερο εμπόδιο στην επίλυση αυτού του ζητήματος ήταν η υπολογιστική ζήτηση — και το κόστος. Για ένα βίντεο 10 δευτερολέπτων με ταχύτητα 10 καρέ ανά δευτερόλεπτο, η δημιουργία 100 καρέ αυξάνει την πολυπλοκότητα εκθετικά. Η δημιουργία αυτών των 100 καρέ είναι περίπου 10.000 φορές πιο περίπλοκη από τη δημιουργία ενός μεμονωμένου καρέ λόγω της ανάγκης για ακριβή συνοχή καρέ σε καρέ. Αυτή η εργασία απαιτεί 10.000 φορές περισσότερο από άποψη μνήμης, χρόνου επεξεργασίας και υπολογιστικών πόρων, συχνά υπερβαίνοντας τα πρακτικά όρια. Όπως μπορείτε να φανταστείτε, η πολυτέλεια του πειραματισμού με αυτή τη διαδικασία ήταν διαθέσιμη σε λίγους εκλεκτούς στον κλάδο.
Αυτό είναι που έκανε την κυκλοφορία του SORA από το OpenAI τόσο σημαντική: απέδειξαν ότι οι μετασχηματιστές διάχυσης μπορούσαν πράγματι να χειριστούν τη δημιουργία βίντεο παρά την τεράστια πολυπλοκότητα της εργασίας.
Πώς οι μετασχηματιστές διάχυσης έλυσαν το πρόβλημα αυτοσυνέπειας στη δημιουργία βίντεο
Η εμφάνιση μετασχηματιστών διάχυσης αντιμετώπισε πολλά προβλήματα: επέτρεψαν τη δημιουργία βίντεο αυθαίρετης ανάλυσης και μήκους, επιτυγχάνοντας παράλληλα υψηλή αυτοσυνέπεια. Αυτό οφείλεται σε μεγάλο βαθμό επειδή μπορούν να δουλέψουν με μεγάλες ακολουθίες, αρκεί να ταιριάζουν στη μνήμη, και λόγω του μηχανισμού αυτοπροσοχής.
Στην τεχνητή νοημοσύνη, η αυτοπροσοχή είναι ένας μηχανισμός που υπολογίζει τα βάρη της προσοχής μεταξύ των στοιχείων σε μια ακολουθία, καθορίζοντας πόσο κάθε στοιχείο πρέπει να επηρεάζεται από άλλα. Επιτρέπει σε κάθε στοιχείο σε μια ακολουθία να εξετάζει όλα τα άλλα στοιχεία ταυτόχρονα και επιτρέπει στα μοντέλα να εστιάζουν σε σχετικά μέρη των δεδομένων εισόδου κατά τη δημιουργία εξόδου, καταγράφοντας εξαρτήσεις τόσο στον χώρο όσο και στον χρόνο.
Στη δημιουργία βίντεο, αυτό σημαίνει ότι κάθε pixel σε κάθε καρέ μπορεί να σχετίζεται με κάθε άλλο pixel σε όλα τα καρέ. Αυτή η διασύνδεση διασφαλίζει ότι τα αντικείμενα και οι χαρακτήρες παραμένουν συνεπείς σε όλο το βίντεο, από την αρχή μέχρι το τέλος. Εάν ένας χαρακτήρας εμφανίζεται σε ένα καρέ, η αυτοπροσοχή βοηθά στην αποφυγή αλλαγών και στη διατήρηση της εμφάνισης αυτού του χαρακτήρα σε όλα τα επόμενα καρέ.
Πριν, τα μοντέλα ενσωμάτωναν μια μορφή αυτοπροσοχής σε ένα συνελικτικό δίκτυο, αλλά αυτή η δομή περιόριζε την ικανότητά τους να επιτύχουν την ίδια συνέπεια και συνοχή που είναι τώρα δυνατή με τους μετασχηματιστές διάχυσης.
Ωστόσο, με ταυτόχρονη χωροχρονική προσοχή στους μετασχηματιστές διάχυσης, η αρχιτεκτονική μπορεί να φορτώσει δεδομένα από διαφορετικά πλαίσια ταυτόχρονα και να τα αναλύσει ως ενοποιημένη ακολουθία. Όπως φαίνεται στην παρακάτω εικόνα, οι προηγούμενες μέθοδοι επεξεργάζονταν τις αλληλεπιδράσεις μέσα σε κάθε πλαίσιο και συνέδεαν μόνο κάθε εικονοστοιχείο με την αντίστοιχη θέση του σε άλλα πλαίσια (βλ. Εικόνα 1). Αυτή η περιορισμένη άποψη εμπόδισε την ικανότητά τους να αποτυπώνουν τις χωρικές και χρονικές σχέσεις που είναι απαραίτητες για ομαλή και ρεαλιστική κίνηση. Τώρα, με τους μετασχηματιστές διάχυσης, τα πάντα επεξεργάζονται ταυτόχρονα (Εικόνα 2).
Χωροχρονική αλληλεπίδραση σε δίκτυα διάχυσης πριν και μετά τους μετασχηματιστές. Εικόνα που παρέχεται από τον συγγραφέα
Αυτή η ολιστική επεξεργασία διατηρεί σταθερές λεπτομέρειες στα καρέ, διασφαλίζοντας ότι οι σκηνές δεν μεταμορφώνονται απροσδόκητα και δεν μετατρέπονται σε ένα ασυνάρτητο χάος ενός τελικού προϊόντος. Οι μετασχηματιστές διάχυσης μπορούν επίσης να χειριστούν ακολουθίες αυθαίρετου μήκους και ανάλυσης, υπό την προϋπόθεση ότι χωρούν στη μνήμη. Με αυτήν την πρόοδο, η δημιουργία βίντεο μεγαλύτερης διάρκειας είναι εφικτή χωρίς να θυσιάζεται η συνέπεια ή η ποιότητα, αντιμετωπίζοντας προκλήσεις που οι προηγούμενες μέθοδοι που βασίζονταν σε συνέλιξη δεν μπορούσαν να ξεπεράσουν.
Η άφιξη των μετασχηματιστών διάχυσης αναμόρφωσε τη δημιουργία κειμένου σε βίντεο. Ενίσχυσε την παραγωγή βίντεο υψηλής ποιότητας, αυτοσυνεπών, σε αυθαίρετα μήκη και αναλύσεις. Η αυτοπροσοχή στους μετασχηματιστές είναι ένα βασικό συστατικό για την αντιμετώπιση προκλήσεων όπως η διατήρηση της συνέπειας του πλαισίου και ο χειρισμός πολύπλοκων χωρικών και χρονικών σχέσεων. Η κυκλοφορία του SORA από το OpenAI απέδειξε αυτή την ικανότητα, θέτοντας ένα νέο πρότυπο στον κλάδο: τώρα, περίπου το 90% των προηγμένων συστημάτων μετατροπής κειμένου σε βίντεο βασίζονται σε μετασχηματιστές διάχυσης, με σημαντικούς παίκτες όπως οι Luma, Clink και Runway Gen-3. αγορά.
Παρά αυτές τις συναρπαστικές εξελίξεις, οι μετασχηματιστές διάχυσης εξακολουθούν να απαιτούν πολύ πόρους, απαιτώντας σχεδόν 10.000 φορές περισσότερους πόρους από μια παραγωγή μίας εικόνας, καθιστώντας την εκπαίδευση μοντέλων υψηλής ποιότητας ακόμα ένα πολύ δαπανηρό εγχείρημα. Ωστόσο, η κοινότητα ανοιχτού κώδικα έχει λάβει σημαντικά βήματα για να κάνει αυτή την τεχνολογία πιο προσιτή. Έργα όπως το Open-SORA και το Open-SORA-Plan, καθώς και άλλες πρωτοβουλίες όπως το Mira Video Generation, το Cog και το Cog-2, έχουν ανοίξει νέες δυνατότητες σε προγραμματιστές και ερευνητές να πειραματιστούν και να καινοτομήσουν. Με την υποστήριξη εταιρειών και ακαδημαϊκών ιδρυμάτων, αυτά τα έργα ανοιχτού κώδικα δίνουν ελπίδα για συνεχή πρόοδο και μεγαλύτερη προσβασιμότητα στη δημιουργία βίντεο, ωφελώντας όχι μόνο μεγάλες εταιρείες αλλά και ανεξάρτητους δημιουργούς και λάτρεις που θέλουν να πειραματιστούν. Αυτό, όπως και κάθε άλλη προσπάθεια με γνώμονα την κοινότητα, ανοίγει ένα μέλλον όπου η παραγωγή βίντεο εκδημοκρατίζεται, φέρνοντας αυτήν την ισχυρή τεχνολογία σε πολλά περισσότερα δημιουργικά προς εξερεύνηση.
VIA: Πηγή Άρθρου
Greek Live Channels Όλα τα Ελληνικά κανάλια: Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση; Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο. Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια Πατήστε Εδώ
Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.