Περιεχόμενα Άρθρου
Τα avatars της τεχνητής νοημοσύνης ή «ομιλούντα κεφάλια», έχουν σηματοδοτήσει ένα νέο βήμα στον τρόπο που προσεγγίζουμε και κατανοούμε την ψηφιακή εμπλοκή. Όχι πολύ καιρό πριν, η μετατροπή μιας μεμονωμένης φωτογραφίας και αποσπάσματος ήχου σε μια ρεαλιστική, ομιλούμενη ομοιότητα φαινόταν αδύνατη – το καλύτερο που μπορούσαμε να πάρουμε ήταν ένα αποτέλεσμα “ασυνήθιστη κοιλάδα”, σίγουρα ακατάλληλο για οποιαδήποτε εξωτερική χρήση.
Τώρα, η κατάσταση είναι πολύ διαφορετική. Κεντρική θέση σε εργαλεία όπως το Synthesia, αυτή η διαδικασία δημιουργίας avatar AI ξεκινά με το AI να δημιουργεί μια «ψηφιακή ταυτότητα» από μια εικόνα και στη συνέχεια να την κινεί για να συγχρονίσει τις κινήσεις του προσώπου με τον ήχο — έτσι το avatar «μιλάει» για τον χρήστη σε μια παρουσίαση. ή εκδήλωση. Αυτή η πρόοδος οφείλεται σε μεθόδους αιχμής όπως GANsγνωστά για την γρήγορη, υψηλής ποιότητας οπτική απόδοση και τα μοντέλα διάχυσης, βραβευμένα για την πλούσια λεπτομέρειά τους, αν και πιο αργά. Η Synthesia, η D-ID και η Hume AI είναι μεταξύ των εταιρειών που προωθούν αυτά τα εργαλεία και αναλαμβάνουν την ηγεσία να κάνουν αυτήν την τεχνολογία όσο το δυνατόν πιο προσαρμοσμένη στις τρέχουσες απαιτήσεις.
Ωστόσο, ο αληθινός ρεαλισμός είναι ακόμη απρόσιτος. Τα νευρωνικά δίκτυα επεξεργάζονται οπτικές λεπτομέρειες διαφορετικά από τους ανθρώπους, συχνά παραβλέποντας λεπτές ενδείξεις, όπως η ακριβής ευθυγράμμιση των δοντιών και των τριχών του προσώπου, που διαμορφώνουν το πώς οι άνθρωποι αντιλαμβάνονται φυσικά τα πρόσωπα. Περισσότερα για αυτό αργότερα.
Αυτό το άρθρο μιλά για τις εσωτερικές λειτουργίες της τεχνολογίας και τις προκλήσεις που αντιμετωπίζουν οι προγραμματιστές όταν προσπαθούν να κάνουν τα avatar AI να μοιάζουν με τα γνωστά μας πρόσωπα. Πόσο ρεαλιστικοί μπορούν να γίνουν;
Πώς λειτουργεί η διαδικασία δημιουργίας avatar AI
Η δημιουργία ενός avatar AI ξεκινά όταν ένας χρήστης ανεβάζει μια φωτογραφία ή ένα βίντεο. Αυτή η είσοδος υποβάλλεται σε επεξεργασία μέσω ενός «Εξαγωγέα ταυτότητας» — ενός νευρωνικού δικτύου εκπαιδευμένο να αναγνωρίζει και να κωδικοποιεί τη φυσική εμφάνιση ενός ατόμου. Αυτό το μοντέλο εξάγει βασικά χαρακτηριστικά του προσώπου και τα μετατρέπει σε «ψηφιακή ταυτότητα», η οποία μπορεί να χρησιμοποιηθεί για να ζωντανέψει ρεαλιστικά το avatar. Από αυτήν την αναπαράσταση, οι προγραμματιστές μπορούν να ελέγχουν τις κινήσεις μέσω ενός σήματος «οδηγού», συνήθως ήχου ή πρόσθετου βίντεο, το οποίο υπαγορεύει πώς πρέπει να κινείται και να μιλά το avatar.
Το σήμα του προγράμματος οδήγησης είναι ζωτικής σημασίας στη διαδικασία κινούμενης εικόνας. Καθορίζει τόσο τον συγχρονισμό των χειλιών με τον ήχο όσο και τις ευρύτερες εκφράσεις του προσώπου. Για παράδειγμα, σε ένα άβαταρ που μιλάει, οι ηχητικές ενδείξεις επηρεάζουν το σχήμα και την κίνηση του στόματος ώστε να ταιριάζει με την ομιλία. Μερικές φορές, τα βασικά σημεία του προσώπου (π.χ., οι γωνίες των ματιών και του στόματος) χρησιμοποιούνται για την ακριβή καθοδήγηση της κίνησης, ενώ σε άλλες περιπτώσεις, ολόκληρη η στάση του avatar τροποποιείται ώστε να ταιριάζει με το σήμα του οδηγού. Για να διασφαλιστεί ότι η έκφραση είναι φυσική, το νευρωνικό δίκτυο μπορεί να χρησιμοποιήσει τεχνικές όπως η “στρέβλωση”, η οποία αναδιαμορφώνει ομαλά τα χαρακτηριστικά του avatar με βάση τα παραπάνω σήματα εισόδου.
Ως τελευταίο βήμα, μια διαδικασία αποκωδικοποίησης μεταφράζει αυτήν την τροποποιημένη ψηφιακή ταυτότητα ξανά σε οπτική μορφή, δημιουργώντας μεμονωμένα καρέ και συναρμολογώντας τα σε ένα βίντεο χωρίς ραφή. Τα νευρωνικά δίκτυα συνήθως δεν λειτουργούν αναστρέψιμα, επομένως η αποκωδικοποίηση απαιτεί ξεχωριστή εκπαίδευση για την ακριβή μετατροπή της κινούμενης ψηφιακής αναπαράστασης σε ζωντανή, συνεχή εικόνα. Το αποτέλεσμα είναι ένα άβαταρ που αντικατοπτρίζει στενά τις ανθρώπινες εκφράσεις και κινήσεις, αλλά εξακολουθεί να περιορίζεται από τους περιορισμούς της τρέχουσας ικανότητας του AI να αντιλαμβάνεται λεπτές λεπτομέρειες του προσώπου.
GAN, μοντέλα διάχυσης και μέθοδοι που βασίζονται σε 3D: οι τρεις πυλώνες της δημιουργίας avatar
Οι βασικές τεχνολογίες που επιτρέπουν αυτόν τον μετασχηματισμό προχωρούν συνεχώς για να καταγράφουν με μεγαλύτερη ακρίβεια τις ανθρώπινες εκφράσεις, βασιζόμενοι βήμα προς βήμα στη διαδικασία δημιουργίας avatar. Τρεις κύριες προσεγγίσεις οδηγούν την πρόοδο αυτή τη στιγμή και καθεμία από αυτές έχει ιδιαίτερα πλεονεκτήματα και περιορισμούς:
Το πρώτο, GAN (Generative Adversarial Networks), χρησιμοποιεί δύο νευρωνικά δίκτυα σε συνδυασμό – μια γεννήτρια και μια συσκευή διάκρισης – για τη δημιουργία εξαιρετικά ρεαλιστικών εικόνων. Αυτή η προσέγγιση επιτρέπει τη γρήγορη παραγωγή εικόνων υψηλής ποιότητας, καθιστώντας την κατάλληλη για εφαρμογές σε πραγματικό χρόνο με σαφή ανάγκη για ομαλά και αποκριτικά avatars. Ωστόσο, ενώ τα GAN υπερέχουν σε ταχύτητα και οπτική ποιότητα, μπορεί να είναι δύσκολο να ελεγχθούν με ακρίβεια. Αυτό μπορεί να περιορίσει την αποτελεσματικότητά τους σε περιπτώσεις που απαιτούν λεπτομερή προσαρμογή.
Μοντέλα διάχυσης είναι ένα άλλο ισχυρό εργαλείο. Μετατρέπουν σταδιακά τον θόρυβο σε εικόνα υψηλής ποιότητας μέσω επαναλαμβανόμενων βημάτων. Γνωστά για τη δημιουργία λεπτομερών και εξαιρετικά ελεγχόμενων εικόνων, τα μοντέλα διάχυσης είναι πιο αργά και απαιτούν σημαντική υπολογιστική ισχύ. Έτσι, είναι ιδανικά για απόδοση εκτός σύνδεσης και χρήση σε πραγματικό χρόνο – όχι τόσο. Η δύναμη αυτού του μοντέλου έγκειται στην παραγωγή αποχρώσεων, φωτορεαλιστικών λεπτομερειών, αν και με πιο αργό ρυθμό.
Τελικά, Τρισδιάστατες μέθοδοι όπως τα Neural Radiance Fields (NeRFs) και το Gaussian Splatting δημιουργούν μια οπτική αναπαράσταση χαρτογραφώντας χωρικές και έγχρωμες πληροφορίες σε μια τρισδιάστατη σκηνή. Αυτές οι μέθοδοι διαφέρουν ελαφρώς, με το Splatting να είναι πιο γρήγορο και τα NeRF να λειτουργούν με πιο αργό ρυθμό. Οι προσεγγίσεις που βασίζονται σε 3D είναι οι πλέον κατάλληλες για παιχνίδια ή διαδραστικά περιβάλλοντα. Ωστόσο, τα NeRF και το Gaussian Splatting μπορεί να υπολείπονται στον οπτικό ρεαλισμό, δημιουργώντας επί του παρόντος μια εμφάνιση που μπορεί να φαίνεται τεχνητή σε σενάρια που απαιτούν ανθρώπινη ομοιότητα.
Κάθε τεχνολογία παρουσιάζει μια ισορροπία μεταξύ ταχύτητας, ποιότητας και ελέγχου που ταιριάζει καλύτερα σε διαφορετικές εφαρμογές. Τα GAN χρησιμοποιούνται ευρέως για εφαρμογές σε πραγματικό χρόνο λόγω του συνδυασμού ταχύτητας και οπτικής ποιότητας, ενώ τα μοντέλα διάχυσης προτιμώνται σε περιβάλλοντα “εκτός σύνδεσης”, όπου η απόδοση δεν πραγματοποιείται σε πραγματικό χρόνο, επιτρέποντας πιο εντατικούς υπολογισμούς για την επίτευξη λεπτότερων λεπτομερειών. Οι τρισδιάστατες μέθοδοι συνεχίζουν να εξελίσσονται για ανάγκες υψηλής απόδοσης, αλλά επί του παρόντος δεν διαθέτουν τη ρεαλιστική οπτική ακρίβεια που απαιτείται για τις ανθρώπινες αναπαραστάσεις.
Αυτές οι τεχνολογίες συνοψίζουν αρκετά καλά τις τρέχουσες εξελίξεις και προκλήσεις στον τομέα. Η συνεχής έρευνα στοχεύει στη συγχώνευση των δυνατοτήτων τους για να επιτύχουν πιο ρεαλιστικά αποτελέσματα, αλλά προς το παρόν, αυτό είναι που έχουμε να κάνουμε.
Η πρόκληση του AI Avatar «Teeth and Beards».
Η δημιουργία ρεαλιστικών avatars AI ξεκινά με τη συλλογή δεδομένων εκπαίδευσης υψηλής ποιότητας – μια πολύπλοκη εργασία από μόνη της – αλλά μια λιγότερο προφανής και εξίσου απαιτητική πτυχή είναι η καταγραφή μικρών λεπτομερειών που καθορίζουν τον άνθρωπο, όπως δόντια και γένια. Αυτά τα στοιχεία είναι εμφανώς δύσκολο να μοντελοποιηθούν με ακρίβεια, εν μέρει λόγω των περιορισμένων διαθέσιμων δεδομένων εκπαίδευσης. Για παράδειγμα, οι λεπτομερείς εικόνες των δοντιών, ειδικά των κάτω δοντιών, είναι σπάνιες στα τυπικά σύνολα δεδομένων: συχνά κρύβονται στη φυσική ομιλία. Τα μοντέλα αγωνίζονται να ανακατασκευάσουν ρεαλιστικές οδοντικές δομές χωρίς επαρκή παραδείγματα, οδηγώντας συχνά σε παραμορφωμένες ή αφύσικες εμφανίσεις, όπως «θρυμματισμό» ή περίεργη τοποθέτηση.
Τα γένια προσθέτουν παρόμοιο επίπεδο πολυπλοκότητας. Τοποθετημένα κοντά στο στόμα, τα γένια μετατοπίζονται με τις κινήσεις του προσώπου και αλλάζουν κάτω από διαφορετικό φωτισμό, γεγονός που κάνει κάθε ελάττωμα αμέσως αντιληπτό. Όταν δεν είναι μοντελοποιημένο με ακρίβεια, μια γενειάδα μπορεί να φαίνεται στατική, θολή ή αφύσικη υφή, κάτι που μειώνει τον συνολικό ρεαλισμό του avatar.
Ο άλλος παράγοντας που περιπλέκει αυτές τις λεπτομέρειες είναι η αντίληψη του νευρωνικού δικτύου. Οι άνθρωποι εστιάζουν διαισθητικά σε αποχρώσεις του προσώπου όπως δόντια και τρίχες προσώπου για να αναγνωρίσουν άτομα, ενώ τα νευρωνικά μοντέλα διαχέουν την προσοχή σε ολόκληρο το πρόσωπο, συχνά παρακάμπτοντας αυτά τα μικρότερα αλλά βασικά στοιχεία. Για το μοντέλο, τα δόντια και τα γένια είναι λιγότερο σημαντικά. για τους ανθρώπους, είναι βασικοί δείκτες ταυτότητας. Αυτό μπορεί να ξεπεραστεί μόνο μέσω εκτεταμένης λεπτομέρειας και επανεκπαίδευσης, που συχνά απαιτεί τόση προσπάθεια με την τελειοποίηση της συνολικής δομής του προσώπου.
Μπορούμε τώρα να δούμε α βασικός περιορισμός: ενώ αυτά τα μοντέλα προχωρούν προς τον ρεαλισμό, δεν μπορούν να συλλάβουν τη λεπτότητα της ανθρώπινης αντίληψης.
Οι πρόσφατες εξελίξεις στην τεχνολογία avatar AI έχουν φέρει τις εκφράσεις με φυσική εμφάνιση πιο κοντά στην πραγματικότητα από ποτέ. Τα GAN, τα μοντέλα διάχυσης και οι αναδυόμενες τρισδιάστατες προσεγγίσεις έχουν τελειοποιήσει πλήρως τη γενιά των «ομιλούντων κεφαλιών» και κάθε προσέγγιση προσφέρει μια μοναδική προοπτική και εργαλειοθήκη για να γίνει μια κάποτε φουτουριστική ιδέα – πραγματικότητα.
Τα GAN προσφέρουν την ταχύτητα που απαιτείται για εφαρμογές σε πραγματικό χρόνο. Τα μοντέλα διάχυσης συνεισφέρουν σε διαφοροποιημένο έλεγχο, αν και πιο αργά. Τεχνικές όπως Gaussian Splatting σε 3D φέρνουν αποτελεσματικότητα, μερικές φορές με τίμημα την οπτική πιστότητα.
Παρά αυτές τις βελτιώσεις, η τεχνολογία έχει πολύ δρόμο να διανύσει όσον αφορά τον ρεαλισμό. Ανεξάρτητα από το πόσο καλά ρυθμισμένο είναι το μοντέλο σας, μια στο τόσο, πιθανότατα θα συναντήσετε ένα ελαφρώς απόκοσμο σύνολο δοντιών ή μια παράξενη τοποθέτηση τριχών στο πρόσωπο. Όμως, καθώς τα διαθέσιμα υψηλής ποιότητας δεδομένα αυξάνονται με την πάροδο του χρόνου, τα νευρωνικά δίκτυα θα αναπτύξουν την ικανότητα να δείχνουν συνέπεια στον τρόπο με τον οποίο αντιπροσωπεύουν τα εγγενή ανθρώπινα μικροχαρακτηριστικά. Αυτό που είναι αναπόσπαστο στην αντίληψή μας είναι απλώς μια παράμετρος για τα μοντέλα AI.
Αυτό το κενό υπογραμμίζει έναν συνεχιζόμενο αγώνα: τα επιτεύγματα στην τεχνολογία μας οδηγούν μπροστά, ωστόσο ο στόχος της δημιουργίας αυθεντικά ρεαλιστικών avatar παραμένει άπιαστος, όπως το παράδοξο του Αχιλλέα και της χελώνας — όσο κοντά κι αν πλησιάζουμε, η τελειότητα παραμένει απρόσιτη.
VIA: DataConomy.com