Εντυπωσιακό open-source AI video μοντέλο της Tencent

4 Δεκεμβρίου, 2024

132

Εντυπωσιακό open-source AI video μοντέλο της Tencent

Στις αρχές της χρονιάς, η OpenAI παρουσίασε το Sora, ένα νέο AI μοντέλο παραγωγής βίντεο που μπορεί να δημιουργήσει ρεαλιστικές και ευφάνταστες σκηνές από προτροπές κειμένου. Αν και η OpenAI καθυστέρησε τη δημόσια κυκλοφορία του Sora, είδαμε αρκετές startups τεχνητής νοημοσύνης, συμπεριλαμβανομένων των Runway και Luma, να κυκλοφορούν τους τελευταίους μήνες τα δικά τους αντίστοιχα μοντέλα παραγωγής βίντεο.

Τώρα, ο κινεζικός γίγαντας Tencent ανακοίνωσε το HunyuanVideo, ένα υπερσύγχρονο μοντέλο παραγωγής βίντεο το οποίο είναι επίσης ανοιχτού κώδικα. Πρόκειται για το πρώτο σημαντικό open-source μοντέλο παραγωγής βίντεο με τον κώδικα εξαγωγής συμπερασμάτων και τα βάρη του μοντέλου ανοιχτά διαθέσιμα για όλους.

Η Tencent ισχυρίζεται ότι το HunyuanVideo μπορεί να παράγει βίντεο που είναι συγκρίσιμα με κορυφαία μοντέλα κλειστού κώδικα με υψηλή οπτική ποιότητα, ποικιλομορφία κίνησης, ευθυγράμμιση κειμένου-βίντεο και σταθερότητα παραγωγής. Με περισσότερες από 13 δισεκατομμύρια παραμέτρους, είναι το μεγαλύτερο μεταξύ όλων των μοντέλων παραγωγής βίντεο ανοιχτού κώδικα. Το HunyuanVideo περιλαμβάνει ένα πλαίσιο που ενσωματώνει την επιμέλεια δεδομένων, την κοινή εκπαίδευση μοντέλων εικόνας-βίντεο και μια αποτελεσματική υποδομή για την υποστήριξη εκπαίδευσης και συμπερασμού μοντέλων μεγάλης κλίμακας.

Η Tencent δοκίμασε επίσης το μοντέλο χρησιμοποιώντας επαγγελματική αξιολόγηση από ανθρώπους. Σύμφωνα με τα αποτελέσματα της αξιολόγησης, το HunyuanVideo ξεπερνά όλα τα κορυφαία μοντέλα κλειστού κώδικα, συμπεριλαμβανομένων των Runway Gen-3 και Luma 1.6.

Αντί να χρησιμοποιεί ξεχωριστά μοντέλα για τη δημιουργία κειμένου, εικόνας και βίντεο, η Tencent χρησιμοποίησε την ακόλουθη διαφορετική τεχνική για να επιτύχει καλύτερη ποιότητα βίντεο σε σύγκριση με τα υπάρχοντα μοντέλα:

Το HunyuanVideo εισάγει τον σχεδιασμό Transformer και χρησιμοποιεί έναν μηχανισμό πλήρους προσοχής για την ενοποιημένη παραγωγή εικόνας και βίντεο. Συγκεκριμένα, χρησιμοποιούμε έναν υβριδικό σχεδιασμό μοντέλου «Dual-stream to Single-stream» για τη δημιουργία βίντεο. Στη φάση διπλής ροής, τα σημεία βίντεο και κειμένου επεξεργάζονται ανεξάρτητα μέσω πολλαπλών μπλοκ Transformer, επιτρέποντας σε κάθε τρόπο να μάθει τους δικούς του κατάλληλους μηχανισμούς διαμόρφωσης χωρίς παρεμβολές. Στη φάση single-stream, συνενώνουμε τις μάρκες βίντεο και κειμένου και τις τροφοδοτούμε σε επόμενα μπλοκ Transformer για αποτελεσματική πολυτροπική συγχώνευση πληροφοριών. Αυτός ο σχεδιασμός καταγράφει τις πολύπλοκες αλληλεπιδράσεις μεταξύ οπτικών και σημασιολογικών πληροφοριών, ενισχύοντας τη συνολική απόδοση του μοντέλου.

Η κυκλοφορία του HunyuanVideo σηματοδοτεί ένα σημαντικό βήμα προς τον εκδημοκρατισμό της τεχνολογίας παραγωγής AI βίντεο.

[via]

VIA: TechGear.gr

Greek Live Channels Όλα τα Ελληνικά κανάλια:
Βρίσκεστε μακριά από το σπίτι ή δεν έχετε πρόσβαση σε τηλεόραση;
Το IPTV σας επιτρέπει να παρακολουθείτε όλα τα Ελληνικά κανάλια και άλλο περιεχόμενο από οποιαδήποτε συσκευή συνδεδεμένη στο διαδίκτυο.
Αν θες πρόσβαση σε όλα τα Ελληνικά κανάλια Πατήστε Εδώ

Ακολουθήστε το TechFreak.GR στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας.

Tags
ai

Προηγούμενο άρθρο

Καθυστέρηση στο iPad Pro με τσιπ M5 έως το 2025

Διάφορα από την ίδια κατηγορία

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ

έχετε εισάγει εσφαλμένη διεύθυνση ηλεκτρονικού ταχυδρομείου!

παρακαλώ εισάγετε εδώ την ηλεκτρονική σας διεύθυνση

Εντυπωσιακό open-source AI video μοντέλο της Tencent

Καθυστέρηση στο iPad Pro με τσιπ M5 έως το 2025

Η Microsoft σταματά την υποστήριξη παλαιού hardware στα Windows 11

Cosmote TV σε συνεργασία με ALL What’s UP!

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Δημοφιλείς Άρθρα

Greek Live Channels IPTV – Όλα τα Ελληνικά Κανάλια OnLine Δωρεάν

Greek Live Channels και Αγώνες Live Streaming

Προσγείωση UFO στο αεροδρόμιο του Μάντσεστερ

Μυστηριώδεις Ραδιοεκρήξεις από Γιγάντιους Γαλαξίες – Νέα Επιστημονική Έρευνα

Τελευταία Νέα

Καθυστέρηση στο iPad Pro με τσιπ M5 έως το 2025

Αποκάλυψη των Developers για τα προβλήματα του A-Life 2.0 στο “Stalker 2”

Η Microsoft σταματά την υποστήριξη παλαιού hardware στα Windows 11

Νova: Υπερθέαμα με 120+ LIVE αγώνες στα κανάλια Novasports και Cosmote Sport!

Επιλογές Συντακτών

Το Μυστικό Όπλο της Γιγαντιαίας Σαρανταποδαρούσας: Δηλητήριο με Διπλή Χρήση

Σουρεάλ σκηνές στο μετρό Θεσσαλονίκης: Κουβάδες για τα νερά της βροχής στις αποβάθρες!

Tesla Model Pi: Η Αλήθεια Πίσω από τις Φήμες για το Νέο Smartphone της Tesla

Τυχαία Άρθρα

BlitzWolf BW-VT3: DLP προβολέας με 1080P native ανάλυση, Android και μπαταρία στα 240€

Ανατριχιαστικό βίντεο: Η καρδιά που χτυπάει έξω από το σώμα

Σάββατο 30 Νοεμβρίου: Συμβουλές και Απαντήσεις NYT Connections #538

POPULAR CATEGORY

ABOUT US

FOLLOW US