Η NVIDIA έχει αποκαλύφθηκε Fugatto, ένα μοντέλο παραγωγής τεχνητής νοημοσύνης ικανό να δημιουργεί και να τροποποιεί περιεχόμενο ήχου. Το μοντέλο στοχεύει να βοηθήσει τους παραγωγούς μουσικής, τους δημιουργούς ταινιών και τους προγραμματιστές παιχνιδιών, επιτρέποντάς τους να παράγουν νέους ήχους μέσω μηνυμάτων κειμένου. Το Fugatto συνδυάζει διάφορες δυνατότητες παραγωγής ήχου, χρησιμοποιώντας προηγμένους αλγόριθμους για τη βελτίωση των δημιουργικών διαδικασιών στη βιομηχανία ήχου.
Η NVIDIA αποκαλύπτει το Fugatto, ένα γενετικό AI για δημιουργία ήχου
Fugattoσυντομογραφία του Foundational Generative Audio Transformer Opus 1, παρουσιάστηκε από την NVIDIA, τον κορυφαίο προμηθευτή τσιπ και λογισμικού για συστήματα τεχνητής νοημοσύνης στον κόσμο. Η τεχνολογία μπορεί να δημιουργήσει και να αλλάξει τον ήχο από υπάρχοντα αρχεία ήχου, κάνοντάς τον ξεχωριστό από τα προηγούμενα μοντέλα. Για παράδειγμα, μπορεί να μεταμορφώσει μια μελωδία πιάνου σε ανθρώπινη φωνή ή να τροποποιήσει την προφορά και τον συναισθηματικό τόνο μιας προφορικής ηχογράφησης. Αυτή η ευελιξία επιτρέπει στους δημιουργούς να εξερευνήσουν μια σειρά από καινοτόμες εφαρμογές σε διαφορετικούς τομείς.
Η ομάδα πίσω από το Fugatto αποτελείται από πάνω από δώδεκα ερευνητές, συμπεριλαμβανομένου του Rafael Valle, διευθυντή εφαρμοσμένης έρευνας ήχου της NVIDIA. Ο Valle τόνισε τον στόχο του έργου: «Θέλαμε να δημιουργήσουμε ένα μοντέλο που καταλαβαίνει και παράγει ήχο όπως οι άνθρωποι». Το κλειδί για τη σχεδίαση του Fugatto είναι η ικανότητά του να ενσωματώνει πολλαπλές εργασίες που σχετίζονται με την παραγωγή και μετασχηματισμό ήχου, επιδεικνύοντας αναδυόμενες ιδιότητες που προκύπτουν από τα εκτεταμένα δεδομένα εκπαίδευσης του.
Οι χρήστες μπορούν να δώσουν εντολή στο Fugatto με προτροπές ελεύθερης μορφής να δημιουργήσουν ηχητικά τοπία, μουσικά αποσπάσματα ή ακόμα και μοναδικά ηχητικά εφέ. Για παράδειγμα, ένας παραγωγός θα μπορούσε γρήγορα να πρωτοτυπήσει διαφορετικά στυλ ή όργανα για ένα κομμάτι. Συγκεκριμένα, το Fugatto διαθέτει τεχνικές όπως το ComposableART, επιτρέποντας στους χρήστες να συγχωνεύουν διάφορες εντολές. Οι δοκιμές αποκάλυψαν εκπληκτικά αποτελέσματα, όπως πρότεινε ο Rohan Badlani, ένας ερευνητής τεχνητής νοημοσύνης που ασχολήθηκε με το μοντέλο, ο οποίος περιέγραψε την εμπειρία ως καλλιτεχνικά ικανοποιητική παρά το τεχνικό του υπόβαθρο.
Κατά τη διάρκεια της εκπαίδευσής του, το Fugatto χρησιμοποίησε 2,5 δισεκατομμύρια παραμέτρους και αναπτύχθηκε σε ισχυρά συστήματα DGX της NVIDIA που διαθέτουν 32 H100 Tensor Core GPU. Η εκπαίδευση του μοντέλου βασίστηκε σε ένα ποικίλο, μεικτό σύνολο δεδομένων που περιλαμβάνει εκατομμύρια δείγματα ήχου, ενισχύοντας την πολυτονική και πολύγλωσση λειτουργικότητά του. Αυτό το φιλόδοξο έργο χρειάστηκε επίσης πάνω από ένα χρόνο για να αναπτυχθεί, με την ομάδα να ξεπερνά πολλές προκλήσεις στη δημιουργία δεδομένων και στην εκπαίδευση μοντέλων.
Το Fugatto προσφέρει πολλές πιθανές εφαρμογές, μεταξύ άλλων για διαφημιστικές εταιρείες και πλατφόρμες εκμάθησης γλωσσών. Έχει προταθεί ότι οι καμπάνιες μάρκετινγκ θα μπορούσαν να επωφεληθούν από την ικανότητά τους να προσαρμόζουν τις φωνές με διαφορετικές προφορές ή διαθέσεις. Στην εκπαίδευση, οι μαθητές μπορεί να απολαμβάνουν εξατομικευμένα μαθήματα με γνώριμες φωνές. Οι προγραμματιστές παιχνιδιών θα μπορούσαν να προσαρμόσουν δυναμικά τον ήχο εντός του παιχνιδιού, ενσωματώνοντας διαδραστικά στοιχεία που ανταποκρίνονται στις ενέργειες των χρηστών.
Αν και οι δυνατότητες του Fugatto είναι εντυπωσιακές, η NVIDIA δεν έχει ανακοινώσει άμεσα σχέδια για τη διάθεση αυτής της τεχνολογίας στο κοινό. Η εταιρεία εκφράζει την ανησυχία της για πιθανή κακή χρήση της γενετικής τεχνητής νοημοσύνης, με τον Bryan Catanzaro, αντιπρόεδρο της NVIDIA για την εφαρμοσμένη έρευνα βαθιάς μάθησης, να υπογραμμίζει τη σημασία της προσοχής δεδομένων των κινδύνων που συνδέονται με μια τέτοια τεχνολογία. Η OpenAI και άλλες εταιρείες στον τομέα αντιμετωπίζουν παρόμοιες προκλήσεις σχετικά με την υπεύθυνη ανάπτυξη των μοντέλων τους, ιδίως όσον αφορά τα δικαιώματα πνευματικής ιδιοκτησίας και την παραπληροφόρηση.
Πίστωση επιλεγμένης εικόνας: Nvidia
VIA: DataConomy.com