Η NVIDIA παρουσίασε ένα νέο πειραματικό μοντέλο παραγωγής τεχνητής νοημοσύνης, το οποίο περιγράφει ως «ένα ελβετικό μαχαίρι για ήχο». Το μοντέλο που ονομάζεται Foundational Generative Audio Transformer Opus 1, ή Fugattoμπορεί να λάβει εντολές από προτροπές κειμένου και να τις χρησιμοποιήσει για να δημιουργήσει ήχο ή να τροποποιήσει υπάρχοντα αρχεία μουσικής, φωνής και ήχου. Σχεδιάστηκε από μια ομάδα ερευνητών τεχνητής νοημοσύνης από όλο τον κόσμο και η NVIDIA λέει ότι έκανε πιο ισχυρές τις δυνατότητες του μοντέλου σε πολλές προφορές και πολλές γλώσσες.
«Θέλαμε να δημιουργήσουμε ένα μοντέλο που καταλαβαίνει και παράγει ήχο όπως οι άνθρωποι», δήλωσε ο Rafael Valle, ένας από τους ερευνητές πίσω από το έργο και διευθυντής εφαρμοσμένης έρευνας ήχου στη NVIDIA. Η εταιρεία απαρίθμησε ορισμένα πιθανά σενάρια πραγματικού κόσμου όπου το Fugatto θα μπορούσε να είναι χρήσιμο στην ανακοίνωσή της. Οι μουσικοί παραγωγοί, πρότεινε, θα μπορούσαν να χρησιμοποιήσουν την τεχνολογία για να δημιουργήσουν γρήγορα ένα πρωτότυπο για μια ιδέα τραγουδιού, το οποίο στη συνέχεια μπορούν εύκολα να επεξεργαστούν για να δοκιμάσουν διαφορετικά στυλ, φωνές και όργανα.
Οι άνθρωποι θα μπορούσαν να το χρησιμοποιήσουν για να δημιουργήσουν υλικά για εργαλεία εκμάθησης γλωσσών με τη φωνή της επιλογής τους. Και οι προγραμματιστές βιντεοπαιχνιδιών θα μπορούσαν να το χρησιμοποιήσουν για να δημιουργήσουν παραλλαγές προηχογραφημένων στοιχείων για να ταιριάζουν στις αλλαγές στο παιχνίδι με βάση τις επιλογές και τις ενέργειες των παικτών. Επιπλέον, οι ερευνητές ανακάλυψαν ότι το μοντέλο μπορεί να ολοκληρώσει εργασίες που δεν αποτελούν μέρος της προεκπαίδευσής του, με κάποια τελειοποίηση. Θα μπορούσε να συνδυάσει οδηγίες στις οποίες είχε εκπαιδευτεί ξεχωριστά, όπως η παραγωγή ομιλίας που ακούγεται θυμωμένος με μια συγκεκριμένη προφορά ή ο ήχος των πουλιών που τραγουδούν κατά τη διάρκεια μιας καταιγίδας. Το μοντέλο μπορεί να δημιουργήσει ήχους που αλλάζουν με την πάροδο του χρόνου, όπως το σφυροκόπημα μιας καταιγίδας καθώς κινείται σε όλη τη γη.
Η NVIDIA δεν είπε αν θα δώσει στο κοινό πρόσβαση στο Fugatto, αλλά το μοντέλο δεν είναι η πρώτη γενετική τεχνολογία AI που μπορεί να δημιουργήσει ήχους από μηνύματα κειμένου. Η Meta κυκλοφόρησε προηγουμένως ένα κιτ AI ανοιχτού κώδικα που μπορεί να δημιουργήσει ήχους από περιγραφές κειμένου. Η Google έχει τη δική της τεχνητή νοημοσύνη κειμένου σε μουσική που ονομάζεται MusicLM στην οποία οι άνθρωποι μπορούν να έχουν πρόσβαση μέσω της εταιρείας Ιστότοπος AI Test Kitchen.