Команда исследователей генеративного ИИ компании Nvidia создала генератор аудио из текста. По словам пресс-службы компании, еще ни одна из существующих моделей не реагирует настолько точно, как новая разработка.

Название Fugatto — сокращение от Foundational Generative Audio Transformer Opus 1 (основополагающий генеративный аудиотрансформатор в первой версии). Он будет создавать с нуля или преобразовывать любые музыкальные, голосовые и звуковые сочетания с помощью подсказок.

Например, он может сгенерировать музыкальный фрагмент на основе текста, удалить или добавить части в существующей песне, изменить акцент или эмоции в голосе человека — даже воспроизвести звуки, которые люди не слышали.

«Мы хотели создать модель, которая понимает и генерирует звук так же, как это делают люди», — сказал Рафаэль Валле, менеджер прикладных исследований звука в Nvidia и один из авторов Fugatto, а также дирижер и композитор.

Официальную дату выхода модели создатели пока не назвали.

Источник: Nvidia