Riffusion

Результирующее аудио после преобразования

Riffusion — нейронная сеть, разработанная Сетом Форсгреном и Хайком Мартирасом, предназначенная для генерации музыки с использованием изображений звука вместо работы с аудиосигналом[1].

Созданная таким образом музыка описывается как «не от мира сего»[2], хотя, вероятно, не сможет заменить композиции, созданные человеком[2]. Модель стала доступна 15 декабря 2022 года, а её исходный код также был опубликован на GitHub[3].

Первая версия Riffusion была создана путём дообучения открытой нейросети Stable Diffusion, предназначенной для генерации изображений по текстовым подсказкам, на базе датасета спектрограмм[1]. В результате получилась модель, использующая текстовые описания для создания графических файлов, которые затем можно преобразовать в аудиофайлы с помощью обратного преобразования Фурье[3]. Хотя продолжительность таких аудиофрагментов составляла всего несколько секунд, модель также может использовать латентное пространство между результатами для плавной интерполяции между разными музыкальными фрагментами[1][4] (с помощью функций img2img Stable Diffusion)[5]. Riffusion стала одной из множества моделей, основанных на архитектуре Stable Diffusion[5].

В декабре 2022 года компания Mubert[6] также использовала Stable Diffusion для генерации музыкальных лупов по текстовым описаниям. В январе 2023 года компания Google представила в научной публикации свою собственную модель генерации музыки по тексту, получившую название MusicLM[7][8].

Форсгрен и Мартирас создали стартап с таким же названием Riffusion и привлекли 4 миллиона долларов венчурных инвестиций в октябре 2023 года[9][10].

Что важно знать
Riffusion
Тип генерация изображений по тексту
Разработчики Сет Форсгрен, Хайк Мартирас
Написана на Python
Первый выпуск 15 декабря 2022
Последняя версия (15 декабря 2022)
Репозиторий github.com/hmartiro/riff…
Лицензия MIT License
Сайт riffusion.com

Примечания