Riffusion

Riffusion — нейронная сеть, разработанная Сетом Форсгреном и Хайком Мартирасом, предназначенная для генерации музыки с использованием изображений звука вместо работы с аудиосигналом[1].

Созданная таким образом музыка описывается как «не от мира сего»[2], хотя, вероятно, не сможет заменить композиции, созданные человеком[2].

undefined
Результирующее аудио после преобразования
Что важно знать
Riffusion
Тип генерация изображений по тексту
Разработчики Сет Форсгрен, Хайк Мартирас
Написана на Python
Первый выпуск 15 декабря 2022
Последняя версия (15 декабря 2022)
Репозиторий github.com/hmartiro/riff…
Лицензия MIT License
Сайт riffusion.com

История создания

Модель стала доступна 15 декабря 2022 года, а её исходный код также был опубликован на GitHub[3].

Первая версия Riffusion была создана путём дообучения открытой нейросети Stable Diffusion, предназначенной для генерации изображений по текстовым подсказкам, на базе датасета спектрограмм[1]. В результате получилась модель, использующая текстовые описания для создания графических файлов, которые затем можно преобразовать в аудиофайлы с помощью обратного преобразования Фурье[3]. Хотя продолжительность таких аудиофрагментов составляла всего несколько секунд, модель также может использовать латентное пространство между результатами для плавной интерполяции между разными музыкальными фрагментами[1][4] (с помощью функций img2img Stable Diffusion)[5]. Riffusion стала одной из множества моделей, основанных на архитектуре Stable Diffusion[5].

В декабре 2022 года компания Mubert[6] также использовала Stable Diffusion для генерации музыкальных лупов по текстовым описаниям. В январе 2023 года компания Google представила в научной публикации свою собственную модель генерации музыки по тексту, получившую название MusicLM[7][8].

Форсгрен и Мартирас создали стартап с таким же названием Riffusion и привлекли 4 миллиона долларов венчурных инвестиций в октябре 2023 года[9][10].

Обновление

В 2025—2026 годах проект Riffusion прошёл через масштабную трансформацию, кульминацией которой стал ребрендинг и переход на новую технологическую базу. В июле 2025 года проект официально сменил название на Producer.ai. Разработчики позиционируют его как первого «агентного» музыкального продюсера. Новая версия работает на базе модели FUZZ-2.0, которая отошла от концепции генерации спектрограмм через Stable Diffusion в пользу более сложных архитектур. Это позволило значительно улучшить качество вокала, разнообразие инструментов и точность следования заданному темпу (BPM) и тональности. В отличие от первой версии, взаимодействие теперь строится на основе чата (Natural Language UI), где пользователь может обсуждать с ИИ структуру песни, лирику и аранжировку в реальном времени.

Реализована нативная поддержка MPS (для Apple Silicon) и CPU, что позволяет запускать вычисления не только на картах NVIDIA (CUDA). Добавлены возможности экспорта в форматах высокого качества: WAV, MP3 и M4A[11].

19 февраля 2026 года старая версия сервиса (classic.riffusion.com) была официально отключена, а все наработки пользователей из периода бета-тестирования перенесены в новую экосистему Producer[12].

Примечания