Riffusion
Riffusion — нейронная сеть, разработанная Сетом Форсгреном и Хайком Мартирасом, предназначенная для генерации музыки с использованием изображений звука вместо работы с аудиосигналом[1].
Созданная таким образом музыка описывается как «не от мира сего»[2], хотя, вероятно, не сможет заменить композиции, созданные человеком[2].
Что важно знать
| Riffusion | |
|---|---|
| Тип | генерация изображений по тексту |
| Разработчики | Сет Форсгрен, Хайк Мартирас |
| Написана на | Python |
| Первый выпуск | 15 декабря 2022 |
| Последняя версия | (15 декабря 2022) |
| Репозиторий | github.com/hmartiro/riff… |
| Лицензия | MIT License |
| Сайт | riffusion.com |
История создания
Модель стала доступна 15 декабря 2022 года, а её исходный код также был опубликован на GitHub[3].
Первая версия Riffusion была создана путём дообучения открытой нейросети Stable Diffusion, предназначенной для генерации изображений по текстовым подсказкам, на базе датасета спектрограмм[1]. В результате получилась модель, использующая текстовые описания для создания графических файлов, которые затем можно преобразовать в аудиофайлы с помощью обратного преобразования Фурье[3]. Хотя продолжительность таких аудиофрагментов составляла всего несколько секунд, модель также может использовать латентное пространство между результатами для плавной интерполяции между разными музыкальными фрагментами[1][4] (с помощью функций img2img Stable Diffusion)[5]. Riffusion стала одной из множества моделей, основанных на архитектуре Stable Diffusion[5].
В декабре 2022 года компания Mubert[6] также использовала Stable Diffusion для генерации музыкальных лупов по текстовым описаниям. В январе 2023 года компания Google представила в научной публикации свою собственную модель генерации музыки по тексту, получившую название MusicLM[7][8].
Форсгрен и Мартирас создали стартап с таким же названием Riffusion и привлекли 4 миллиона долларов венчурных инвестиций в октябре 2023 года[9][10].
Обновление
В 2025—2026 годах проект Riffusion прошёл через масштабную трансформацию, кульминацией которой стал ребрендинг и переход на новую технологическую базу. В июле 2025 года проект официально сменил название на Producer.ai. Разработчики позиционируют его как первого «агентного» музыкального продюсера. Новая версия работает на базе модели FUZZ-2.0, которая отошла от концепции генерации спектрограмм через Stable Diffusion в пользу более сложных архитектур. Это позволило значительно улучшить качество вокала, разнообразие инструментов и точность следования заданному темпу (BPM) и тональности. В отличие от первой версии, взаимодействие теперь строится на основе чата (Natural Language UI), где пользователь может обсуждать с ИИ структуру песни, лирику и аранжировку в реальном времени.
Реализована нативная поддержка MPS (для Apple Silicon) и CPU, что позволяет запускать вычисления не только на картах NVIDIA (CUDA). Добавлены возможности экспорта в форматах высокого качества: WAV, MP3 и M4A[11].
19 февраля 2026 года старая версия сервиса (classic.riffusion.com) была официально отключена, а все наработки пользователей из периода бета-тестирования перенесены в новую экосистему Producer[12].


