Riffusion
Riffusion — нейронная сеть, разработанная Сетом Форсгреном и Хайком Мартирасом, предназначенная для генерации музыки с использованием изображений звука вместо работы с аудиосигналом[1].
Созданная таким образом музыка описывается как «не от мира сего»[2], хотя, вероятно, не сможет заменить композиции, созданные человеком[2]. Модель стала доступна 15 декабря 2022 года, а её исходный код также был опубликован на GitHub[3].
Первая версия Riffusion была создана путём дообучения открытой нейросети Stable Diffusion, предназначенной для генерации изображений по текстовым подсказкам, на базе датасета спектрограмм[1]. В результате получилась модель, использующая текстовые описания для создания графических файлов, которые затем можно преобразовать в аудиофайлы с помощью обратного преобразования Фурье[3]. Хотя продолжительность таких аудиофрагментов составляла всего несколько секунд, модель также может использовать латентное пространство между результатами для плавной интерполяции между разными музыкальными фрагментами[1][4] (с помощью функций img2img Stable Diffusion)[5]. Riffusion стала одной из множества моделей, основанных на архитектуре Stable Diffusion[5].
В декабре 2022 года компания Mubert[6] также использовала Stable Diffusion для генерации музыкальных лупов по текстовым описаниям. В январе 2023 года компания Google представила в научной публикации свою собственную модель генерации музыки по тексту, получившую название MusicLM[7][8].
Форсгрен и Мартирас создали стартап с таким же названием Riffusion и привлекли 4 миллиона долларов венчурных инвестиций в октябре 2023 года[9][10].
Что важно знать
| Riffusion | |
|---|---|
| Тип | генерация изображений по тексту |
| Разработчики | Сет Форсгрен, Хайк Мартирас |
| Написана на | Python |
| Первый выпуск | 15 декабря 2022 |
| Последняя версия | (15 декабря 2022) |
| Репозиторий | github.com/hmartiro/riff… |
| Лицензия | MIT License |
| Сайт | riffusion.com |


