ComfyUI
ComfyUI — открытая, основанная на узловой архитектуре (node-based) программа для генерации изображений по серии текстовых запросов (prompts). В качестве основной модели для создания изображений используется Stable Diffusion и другие свободные диффузионные модели, а также инструменты вроде ControlNet и LCM Low-rank adaptation, каждый из которых представлен узлом внутри программы.
Общие сведения
| ComfyUI | |
|---|---|
| Тип | Q133730744? |
| Автор | comfyanonymous |
| Разработчики | Q130598554?[2] |
| Написана на | Python |
| Первый выпуск | 16 января 2023 |
| Последняя версия |
|
| Репозиторий | github.com/comfyanonymou… |
| Лицензия | GPLv3 |
| Сайт | comfy.org |
История
ComfyUI была опубликована на GitHub в январе 2023 года. По словам автора comfyanonymous, одной из главных целей проекта было улучшить существующие программные решения в части пользовательского интерфейса. Автор ранее был связан с Stability AI, однако к 3 июня 2024 года данное сотрудничество завершилось, и вместе с ключевыми разработчиками была создана организация Comfy Org. В июле 2024 года компания Nvidia объявила о поддержке ComfyUI в составе своего программного обеспечения для моддинга RTX Remix. В августе 2024 года была добавлена поддержка диффузионной модели Flux, разработанной Black Forest Labs, а сама организация Comfy Org присоединилась к инициативе Open Model Initiative, запущенной Linux Foundation. По состоянию на ноябрь 2024 года проект имел 58,6 тысячи звёзд на GitHub. ComfyUI является одним из самых популярных пользовательских интерфейсов для Stable Diffusion наряду с Automatic1111.
Возможности
Основной особенностью ComfyUI является организация работы через систему узлов. Каждый узел выполняет функцию, например, «загрузить модель» или «написать промпт» (запрос). Узлы объединяются для формирования графа управления заданиями (workflow). При выполнении задания вокруг текущего выполняемого узла появляется выделенная рамка — от «загрузки чекпоинта» до финального изображения и места его сохранения. В рабочих процессах обычно задействуются десятки узлов, формируя сложный ориентированный ациклический граф. К типам узлов относятся: загрузка моделей, задания промптов, сэмплеры, планировщики, декодеры VAE, восстановление лиц и апскейлинг-алгоритмы, LoRA, эмбеддинги, ControlNet и др.
Поддерживается несколько сэмплеров, таких как Euler, Euler_a, dpmpp_2m_sde и dpmpp_3m_sde. Рабочие процессы (workflow) можно сохранять в файл, повторно использовать или делиться ими с другими пользователями. Формат файла описан в JSON, при этом его можно встраивать в сгенерированные изображения. Пользователи также создают собственные расширения, которые представлены новыми узлами базы, например, расширение для AnimateDiff, позволяющее создавать видео. ComfyUI называют более сложной в освоении по сравнению с другими диффузионными интерфейсами, такими как Automatic1111. В комплекте с программой поставляется базовый набор узлов.
По состоянию на декабрь 2024 года поддерживалось 1674 узла. ComfyUI поддерживает несколько text-to-image моделей, среди которых Stable Diffusion, Flux и Hunyuan-DiT от Tencent, а также пользовательские модели с Civitai, например, Pony.
Компрометация расширения LLMVision
В июне 2024 года группа хакеров под названием «Nullbulge» скомпрометировала расширение для ComfyUI, добавив в него вредоносный код. Взломанное расширение, известное как ComfyUI_LLMVISION, использовалось для интеграции интерфейса с языковыми моделями ИИ GPT-4 и Claude 3 и размещалось на GitHub. Nullbulge опубликовала на своём сайте список с сотнями данных пользователей ComfyUI с различных сервисов, а пользователи расширения начали получать многочисленные уведомления о входах в аккаунты. По данным исследования vpnMentor, вредоносный код мог похищать криптокошельки, делать снимки экрана пользователя, раскрывать информацию об устройствах и IP-адреса, а также воровать файлы по определённым ключевым словам или расширениям.
На сайте Nullbulge заявлялось, что целью атаки были пользователи, совершившие «один из наших грехов» — такими считались создание арта с помощью ИИ, арт-воровство, продвижение криптовалют, а также любой иной урон художникам, в том числе кража с Patreon. Группа назвала себя «коллективом людей, выступающих за защиту прав художников и справедливое вознаграждение за их труд», а также выразила позицию, что ИИ-генерация изображений наносит вред творческой индустрии и должна быть ограничена.