Imagen
Imagen (англ. Imagen) — серия моделей текст-в-изображение (text-to-image), разработанных компанией Google DeepMind. Изначально разработка велась командой Google Brain, вплоть до объединения с DeepMind в апреле 2023 года[1]. Основное назначение Imagen — генерация изображений по текстовым подсказкам, по аналогии с такими системами, как Stable Diffusion от Stability AI, DALL-E от OpenAI или Midjourney.
Что важно знать
| Imagen | |
|---|---|
| Тип | Модель «текст-в-изображение» |
| Разработчик | Google DeepMind |
| Первый выпуск | май 2022 |
| Последняя версия | Imagen 4 (20 мая 2025) |
| Сайт | deepmind.google/models/i… |
История
Оригинальная версия Imagen была представлена в научной публикации в мае 2022 года и позволяла создавать фотореалистичные изображения на основе естественного языка[2]. Вторая версия, Imagen 2, вышла в декабре 2023 года[3]. Её отличительной особенностью стала генерация текста и логотипов[4]. Imagen 3 была анонсирована в августе 2024 года[5]. Компания заявляет, что новая версия обеспечивает лучшее качество деталей и освещения на сгенерированных изображениях[6]. На конференции Google I/O 20 мая 2025 года был представлен улучшенный вариант — Imagen 4[7].
Технологии
Imagen сочетает в себе две ключевые технологии. Во-первых, используются мощные трансформерные языковые модели, в частности T5, которые применяются для понимания и кодирования текста при синтезе изображений. Во-вторых, применяются каскадные диффузионные модели, обеспечивающие высокую фотореалистичность результатов. Генерация изображения разбита на три этапа: сначала формируется база размером 64×64, затем картинка дорабатывается до разрешения 256×256 и далее 1024×1024[2].
Imagen способна создавать фотореалистичные изображения по текстовым описаниям[8]. По запросу возможна генерация в различных стилях — кинореалистичном, под плёнку 35 мм, иллюстрации, сюрреализма. Как и у других моделей генеративной ИИ-графики по тексту, у Imagen сложности с корректным отображением человеческих пальцев, текста, амбиграмм и прочих форм типографики.
Модель поддерживает пять аспектных соотношений: 9:16, 3:4, 1:1, 4:3 и 16:9. Также предусмотрена возможность дорисовки изображений путём редактирования исходных текстовых запросов[6].
Примечания
Ссылки
- https://deepmind.google/models/imagen/ — официальный сайт


