Imagen

Imagen (англ. Imagen) — серия моделей текст-в-изображение (text-to-image), разработанных компанией Google DeepMind. Изначально разработка велась командой Google Brain, вплоть до объединения с DeepMind в апреле 2023 года[1]. Основное назначение Imagen — генерация изображений по текстовым подсказкам, по аналогии с такими системами, как Stable Diffusion от Stability AI, DALL-E от OpenAI или Midjourney.

Что важно знать
Imagen
Тип Модель «текст-в-изображение»
Разработчик Google DeepMind
Первый выпуск май 2022
Последняя версия Imagen 4 (20 мая 2025)
Сайт deepmind.google/models/i…

История

Оригинальная версия Imagen была представлена в научной публикации в мае 2022 года и позволяла создавать фотореалистичные изображения на основе естественного языка[2]. Вторая версия, Imagen 2, вышла в декабре 2023 года[3]. Её отличительной особенностью стала генерация текста и логотипов[4]. Imagen 3 была анонсирована в августе 2024 года[5]. Компания заявляет, что новая версия обеспечивает лучшее качество деталей и освещения на сгенерированных изображениях[6]. На конференции Google I/O 20 мая 2025 года был представлен улучшенный вариант — Imagen 4[7].

Технологии

Imagen сочетает в себе две ключевые технологии. Во-первых, используются мощные трансформерные языковые модели, в частности T5, которые применяются для понимания и кодирования текста при синтезе изображений. Во-вторых, применяются каскадные диффузионные модели, обеспечивающие высокую фотореалистичность результатов. Генерация изображения разбита на три этапа: сначала формируется база размером 64×64, затем картинка дорабатывается до разрешения 256×256 и далее 1024×1024[2].

Возможности

Imagen способна создавать фотореалистичные изображения по текстовым описаниям[8]. По запросу возможна генерация в различных стилях — кинореалистичном, под плёнку 35 мм, иллюстрации, сюрреализма. Как и у других моделей генеративной ИИ-графики по тексту, у Imagen сложности с корректным отображением человеческих пальцев, текста, амбиграмм и прочих форм типографики.

Модель поддерживает пять аспектных соотношений: 9:16, 3:4, 1:1, 4:3 и 16:9. Также предусмотрена возможность дорисовки изображений путём редактирования исходных текстовых запросов[6].

Примечания

Ссылки