Imagen

Imagen
Imagen
Тип	Модель «текст-в-изображение»
Разработчик	Google DeepMind
Первый выпуск	май 2022
Последняя версия	Imagen 4 (20 мая 2025)
Сайт	deepmind.google/models/i…

Imagen
Imagen
Тип	Модель «текст-в-изображение»
Разработчик	Google DeepMind
Первый выпуск	май 2022
Последняя версия	Imagen 4 (20 мая 2025)
Сайт	deepmind.google/models/i…

Imagen (англ. Imagen) — серия моделей текст-в-изображение (text-to-image), разработанных компанией Google DeepMind. Изначально разработка велась командой Google Brain, вплоть до объединения с DeepMind в апреле 2023 года^[1]. Основное назначение Imagen — генерация изображений по текстовым подсказкам, по аналогии с такими системами, как Stable Diffusion от Stability AI, DALL-E от OpenAI или Midjourney.

Оригинальная версия Imagen была представлена в научной публикации в мае 2022 года и позволяла создавать фотореалистичные изображения на основе естественного языка^[2]. Вторая версия, Imagen 2, вышла в декабре 2023 года^[3]. Её отличительной особенностью стала генерация текста и логотипов^[4]. Imagen 3 была анонсирована в августе 2024 года^[5]. Компания заявляет, что новая версия обеспечивает лучшее качество деталей и освещения на сгенерированных изображениях^[6]. На конференции Google I/O 20 мая 2025 года был представлен улучшенный вариант — Imagen 4^[7].

Imagen сочетает в себе две ключевые технологии. Во-первых, используются мощные трансформерные языковые модели, в частности T5, которые применяются для понимания и кодирования текста при синтезе изображений. Во-вторых, применяются каскадные диффузионные модели, обеспечивающие высокую фотореалистичность результатов. Генерация изображения разбита на три этапа: сначала формируется база размером 64×64, затем картинка дорабатывается до разрешения 256×256 и далее 1024×1024^[2].

Возможности

Imagen способна создавать фотореалистичные изображения по текстовым описаниям^[8]. По запросу возможна генерация в различных стилях — кинореалистичном, под плёнку 35 мм, иллюстрации, сюрреализма. Как и у других моделей генеративной ИИ-графики по тексту, у Imagen сложности с корректным отображением человеческих пальцев, текста, амбиграмм и прочих форм типографики.

Модель поддерживает пять аспектных соотношений: 9:16, 3:4, 1:1, 4:3 и 16:9. Также предусмотрена возможность дорисовки изображений путём редактирования исходных текстовых запросов^[6].

↑ Roth, Emma; Peters, Jay Google объединяет команды Brain и DeepMind для масштабирования ИИ (англ.). The Verge (20 апреля 2023). Дата обращения: 18 марта 2025. Архивировано 20 апреля 2023 года.
↑ ¹ ² Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (англ.). arXiv (2022). Дата обращения: 18 марта 2025.
↑ Imagen 2 — наша самая продвинутая технология текст-в-изображение (англ.). Google DeepMind (12 марта 2025). Дата обращения: 18 марта 2025.
↑ Wiggers, Kyle Google представляет Imagen 2 с генерацией текста и логотипов (англ.). TechCrunch (13 декабря 2023). Дата обращения: 18 марта 2025.
↑ Schoon, Ben. Google открывает доступ к Imagen 3 — свежей модели для генерации изображений (англ.), 9to5Google (16 August 2024). Архивировано 18 августа 2024 года. Дата обращения: 18 марта 2025.
↑ ¹ ² Christian Rowlands. Некоторые из самых реалистичных изображений, созданных ИИ, были сгенерированы с помощью этого бесплатного инструмента (англ.). TechRadar (26 февраля 2025). Дата обращения: 18 марта 2025.
↑ Kyle Wiggers. Imagen 4 — новейший генератор изображений ИИ от Google (англ.). techcrunch.com (20 мая 2025). Дата обращения: 18 марта 2025.
↑ Peterson, Jake Любой с Google-аккаунтом может опробовать последнюю модель генерации изображений Google (англ.). Lifehacker (16 августа 2024). Дата обращения: 18 марта 2025.

https://deepmind.google/models/imagen/ — официальный сайт

[1] Roth, Emma; Peters, Jay Google объединяет команды Brain и DeepMind для масштабирования ИИ (англ.). The Verge (20 апреля 2023). Дата обращения: 18 марта 2025. Архивировано 20 апреля 2023 года.

[arxiv2022-2] ¹ ² Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (англ.). arXiv (2022). Дата обращения: 18 марта 2025.

[3] Imagen 2 — наша самая продвинутая технология текст-в-изображение (англ.). Google DeepMind (12 марта 2025). Дата обращения: 18 марта 2025.

[4] Wiggers, Kyle Google представляет Imagen 2 с генерацией текста и логотипов (англ.). TechCrunch (13 декабря 2023). Дата обращения: 18 марта 2025.

[5] Schoon, Ben. Google открывает доступ к Imagen 3 — свежей модели для генерации изображений (англ.), 9to5Google (16 August 2024). Архивировано 18 августа 2024 года. Дата обращения: 18 марта 2025.

[techradar2025-6] ¹ ² Christian Rowlands. Некоторые из самых реалистичных изображений, созданных ИИ, были сгенерированы с помощью этого бесплатного инструмента (англ.). TechRadar (26 февраля 2025). Дата обращения: 18 марта 2025.

[techcrunch2025-7] Kyle Wiggers. Imagen 4 — новейший генератор изображений ИИ от Google (англ.). techcrunch.com (20 мая 2025). Дата обращения: 18 марта 2025.

[lifehacker2024-8] Peterson, Jake Любой с Google-аккаунтом может опробовать последнюю модель генерации изображений Google (англ.). Lifehacker (16 августа 2024). Дата обращения: 18 марта 2025.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Google
Председатель совета директоров: Эрик Шмидт Директор, президент по технологиям и сооснователь: Сергей Брин Главный исполнительный директор и сооснователь: Ларри Пейдж Материнская компания: Alphabet
Реклама	AdMob Adscape AdSense Advertising Professional Ads Analytics DoubleClick Insights for Search Trends Wallet Google Университет
Коммуникации	Allo Google+ Calendar Friend Connect Duo Gmail Inbox Groups Hangouts Meet Messages Panoramio Picasa Вопросы и ответы Talk Translate Voice
ПО	Chrome Chromium Chrome DevTools Earth Gadgets Goggles Now Picasa SketchUp Talk Google Assistant Find Hub Toolbar
Платформы	Account Android App Engine BigTable Chromecast Chrome OS Dialogflow Google Workspace Пользовательский поиск Native Client GFS Nexus OpenSocial Pixel Play Public DNS Stadia TV Fuchsia
Инструменты разработки	Android Studio Dart Gadgets API GData Go Googlebot Guice GWS Highly Open Participation Contest KML MapReduce Mediabot Pinyin SketchUp Ruby Sitemaps index Summer of Code AtGoogleTalks Web Toolkit Google Website Optimizer
Публикация	Alerts Blogger Bookmarks Документы FeedBurner Library Project Map Maker Sites YouTube Диск Фото Keep
Поиск (PageRank)	Appliance Audio Books Images Maps Mars Moon Ocean Sky Street View News Patents Покупки Scholar Usenet Video Web
Тематические проекты	ARCore Imagen Finance Google Glass Беспилотный автомобиль Google Loon Проект Tango Google Cardboard Noto Code Jam Where Is My Train Zoho CRM
Закрытые проекты	Actifio Anvato Вопросы и ответы Browser Sync Base Bump Buzz Checkout Click-to-call Code Desktop Dodgeball Gears GOOG-411 Flutter Health iGoogle Image Labeler Jaiku Knol Labs Lively Makani Technologies LLC Mashup Editor Notebook Orkut Pack Page Creator Picnik Reader SearchWiki Updater Video Marketplace Wave Web Accelerator Wildfire Interactive Google Play Music Quest Visual Urban Engines
См. также	Gemini История Поглощения Службы и проекты Google Логотип Doodle Цензура Ara Arts & Culture Calico Current Earth Outreach Foundation (Google.org) Google China Googleplex Google X Lunar X Prize I/O WiFi Zeitgeist «Бомбы» Гуглизация Dinosaur Game Контент-ферма

Imagen

История

Технологии

Возможности

Примечания

Ссылки

Дополнительно по теме

Категории