Искусственный интеллект в искусстве

Искусственный интеллект в искусстве — направление визуального искусства, в котором произведения создаются или дорабатываются с помощью программ искусственного интеллекта (ИИ). Автоматизированное искусство известно с древних времён, однако становление современной области искусственного интеллекта приходится на 1950-е годы, и уже вскоре после этого художники начали использовать ИИ для творчества. На протяжении истории развития искусственного интеллекта поднимался ряд философских вопросов, связанных с познанием человеческого разума, созданием искусственных существ, а также с пределами определения понятия «искусство» в ситуации взаимодействия человека и ИИ. С XX века ИИ стал активно использоваться для генерации художественных работ, некоторые из которых выставлялись в музеях и получали награды[1].

В период бума искусственного интеллекта 2020-х годов широкой публике стали доступны текстово-графические модели, такие как Midjourney, DALL-E, Stable Diffusion, Runway и FLUX.1, что позволило пользователям легко и быстро создавать изображения[2][3]. Обсуждения ИИ-искусства 2020-х часто фокусируются на вопросах авторского права, подмены и манипуляций, диффамации, а также на воздействии на профессиональных художников, включая проблемы технологической безработицы.

История

Предыстория

Первые упоминания об автоматизированном искусстве относятся к автоматонам Древней Греции, где изобретатели, такие как Дедал и Герон Александрийский, проектировали устройства, способные писать тексты, издавать звуки и исполнять музыку[4][5]. Творческие автоматы рассматривались на протяжении веков, к примеру, «автомат Маярде», созданный около 1800 года, умел производить стихотворения и рисунки[6].

В XIX веке Ада Лавлейс писала о возможности использования «вычислительных операций» для генерации музыки и поэзии[7][8]. В 1950 году Алан Тьюринг в работе «Вычислительная техника и интеллект» ставил задачу имитации машиной человеческого поведения[9]. В 1956 году на исследовательской конференции в Дартмуте была основана научная дисциплина искусственного интеллекта[10].

С момента своего появления исследователи ИИ поднимали философские вопросы о природе человеческого разума и о последствиях создания искусственных существ с интеллектом, подобным человеческому; эти темы отражены и в мифах, и в философии, и в художественной литературе[11].

Художественная история

С 1950-х годов художники начали применять ИИ для создания художественных объектов. Работы такого рода называли алгоритмическим искусством[12], компьютерным искусством, цифровым искусством или «новыми медиа»[13].

Одной из первых значимых систем ИИ-искусства является AARON, разработанная Харольдом Коэном в Университете Калифорнии в Сан-Диего во второй половине 1960-х[14]. Система реализует правилоориентированный подход — создание «технических изображений» с целью формализации самого процесса рисования[15]. В 1972 году AARON была представлена в Музее округа Лос-Анджелес[16], а затем до 1975 года дорабатывалась в Лаборатории искусственного интеллекта Стэнфорда[17]. В 2024 году Музей американского искусства Уитни представил ретроспективную выставку с использованием ранних роботов Коэна[17].

С 1980-х искусственный интеллект в художественных целях использует Карл Симс, пионер в области искусственной жизни, лауреат премий Prix Ars Electronica 1991 и 1992 за видео, созданные средствами искусственной эволюции[18]. В 1997 году Симс создал установку Galápagos для NTT InterCommunication Center в Токио. В 2019 году он получил премию Эмми за инженерные достижения[19].

В 1999 году Скотт Дрэйвс и команда разработали Electric Sheep — бесплатный скринсейвер, распределённую вычислительную среду для анимации и эволюции фрактальных изображений, где ИИ создавал «бесконечную» анимацию, обучаясь на реакции пользователей. Проект получил премию Fundación Telefónica Life 4.0.

В 2014 году Стефани Динкинс начала проект диалогов с социальным роботом BINA48[20], а в 2015 году Соугуэн Чжунг приступила к перформансам — совместным рисованиям с помощью роботизированной руки на ИИ[21]. В 2018 году на аукционе Кристис в Нью-Йорке работа Edmond de Belamy (созданная генеративно-состязательной сетью) была продана почти в 45 раз дороже оценки[22].

В 2024 году вышел японский фильм generAIdoscope, в котором видео, звук и музыка полностью созданы средствами искусственного интеллекта[23].

В 2025 году впервые вышел аниме-сериал Twins Hinahima, который частично был создан при помощи ИИ (конвертация фото в стиль аниме, ретушь и др.)[24].

Технологическая история

Глубокое обучение с многоуровневой структурой, призванной имитировать работу человеческого мозга, стало переломным моментом в искусстве на ИИ в 2010-х годах[25]. В этот период для генеративного искусства применялись: авторегрессионные модели, диффузионные модели, генеративно-состязательные сети (ГСС/ГАН), нормализующие потоки.

В 2014 году Иэн Гудфеллоу и соавторы разработали генеративно-состязательную сеть (ГАН), способную генерировать изображения на основе анализа статистических свойств данных. ГАНы не только следуют заданным правилам, но и способны учиться на избранном наборе примеров[12].

В 2015 году команда Google разработала DeepDream, программу для поиска и усиления паттернов в изображениях с помощью свёрточной нейросети, что приводит к «сновидческим» эффектам[26].

В 2020-х распространение получили текстово-графические модели, такие как DALL-E, Midjourney, Stable Diffusion и прочие.

Инструменты и процессы

Подходы

Существует множество подходов к созданию ИИ-искусства. При модели преобразования текста в изображение пользователь задаёт текстовое описание (промт), а ИИ генерирует изображение — чаще всего с помощью диффузионных или трансформерных архитектур[27]. Модели преобразования изображения в другое изображение позволяют преобразовывать исходное изображение в новый стиль, а преобразования изображения в видео — анимировать изображения[28]. При преобразовании текста в видео модель генерирует видеоролики по описанию[29].

Изобразительные инструменты

Художники, работающие с диффузионными моделями, используют как базовые, так и расширенные функции: выбор положительных и отрицательных промтов, использование или игнорирование VAE, LoRA, гиперсетей, эмбеддинга/текстовой инверсии. Ключевые настройки — «guidance scale», seed, выбор апскейлеров и др. Возможна генерация новых моделей для индивидуального творчества.

Широко развиты процедурные (правилоориентированные) методы генерации изображений — на основе математических паттернов, имитации мазков и использования глубокого обучения (ГАН, трансформеры). Существуют приложения и сайты для широкой аудитории с упрощёнными настройками[30].

Существуют как простые мобильные приложения, так и специализированные сервисы на GPU и в ноутбуках Jupyter. Также применяются методы текстовой инверсии — пользователь обучает модель распознавать абстрактное понятие или стиль и затем генерирует изображения на основе нового слова[31].

Влияние и применения

ИИ способствует социальной трансформации — позволяет любителям создавать новые жанры визуальной культуры (например, соларпанк), ускоряет прототипирование[32], уменьшает порог вхождения в искусство[32], повышает продуктивность художника. Генерация изображений нередко используется как этап предварительных эскизов, быстрых экспериментов или для иллюстрации концепций[33].

Промт-инжиниринг и обмен

Промты для преобразования текста в изображение могут включать изображения, ключевые слова, стилистические параметры. Доступны платформы для обмена промтами, создания галерей, совместной доработки и обсуждения[34]. Промт — не единственный входной параметр генерации: результат зависят также от разрешения вывода, число-зерна, алгоритма семплирования[35].

Терминология

Синтетические медиа, куда входит и ИИ-искусство, в 2020-х признаны важным технологическим трендом[32]. Термин «синтография» предлагается для обозначения фотографически правдоподобных изображений, генерируемых ИИ[36].

Проблемы и ограничения

Смещение и предвзятость

Серьёзную озабоченность вызывает алгоритмическая предвзятость: тренировочные данные часто воспроизводят дискриминацию. В 2023 году учёные Вашингтонского университета выявили расовые смещения в Stable Diffusion, где образ «человека» чаще ассоциировался с мужчинами европейского происхождения[37].

Подобные искажения выявлены и в более ранних исследованиях: алгоритмы связывали европейские имена с «положительными» признаками, а женские — с искусством и гуманитарными науками[38].

Примером гендерной предвзятости стал случай с приложением Lensa (2023), где генерируемые образы женщин часто были представлены в искажённом свете[39].

В 2024 году генератор изображений Gemini от Google подвергся критике за «корректировку» в сторону представления исторических фигур неевропейской внешности[40]. Это привело к дискуссии об этических последствиях и возможном искажении исторического контекста[41].

Авторское право

Юридические и этические вопросы ИИ-искусства обсуждаются с конца XX века. Центральная проблема — возможность использования материалов других авторов без их согласия при обучении моделей[42].

В 1985 году профессор Памела Самуэльсон рассматривала вопрос о присвоении авторских прав пользователю программы[43]. Новые юридические проблемы возникли с массовой доступностью ИИ: художники протестуют против использования своих работ в обучающих датасетах, растёт популярность сервисов по обнаружению залитых работ (например, «Have I Been Trained?»)[44].

По данным Бюро авторского права США, программы ИИ не могут быть субъектом авторского права[45], а авторские права на сгенерированные изображения с помощью, например, DALL-E, в ряде случаев переходят к пользователю, создавшему промт[46].

В США и других странах в 2020—2025 годах инициированы судебные иски против компаний, разрабатывающих генераторы изображений, за нарушение авторских прав[47].

Манипуляции и подделки

Появление ИИ-генераторов повысило риск манипуляций и подложных изображений: дипфейков, фейк-портретов и видео, контента, вредящего репутации или вводящего в заблуждение[48]. Известны случаи победы ИИ-работ на престижных конкурсах с последующим отказом авторов признавать награду.

В 2023 году вирусными стали изображения, ошибочно принимаемые за реальные (например, Папа Римский в пуховике, дипфейковые арты с Дональдом Трампом), что породило новые вопросы об ответственности и маркировке сгенерированных материалов[49].

Основные платформы и разработчики внедряют средства распознавания сгенерированных изображений[50].

Экономика и занятость

Распространение генеративного ИИ вызывает опасения среди профессиональных художников касательно утраты источников заработка. Автоматизация рутинных задач приводит к сокращению рабочих мест для начинающих авторов, а ИИ освещает вопросы честного копирования индивидуального стиля для коммерческой выгоды[51].

ИИ-арт понижает ценность традиционного стокового изображения, а крупные фотобанки интегрируют собственные инструменты генерации на базе безопасных датасетов[52].

Потребление электроэнергии

По расчётам исследователей университета Карнеги — Меллона и Hugging Face (2023), генерация тысячи изображений размером 1024×1024 на основе Stable Diffusion XL требует 11,49 кВт⋅ч электроэнергии, что эквивалентно выбросу 1594 г CO₂[53].

Анализ искусствоведческих коллекций с помощью ИИ

ИИ применяется не только для создания, но и анализа больших цифровых коллекций произведений искусства. Современные исследовательские методы (медленное чтение, удалённое видение) позволяют количественно сравнивать стилевые особенности и атрибуцию картин[54].

Другие формы ИИ-искусства

Генеративный ИИ применяется в смежных областях: композиторская и исполнительская музыка, видеоигры (генерация уровней, сюжетов, квестов), литература (автоматизированная помощь писателям при блоке идей, вдохновение), роботизированная кухня (в динамическом анализе вкусовых качеств блюда)[55][56].

См. также

Примечания