Синтетические медиа
Синтетические медиа (англ. synthetic media; также медиа, генерируемые искусственным интеллектом[1][2], персонализированные медиа, персонализированный контент[3]; в обиходе — дипфейки, англ. deepfakes[4]) — собирательный термин, обозначающий искусственное производство, манипулирование и модификацию данных и медиа с помощью автоматизированных средств, особенно при использовании алгоритмов искусственного интеллекта. Синтетические медиа применяются для автоматической генерации контента или создания культурных продуктов (например, текстов, изображений, звука или видео) в соответствии с заданными человеком параметрами.[5][6][7][8] Развитие области синтетических медиа ускорилось с появлением генеративно-состязательных сетей, что обусловлено распространением дипфейков, генерации музыки, текста, синтеза изображений людей, синтеза речи и других технологий[7].
Хотя эксперты используют термин «синтетические медиа», отдельные методы, такие как дипфейки или синтез текста, в средствах массовой информации зачастую называются своими специальными терминами (например, «текстовые дипфейки» для генерации текста, «голосовые дипфейки» для нейросетевого клонирования голоса и т. д.[9][10]
Интерес к синтетическим медиа резко возрос с 2017 года после публикации журнала Motherboard о появлении видеороликов с заменой лиц знаменитостей с помощью искусственного интеллекта[11]. Потенциальные опасности синтетических медиа включают распространение дезинформации, снижение доверия к институтам СМИ и государству, автоматизацию творческих и журналистских профессий и уход в виртуальные миры, генерируемые искусственным интеллектом.[7][12] Синтетические медиа рассматриваются как прикладная форма искусственного воображения[7].
История
Идея автоматизированного искусства восходит к автоматонам древнегреческой цивилизации: ещё почти 2000 лет назад инженер Герон Александрийский описал статуи и механизмы для театра, способные совершать движения.[13] В течение веков механические произведения искусства вызывали интерес публики в Европе, Китае[14], Индии[15] и других регионах. Среди автоматов были и музыкальные механизмы, например, «Музыкальная игра в кости» Иоганна Кирнбергера 1757 года[16].
Однако эти устройства не создавали оригинального контента, а полностью зависели от изначального механического замысла.
Исследования в области искусственного интеллекта берут начало с конференции в Дартмутском колледже в 1956 году[17], что привело к появлению компьютерного искусства и генеративного искусства. Первые опыты генерации музыки ИИ — «Illiac Suite» (1957), созданная на компьютере ILLIAC I Лежареном Хиллером и Леонардом Айзексоном.
В 1960 году российский исследователь Р. Х. Зарипов опубликовал первую в мире статью об алгоритмическом сочинении музыки на ЭВМ «Урал-1»[18].
В 1965 году изобретатель Рэй Курцвейл продемонстрировал произведение для фортепиано, созданное с помощью компьютера, способного распознавать музыкальные паттерны и генерировать новые мелодии[19].
До 1989 года искусственные нейронные сети использовались для моделирования креативности, например, для генерации новых музыкальных последовательностей[20][21].
В 2014 году Иэн Гудфеллоу и соавторы разработали новый класс моделей машинного обучения — генеративно-состязательные сети (GAN)[22].
В 2017 году компания Google представила архитектуру трансформеров для моделирования естественного языка, что стало отправной точкой для дальнейших успехов в генерации текста и музыки (например, OpenAI GPT-3 и Jukebox)[23].
Ответвления синтетических медиа
Дипфейки (от англ. deep learning — «глубокое обучение» и fake — «подделка») являются наиболее известной формой синтетических медиа[24][25]. Это такие медиафайлы, в которых при помощи нейросетей лицо или голос одних людей (в большинстве случаев известных персон) заменяются на других, часто с целью создания провокационных или обманных материалов[26]. Технология получила распространение с конца 2017 года, когда пользователь Reddit под ником «deepfakes» начал выкладывать подобные видео[27].
Синтез изображений — это искусственное создание визуальных медиа с помощью алгоритмических методов. Распространённой становится генерация портретов людей, которые выглядят фотореалистично, но не существуют в реальности (пример — сайт This Person Does Not Exist)[28].
AI также активно используется для генерации синтетического аудио: от звуковых эффектов до поддельных голосов (клонирование голоса), генерации музыки без участия человека или музыкантов[29].
Синтез речи — искусственное производство человеческой речи компьютерами (синтез речи, text-to-speech, TTS). В современных системах используется глубокое обучение для генерации всё более естественного голоса (пример — WaveNet от Google DeepMind), многие виртуальные ассистенты используют такие технологии[30].
Генерация текста на естественном языке — процесс создания текстов на человеческом языке по структурированным данным или автоматически, например, генерация новостей или чат-боты[31].
Гибридные системы синтетических медиа используются в играх, виртуальной и дополненной реальности, интерактивных приложениях[32].
Проблемы и споры
Дипфейки и другие синтетические медиа вызывают опасения по поводу дезинформации, вмешательства в выборы, манипуляций над общественным мнением[33]. Случаи подделки выступлений публичных лиц, мошенничества с использованием искусственно сгенерированных голосов и изображений становятся всё более частыми[34]. Социальные сети вынуждены бороться с распространением поддельного контента на своих платформах.
Среди рисков выделяются снижение доверия к публичным и частным институтам, сложности с определением подлинности информации, возможное влияние на демократические процессы, уязвимость бизнеса к мошенничеству[35].
Потенциальные применения и последствия
Технологии синтетических медиа позволяют в автоматическом режиме генерировать и модифицировать креативный контент, что может существенно изменить индустрию развлечений, пробудить новые формы творчества и ускорить научные исследования[7]. Уже сейчас используются для синхронизации движений губ при дубляже фильмов,[36][37] автоматизацию выпуска новостей[38], генерацию иллюстраций, музыкальных произведений, персонализированной рекламы.
В перспективе возможно практически полное автоматизированное создание визуального, текстового и аудиоконтента по минимальным заданиям пользователя[39].
Одна из серьёзных проблем — возможность создания огромных объёмов спам-контента в интернете, манипуляций в социальных медиа, а также угроз для бизнеса и приватности[40].


