Синтетические медиа

Синтетические медиа (англ. synthetic media; также медиа, генерируемые искусственным интеллектом^[1]^[2], персонализированные медиа, персонализированный контент^[3]; в обиходе — дипфейки, англ. deepfakes^[4]) — собирательный термин, обозначающий искусственное производство, манипулирование и модификацию данных и медиа с помощью автоматизированных средств, особенно при использовании алгоритмов искусственного интеллекта. Синтетические медиа применяются для автоматической генерации контента или создания культурных продуктов (например, текстов, изображений, звука или видео) в соответствии с заданными человеком параметрами.^[5]^[6]^[7]^[8] Развитие области синтетических медиа ускорилось с появлением генеративно-состязательных сетей, что обусловлено распространением дипфейков, генерации музыки, текста, синтеза изображений людей, синтеза речи и других технологий^[7].

Хотя эксперты используют термин «синтетические медиа», отдельные методы, такие как дипфейки или синтез текста, в средствах массовой информации зачастую называются своими специальными терминами (например, «текстовые дипфейки» для генерации текста, «голосовые дипфейки» для нейросетевого клонирования голоса и т. д.^[9]^[10]

Интерес к синтетическим медиа резко возрос с 2017 года после публикации журнала Motherboard о появлении видеороликов с заменой лиц знаменитостей с помощью искусственного интеллекта^[11]. Потенциальные опасности синтетических медиа включают распространение дезинформации, снижение доверия к институтам СМИ и государству, автоматизацию творческих и журналистских профессий и уход в виртуальные миры, генерируемые искусственным интеллектом.^[7]^[12] Синтетические медиа рассматриваются как прикладная форма искусственного воображения^[7].

До 1950-х годов

Идея автоматизированного искусства восходит к автоматонам древнегреческой цивилизации: ещё почти 2000 лет назад инженер Герон Александрийский описал статуи и механизмы для театра, способные совершать движения.^[13] В течение веков механические произведения искусства вызывали интерес публики в Европе, Китае^[14], Индии^[15] и других регионах. Среди автоматов были и музыкальные механизмы, например, «Музыкальная игра в кости» Иоганна Кирнбергера 1757 года^[16].

Однако эти устройства не создавали оригинального контента, а полностью зависели от изначального механического замысла.

Восхождение искусственного интеллекта

Исследования в области искусственного интеллекта берут начало с конференции в Дартмутском колледже в 1956 году^[17], что привело к появлению компьютерного искусства и генеративного искусства. Первые опыты генерации музыки ИИ — «Illiac Suite» (1957), созданная на компьютере ILLIAC I Лежареном Хиллером и Леонардом Айзексоном.

В 1960 году российский исследователь Р. Х. Зарипов опубликовал первую в мире статью об алгоритмическом сочинении музыки на ЭВМ «Урал-1»^[18].

В 1965 году изобретатель Рэй Курцвейл продемонстрировал произведение для фортепиано, созданное с помощью компьютера, способного распознавать музыкальные паттерны и генерировать новые мелодии^[19].

До 1989 года искусственные нейронные сети использовались для моделирования креативности, например, для генерации новых музыкальных последовательностей^[20]^[21].

В 2014 году Иэн Гудфеллоу и соавторы разработали новый класс моделей машинного обучения — генеративно-состязательные сети (GAN)^[22].

В 2017 году компания Google представила архитектуру трансформеров для моделирования естественного языка, что стало отправной точкой для дальнейших успехов в генерации текста и музыки (например, OpenAI GPT-3 и Jukebox)^[23].

Дипфейки

Дипфейки (от англ. deep learning — «глубокое обучение» и fake — «подделка») являются наиболее известной формой синтетических медиа^[24]^[25]. Это такие медиафайлы, в которых при помощи нейросетей лицо или голос одних людей (в большинстве случаев известных персон) заменяются на других, часто с целью создания провокационных или обманных материалов^[26]. Технология получила распространение с конца 2017 года, когда пользователь Reddit под ником «deepfakes» начал выкладывать подобные видео^[27].

Синтез изображений

Синтез изображений — это искусственное создание визуальных медиа с помощью алгоритмических методов. Распространённой становится генерация портретов людей, которые выглядят фотореалистично, но не существуют в реальности (пример — сайт This Person Does Not Exist)^[28].

Синтез аудио и музыки

AI также активно используется для генерации синтетического аудио: от звуковых эффектов до поддельных голосов (клонирование голоса), генерации музыки без участия человека или музыкантов^[29].

Синтез речи

Синтез речи — искусственное производство человеческой речи компьютерами (синтез речи, text-to-speech, TTS). В современных системах используется глубокое обучение для генерации всё более естественного голоса (пример — WaveNet от Google DeepMind), многие виртуальные ассистенты используют такие технологии^[30].

Генерация текста (Natural-language generation)

Генерация текста на естественном языке — процесс создания текстов на человеческом языке по структурированным данным или автоматически, например, генерация новостей или чат-боты^[31].

Синтез интерактивных медиа

Гибридные системы синтетических медиа используются в играх, виртуальной и дополненной реальности, интерактивных приложениях^[32].

Дипфейки и другие синтетические медиа вызывают опасения по поводу дезинформации, вмешательства в выборы, манипуляций над общественным мнением^[33]. Случаи подделки выступлений публичных лиц, мошенничества с использованием искусственно сгенерированных голосов и изображений становятся всё более частыми^[34]. Социальные сети вынуждены бороться с распространением поддельного контента на своих платформах.

Среди рисков выделяются снижение доверия к публичным и частным институтам, сложности с определением подлинности информации, возможное влияние на демократические процессы, уязвимость бизнеса к мошенничеству^[35].

Технологии синтетических медиа позволяют в автоматическом режиме генерировать и модифицировать креативный контент, что может существенно изменить индустрию развлечений, пробудить новые формы творчества и ускорить научные исследования^[7]. Уже сейчас используются для синхронизации движений губ при дубляже фильмов,^[36]^[37] автоматизацию выпуска новостей^[38], генерацию иллюстраций, музыкальных произведений, персонализированной рекламы.

В перспективе возможно практически полное автоматизированное создание визуального, текстового и аудиоконтента по минимальным заданиям пользователя^[39].

Одна из серьёзных проблем — возможность создания огромных объёмов спам-контента в интернете, манипуляций в социальных медиа, а также угроз для бизнеса и приватности^[40].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

Синтетические медиа

История

До 1950-х годов

Восхождение искусственного интеллекта

Ответвления синтетических медиа

Дипфейки

Синтез изображений

Синтез аудио и музыки

Синтез речи

Генерация текста (Natural-language generation)

Синтез интерактивных медиа

Проблемы и споры

Потенциальные применения и последствия

Примечания