Обнаружение контента, созданного искусственным интеллектом

Обнаружение контента, созданного искусственным интеллектом (англ. artificial intelligence detection software) — программное обеспечение, предназначенное для определения того, был ли создан определённый контент (текст, изображение, видео или аудио) с помощью искусственного интеллекта (ИИ). Однако такие системы часто демонстрируют ненадёжные результаты^[1].

Многие инструменты для обнаружения текстов, созданных ИИ, оказываются ненадёжными. В исследовании 2023 года под руководством Деборы Вебер-Вулф было протестировано 14 таких систем, включая Turnitin и GPTZero. Выяснилось, что «все они показали точность ниже 80 %, а только пять — выше 70 %»^[2]. Также была выявлена склонность этих инструментов чаще классифицировать текст как созданный человеком, а не ИИ, и что их точность ухудшается после перефразирования текста^[2].

Ложноположительные результаты

В обнаружении ИИ-контента ложноположительный результат возникает, когда написанный человеком текст ошибочно определяется как созданный ИИ. Многие платформы утверждают, что у них почти нет ложноположительных срабатываний: например, компания Turnitin заявляет об уровне менее 1 %^[3]. Однако последующее расследование The Washington Post показало существенно более высокий уровень ложноположительных — до 50 %, хотя в этом исследовании использовалась небольшая выборка^[4]. Ложноположительный результат в учебной среде часто приводит к обвинениям в академическом мошенничестве, что может иметь серьёзные последствия для академической репутации студента. Кроме того, исследования показывают предвзятость многих систем в отношении текстов, написанных теми, для кого английский не является родным, а также написанных людьми с аутизмом и без него^[5]^[6].

В июне 2023 года Жанель Шейн написала, что фрагменты её книги You Look Like a Thing and I Love You были ошибочно определены как сгенерированные ИИ^[1].

Ложноотрицательные результаты

Ложноотрицательный результат — это ситуация, когда тексты, созданные ИИ, не были распознаны соответствующим ПО. Такое происходит из-за особенностей селективности или из-за применения при генерации специальных техник, маскирующих под стиль человека^[7]. Ложноотрицательные результаты реже становятся проблемой в образовании, так как не приводят к обвинениям и санкциям. Компания Turnitin, например, заявляла о 15 % ложноотрицательных результатов^[8].

Чаще всего подобные системы используют для предотвращения плагиата, определяя повторяемость слов и другие признаки, указывающие на текст, созданный ИИ (в том числе наличие галлюцинаций). Преподаватели часто применяют эти алгоритмы для проверки студенческих работ на ad hoc-основе. После появления ChatGPT и подобных генераторов многие учебные заведения выпустили политики, прямо запрещающие использование ИИ студентами^[9]. Кроме образования, AI-детекторы используют работодатели, а также поисковые системы в интернете^[10].

Современные детекторы зачастую ошибочно распознают тексты, написанные человеком, как ИИ-генерированные^[4]^[11]^[12], при этом другие ИИ-генерированные тексты не распознаются вовсе^[13]. MIT Technology Review отмечала, что техника «трудно замечает тексты, сгенерированные ChatGPT и слегка переформулированные человеком или переписанные специальными инструментами»^[14]. Кроме того, программы дискриминируют текст неанглоязычных авторов^[10].

Двое студентов Калифорнийский университет в Дейвисе были переданы в офис службы академической успеваемости после того, как преподаватели выявили высокий AI-скор в работах (первая — с помощью GPTZero, вторая — через Turnitin). После освещения в СМИ^[15] и детального разбирательства студентов полностью оправдали^[16]^[17].

В апреле 2023 года Кембриджский университет и другие участники Russell Group (Великобритания) отказались от инструмента распознавания ИИ-текстов Turnitin из-за опасений его ненадёжности^[18]. Техасский университет в Остине отказался от такой системы через шесть месяцев^[19].

В мае 2023 года профессор из Texas A&M University–Commerce использовал ChatGPT для детектирования студенческих работ, и программа указала, что они написаны с её помощью. Преподаватель пригрозил отменой экзамена у всего курса, несмотря на то что ChatGPT не может распознавать собственные тексты^[20]. В итоге никто не был отчислен, а все, кроме одного признавшегося, были оправданы^[21].

В июле 2023 года была опубликована работа «GPT-детекторы предвзяты к неанглоязычным авторам», где сравнивались 7 популярных систем на эссе студентов из США и неанглоязычных писателей. Для последних средний уровень ложноположительных результатов составил 61,3 %.

В июне 2024 года Томас Жермен в Gizmodo сообщил о случаях увольнений внештатных авторов и журналистов из-за ошибочных решений AI-детекторов, классифицировавших их тексты как ИИ-сгенерированные^[22].

В сентябре 2024 года Common Sense Media сообщила о 20 % ложноположительных результатов для афроамериканских студентов (против 10 % для латиноамериканцев и 7 % для белых студентов) при использовании генеративных AI-детекторов^[23]^[24].

Для повышения надёжности распознавания ИИ-текстов исследуются методы цифрового водяного знака. В статьe 2023 года «A Watermark for Large Language Models» показан метод встраивания незаметных водяных знаков в тексты, сгенерированные большими языковыми моделями (LLM). Такой подход позволяет с высокой точностью помечать контент как ИИ-созданный даже после лёгкого переформулирования. Однако технология сталкивается с трудностями по устойчивости к враждебным преобразованиям и по совместимости между LLM-разработками.

Существуют программы, разработанные специально для обхода AI-детекторов^[25]^[26].

В исследовании от августа 2023 года были взяты 20 аннотаций из публикаций журнала Eye, перефразированы через GPT-4 и оценены на плагиат с помощью QueText и на AI-генерацию через Originality.AI; затем тексты пропустили через антидетектор Undetectable.ai. Инструмент Originality.AI обнаруживал GPT-4 с точностью 91,3 %, но после обработки Undetectable.ai точность падала до 27,8 %^[27].

Ряд специалистов считает, что такие методы, как цифровое водяное знамение, неэффективны, поскольку метку можно удалить или, наоборот, добавить для создания ложных срабатываний^[28]. В статье Kirchenbauer и др. также описаны уязвимости водяного знамения: например, парафразирование, подстановки, удаления, замены символов, использование токенизации и гомоглифов. Эксперименты показали, что такие атаки снижают стойкость знака, но за счёт ухудшения качества текста и роста вычислительных затрат.

Существуют программы для обнаружения сгенерированных ИИ-изображений (например, полученных с помощью Midjourney или DALL-E), однако они также не могут гарантировать надёжность результата^[29]^[30].

Есть и ПО для обнаружения deepfake-видео и аудио, но оно также крайне несовершенно^[31].

Несмотря на споры вокруг действенности водяных знаков, Google DeepMind разрабатывает инструмент SynthID, внедряющий невидимый метатег в пиксели изображения^[32]^[33].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

Обнаружение контента, созданного искусственным интеллектом

Проблемы точности

Ложноположительные результаты

Ложноотрицательные результаты

Обнаружение текста

Борьба с текстовыми детекторами

Обнаружение изображений, видео и аудио

Примечания