Обнаружение контента, созданного искусственным интеллектом
Обнаружение контента, созданного искусственным интеллектом (англ. artificial intelligence detection software) — программное обеспечение, предназначенное для определения того, был ли создан определённый контент (текст, изображение, видео или аудио) с помощью искусственного интеллекта (ИИ). Однако такие системы часто демонстрируют ненадёжные результаты[1].
Проблемы точности
Многие инструменты для обнаружения текстов, созданных ИИ, оказываются ненадёжными. В исследовании 2023 года под руководством Деборы Вебер-Вулф было протестировано 14 таких систем, включая Turnitin и GPTZero. Выяснилось, что «все они показали точность ниже 80 %, а только пять — выше 70 %»[2]. Также была выявлена склонность этих инструментов чаще классифицировать текст как созданный человеком, а не ИИ, и что их точность ухудшается после перефразирования текста[2].
В обнаружении ИИ-контента ложноположительный результат возникает, когда написанный человеком текст ошибочно определяется как созданный ИИ. Многие платформы утверждают, что у них почти нет ложноположительных срабатываний: например, компания Turnitin заявляет об уровне менее 1 %[3]. Однако последующее расследование The Washington Post показало существенно более высокий уровень ложноположительных — до 50 %, хотя в этом исследовании использовалась небольшая выборка[4]. Ложноположительный результат в учебной среде часто приводит к обвинениям в академическом мошенничестве, что может иметь серьёзные последствия для академической репутации студента. Кроме того, исследования показывают предвзятость многих систем в отношении текстов, написанных теми, для кого английский не является родным, а также написанных людьми с аутизмом и без него[5][6].
В июне 2023 года Жанель Шейн написала, что фрагменты её книги You Look Like a Thing and I Love You были ошибочно определены как сгенерированные ИИ[1].
Ложноотрицательный результат — это ситуация, когда тексты, созданные ИИ, не были распознаны соответствующим ПО. Такое происходит из-за особенностей селективности или из-за применения при генерации специальных техник, маскирующих под стиль человека[7]. Ложноотрицательные результаты реже становятся проблемой в образовании, так как не приводят к обвинениям и санкциям. Компания Turnitin, например, заявляла о 15 % ложноотрицательных результатов[8].
Обнаружение текста
Чаще всего подобные системы используют для предотвращения плагиата, определяя повторяемость слов и другие признаки, указывающие на текст, созданный ИИ (в том числе наличие галлюцинаций). Преподаватели часто применяют эти алгоритмы для проверки студенческих работ на ad hoc-основе. После появления ChatGPT и подобных генераторов многие учебные заведения выпустили политики, прямо запрещающие использование ИИ студентами[9]. Кроме образования, AI-детекторы используют работодатели, а также поисковые системы в интернете[10].
Современные детекторы зачастую ошибочно распознают тексты, написанные человеком, как ИИ-генерированные[4][11][12], при этом другие ИИ-генерированные тексты не распознаются вовсе[13]. MIT Technology Review отмечала, что техника «трудно замечает тексты, сгенерированные ChatGPT и слегка переформулированные человеком или переписанные специальными инструментами»[14]. Кроме того, программы дискриминируют текст неанглоязычных авторов[10].
Двое студентов Калифорнийский университет в Дейвисе были переданы в офис службы академической успеваемости после того, как преподаватели выявили высокий AI-скор в работах (первая — с помощью GPTZero, вторая — через Turnitin). После освещения в СМИ[15] и детального разбирательства студентов полностью оправдали[16][17].
В апреле 2023 года Кембриджский университет и другие участники Russell Group (Великобритания) отказались от инструмента распознавания ИИ-текстов Turnitin из-за опасений его ненадёжности[18]. Техасский университет в Остине отказался от такой системы через шесть месяцев[19].
В мае 2023 года профессор из Texas A&M University–Commerce использовал ChatGPT для детектирования студенческих работ, и программа указала, что они написаны с её помощью. Преподаватель пригрозил отменой экзамена у всего курса, несмотря на то что ChatGPT не может распознавать собственные тексты[20]. В итоге никто не был отчислен, а все, кроме одного признавшегося, были оправданы[21].
В июле 2023 года была опубликована работа «GPT-детекторы предвзяты к неанглоязычным авторам», где сравнивались 7 популярных систем на эссе студентов из США и неанглоязычных писателей. Для последних средний уровень ложноположительных результатов составил 61,3 %.
В июне 2024 года Томас Жермен в Gizmodo сообщил о случаях увольнений внештатных авторов и журналистов из-за ошибочных решений AI-детекторов, классифицировавших их тексты как ИИ-сгенерированные[22].
В сентябре 2024 года Common Sense Media сообщила о 20 % ложноположительных результатов для афроамериканских студентов (против 10 % для латиноамериканцев и 7 % для белых студентов) при использовании генеративных AI-детекторов[23][24].
Для повышения надёжности распознавания ИИ-текстов исследуются методы цифрового водяного знака. В статьe 2023 года «A Watermark for Large Language Models» показан метод встраивания незаметных водяных знаков в тексты, сгенерированные большими языковыми моделями (LLM). Такой подход позволяет с высокой точностью помечать контент как ИИ-созданный даже после лёгкого переформулирования. Однако технология сталкивается с трудностями по устойчивости к враждебным преобразованиям и по совместимости между LLM-разработками.
Борьба с текстовыми детекторами
Существуют программы, разработанные специально для обхода AI-детекторов[25][26].
В исследовании от августа 2023 года были взяты 20 аннотаций из публикаций журнала Eye, перефразированы через GPT-4 и оценены на плагиат с помощью QueText и на AI-генерацию через Originality.AI; затем тексты пропустили через антидетектор Undetectable.ai. Инструмент Originality.AI обнаруживал GPT-4 с точностью 91,3 %, но после обработки Undetectable.ai точность падала до 27,8 %[27].
Ряд специалистов считает, что такие методы, как цифровое водяное знамение, неэффективны, поскольку метку можно удалить или, наоборот, добавить для создания ложных срабатываний[28]. В статье Kirchenbauer и др. также описаны уязвимости водяного знамения: например, парафразирование, подстановки, удаления, замены символов, использование токенизации и гомоглифов. Эксперименты показали, что такие атаки снижают стойкость знака, но за счёт ухудшения качества текста и роста вычислительных затрат.
Обнаружение изображений, видео и аудио
Существуют программы для обнаружения сгенерированных ИИ-изображений (например, полученных с помощью Midjourney или DALL-E), однако они также не могут гарантировать надёжность результата[29][30].
Есть и ПО для обнаружения deepfake-видео и аудио, но оно также крайне несовершенно[31].
Несмотря на споры вокруг действенности водяных знаков, Google DeepMind разрабатывает инструмент SynthID, внедряющий невидимый метатег в пиксели изображения[32][33].