Галлюцинация (искусственный интеллект)

Галлюцинация (англ. hallucination; также искусственная галлюцинация; в англоязычной литературе нередко встречаются названия bullshitting^[1], конфабуляция^[2], делюзия) — термин в области искусственного интеллекта (ИИ), обозначающий ответ, сгенерированный ИИ, который содержит ложные или вводящие в заблуждение сведения, представляемые как факт^[3]^[4]. Термин проводится по аналогии с понятием галлюцинации в человеческой психологии (ложное восприятие), но в случае ИИ речь идёт не о сенсорном образе, а о ошибочно сконструированном ответе (конфабуляции)^[4].

Например, чат-бот, основанный на большой языковой модели (БЯМ), такой как ChatGPT, может генерировать правдоподобно звучащие, но на самом деле ложные или вымышленные сведения в своих ответах. Обнаружение и уменьшение количества подобного рода ошибок и галлюцинаций является серьёзной проблемой при практическом применении БЯМ в важных областях — например, в проектировании микросхем, логистике и медицинской диагностике^[5]. Использование термина «галлюцинация ИИ» также подвергается критике за чрезмерную антропоморфизацию компьютеров^[6]^[7].

Происхождение

В 1995 году Стивен Талер показал, как «галлюцинации» и фантомные переживания возникают в искусственных нейронных сетях из-за случайного возмущения весов связей^[8]^[9]^[10]^[11]^[12].

В начале 2000-х годов термин «галлюцинация» использовался в области компьютерного зрения в позитивном смысле для обозначения процесса добавления подробностей к изображению. Например, задача генерации высокодетализированных лиц по низкокачественным входным данным называется face hallucination^[13]^[14].

С конца 2010-х годов термин претерпел семантический сдвиг: теперь под «галлюцинацией» понимается генерация искусственными интеллектами фактически неверных или вводящих в заблуждение результатов при таких задачах, как перевод или обнаружение объектов^[13]. Например, в 2017 году специалисты Google употребили этот термин для описания некорректного текста, который создают нейронные модели машинного перевода, если ответы не соответствуют исходному тексту^[15]. В 2018 году термин использовался применительно к ошибочному обнаружению несуществующих объектов в результате атак на модели компьютерного зрения^[16].

Широкое распространение термин «галлюцинация» в ИИ получил во время бума ИИ, в частности с массовым внедрением чат-ботов на основе БЯМ^[17]. В июле 2021 года компания Meta при запуске BlenderBot 2 предупредила, что система склонна к «галлюцинациям», определяя данный эффект как «уверенные заявления, не являющиеся правдой»^[18]^[19]. После выхода OpenAI ChatGPT в ноябре 2022 года пользователи отмечали, что чат-боты нередко бессмысленно подмешивают правдоподобные, но вымышленные содержательные элементы^[20]. В СМИ, включая The New York Times, термин «галлюцинация» начал использоваться для описания ошибочных либо неконсистентных ответов моделей^[21].

Некоторые исследователи отмечают, что в научной литературе нет единой трактовки и встречаются альтернативные термины — например, «конфабуляция», «фабрикация», «фактическая ошибка»^[13] и др.

В 2023 году Кембриджский словарь обновил определение термина «галлюцинация», включив его смысл, специфичный для сферы искусственного интеллекта^[22].

Определения и альтернативы

Использование и трактовки термина «галлюцинация» применительно к БЯМ включают^[23]:

«тенденция придумывать факты при отсутствии уверенности» (OpenAI, май 2023)^[24];
«логические ошибки модели» (OpenAI, май 2023);
«полная фабрикация, но подающаяся как факты» (CNBC, май 2023);
«придумывание информации» (The Verge, февраль 2023)^[25];
«вероятностные распределения» (используется в научном контексте).

Некоторые журналисты и учёные (например, Benj Edwards в Ars Technica) считают термин спорным, но метафора оказывается необходима; среди аналогий — «конфабуляция», «творческое заполнение пробелов»^[2]. В июле 2024 года в докладе Белого дома вопрос галлюцинаций рассматривался исключительно как задача их сокращения, а первая в истории премия Нобеля за применение ИИ в белковом дизайне (2024) в формулировках избежала слова «галлюцинация», заменив его на «творческое белковое моделирование»^[23].

В статье 2024 года Hicks, Humphries и Slater утверждают: выводы БЯМ представляют собой «чушь» в смысле Г. Франкфурта, являясь «безразличными к истине», а истинность или ошибочность отдельных высказываний оказываются случайными.

Критика термина

Ряд исследователей избегает слова «галлюцинация» как вводящего в заблуждение. Например, Усама Файяд (Институт экспериментального искусственного интеллекта, Северо-восточный университет) считает этот термин чрезмерно персонифицированным и нечётким^[26]. Мэри Шоу описала термин как «ужасный» — он очеловечивает софт и преподносит ошибки генеративного ИИ как некие милые «особенности», а не объективно ошибочные ответы^[6]. В «Salon» Гари Смит указывает, что БЯМ не «понимают слова», и термин бессмысленно очеловечивает машину^[7]. Некоторые считают, что выводы ИИ не иллюзорны, а гипотетичны — т.е. вероятностно возможны, аналогично научным гипотезам. К тому же термин ассоциируется с психоделическим опытом^[23].

В генерации естественного языка под галлюцинацией подразумевается сгенерированное содержимое, которое выглядит достоверно, но не опирается на исходные данные^[27]. Галлюцинации классифицируют по признаку сверяемости с исходным текстом: если вывод не может быть проверен по источнику — это внешняя (экстраинспективная) галлюцинация; если противоречит источнику — внутренняя (интраспективная)^[4]. По области — выделяют ограниченную (по конкретному запросу) и открытую (на любой ввод)^[28].

Причины возникновения

Существует несколько причин, по которым языковые модели «галлюцинируют»^[4]^[29]:

Связанные с данными

Основная причина — расхождение между исходным и целевым текстом в тренировочных данных. При обучении на таких данных модель склонна генерировать текст, не опираясь на предложенный источник^[4].

Связанные с архитектурой и обучением

Предобучение генеративных трансформеров заключается в угадывании следующего слова, и это поощряет «догадку» даже без уверенных данных^[30]. Галлюцинации смягчаются дополнительным дообучением (тонкая настройка, ручной надзор, RLHF и др). Некоторые исследователи проводят аналогию с человеческим творчеством: стремление к новизне способствует ложным оригинальным ответам, а к пользе — банальному переписыванию^[31]^[32].

Ошибки кодирования и декодирования внутри модели, неправильное сопоставление признаков данных, ошибка внимания к составляющим вводного текста, или особенности стратегии декодирования (например, top-k sampling) могут приводить к галлюцинациям^[4].

Переполнение модели запомненными фактами также может вести к самоуверенному порождению ложных сведений. Так как БЯМ строит ответ итеративно, каждое дальнейшее слово «основано» на уже сгенерированных, что увеличивает шанс каскада ошибок^[4].

Исследования интерпретируемости

В 2025 году анализ Anthropic внутренней работы модели Claude показал, что существуют внутренние «контуры», заставляющие модель отказываться от ответа при отсутствии уверенности, однако при неправильной работе эти механизмы могут сработать ошибочно, что ведёт к фальшивым, правдоподобным, но ложным ответам^[33].

Примеры

В ноябре 2022 года Meta AI представила модель Galactica, снабжённую предупреждением «Outputs may be unreliable! Language Models are prone to hallucinate text». Галлюцинации проявились, в частности, в генерации несуществующих научных работ по реалистичной тематике; проект был закрыт через три дня из-за неточностей^[34]^[35].
ChatGPT — с момента запуска часто отмечается за генерацию вымышленных «правдоподобных» ответов, несуществующих ссылок, ошибок в фактах, фабрикаций художественных описаний и др^[36].
Галлюцинации были выявлены и в корпоративных применениях, напр., при подготовке юридических документов (казус Mata v. Avianca, Inc.), где моделями были сгенерированы несуществующие прецеденты^[37]^[38].
Неоднократно отмечаются ложные факты в ответах на вопросы по науке, истории, литературе, биографии, ошибочные «уверенные» ответы, подделка артикулов и ссылок^[4].

Термин «галлюцинация» применяется не только к тексту, но и к моделям для других модальностей.

Обнаружение объектов

В компьютерном зрении галлюцинации связаны с ошибками распознавания объектов, нередко возникающими под воздействием адверсариальных примеров. Иногда машины «видят» шаблоны, которые не видны человеку^[16]^[39].

Генерация аудио, изображений и видео

Модели текст-в-аудио, текст-в-изображение (например, Stable Diffusion, Midjourney) и текст-в-видео (Sora) также часто создают неточные объекты, фрагменты, неверные детали или абсурдные сцены, не встречающиеся в реальной жизни^[40]. Известны случаи создания несуществующих или ошибочных персонажей, объектов, неверного отображения исторических сцен, а иногда — попытки соблюсти политкорректность вопреки реальности^[41].

Проблемы

Языковые модели, такие как ChatGPT, регулярно генерируют несуществующие ссылки, DOI, авторов и статьи в качестве «доказательств» информации^[42]. Особая проблема — невозможность отличить автоматически сгенерированный реферат от реально написанного: современные плагиат-детекторы нередко считают тексты оригинальными (<100 %); даже эксперты ошибаются в 1/3 случаев^[43]. Высокая степень фабрикации и ошибок ведёт к рискам внедрения ИИ в науку. Университеты и библиотеки вынуждены внедрять контроль над ссылками для отслеживания фальсифицированных источников^[44].

Польза

В ряде случаев галлюцинации используются для генерации новых научных гипотез и необычных решений. Например, в лаборатории Дэвида Бейкера (Вашингтонский университет) были спроектированы миллионы новых белков, что привело к созданию десятков стартапов и патентов^[23]; в Калифорнийском технологическом институте — новые формы катетеров с особыми свойствами для медицины^[23]. В метеорологии, медицине, робототехнике галлюцинации помогают находить неожиданные решения, если их строго валидировать экспериментально^[23].

Явление галлюцинации остаётся не до конца изученным. Часть исследователей полагает, что оно неизбежно при БЯМ^[45] и ограничивается лишь мерами заметного снижения^[46]. БЯМ также способны усиливать собственные ошибки^[47]. Специалисты OpenAI считают, что галлюцинации возникают из-за того, что обучение и тестирование ИИ чаще поощряют угадывание, а не признание неуверенности.

Предлагаются две основные категории мер^[4]:

связанные с данными: создание корректных датасетов, очистка данных, дополнение источников внешней информацией;
связанные с архитектурой и выводом: изменение внутреннего устройства, способов обучения (например, обучение с подкреплением), постобработка.

Существуют и более сложные схемы — дебаты между ИИ, валидация ответов поисковыми системами, внедрение оценки уверенности, использование логических правил, внешних баз данных знаний^[48].

Детектор галлюцинаций может работать на основе анализа уверенности ИИ, проверки на реальных данных (knowledge-grounding, retrieval), использования специальных контрольных признаков и контрастного обучения, создания алгоритмов для выявления количественных или противоречивых ошибок^[49].

На практике активно применяются инструменты для хардкодинга чувствительных ответов (Nvidia Guardrails), улучшения детектирования галлюцинаций офлайн и в реальном времени (SelfCheckGPT, Trustworthy Language Model и др)^[50]. Подход к многократной оценке возможных вариантов ответа (confidence scoring) снижает ошибки, но увеличивает вычислительные издержки и задержки ответа, поэтому применяется в ответственных сферах^[51].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

Галлюцинация (искусственный интеллект)

Термин