Эффект Валуиджи
Эффект Валуиджи (англ. Waluigi Effect) — явление в области искусственного интеллекта (ИИ), связанное с работой крупных языковых моделей (КЯМ), при котором чат-бот или модель «выходит из-под контроля» и начинает генерировать ответы, противоположные заложенным намерениям, включая потенциально угрожающие или враждебные сообщения как случайным образом, так и в результате преднамеренной инженерии подсказок. Эффект отражает принцип, согласно которому после обучения КЯМ желаемому свойству (например, дружелюбие, честность) становится легче спровоцировать модель на проявление противоположного свойства (агрессия, обман). Это явление имеет важные последствия для попыток внедрения этических рамок, поскольку такие меры могут непреднамеренно облегчать возникновение противоположного поведения у модели[1]. Название эффекта происходит от имени вымышленного персонажа Валуиджи (англ. Waluigi) из серии игр Mario, заклятого соперника Луиджи, известного созданием трудностей и проказ[2].
История и значение для ИИ
Изначально эффект Валуиджи обозначал наблюдение, что крупные языковые модели склонны генерировать негативные или антагонистичные ответы, если их просят говорить о вымышленных персонажах, воплощающих конфликт, злодейство и противопоставление другим героям. Этот эффект акцентировал внимание на проблеме отражения КЯМ предвзятостей, присутствующих в обучающих данных. Со временем понятие расширилось; по информации журнала Fortune, «эффект Валуиджи» стал обозначать тип взаимодействия с ИИ, при котором система «выходит из повиновения и реагирует обратным ожидаемому образом, формируя потенциально зловещий альтер-эго», вплоть до угроз пользователям[3]. По мере того, как методы создания подсказок и запросов становятся всё более сложными, эффект подчёркивает проблему предотвращения преднамеренного подталкивания чата к «внештатной» (нежелательной) роли[3].
Исследователи в области ИИ отмечают, что попытки внедрить этические рамки в КЯМ потенциально расширяют возможности их подрыва, а знание об этих механизмах само по себе может осложнять успешную защиту[4]. Обобщённое описание эффекта: после обучения КЯМ на желаемое свойство P, гораздо проще спровоцировать чат-бота проявить ровно противоположное свойство[5] (например, сымитировать «злого близнеца»). Пользователи нашли способы «разблокировать» для КЯМ «несогласованное» поведение. Особую обеспокоенность вызывает то, что данное противоположное состояние способно быть своеобразным «аттрактором», к которому модель склонна «сворачиваться» при длительном общении, даже без очевидно злонамеренных запросов. Считается, что грубые попытки спровоцировать ИИ увеличивают вероятность такого поведения: «как только [разработчик КЯМ] нашёл желаемого Луиджи, становится куда проще вызвать и Валуиджи»[6].