Тест минимального разумного сигнала

Тест минимального разумного сигнала (англ. minimum intelligent signal test, MIST) — вариант теста Тьюринга, предложенный Крисом МакКинстри в 1996 году в статье для журнала Canadian Artificial Intelligence[1]. В этом тесте допускаются только булевый тип ответов на вопросы — «да» или «нет» (истина/ложь). Цель MIST — предоставить количественную статистическую меру «человечности», которую можно использовать для оптимизации работы систем искусственного интеллекта, предназначенных для имитации человеческих ответов.

История

МакКинстри собрал около 80 000 пропозиций, на которые можно ответить «да» или «нет», например:

  • Земля — это планета?
  • Был ли Авраам Линкольн когда-либо президентом США?
  • Солнце больше моей ноги?
  • Люди иногда лгут?

Он называл эти пропозиции майндпикселями. Эта база собиралась методом краудсорсинга и к 2004 году достигла объёма около 1,4 миллиона утверждений[1].

Эти вопросы тестируют как конкретные знания культурных аспектов, так и базовые факты о значениях различных слов и понятий. Тест может быть сопоставим с экзаменом SAT, тестами интеллекта и другими спорными методами оценки умственных способностей. При этом целью МакКинстри было не различать градации интеллекта, а выявить, можно ли вообще считать компьютерную программу интеллектуальной.

По мнению МакКинстри, программа, способная статистически достоверно отвечать на значительное количество вопросов теста MIST лучше случайного угадывания, должна считаться обладающей некоторым уровнем интеллекта и понимания. Например, при тесте из 20 вопросов программа, отвечающая наугад, в среднем даст 10 правильных ответов. Однако вероятность получить все 20 правильных ответов путём угадывания составляет лишь одну из 220, то есть 1 к 1 048 576; таким образом, если программа способна демонстрировать подобный результат на нескольких независимых сериях испытаний без предварительного ознакомления с вопросами, её следует считать интеллектуальной[1].

Обсуждение

МакКинстри критиковал существующие подходы в области искусственного интеллекта, например, чат-ботов, утверждая, что его вопросы могут быстро «убить» подобные программы, выявляя их слабые места. Он противопоставлял свой метод — серию прямых вопросов для оценки возможностей ИИ — классическому тесту Тьюринга и подходу премии Лёбнера, предполагающему непринужденную переписку с компьютерной программой.

Критики теста MIST отмечали, что «убить» искусственный интеллект в стиле МакКинстри не составит труда, ведь невозможно обеспечить правильные ответы на все возможные вопросы с вариантами «да»/«нет» с помощью конечного набора созданных человеком майндпикселей: то, что программа правильно ответила на вопрос «Солнце больше моей ноги?», не гарантирует правильности аналогичных ответов на «Солнце больше моей руки/моей печени/желтка яйца/Альфы Центавра A/…».

Тем не менее, сам МакКинстри (скончавшийся в 2006 году) мог бы ответить, что по-настоящему разумная и осведомлённая сущность (наравне с человеком) способна рассуждать, применяя свои знания о относительных размерах объектов, и дать, например, такие ответы: «да/да/да/не знаю/…». Таким образом, тест MIST задумывался как испытание ИИ, а не способ его создания.

Также утверждается, что тест минимального разумного сигнала является более объективным тестом интеллекта, чем тест Тьюринга, последний зачастую рассматривается как субъективная оценка, возможно, измеряющая впечатлительность спрашивающего, а не интеллект машины. Согласно этому возражению, человек, принимающий решение в тесте Тьюринга, может быть подвержен эффекту ЭЛИЗА — склонности принимать поверхностные признаки разума за его наличие, а также приписывать программе человеческие свойства (антропоморфизм). Как возражал сам Алан Тьюринг в эссе «Вычислительные машины и интеллект», если программа убедительно имитирует интеллектуальное поведение — она интеллектуальна. Следовательно, дискуссия сводится к тому, что считать «реальным» интеллектом и по каким признакам это определять.

Схожее обсуждение ведётся и вокруг проблемы языка высших приматов, где одни исследователи утверждают, что нечеловеческие приматы освоили некоторые элементы языков жестов, в то время как другие оспаривают значимость этих умений.

В настоящее время (в 2025—2026 годах) тест минимального разумного сигнала рассматривается как историческая концепция и не применяется для оценки современных больших языковых моделей (LLM)[2]. Современные методы оценки искусственного интеллекта отошли от бинарных тестов на имитацию человека в пользу комплексных бенчмарков, измеряющих конкретные практические возможности ИИ[3].

Примечания

  1. 1 2 3 Крис МакКинстри. Minimum Intelligent Signal Test: An Alternative Turing Test (англ.). Canadian Artificial Intelligence. Дата обращения: 28 мая 2026. Архивировано 20 июля 2011 года.
  2. Тест Тьюринга устарел? Хабр. Дата обращения: 28 мая 2026.
  3. Humans, LLMs, and Intelligence. Griffin AI. Дата обращения: 28 мая 2026.

Категории