Тест Тьюринга

Тест Тьюринга (англ. Turing test) — испытание, предназначенное для определения способности машины проявлять интеллектуальное поведение, эквивалентное человеческому. В ходе теста человек-эксперт анализирует письменный диалог на естественном языке между человеком и машиной, не зная, кто из собеседников кто. Если эксперт не может достоверно отличить ответы машины от человеческих, машина считается прошедшей тест Тьюринга. Ключевым критерием является не корректность ответов, а их сходство с человеческими репликами. Это поведенческое испытание может быть обобщено на любые человеческие навыки, как вербальные, так и невербальные (например, робототехнику)[1].

Описание

Тест был предложен Тьюрингом в опубликованной в 1950 году статье «Вычислительные машины и разум», написанной в Манчестерском университете[2]. Тьюринг исходил из вопроса: «Могут ли машины думать?» Но, поскольку «мышление» трудно определить, он предложил заменить его на более строго формализуемую задачу — «игру подражания» между человеком и компьютером. В дальнейшей части работы Тьюринг детально рассматривает основные возражения против тезиса, что «машины могут мыслить»[3].

Тест Тьюринга оказал огромное влияние на философию искусственного интеллекта, вызвав широкий резонанс и споры, в том числе критику со стороны философов, таких как Джон Серль, отрицающих возможность теста выявлять осознанность[4][5].

С середины 2020-х годов современные большие языковые модели, такие как ChatGPT, смогли пройти усовершенствованные версии теста Тьюринга[6][7].

История

Философские предпосылки

Вопрос о возможности мыслить для машин имеет глубокие философские корни, связанные с противопоставлением дуалистических и материалистических взглядов на природу сознания и разума. Уже Рене Декарт в трактате «Рассуждение о методе» (1637) писал:

Сколькими разными автоматами мог бы человек овладеть!.. Мы можем легко представить машину, способную произносить слова и даже отвечать на некоторые воздействия, но никогда машина не сможет строить речь так, чтобы разумно отвечать на всё, что может быть сказано в её присутствии, как это делает даже самый необразованный человек[8].

Здесь Декарт уже противопоставлял неподлинность и механистичность языковых реакций автомата истинно человеческому разуму, хотя и не рассматривал возможность их преодоления.

В 1746 году Дени Дидро сформулировал в работе «Философские мысли» условие, предвосхищающее критерий теста Тьюринга:

Если найдётся попугай, который сможет отвечать на любые вопросы, я без колебаний заявлю, что он — разумное существо.

Подобные рассуждения отражали позиции материалистов XVIII века.

Проблему валидности чужого сознания рассматривал в 1936 году и философ А. Дж. Айер в книге «Язык, истина и логика», где предлагал различать сознательного человека и бессознательную машину по прохождению эмпирических тестов на наличие сознания[9].

Культурные предпосылки

Идеи, схожие с тестом Тьюринга, встречаются в романе Джонатана Свифта «Путешествия Гулливера» (1726), где героя принимают за автомат и лишь убедившись в последовательности и осмысленности его ответов, признают человеком[10][11].

В научной фантастике тесты, где человек решает, является ли собеседник человеком, компьютером или пришельцем, стали популярным мотивом ещё в 1940-х годах, например, в рассказе Стэнли Г. Вайнбаума «Марсианская одиссея» (1934)[12].

Среди более ранних художественных примеров — античный миф о Пигмалионе, «Приключения Пиноккио» К. Коллоди, «Песочный человек» Э. Т. А. Гофмана, где искусственные существа успешно выдают себя за людей[13].

Алан Тьюринг и «игра подражания»

Ещё до создания дисциплины «искусственный интеллект» (1956), аспекты машинного разума активно обсуждались в технических и кибернетических кругах Великобритании, в том числе среди участников Ratio Club, куда входил и Тьюринг.

В отчёте «Интеллектуальные машины» (1948 год) Тьюринг уже рассматривал вопрос, могут ли машины демонстрировать разумность. Среди экспериментов он предложил модель, в которой человек-оператор должен по стилю игры в шахматы отличить игру анонимного противника, имитирующего действия машины, от действий другого человека — прообраз будущих тестов[14].

В статье 1950 года «Вычислительные машины и разум» Тьюринг формулирует подход, при котором важно не определять напрямую, «что есть мыслить», а ставить рассмотримую экспериментально задачу: «Могут ли машины делать то, что делаем мы, как мыслящие существа?» Для этого Тьюринг берет за основу популярную светскую игру, в которой человек-ведущий пытается по письменным ответам различить мужчину и женщину, находящихся в другой комнате[3].

Позднее Тьюринг несколько раз модифицировал формулировку теста, но его суть осталась неизменной: если эксперт не может уверенно отличить машину от человека по их письменным ответам, машина демонстрирует проявление разума.

Тьюринг также подробно рассмотрел девять основных философских и технических возражений против концепции мыслящих машин[3].

«Китайская комната» (Джон Серль)

В 1980 году философ Джон Серль предложил мысленный эксперимент «Китайская комната», критикующий тест Тьюринга как не детектирующий подлинное мышление[15]. Серль указывал, что программа может пройти тест, манипулируя символами, не обладая пониманием. Этот аргумент вызывал как критику[16], так и поддержку[17].

Loebner Prize

С 1991 по 2019 год ежегодно проводился конкурс Loebner Prize, спонсируемый Хью Лебнером и направленный на выявление наиболее «человечных» разговорных программ. Первый конкурс показал, что даже примитивные системы способны обмануть неопытных судей, что выявило множество слабых сторон теста Тьюринга и обусловило критику со стороны специалистов[18].

Ни один конкурс не был выигран полностью (серебряная и золотая награды не вручались), но ежегодно вручалась бронзовая медаль за лучший результат среди заявленных программ[19].

CAPTCHA

Тесты CAPTCHA (англ. Completely Automated Public Turing test to tell Computers and Humans Apart) представляют собой массовую интернет-реализацию идеи теста Тьюринга. Пользователю предлагается выполнить задания, лёгкие для человека, но трудные для компьютера — обычно это распознавание и ввод искажённых символов[20]. Система reCAPTCHA, принадлежащая Google, в новых версиях реализует «невидимый» формат тестирования на фоне привычного интерфейса[21].

Попытки прохождения теста

В 1966 году Джозеф Вейценбаум создал программу ELIZA, имитировавшую психотерапевта, — некоторые собеседники действительно принимали её за человека[22].

В 1972 году появилась программа PARRY, моделировавшая поведение параноидального шизофреника. Психиатры, анализируя диалоги, не смогли отличить ответы PARRY от настоящих пациентов — процент угадывания совпал со случайным[23].

В 2001 году был разработан бот Eugene Goostman, «выдававший себя» за мальчика-иностранца. В конкурсе 33% судей признали собеседника человеком[24].

Большие языковые модели

Современные большие языковые модели, например ChatGPT, в контролируемых экспериментах успешно проходят строгие современные варианты теста: так, GPT-4.5 с вероятностью 73% распознавалась как человек, превзойдя реальные человеческие участники эксперимента[7].

Варианты теста

Существует множество вариантов и трактовок теста Тьюринга. Тьюринг сам описал как минимум три версии, различавшиеся составом собеседников и ролью судьи[25]. Наиболее известна интерпретация, где эксперт должен определить, кто из двоих собеседников — человек, а кто — машина.

Также существуют так называемые «обратный тест Тьюринга», где задача стоит перед самой машиной (см. CAPTCHA), и специализированные формы: тест проверки экспертных знаний, тест «минимального разумного сигнала», «тотальный тест Тьюринга» (включающий зрение и действия в физическом мире). Существуют и тесты, направленные на различение «знания языка» от «понимания», и связанные с проблематикой осознанности и свойств интеллекта, выходящих за рамки сугубо вербального общения. Тест Тьюринга для игровых ботов, в котором человеческий судья, наблюдающий и взаимодействующий с виртуальным миром, должен отличить других людей от ботов, также взаимодействующих с тем же виртуальным пространством.

Значение и критика

Преимущества

Главным достоинством теста Тьюринга считается его практичность и независимость от строгих («жёстких») философских или психологических определений разума. Он позволяет, пусть и в упрощённой форме, измерять уровень сходства поведения машины и человека в открытом диалоге. Для успешного прохождения теста программе требуется владение широким спектром человеческих навыков — от обработки естественного языка до обыденных знаний и традиционной логики[26].

Недостатки и ограничения

Тест Тьюринга подвергался широкой критике по ряду направлений:

  • результат сильно зависит от уровня подготовки и наивности судьи;
  • успешность теста не гарантирует наличие «подлинного» мышления или осознанности (см. аргумент «китайской комнаты»);
  • тест проверяет только сходство поведения с человеческим, а не уровень интеллекта вообще — сверхчеловеческие или нехарактерные для людей формы интеллекта останутся недетектируемыми;
  • фокус только на лингвистическом взаимодействии исключает множество других когнитивных способностей (см. теорию множественного интеллекта);
  • для действующих исследований в области ИИ тест часто малополезен: практическое применение ИИ не сводится к имитации дискурса живого человека[27].

Также высказывались социально-экономические возражения (см. Turing trap): развитие ИИ, ориентированного сугубо на имитацию человека, может приводить к вытеснению людей из традиционных сфер, а не к созданию новых форм сотрудничества между человеком и машиной[28].

Примечания